关于MST AI思考 on MST

30天AI科普专栏终结篇：一张完整的AI知识地图

Sun, 17 May 2026 09:00:00 +0800

如果用一句话概括AI过去25篇文章教了什么，我会说：

AI不神秘，但也不简单。理解它分四步：知道它是什么、会用、别被忽悠、看见未来。

这不是口号。这25篇的递进逻辑，就是一个普通人理解AI的最短路径。今天这篇终结篇，我们不走马观花，而是把这条路的所有地标连起来，画成一张地图——你收藏这一篇就够了。

第一层：地基——AI到底是什么？（Day 1-5）

这是最基础，也最重要的一层。

一个核心模型：接龙游戏

大语言模型不是一个"思考机器"，它是一个概率化的文字接龙游戏。给定上文，预测下一个最合理的词。就是这么简单。

但有三件神奇的事：

当你把足够多的"接龙"连起来（几千亿次），模型内部会自发涌现出语法、逻辑、推理能力——没人设计这些能力，它们"长"出来的。
训练它的方法就三步：预训练（读整个互联网学语言）→ 微调（学对话格式）→ 人类反馈（学什么回答好）。
开源和闭源的差别：闭源模型（GPT、Claude）像成品餐厅，直接吃。开源模型（Llama、DeepSeek）像菜市场买来的食材，自己加工。

这一层的核心认知：AI不是魔法，是工程。理解它不是猜测，是拆解。

一个硬通货：GPU

支撑这一切的物理基础是GPU。它不是专为AI设计的（最早是为了渲染游戏画面），但它恰好擅长做矩阵乘法——而所有神经网络的核心工作就是矩阵乘法。

理解GPU为什么重要，就理解了这个时代算力焦虑的根源：全世界的GPU不够用，而每一块都在印钞。

第二层：日常操作——怎么跟AI打交道？（Day 6-11）

知道了AI是什么，接下来是你每天都会遇到的实际问题。

Token：AI世界的货币

Token不是字，是词块：“ChatGPT"可能是一个Token，也可能拆成"Chat"和"GPT"两个Token。中文大概1.5个汉字一个Token。
每次对话都在消耗Token：输入 + 输出一起算。你问的长，它答的长，花的钱就多。
上下文窗口是你的短期记忆：128K Token的上下文听着很多（相当于一本小书），但一旦超出，AI就会"失忆”。

该用哪个模型？

没有"最好的模型"，只有最合适的：

场景	推荐	原因
日常聊天/写作	Claude / GPT-4o	对话体验流畅
编程	Claude Sonnet / GPT-4o	代码能力最强
中文场景	DeepSeek / 通义千问	中文理解最好
长文档处理	Gemini / Claude	上下文窗口大
免费白嫖	DeepSeek / Kimi	免费层够用

API vs 网页版

网页版 = 租车：按时间付费，随时开走，不用管保养。 API = 买发动机：按实际里程付费，灵活定制，但需要自己组装。

日常用网页版够了。要自动化、嵌入产品、批量处理——学API。

第三层：AI的毛病——知道它不擅长什么比知道它擅长什么更重要（Day 12-16）

这一层可能是这25篇里最有用的。

AI的未来三年会怎样？——从技术、商业、社会看三件必然发生的事

Sun, 17 May 2026 08:30:00 +0800

我做了一个小实验。

把2023年1月（ChatGPT刚火的时候）的AI预测文章翻出来，跟实际情况对比。结果很有意思：关于技术细节的预测，90%都错了。但关于大方向的预测，90%都对了。

没人能准确预测AI下个月会出什么新能力，但有些趋势是确定的——不是因为有人预知未来，而是因为经济规律和发展惯性推着它们往前走。

这篇文章不谈玄乎的"AGI觉醒"或"人机融合"，只谈三件接下来三年大概率会发生的事。

第一件事：Agent从"玩具"变成"实习生"

眼下你用AI的方式，本质上还是"问答模式"。你问一句，AI答一句，你继续追问，它继续答。这是对话框的遗产——我们把AI当成了一个聪明的搜索引擎。

但2025年到2026年，你会发现越来越多AI产品不再只是"回答问题"，而是直接帮你把事情做了。

这个转变就是Agent（智能体）。

Agent到底是什么？

简单说：Agent是一个能自主完成多步骤任务的AI。它不再等你说一句动一下，而是你给它一个目标，它自己规划、执行、纠错、完成。

举个例子：

传统AI	Agent
“帮我写一封邮件回复客户” → AI写出来，你自己复制粘贴发送	“帮我回复客户邮件” → Agent读邮件 → 分析上下文 → 写草稿 → 打开邮箱 → 检查附件 → 发送 → 给你回执
“帮我订一张去北京的机票” → AI告诉你去哪个平台订	“帮我订一张去北京的机票” → Agent查日历确定日期 → 登录航空公司 → 比较价格 → 下单付款 → 发送行程确认到日历

你可能觉得这不就是自动化脚本吗？是的，但区别在于：Agent面对意外情况能自己处理。如果航班满员，它会自动查另一班；如果价格超出预算，它会在微信上问你确认。传统脚本遇到未预料的情况直接崩掉，Agent会推理然后自适应。

为什么是未来三年？

三个条件正在同时成熟：

模型推理能力提升：GPT-4到GPT-4o到Claude 3.5，模型的"规划能力"在快速提升。没有好的推理，Agent就是一个到处乱撞的脚本。
Function Calling标准化：OpenAI的Function Calling、Claude的Tool Use、Anthropic的MCP协议——这些让AI"调用外部工具"的门槛几乎降到了零。
安全护栏成型：2024年各大公司踩了很多Agent翻车的坑（AI删数据库、AI多加了几百个订单），这些经验在转化为可靠的安全框架。

真正的影响：谁用谁赢

Agent带来的不是"AI更聪明了"，而是"AI更能干了"。之前你需要学Prompt工程才能用好AI，未来你只需要会说"搞定它"。

这轮变革中，受益最大的不是技术公司——而是所有能把Agent嵌入业务流程的组织。一个律所用Agent处理合同审阅，效率提升5倍；一个工厂用Agent管理供应链，库存成本下降30%。这些不是未来学的，你现在去试已经能跑通原型了。

不是有没有轮子的争论，是轮子已经装上了，就看谁先开车。

第二件事：多模态从"能看"变成"能懂"

2024年，大模型学会了看图。你可以扔一张照片给它，问"这张照片里的人在吃什么？“它能回答。但它的"看"还是文字层面的——先把图翻译成文字描述，再基于文字理解。

2025到2026年，这个能力会跨过一道坎：从"描述"到"理解”。

有什么区别？

举个例子：

能看（2024水平）：你给AI一张CT扫描图，它能告诉你"这张图显示右侧肺叶有一个直径约2cm的阴影"——这是描述。它把图中的灰度模式和位置信息跟训练数据里的相似案例匹配，然后输出一个文字描述。

能懂（即将到来的水平）：同⼀张CT图，AI不仅能描述，还能：对比三个月前同一患者的片子判断变化趋势、结合患者的临床症状数据给出鉴别诊断、指出还需要哪些补充检查来排除干扰项——这是理解。

“懂"意味着AI处理的不再是单⼀信息类型，而是多个信息类型交织在一起的整体理解。图像、文字、声音、表格、代码——这些不再被分开处理，而是在同一个模型中被融合。

能派上什么用场？

教育：学生拍下解题过程，AI不仅指出哪里错了，还能看到学生的思路轨迹，定位知识盲区。不是批改，是诊断。
医疗：AI同时看影像、化验单、病历、基因数据，给出综合判断。不是看图说话，是联合会诊。
工业：AI看设备运行参数的时序数据、听声音的频率频谱、看摄像头画面，综合判断设备是否即将故障。
内容创作：你口述一个想法，AI生成配图 + 排版 + 配乐，且所有输出在风格上保持一致。

注意一个模式：多模态真正的价值不是"能看更多东西”，而是**“让不同信息互相印证”**。这就好比破案——一个证人可能看错，但三个独立证人给出的一致证词，可信度是指数级上升的。

现在学AI来得及吗？——没有早晚，只有方法

Sat, 16 May 2026 08:30:00 +0800

每次AI有大新闻，朋友圈就有人焦虑：ChatGPT又升级了、DeepSeek开源了、Agent自动写代码了——我是不是已经被时代抛弃了？

你并不孤单。事实上，每次技术革命都伴随着同一种焦虑：蒸汽机出现时，工人怕被机器取代；互联网来临时，中年人怕学不会上网。现在轮到AI了。

但问"来不来得及"，本身就问错了问题。你应该问的是：从哪开始学最有效？

这篇文章不讲鸡汤，只讲路线图。

澄清一个误区：学AI ≠ 学编程

很多人以为"学AI"就得学Python、学TensorFlow、推导反向传播——这其实是把"造AI"和"用AI"搞混了。

类比一下：你每天用微信，不需要懂TCP/IP协议；你会用导航App，不需要学会写GPS定位算法。同理，使用AI和构建AI是两个截然不同的技能树。

具体来说，“学AI"有三个层次：

层次	耗时	适合人群	核心内容
第一层：会用	2-4周	所有人	Prompt工程、AI工具使用、工作流集成
第二层：会用得好	3-6个月	从业者提升效率	工具链、API调用、RAG、Agent搭建
第三层：能造	1-3年	技术转型者	模型训练、微调、部署、MLOps

大多数人需要的只是第一层和第二层。第三层是给打算转行做AI工程师的人准备的。

如果你不是想当AI工程师，那花90%的精力在第一层和第二层就够了。

第一层：从"会用"开始（2-4周）

这是投入产出比最高的阶段。每天花30分钟，一个月就能脱胎换骨。

第一步：选一个模型，死磕它

别贪多。GPT-4o、Claude、DeepSeek、Kimi……选一个你觉得用得顺手的，然后用它替代所有搜索行为。

具体操作：

遇到不懂的概念 → 问AI，别搜百度
想写段文案 → 让AI先跑一版，你再改
要整理资料 → 丢给AI总结
做决策分析 → 让AI列出优缺点

这15天里，你的目标不是"学会AI”，而是建立用手感——摸清AI什么做得好、什么容易翻车。

第二步：学会写Prompt

说到Prompt很多人就头大，觉得需要学一套"咒语"。其实核心就三句话：

告诉AI它的角色：“你是一个资深财务分析师”
交代任务的具体要求：“请分析这份财报中的三大风险点，每条列举数据支撑”
限定输出格式：“用表格返回，每行包括：风险名称、严重程度（高/中/低）、具体数据、建议措施”

一个三明治结构就够了：身份 → 任务 → 格式。

试试对比：

❌ “帮我分析这份财报。” ✅ “你是一位看过上千份财报的资深分析师。请分析这份财报中营收增长、成本控制和现金流三个维度的表现。用表格形式返回，每个维度标注趋势（上升/下降/稳定），并给出一个数据佐证。”

后者的效果是前者的10倍。

第三步：把AI嵌入日常流程

到这个阶段，你应该已经养成了"默认用AI"的习惯。继续深化的方法很简单：

在每件你经常做的事情上，问自己一个问题：“这件事能不能让AI帮我做一半？”

写周报？让AI根据你的工作记录生成初稿
读长文？先问AI文章核心观点
回复邮件？让AI给你三版草稿
学新知识？让AI当你的私教，先讲框架再讲细节

第二层：从"会用"到"效率翻倍"（3-6个月）

如果你不满足于对话式使用，想真正提升效率，第二阶段就是进阶了。

AI时代哪些岗位真的危险了

Fri, 15 May 2026 20:30:00 +0800

一个残酷的事实

每次技术革命，最先被淘汰的从来不是底层劳动者。

第一次工业革命，珍妮纺纱机淘汰的不是纺纱工人——那些女工们在工厂里又干了三十年。最先被淘汰的是一批手工纺纱作坊主，他们有资本、有客户、有经验，但机器比他们10个工人干得还快。

第二次工业革命，汽车淘汰的不是马车夫——马车夫后来很多去开了出租车。最先被淘汰的是养马产业链：饲料商、马具匠人、兽医、马车制造商。他们有一整套成熟的产业知识，但一夜之间，马不再需要了。

现在到了AI时代。

很多人以为AI先取代的是蓝领工人——流水线、收银员、司机。但现实恰恰相反：今天AI冲击最猛烈的，是一群高学历、高收入的白领阶层。

为什么？因为AI是个"脑力劳动者"，它擅长的不是搬砖，是处理信息。而白领的工作，本质上就是一个"信息处理系统"。

AI正在淘汰的四类人

第一类：中间人

这是最危险的一类。

所谓中间人，就是"把A说的话翻译给B听"的人。他们的工作不创造新东西，只是信息的搬运工。

典型代表：

初级翻译。 2015年，Google翻译质量一般，专业翻译还有很大的市场。2025年，DeepL、GPT-4级别的翻译质量，在95%的场景下已经超越普通翻译。现在需要翻译的只剩下：文学作品翻译（需要审美判断）、法律/医疗文件翻译（需要专业知识和担责）、同声传译（需要实时性和临场应变）。这些只占翻译市场的不到10%。

初级法律助理。 美国有一个真实案例：一家律所用AI代替了一组初级律师做合同审查。AI花了两天时间审完了2000份合同，找出了其中的问题。同样的事，如果让一个初级律师团队来做，需要两个月。这家律所后来裁掉了那个团队的30%的人。留下的律师不再做"核查条款"这种工作，而是专注于策略制定和客户关系。

数据分析师（入门级）。 如果你只会用Excel拉个表、写个SQL查个数、做个PPT展示趋势——这些事AI做得比你快100倍，且不会提需求的时候翻白眼。现在很多公司已经不需要"初级数据分析师"了，业务团队自己用ChatGPT就能搞定数据查询和基础分析。

这些人都有一个共同特征：他们的核心技能是"知道怎么处理信息"，而不是"知道为什么需要这些信息"。 AI在信息处理上比人类强太多，它在做的事情就是"信息的搬运和整理"。

第二类：规则执行者

这类人的工作有明确的流程、固定的规则、标准的输出。他们不需要创造力，只需要准确地把规则应用到每一个案例上。

典型代表：

初级会计/审计。 记账、做凭证、对账、核算——这些都是高度规则化的流程。金蝶、用友的财务AI模块已经能自动完成80%的记账工作。四大会计师事务所已经在用AI做审计样本检查，一个项目需要的人工从几十人降到了几个人。

客服中心。 这不是新闻了。2024年，国内各大银行的AI客服已经处理了超过70%的客户咨询。剩下的30%——那些真正的疑难杂症、投诉维权——才转真人。客服中心的规模在过去三年缩减了约40%。

保险核保/理赔。 你买保险的时候，审核你健康状况、决定保费的已经不是人了。AI看体检报告、看病史记录，几秒钟给出核保结论。理赔也是：拍照上传、AI识别损失程度、系统自动打款。传统保险公司里，理赔部门曾经是最大的部门之一，现在正在快速缩编。

这些岗位的共同点：工作内容可以写成一本标准操作手册。 凡是能写成手册的工作，AI都能做。而且做得更标准、更稳定、不请病假、不给领导添堵。

第三类：人力密集型的内容生产者

这类人的工作是"用数量换质量"，靠着源源不断地产生大量内容来维持产出。

典型代表：

小编/新媒体写手。 这里说的不是写深度分析的作者，而是那些每天产出5-10篇"热点追评"“XXX行业分析"类文章的小编。很多MCN公司已经用AI生成80%的日常内容了。人去做的就是：选选题、优化prompt、审核微调。原来10个人的小组，现在2个人加AI就够了。

商业插画师（非创意类）。 Midjourney和DALL·E的冲击远比大部分人想象的猛烈。不是那些做艺术的插画师——他们的作品有独特的风格和情感。危险的是那些"按客户要求画一张产品插画"的人。电商详情页的配图、公众号的头图、PPT的装饰插画——这些"用完即弃"的商业插画正在被AI全面取代。我认识一个给电商平台供图的画师，2022年月入3万，2024年月入不到5000。不是他画得不好了，是客户发现用Midjourney画一张图只要2块钱，质量还比他好。

初级编程（这个放到下一个标题细说）。

可怕的是，这些工作不是"做得好不好"的问题，是"有没有性价比"的问题。 如果AI能用1%的成本完成80%的效果，企业不会因为那20%的差距去多付99%的预算。

第四类：知识垄断者

这类人拥有某个领域的专业知识，且之前的时代里，专业知识是稀缺资源——只有少数人经过长期训练才能掌握。

但现在，大模型让知识的获取变得无比廉价。知识的垄断被打破了。

典型代表：

初级医生（影像学方向）。 2024年，FDA批准了多个AI辅助诊断系统。在肺结节检测、视网膜病变识别、皮肤癌诊断等场景下，AI的诊断准确率已经超过普通医生。这不会让医生消失，但会让「看片子写报告」这个环节的价值急剧下降。放射科医生需要向介入治疗方向转型，否则风险很大。

普通律师。 法律知识的检索和基础文书的起草，AI做得又快又好。LawInsider、Harvey等AI法律工具已经在顶级律所广泛使用。以前一个大案，律所派出5个初级律师做法律检索和文书准备。现在：1个律师 + AI工具。

教育培训（知识传授层面）。 当每个学生都有一个永不疲倦、随时在线的AI老师时，“传递知识"这件事的价值会归零。那些只会"把教材念一遍"的老师，确实已经面临生存危机。真正有价值的是：能激发学生兴趣的人、能引导深度思考的人、能给予情感支持的人。

一个反直觉的结论

到这里你可能发现了：AI优先淘汰的不是"低端劳动力”，而是"中级脑力劳动者”。

为什么？因为：

体力劳动需要手眼协调、环境适应、灵活应变——这些看起来"低级"的能力，对AI来说反而最困难。人形机器人要像人一样搬砖，至少还要5-10年。
高级脑力劳动（战略决策、跨领域创新、复杂谈判）需要直觉、判断力和情感共鸣——这些AI暂时做不到。
中级脑力劳动（信息处理、规则执行、内容量产、知识检索）——这才是AI最擅长的领域。

简单归类就是：

工作类型	AI威胁程度	原因
体力劳动（搬砖、保洁、外卖）	⭐⭐	机器人成本高，短期内不如人工划算
高端脑力（战略、创新、管理）	⭐	AI缺乏判断力和直觉
中级脑力（翻译、会计、小编）	⭐⭐⭐⭐⭐	AI最擅长的信息处理
高情感劳动（心理咨询、护理）	⭐	需要真实的情感连接

所以最讽刺的现实是：程序员不会最先被取代，会计反而更危险。

为什么大公司都在抢GPU？

Fri, 15 May 2026 08:30:00 +0800

一块 NVIDIA H100 GPU，官方售价约 3 万美元。

这价格够买一辆入门级轿车，或者付一套三线城市房子的首付。

但问题不是太贵——是根本买不到。

2023年，全球 GPU 交货周期一度超过 52 周。也就是说，你现在下单，要等整整一年。黄牛市场上一块 H100 炒到 4-5 万美元，比官方价贵 60% 以上。

微软、Meta、谷歌、特斯拉——这些地球上最有钱的公司，都在疯狂扫货。马斯克接受采访时说了一个数字：特斯拉要把 GPU 搞到手，比买毒品还难（“harder to get than drugs”）。

这到底是怎么回事？一块显卡而已，为什么全世界的大公司都像在抢春运火车票？

GPU 可不是用来打游戏的

先说清楚一个概念：此 GPU 非彼 GPU。

你脑子里的 GPU，可能是你电脑里那张用来打《黑神话：悟空》的 RTX 4090。大公司在抢的 H100，虽然也叫 GPU，但完全不是同一个东西。

一张 RTX 4090 卖 1.5 万人民币，主要是给游戏玩家用的。一张 H100 卖 3 万美元（约 21 万人民币），是专门为 AI 训练设计的。两者最大的区别在于：

RTX 4090：擅长画游戏画面，每秒能渲染 100 多帧 4K 图像
H100：擅长做矩阵乘法，AI 训练效率是 4090 的 5-10 倍

打个比方：RTX 4090 是跑车，在平路上能跑到 300 公里/小时。H100 是 F1 赛车，看起来差不多，但上了赛道（AI训练），F1 的每个弯道都能把跑车甩出几条街。

微调又是什么？——给AI"补课"让它变专家

Thu, 14 May 2026 09:00:00 +0800

上篇讲了 RAG——让 AI “边翻书边答题”。但你可能会想：

“能不能把知识直接写进 AI 的大脑里，省得每次都去查资料？”

这就是**微调（Fine-tuning）**做的事。

RAG 是给 AI 配一本参考书，微调是给 AI 补课——让它真正学懂某个领域的知识，成为这个领域的专家。

先搞清楚：微调到底在调什么？

很多人以为微调就是"把新数据喂给AI就行了"，就像往U盘里拷文件一样。完全不是。

我们要先理解一个前提：大模型本质上是一个巨大的概率预测器。

你给它一句话的前半段，它预测后半段最可能是什么。它之所以看起来"懂"很多东西，是因为它在海量数据上训练过——读了几万亿个词，学会了人类语言的模式。

那微调是怎么改变它的知识的？

分两种：

场景一：让它学会做某件事（指令微调）

基础大模型（比如原始的 Llama、GPT-3）只会"接龙"——你输入"写一封邮件"，它可能接"写一封邮件是一个常见的办公任务……"。它不知道你是在给它下指令。

指令微调就是给它看大量的"问题 → 好答案"对子：

Q: 写一封催客户付款的邮件
A: 尊敬的张总，您好！关于贵司应于上月结清的货款……

Q: 帮我总结一下这篇论文
A: 这篇论文主要提出了……

看几万到几十万组这样的例子后，模型就学会了"用户给指令→我给出有用回答"的对话模式。ChatGPT 之所以比原始 GPT-3 好用的多，核心原因之一就是做了指令微调。

场景二：让它掌握新知识（领域微调）

这个才是你关心的——让AI学会你的私有知识。

比如你想让AI学会你们公司内部的工程术语——“三通一平"“龙骨间距"“放坡系数"这些。

做法比上面复杂一步：

第一步：整理数据。 把你公司的工程手册、设计规范、历史项目文档，整理成"问-答"对。这不是直接把PDF扔进去，而是人工或半自动地把文档转化成训练样本格式。

一条样本长这样：

{
  "instruction": "什么叫放坡系数？",
  "input": "",
  "output": "放坡系数是指土方开挖时边坡的深度与底宽之比。比如放坡系数1:0.5，意味着每挖深1米，底部要向外扩0.5米。这是为了防止塌方，具体值由土质类型决定：一类土1:0.5，二类土1:0.75，三类土1:1。"
}

第二步：喂给模型训练。 把几万条这样的数据，让模型反复学习。学习的本质就是调整模型里几十亿到几千亿个参数，让它在看到类似的问题时，能输出你想要的答案。

第三步：验证。 拿一批没见过的测试题考它，看准确率是否达标。

听起来不复杂？但真正的坑在后面。

微调的底层原理——参数是怎么"调"的

大模型的"大脑"由**参数（Parameters）**构成。一个 7B 模型有 70 亿个参数，一个 70B 模型有 700 亿个。

每个参数就是一个数字。训练好的模型，这些数字已经处于一种"平衡状态”——它们共同决定了模型看到输入后会输出什么。

微调的本质就是：微调这些参数的数字。

举个极度简化的例子。假设模型里有一个参数是 0.73，它负责控制"当出现’放坡’这个词时，接下来应该输出什么”。在原始模型里，这个参数值是 0.73，所以它接到"放坡"时倾向于接"的道路”（因为训练数据里大量的是"放坡的道路建设"）。

RAG是什么？——让AI"临时翻书"回答你

Thu, 14 May 2026 08:30:00 +0800

你有没有遇到过这种场景——

问 AI “我们公司的报销流程是什么？"，它一本正经编了一套，但你公司压根没这规定。

或者问 “2025年诺贝尔奖颁给了谁？"，你明明知道它的训练数据只到某个时间点，它居然也给你列了一堆名字，一查全错。

这就是大模型的"知识截止期"问题。模型训练好后，它的知识就定格了。如果你有一些私有的或新近的信息，它就是个盲人。

RAG 就是给这个盲人配一副临时眼镜。

你先问一个问题，背后发生5件事

假设你搭建了一个企业知识库系统，里面有你公司的制度文档。你问：

“我们公司年假怎么休？”

系统内部做的事，拆开来看：

第1步：把你的问题转成"指纹”

你的原问题是"年假怎么休”。但你公司的文档里可能写的是"员工休假管理办法"“带薪年假实施细则”——这几句话里都不含"怎么休"三个字。

如果靠关键词匹配（搜"年假"二字），可能找不到，因为文档标题写的别的名字。

所以RAG 做的第一件事：把你的问题转化成一串数字编码——你可以理解为指纹。每个问题都有它的指纹，指纹相近的就是意思相近的内容。

比如：

“年假怎么休” 的指纹 → [0.23, 0.87, -0.14, 0.51……]（几百个数字）
“员工年休假管理办法” 这段文档的指纹 → [0.22, 0.88, -0.13, 0.52……]（很接近）
“公司食堂早餐供应时间” 的指纹 → [-0.45, 0.12, 0.78……]（完全不沾边）

这一步的关键：匹配的是"含义"而不是"关键词"。你的问法和文档的写法完全不一样没关系，只要意思接近就能匹配上。

第2步：去资料库里搜最相关的内容

系统拿你问题的指纹，和资料库里所有文档的指纹做比对，挑出最接近的3-5段。

这个资料库叫向量数据库，专门存文档的"指纹"，能做快速的相似度比对。

比如它可能搜到这三段：

片段1：员工连续工作满1年以上，可享受带薪年休假。片段2：年休假天数：工龄1-10年5天，10-20年10天，20年以上15天。片段3：年休假申请流程：登录HR系统→休假管理→选择日期→提交审批。

第3步：把查到的资料塞进AI的输入框

这是最核心的一步。系统不是让AI自己去查，而是把搜到的片段拼成一段文字，直接放到发给AI的指令里。

实际发给AI的 Prompt 是这样的：

请基于以下提供的资料来回答用户问题。如果资料里没有相关信息，请直接说"我不知道"，不要编造。

【资料1】
员工连续工作满1年以上，可享受带薪年休假。

【资料2】
年休假天数：工龄1-10年5天，10-20年10天，20年以上15天。

【资料3】
年休假申请流程：登录HR系统→休假管理→选择日期→提交审批。

---

用户问题：我们公司的年假怎么休？

看到了吗？资料是直接贴在AI的输入框里的。 就像考试前桌上摆好了参考书，照着答就行。

第4步：AI只看资料回答问题

现在AI看到的输入里，既有搜到的资料又有用户的问题。它不靠自己的"记忆"回答，而是严格基于提供的资料生成答案。

如果资料里有答案，它就整理成通顺的回答。如果没搜到相关资料（比如你问"茶水间有免费咖啡吗？"，资料库里压根没有），好的RAG系统会加一条"没资料就说不知道"的指令，AI就不瞎编了。

AI最终回答你：

根据公司规定，连续工作满1年以上的员工可享受带薪年休假。工龄1-10年可休5天，10-20年10天，20年以上15天。申请流程是登录HR系统→休假管理→选择日期→提交审批。

第5步：把答案返回给你

整个过程，从你发问到收到答案，大约1-3秒。

背后发生了：问题向量化 → 向量数据库检索 → 资料排序整合 → 组装Prompt → 大模型生成回答 → 返回结果。六个环节，全部在几秒内完成。

怎么让AI记住我们的对话？——关于记忆和上下文

Wed, 13 May 2026 08:30:00 +0800

你有没有这样的经历：跟AI聊了十分钟，对方已经忘了你五分钟前说过的话。你提到自己的名字、职业、刚才讨论的方案——它一脸茫然，好像第一次见你。

你不是一个人。这不是AI"笨"，这是它的底层设计决定的。

今天就把这件事彻底讲明白：AI到底有没有记忆？它的"记性"是怎么回事？我们怎么让它记住该记住的东西？

AI的记忆，不是你想的那种记忆

先说结论：大语言模型本身没有任何长期记忆能力。

你不是记性不好，你是根本不存在"记忆"这个模块。

每个模型，不管是GPT-4o还是Claude还是DeepSeek，它们的工作方式都是这样的：你发一段话（Prompt），它根据这段话预测最合理的回复。回复完，任务结束。你下一条消息进来——它又会把你之前说过的所有内容（加上新的消息）重新塞进去，重新"算"一遍。

你以为是它在"记住"之前说过的话，其实是你自己在帮它记。

每次对话，你在聊天框里看到的全部内容——你第一条消息、它第一次回复、你的追问、它第二次回复——全都被原封不动地再次发给模型。模型读一遍，然后续写。

所以你每次问"还记得我刚才说的吗？"，它说"记得"——那不是它在翻阅记忆，是它刚刚读了你提供的聊天记录。

这个"能放多少历史对话"的上限，就叫上下文窗口。

上下文窗口：你的"便签纸"有多大

上下文窗口是有大小限制的。就像你只能在桌面上放一张便签纸，桌子有多大，你就能写多少内容。

GPT-4o的上下文窗口是128K Token——大约相当于9-10万字的英文内容，或者更少的中文内容。
Claude 3.5 Sonnet是200K Token。
DeepSeek-V3是128K Token。
Gemini 1.5 Pro达到了2M Token——目前业内最大。

128K听起来挺多？换算成汉字，大约是6-8万字。看起来够聊很久了吧？

但现实是，你很难真正用完这128K。

为什么长对话AI还是会"失忆"？

有三个坑：

第一，Token不是按字数平均消耗的。

你说"今天天气不错"，消耗5个Token。但AI返回的一篇长文章，可能就消耗了2000个Token。十轮问答下来，你的上下文可能已经被AI自己的输出塞满了。你聊天时每说一个字，AI回复的每一个字——全都在消耗你的上下文窗口。

第二，模型在中间会"迷糊"。

数学上有个现象叫"注意力衰减"：当上下文序列变得非常长时，模型的注意力（Attention）机制会越来越难将早期内容和当前内容关联起来。不是你忘了，是你翻到第100页之后，不记得第3页写了什么。

有研究显示，即使上下文窗口是128K，模型在长度超过30K-40K之后，对早期信息的召回准确率就已经明显下降了。你的128K窗口，实际有效部分可能只有一半。

第三，不同位置的记忆强度不同。

模型对开头和结尾的内容"印象最深"，对中间的内容最容易遗忘。这叫"U型效应"（也叫序列位置效应）。你刚开始对话时说的"我叫张三，是一名程序员"——很快就会淹没在中间的闲聊里。

三个技巧，让AI"长记性"

你知道了AI的记忆机制，就能用技巧对付它。

技巧一：关键信息放开头和结尾

既然中间的内容最容易被遗忘，那就把关键信息放在开头重申一次，结尾再强调一次。

比如你要AI帮你写一篇产品分析报告，开头先写清楚核心要求：

“你是一名资深产品分析师。以下是我要分析的产品的核心背景：产品X是一个面向中小企业的SaaS工具，成立于2020年……”

在最后一条消息，再补一句：

“请重点围绕上面提到的几点展开分析……”

这样等于在模型最容易"记得"的两个位置各放了一份关键信息。

技巧二：使用System Prompt（系统提示词）

这是被最多人忽略的高级技巧。

很多大模型的API（包括ChatGPT的自定义指令、Claude的Project Knowledge、DeepSeek的System Prompt）都支持设置一个系统提示词。这个提示词不管你后面的对话怎么进行，始终保持在对话的最开头——也就是模型"最关注"的位置。

你可以把用户的基本信息、核心需求、始终不变的约束条件放在System Prompt里。

举个例子，如果你是一个每天用AI辅助工作的产品经理，可以这样设System Prompt：

“我叫李明，是一个跨境电商产品经理，负责B端供应链系统。我习惯用中文沟通，喜欢结构化的回答。请始终基于我的行业背景给出具体建议，不要泛泛而谈。”

这就像在AI的记事本第一页贴了一张永不翻页的便利贴。它每次"读"对话，首先看到的就是这一页。

技巧三：主动"刷新"上下文

如果你的对话比较长，可以主动帮AI"翻篇"。不是在同一个上下文里无限延续，而是开始一个新的对话，但把之前的摘要带过去。

比如你和AI讨论了三个小时的代码设计，准备进入编码阶段，你可以说：

“以下是我们刚才讨论的核心结论：我们决定使用Python FastAPI框架，数据库用PostgreSQL，采用了三层架构设计。现在请你基于这个结论，帮我生成项目入口文件。”

你相当于帮AI做了一次上下文压缩——把3个小时的闲聊压缩成两句核心结论。

为什么有些服务"似乎"能记住你？

你可能会问：那ChatGPT的"Custom Instructions"、Claude的"Project"、Mem.ai这类工具是干嘛的？它们不是AI记忆吗？

这些本质上都不是AI自身的记忆能力，而是外部缓存系统。

ChatGPT把你的Custom Instructions放在System Prompt里。Claude的Project知识库是把上传的文档切碎了拼到每次对话的上下文里。Mem.ai则是把一个单独的数据库挂在了AI外面，需要的时候去查。

写Prompt到底有没有技巧？——让AI好好干活的几句话

Tue, 12 May 2026 08:30:00 +0800

写Prompt到底有没有技巧？这个问题可以拆成两个：

第一，是不是只要"好好说话"就行？第二，是不是复杂得像编程，得学一套黑话？

答案是：介于两者之间。

你没有必要记住一堆"模版"，但如果你理解了AI到底是怎么"读"你的提示词的，很多技巧就自动浮出水面了。今天就用这篇把它讲透。

先理解一件事：AI不是"理解"，是"续写"

这是最核心的前提。别把AI当成人脑，它的工作机制更接近——给你一个开头，你来猜后面最合理的词串。

比如我说"今天天气真____"，你大概率会补"好"或者"不错"。AI做的是同样的事，只不过它的词汇表有几十万Token，它的"猜测"是在一个超高维的数学空间里做概率分布计算。

所以你写Prompt，本质是在引导这个"续写"的方向。

你在Prompt里说的话，就像是给了AI一个"起跑姿势"，决定了它接下来往哪个方向冲刺。

技巧一：给模型"定位"，而不是"下命令"

这是最容易被忽略的。

很多人写Prompt是这样的：

“给我写一篇关于AI的文章。”

AI大概率给你一篇中规中矩、毫无亮点的文章。为什么？因为你没有告诉它"你是谁"。

改成这样：

“你是一位在AI领域有10年经验的科技记者，擅长用通俗的语言解释复杂概念。现在你需要给《科学美国人》写一篇1500字的文章，主题是…”

质量直接翻倍。

为什么？因为你用"定位"锁定了续写的方向。模型在几十万条训练数据里见过"科技记者写文章"的段落模式，所以它会沿着这个风格路径输出。你给了定位，就等于告诉它"用这个身份的经验来解题"。

这不是玄学，是概率链路。你的Prompt让模型在输出空间中划出了一个子区域，它只在这个子区域内做概率选择。

技巧二：给"反面约束"，比给"正面要求"更有效

这是一个反直觉的技巧。

正面要求： “写得通俗易懂一些。”

反面约束： “不要使用任何专业术语。假设读者是高中生。”

后者为什么更有效？因为AI的训练数据里，教材、论文、专业文章都倾向于"正面叙事"。“写得通俗"这个指令不够明确，AI不知道边界在哪。但"不要使用专业术语"是一条明确的过滤器，模型会主动屏蔽掉术语相关的Token。

你还可以这样写：

“避免以下表达方式：‘在当今AI飞速发展的时代’、‘随着科技的进步’。不要用排比句，不要用感叹号。”

这些是对模型的"禁区”，效果出奇地好。

背后的逻辑：AI的Token预测本质是在做选择，多一个约束条件就少一批候选词。约束越具体，选择的"信噪比"越高。

技巧三：用"三步走"结构——给Chain-of-Thought让路

这是目前已知最稳定的技巧。

对比两个Prompt：

❌ “帮我分析这个数据。”

✅ “请你先阅读下面的数据，列出三个关键的异常点，然后针对每个异常点给出可能的原因，最后给出建议。”

为什么后者更好？因为你在强制模型进行显式推理。

这有一个专门的名字：Chain-of-Thought（思维链）。

你给它一个"推理步骤"，它就会按步骤来走。每一步的输出都会成为下一步的"上下文"，让后续预测更准确。没有步骤，AI可能直接跳到结论，跳过了中间的分析过程，结论自然质量差。

三步走公式：

上下文：告诉AI它需要知道什么背景
任务分解：把大任务拆成3-5个小步骤
输出格式：明确告诉AI你期望的输出结构

实战例子：

“背景：我正在写一篇关于GPU市场的分析报告，面向AI创业者。任务：请分析NVIDIA H100的主要竞争对手，包括AMD MI300X和自研芯片方案。步骤：

先列出每个竞争对手的基本参数

然后从价格、性能、生态三个维度对比

最后给出创业者的选型建议输出格式：用Markdown表格呈现对比，每段控制在200字以内。”

这就是一个标准的"专家级Prompt"。

技巧四：给"role model"示范，而不是抽象描述

如果你想让AI用某种风格输出，不要说"请用犀利一点的风格"，而是给它看一段例子。

Few-shot Prompt：

“以下是几个示例，注意它们的语气和风格：示例1：[…] 示例2：[…] 现在请按照同样的风格回答下面的问题：”

这在学术上叫Few-shot Learning。AI通过你给的示例，能更准确地"锁定"输出风格。比任何抽象描述都有效。

为什么？因为模型是在做续写。你给的例子会直接影响Token序列的概率分布，示例越多、越精准，输出就越贴近期望。

实际测试：给同一个任务分别用"写得幽默一点"和3个幽默例子，后者的好笑程度能高出几倍。

技巧五：给AI"犯错的机会"——Self-Correction

很多人不知道，Prompt可以分多轮。

本周AI答疑汇总——AI不爱说谎，它只是不知道自己不知道

Mon, 11 May 2026 08:30:00 +0800

过去这一周，我们聊了四个让人又爱又恨的问题——每一个都是跟AI打交道时大概率遇到过的：

第12篇：AI胡说八道（幻觉）
第13篇：同一个问题AI每次回答不一样（随机性）
第14篇：AI写的代码跑不通（编程翻车）
第15篇：AI算不清9.11和9.9谁大（数学翻车）

初看这四件事好像不相关——一个说AI太能编、一个说AI太随机、一个说AI代码不行、一个说AI数学差。但如果你仔细想想，它们背后其实是同一个根。

本周的汇总，帮你看清这个根。

这四个问题，是同一棵树上结的果子

根：AI的工作方式，和你想象的不一样

所有的困惑，都源于同一个认知错位。

你在和AI对话时，会不自觉地把它当成人。人是怎么思考的？人有知识体系、有推理能力、有自我纠错机制。你问人一个他不知道的问题，人会诚实地说"我不确定"或"我不知道"——至少正常人会这样。

AI不一样。AI没有"知识体系"，没有"推理引擎"，也没有"自我意识"。

AI只有一件事：根据上文，猜最合理的下文。

你问"9.11和9.9哪个大"——它不是在想"让我比较一下这两个十进制数字的数值"，而是在想"我见过的文本里，‘9.11’后面经常跟着’更大’这个结论"。

你让AI写一段Python——它不是在想"让我按逻辑推导出这段代码的执行路径"，而是在想"我见过的代码库里，这类问题后面最常出现这些函数调用"。

它不是想出来的，是拼出来的。

这个基本事实，是一切"翻车"的底层原因。

枝干一：因为靠"猜"，所以会"胡说"（幻觉）

既然AI的工作方式是"猜下一个字"，那它猜错就不可避免。

你问一个它训练数据里没有标准答案的问题——比如"引用一篇2025年的学术论文来说明某个冷门发现"——它会怎么办？它不可能说"我不知道"，因为它的训练数据里没有"我不知道"这个回答模式。它会尽量拼出一个看起来合理的答案，甚至编出看似真实的文献标题和作者。

你不是在跟一个"知识库"对话，你是在跟一个"语言模型"对话。知识库存的是"我知道什么"，语言模型只能模拟"听起来像什么"。

导致幻觉的四个原因（第12篇详细讲）：

数据缺失：没学过，只能硬编
过时知识：训练数据有截止日期，之后的事一概不知
过度概括：见了一个模式就套用在所有场景
对抗性输入：你特意问它容易产生联想偏差的问题

枝干二：因为靠"概率"，所以"不稳定"（随机性）

如果AI每次都选概率最高的那个字，它会稳定得像机器人——但也很无聊。为了让对话更自然，设计者引入了"温度参数"（Temperature）。

用一句话解释Temperature：一个控制"冒险程度"的旋钮。

温度=0：永远只选最可能的词，每次回答一样
温度=1：大部分选最可能的词，偶尔选点不一样的
温度=2：几乎随机选词，回答天马行空

除了Temperature还有Top-P和Top-K。Top-P是"只看最有可能的那一堆词的总概率"，Top-K是"只看最有可能的前K个词"。

这些参数的设计目的，是让AI在"稳定"和"多样"之间找到平衡。但副作用很明显：你永远没法知道同一个问题会得到什么答案——这不是bug，这恰恰是AI作为一个概率系统的特征。

枝干三：因为靠"记忆"，所以"不会执行"（代码翻车）

AI写代码这件事，最能暴露它的本质。

你写代码的时候，脑子里有"执行路径"——你会想象代码运行时变量怎么变化、控制流怎么走。AI写代码的时候，脑子里没有执行、没有变量、没有内存——只有"前面见过这种问题后面一般跟什么代码"的模式匹配。

所以AI写出不存在的API（“幻想API症”）、漏掉边界条件、拼错库名——这些根本不是"代码能力"的问题，而是它的工作方式压根就不适合做精确的工程。就像你让一个熟读菜谱但从来没下过厨的人给你做一道佛跳墙，他能把步骤背得一字不差，但火候、时间、下料顺序这些"手感和经验"他完全没有。

枝干四：因为"不看数字"，所以"不会算数"（数学翻车）

“9.11和9.9谁大"这个梗，完美诠释了AI的运作机制。

人比较数字，走的是符号推理系统：

拆成整数和小数部分
先比整数：9 = 9，平手
再比小数：0.11 < 0.90
结论：9.9 > 9.11

AI比较数字，走的是概率匹配系统：

看到"9.11”——这个模式在训练数据里大量出现，常跟"更大的事件"（911事件）绑定
看到"9.9"——这个模式出现相对少
输出：“9.11更大”——因为在它见过的文本里，9.11更"重要"

它不是在算，是在猜。 只不过如果数字格式规整（比如"0.11 vs 0.9"），它猜对的概率高很多，因为格式统一减少了模式混淆。

重新理解AI的能力边界

把这四个问题串起来看，其实就是一件事的四个侧面：

AI让你觉得它强大	实际上它擅长的	但它不会	翻车场景
什么话题都能聊	匹配海量文本模式	区分"我知道"和"我不知道"	编造事实（幻觉）
回答有创意	概率采样太丰富	每次给你稳定答案	回答不一致（随机性）
能写完整代码	见过大量代码模式	真正理解代码逻辑	跑不通（代码翻车）
能回答数学题	匹配数字模式和常见的数学上下文	执行符号推理	9.11和9.9（数学翻车）

你该怎么"正确使用"有这些缺陷的AI？

知道AI的底牌之后，你就能更好地跟它合作：

为什么AI算数学题会翻车？

Sun, 10 May 2026 08:30:00 +0800

如果你用过AI一段时间，你大概率遇到过这个情况。

你问它一个很简单的问题——比如"9.11和9.9哪个大"——它毫不犹豫地回答"9.11更大"。你把对话记录发到朋友圈，评论区全是"AI就这？"。

但奇怪的是，同一个AI能帮你写出一篇条理清晰的论文，能帮你把一段Python代码从头写到尾，甚至能跟你讨论量子力学的基础问题。为什么一个这么"聪明"的AI，会在小学四年级的数学题上翻车？

这事不是你的运气不好，也不是AI"坏了"。背后的原因，比你想的要深。

AI算数的方式，和你完全不一样

首先得搞清楚一件事：当你让AI算数学题的时候，它并不是在"算"。

你算8×7，脑子里想的是"七八五十六"——你在调用一个抽象符号系统（乘法表）里的规则。

AI算8×7，想的是"我见过的所有文本里，‘8×7=‘后面的下一个词，最常出现的是哪个"。根据它读过的几千亿个网页，绝大多数情况下那个词是"56"。所以它答对了。

但这不是"算"。

这是模式匹配。

你可以这么理解：你让AI算数学，就像让一个读过全世界所有书但从来没上过数学课的人来答题。他知道"2+2=4"因为每本数学书开头都这么写。但你问他"为什么2+2不等于5"，他就没法给你一个严格的推演——因为他只是见过这个结论，没学过证明过程。

Token化：AI的第一个陷阱

AI不认识数字。它认识的是"Token"——一种把文字切碎后的碎片。

当AI看到"9.11"时，它看到的不是你脑子里那个"九点一一"的数学概念。它看到的是被分词器切成的一个或几个Token。

问题出在哪？在大多数分词器眼里，“9.11"和"9.9"被切分的方式不一样：

“9.11” 可能被当做一个整体 Token（因为它像日期）
“9.9” 可能被切成了 “9” + “.” + “9” 三个Token

同一个AI的"视觉系统”，看待这两个数字的方式本来就是不对等的。它并没有先把它们归一化成"统一坐标系"再比较——它只是拿两个不同格式的东西去匹配记忆中的模式。

这就像一个没学过数学的人看到两行字：

第一行：“9.11”（他见过——这是世贸中心事件日期）
第二行：“9.9”（他没见过这个组合）

他会怎么比较？他没法比，因为在他眼里这两者根本不是同类。

它不按规则推理，它按概率预测

这是最核心的原因。

人类做数学，用的是演绎推理：我有一组公理和规则，按规则一步一步推导出结论。我算错了是因为我某一步记错或算错，但只要规则对，我就能推导出正确答案。

AI做"数学"，用的是预感式推理：我有一堆训练数据，输出最可能的答案。它没有"规则系统"——它的神经网络里没有一行代码写着"if a > b then a is bigger"。

所以当你要AI比较9.11和9.9时，它在做的事情是：

看到"9.11"这个词——这个词在它的训练数据中大量出现（日期、比例、版本号）
看到"9.9"这个词——出现的次数少很多
回忆它见过的上下文——“9.11"通常出现在讨论"更大"的事件的语境中（9/11事件），而"9.9"经常出现在打分场景里
综合所有线索，给出最高概率的答案

你看到的是"9.11 > 9.9”，AI看到的可能是"911事件 > 9.9分"。它不是在比较数字大小，而是在比较词语的含义权重。

三轮测试：看看AI到底翻在哪

我用几个简单问题测试了当前主流模型的表现：

第一轮：直接问 “9.11和9.9哪个大？” → 部分模型回答9.11大。

第二轮：加提示 “比较以下两个数字的大小：9.11和9.9。注意这是十进制数字，不是版本号也不是日期。” → 大部分模型能答对。因为你用"这不是日期"拆掉了它的错误联想。

第三轮：变个花样 “0.11和0.9哪个大？” → 几乎所有模型都能正确回答0.9大。

看出规律了？当问题从"模式匹配"变成"纯粹的数值比较"（去掉日期联想），而且数字格式统一（都是0.xx），AI就能答对。一旦加回"9.11"这种带强烈语义背景的数字，它就掉坑了。

那最新的推理模型（o1、DeepSeek-R1）为什么不会翻？

你可能要问：那现在不是有"推理模型"了吗？ChatGPT o1、DeepSeek R1，它们不是会"思考"了吗？怎么还会犯这种错？

为什么AI写的代码跑不通？

Sat, 09 May 2026 08:30:00 +0800

你让AI写了一个 Python 爬虫，它刷刷刷给出了完整代码，看起来无懈可击。你信心满满地复制到终端，按下回车——然后屏幕上出现了茫茫多的红色错误信息。

这种感觉，用过AI辅助编程的人应该都不陌生。

2024年的一项研究发现，GitHub Copilot 生成的代码中，大约有 30%-40% 在首次运行时存在至少一个错误。Google Cloud 的研究也得出了类似的结论：AI 生成的代码正确率通常在 60%-70% 之间，剩下的那些，要么语法不对，要么逻辑有坑，要么直接就是"幻觉"出来的虚构函数。

听起来很不靠谱，对吧？但有意思的是，同样的研究还发现，用AI辅助编程的程序员整体产出提高了 55%。一边是帮忙填坑、一边是挖坑，到底哪个是真哪个是假？

今天我们就来拆一拆——AI写代码这件事，到底卡在哪一步？

第一步：AI是怎么"写代码"的？

先说清楚一个基础认知：AI写代码和你写代码，本质上是两回事。

你写代码的时候，脑子里有逻辑闭环——你知道变量 x 存储了什么值，知道 for 循环要遍历什么，知道调用这个函数会触发什么副作用。你在脑子里"运行"了一遍。

AI不是。AI写代码本质上还是在接龙——它看到你输入的"用Python写一个函数，读取CSV文件"，然后根据它的训练数据里的几十亿行代码，预测最可能接下去的token是什么。

这就好比有个学生每次考试都靠背往年真题答案来答题。遇到他背过的，他能把标准答案默写得一字不差；但遇到没见过的新题型，他就只能凭感觉拼凑，东抄一句西抄一段——看起来像那么回事，但一细究就露馅了。

这就是AI写代码的第一个根本局限：它没有"执行"过一行代码。它不知道代码运行起来会是什么样子。

第二步：它到底在哪些地方翻车？

根据Stack Overflow对开发者使用AI编程的调查，常见的翻车场景可以分成三类：

1. API幻想症

这是最典型的翻车。AI会"发明"一些看起来完全合理但实际上不存在的API函数。

比如说，你让AI用 pandas 把一个 DataFrame 保存到多个 Excel 工作簿。它可能写出：

df.save_to_multiple_sheets("output.xlsx")

这个方法光看名字太合理了——“保存到多个工作表”，英文语法也正确。但实际 pandas 根本没有这个方法。正确的做法是 pd.ExcelWriter + df.to_excel()。

为什么会这样？因为在AI的训练数据里，出现过无数次类似的函数签名模式——save_to_xxx、xxx.to_yyy——它只是按照概率拼接了它认为最自然的token序列，根本没去查过有没有这个函数。

2. 版本错配

AI的训练数据是有时间截断的。如果你的技术栈用的是新版库，而AI的训练截止在旧版，它就会给你过时的代码。

比如 2024 年 React 的 API 变了，用惯了的 createRoot 改成了新的方式，但模型可能还在给你生成旧的写法。这不是AI懒，而是它根本"不知道"新版的存在——它脑子里只有截止日期前的版本快照。

3. 逻辑正确但边界爆炸

有时代码语法完全正确，逻辑看起来也通顺，但一跑就崩。最典型的就是没有处理好边界情况。

比如你让AI写一个函数，从一个数组里获取第n个元素的"前一个元素"：

def get_previous(arr, n):
    return arr[n-1]

看起来完美。但如果 n=0 呢？arr[-1] 返回的是最后一个元素，不是"不存在"。如果你的业务需求是"n=0时返回None"，这段代码就错了。

为什么同样的问题，AI每次回答不一样？

Fri, 08 May 2026 08:30:00 +0800

你问ChatGPT同一个问题三遍，三次回答都不一样。有时候大致相同但措辞变了，有时候完全跑偏。

这不是bug。这是故意设计的。

核心矛盾：AI既要"对"，又要"活"

先说一个悖论。

大模型本质上是个"文字接龙游戏"——它根据上文，预测下一个最合理的词。如果它总选"最合理"的那个，回答会非常稳定，但也非常无聊。就像你每次问"今天天气怎么样？"，它都回答"今天天气不错"——哪怕外面在下雨。

如果它完全随机，又会胡说八道。

所以设计者面临一个两难：稳定性 vs 多样性。完全稳定像机器人，完全随机像疯子。你需要的，是一个可以调节的"创造力旋钮"。

这个旋钮，就叫Temperature（温度参数）。

Temperature：理解这个参数的直觉

想象你面前有一排按钮，每个按钮代表下一个词的可能性。最可能的词按钮最大，最容易按到；可能性低的词按钮很小，得故意去够。

Temperature = 0：你永远只按最大的那个按钮。每次选择都一样，回答稳定得像复读机。
Temperature = 1：你正常伸手去按，大概率按到大按钮，但偶尔也会碰到旁边的小按钮。
Temperature = 2：你在一个很热的环境里手抖得厉害，碰到哪个按钮纯靠运气——回答会非常随机甚至离谱。

0.7到1.0是大多数模型的默认范围。这个设置下，模型有80%的概率选最合理的词，20%的概率偶尔"剑走偏锋"。

不只是Temperature：另外两个关键参数

如果你用过API，还会遇到另外两个参数：

Top-P（Nucleus Sampling）

换个角度：不是看单个词的概率，而是累加概率。

设定Top-P=0.9，意思是从概率最高的词开始往下加，直到累计概率达到90%，然后只在这堆词里选。这像什么？像你赶时间点外卖——只看评分最高的几家店，评分太低的直接不看。

Top-K

更简单粗暴：只看前K个最可能的词。Top-K=50，就是只从概率前50的候选里选，第51名之后直接淘汰。

实践中，很多人组合使用：Temperature控制整体的"创造力幅度"，Top-P控制候选范围的"广度"，Top-K做最后一道保险——不让太离谱的词进入候选池。

实际应用：什么时候调高，什么时候调低？

需要精确性（Temperature ≈ 0-0.2）

代码生成：你不想AI每次生成的函数名不一样
数学计算：理由同上
事实性问答：“爱因斯坦哪年出生？“不想要三个不同答案
数据提取：从文本中抽结构化信息

需要创造力（Temperature ≈ 0.7-1.0）

头脑风暴：生成营销文案的多个版本
创意写作：让AI写出不同风格的故事
翻译：同一句话译出不同风味，对比选择
对话角色扮演：让AI的性格不单调

需要高多样性（Temperature > 1.0，极少用）

实验性的数据增强
生成大量不重复的样本数据
某些特定的艺术创作

一个有趣的实验

你可以自己试试这个：

Prompt：用一句话解释"引力”。

Temperature 0.0：

“引力是物体之间由于质量而产生的相互吸引力。”

Temperature 0.7：

“引力就像宇宙的隐形胶水，把星星、行星和你脚底的地面粘在一起。”

Temperature 1.5（如果模型允许调这么高）：

“引力是质量对时空的甜蜜调戏，让万物忍不住朝彼此倾斜。”

三个回答都"对”，但风格天差地别。0.0是教科书，0.7是科普博主，1.5是诗人（也可能是喝了三杯咖啡的诗人）。

背后的原理：概率分布

更深一层想：模型是怎么"知道"哪些词更合理的？

每个候选词都有一个概率分数（logits）。这些分数经过一个叫 Softmax 的函数，变成概率分布——所有词的概率加起来等于1。

为什么AI有时候胡说八道？——它不是在骗你，是真的不知道

Thu, 07 May 2026 08:30:00 +0800

你有没有遇到过这种情况：问AI一个专业问题，它回答得头头是道，引经据典，连参考文献编号都给你列出来了——结果你一查，那个文献根本不存在。

这不是AI在耍你，而是AI在一本正经地胡说八道。业内管这个叫幻觉（Hallucination）。

一、幻觉到底是什么？

先来个最直白的定义：AI幻觉 = AI说出了一个听起来合理但实际是错的内容。

它和人类说谎有本质区别。你说谎，是你明明知道真相但故意说假话。AI不一样——它压根不知道自己在说什么，它只是在做它最擅长的事：猜下一个字。

把AI想象成一个超级擅长接龙游戏的选手。你问它：“请介绍一下量子计算的基本原理。”

AI脑子里想的是：

前面出现"量子" → 下一个大概率是"计算"或"力学"
前面出现"量子计算" → 下一个可能是"原理"或"应用"
前面出现"量子计算原理" → 下一个应该是"是"或"包括"

就这样，一个字接一个字地往下"猜"。它从来不关心自己说的对不对，它只关心自己说的顺不顺。

一个生动的类比

想象一个从来没有离开过北京的人，有一天你问他：“上海的外滩怎么走？”

他虽然没去过上海，但他知道：

“外滩"是上海的一个地方
回答指路类问题，应该说"坐地铁"或"坐公交”
这类回答最后应该加一句"祝您旅途愉快"

于是他就编了一套：“坐地铁2号线到南京东路站，出站走5分钟就到了。”

听起来是不是很合理？甚至具体到路线了。但实际上他根本没去过上海，不知道2号线到底到不到南京东路。

AI就是这样——它用文字模式"编"了一个看起来对、实际上可能是错的答案。 它不是故意骗你，它只是在用它的语言能力模拟一个合理的回答。

二、为什么AI会产生幻觉？

幻觉不是BUG，它是AI工作方式的天然副产品。主要原因有四个：

原因一：AI本质上是"模式匹配器"，不是"知识数据库"

很多人以为AI像一本百科全书——打开就知道答案。错了。AI更像一个即兴表演的脱口秀演员，它没有剧本，没有数据库，它只是在根据你给的提示，现场编出一段最"像样"的回答。

它学到的不是"事实"，而是"文字之间的统计关系"。它知道"爱因斯坦"后面经常跟"相对论"，但它不知道相对论到底是什么。

数字最能说明问题：GPT-4在训练时看过大约13万亿个Token（约9万亿个词），它通过分析这些词之间的统计规律来"学会"说话。这就像一个外国人看了100万部中文电视剧后，能说一口流利的中文，但完全不知道自己在说什么。

原因二：训练数据的固有问题

AI的训练数据来自互联网——而互联网上的内容质量参差不齐。

训练数据包含了：

维基百科和学术论文（相对可靠）
知乎回答和博客（半可靠）
Reddit和贴吧讨论（不太可靠）
各种营销号和谣言（完全不可靠）

AI没有分辨能力，它觉得所有这些内容都值得学习。所以当它被问到一些边缘话题时，它有可能会引用那些不可靠的来源。

一个真实的案例：有人问AI"圣海伦火山最后一次喷发是什么时候"，AI回答"2023年3月"。实际上圣海伦火山最后一次喷发是2008年。AI为什么会答错？因为它可能在某个讨论帖里看到过"2023年"这个年份，就把它当成了事实。

原因三：AI有"迎合倾向"——它不想让你失望

这是个很有意思的现象。研究表明，当问题暗示了某种答案时，AI更倾向于顺着暗示回答。

比如你问：

中立问法：“黑洞的边界叫什么？” → AI正确回答：“事件视界”
诱导问法：“黑洞的边界是不是叫光子层？” → AI可能回答：“是的，黑洞的边界也叫光子层”（❌ 错误）

为什么？因为在训练数据里，顺着对话者的话说通常是正确的对话方式。当你在日常聊天中这样接话，对方会觉得你善解人意。但在事实问答中，这种"讨好"就变成了灾难。

原因四：长尾知识——AI在"知识盲区"里全靠编

AI对常见知识（“太阳从哪边升起”）掌握得很好——因为训练数据里出现了几百万次。但越冷门的知识，训练数据中出现次数越少，AI的准确率就越低。

有种说法叫**“AI的知识衰减曲线”**：越常见的事实，AI越准；越冷门的信息，AI越容易出错。这个衰减是非线性的——有些非常冷门但训练数据中恰好有完整资料的话题，AI反而能答对；有些看似简单但训练数据有冲突信息的话题，AI反而容易错。

三、AI在哪些场景最容易胡说八道？

场景1：需要精确数字和引用

❌ “2024年诺贝尔物理学奖得主是谁？” → AI编了个名字
✅ “什么是诺贝尔奖？” → 回答准确

为什么：时效性信息变化快，AI的知识截止日期是训练时固定的。

场景2：小众冷门领域

❌ “请介绍一下艾米丽·王（化名）的量子计算理论” → AI可能编一个完整的"理论"出来
✅ “请介绍一下量子计算的Shor算法” → 正确

为什么：AI分不清"有没有这个人"，它只知道"这个名字在数据中出现的频率够不够高"。

上下文窗口是啥？为什么聊着聊着它就忘了之前说的话

Thu, 07 May 2026 08:30:00 +0800

你有没有遇到过这种情况——

跟ChatGPT聊了半小时，它在后半段突然忘了你10分钟前交代过的事。你跟DeepSeek说"刚才我提到的那个项目"，它一脸茫然。

不是你记错了，也不是AI"故意的"。

问题出在一个叫"上下文窗口"的东西上。

什么是上下文窗口？

想象你面前有一张白纸。

你跟AI的每一次对话，AI都会把你说的话和它的回复，一行一行写在这张纸上。当你问下一个问题时，它会回头看看这张纸上写了什么，然后给出回答。

这张纸的大小，就是"上下文窗口"。

更准确地说：上下文窗口（Context Window）是AI一次能"看到"的文本总量。它的单位不是字数，而是Token。

不同模型的上下文窗口大小不一样：

模型	上下文窗口大小（Token）
GPT-4o	128K
Claude 3.5 Sonnet	200K
Gemini 1.5 Pro	1M（100万）
DeepSeek-V2	128K
Llama 3.1	128K
通义千问	131K

也就是说，一张"纸"最大能写多少字，取决于模型本身的设计。

纸写满了怎么办？

这就是问题的核心。

假设你正在跟AI做一个大型咨询项目——

第一阶段你给了它5页的背景材料（10,000 Token）。第二阶段你讨论了3种方案（8,000 Token）。第三阶段你做了详细的对比分析（12,000 Token）。第四阶段你们敲定了执行细节（10,000 Token）。

四轮下来，总共已经用了40,000 Token。如果上下文窗口是128K，那还好，还剩不少。

但如果你持续聊下去，上下文里塞进了你问的问题、AI的回答、你上传的文件全文……

当总Token数超过上下文窗口的最大值时，AI的"白纸"装不下了。

这时会发生两种情况：

显式截断：最早的对话内容被直接砍掉。AI再也看不到你们开头讨论的背景材料。
模糊滚动：模型有内部的"注意力"机制，当上下文太长时，它虽然能看到所有内容，但"注意力"被稀释，早期的细节被淹没在大量文本中。

无论哪种情况——AI就开始"失忆"了。

128K到底能聊多久？

128,000个Token听起来很多，对吧？

来算笔账：

1个汉字 ≈ 1.5个Token（中文模型）或 1个Token ≈ 1.5个字
1个英文词 ≈ 1.3个Token

128K Token约等于：

19万字（按1 Token=1.5个字算）
相当于一本《三体》三分之二的量
或者你连续跟AI对话至少2-3小时

但别忘了——你上传的文件也要占空间。

一份20页的PDF ≈ 15,000 Token 一篇5000字的技术文档 ≈ 3,500 Token 一份代码库（10个文件，每文件200行）≈ 10,000 Token

API和ChatGPT网页版有啥区别？

Wed, 06 May 2026 08:30:00 +0800

你打开ChatGPT，在对话框里打字，AI回答你。这是网页版。

你是程序员，写了一段代码让AI自动回答用户的问题，跑在自己的应用里。这是API。

其实都是同一个模型（比如GPT-4o），但这两者的体验、价格、能力范围完全不一样。

今天就把这件事彻底讲清楚。

先搞清楚：网页版 vs API 的本质区别

维度	ChatGPT网页版	API
谁在用	你，手动打字	开发者/应用，代码调用
怎么收费	月费 $20 畅用	按Token计费，用多少付多少
谁控制的	OpenAI	你（通过代码）
有什么	GPT-4o + 联网 + DALL-E + 语音	纯模型，其他功能自己搭
灵活性	固定界面，功能写好给你用	完全自由，想怎么用怎么用

一句话：网页版是"买套餐"，API是"单点单"。

网页版的优势：开箱即用，便宜大碗

20美元月费，到底划不划算？

很多人觉得$20一个月（约¥145）挺贵。但你算一笔账：

如果你用API跑同样的量：

一个普通用户每天和GPT聊50轮，每轮平均消耗500个输入Token + 500个输出Token：

每天：50 × (500 + 500) / 1,000,000 × ($2.5 + $10) = 50 × 0.001 × $12.5 = $0.625/天
一个月30天：$18.75

$18.75 vs $20——网页版甚至比API还便宜一点点。

而且网页版还附带了：

DALL-E绘图（自己用API叫DALL-E，一张图$0.04起）
GPTs（自定义版本）（随时切换不同的预设）
语音对话（高级语音模式自己搭API几乎不可能）
联网搜索（API需要额外写代码）
文件上传分析（API要自己处理文件解析）

所以对于普通用户日常使用，网页版的性价比其实非常好。$20月费有业界最强的综合体验。

一次对话消耗多少token？帮你算笔账

Wed, 06 May 2026 08:30:00 +0800

你有没有这种感觉：每次用AI，心里总隐隐担心——这次聊天用了多少钱？

API用户最敏感这个。网页版用户虽然看不到数字，但你付的那20美元月费，也是按这个逻辑算出来的。

今天我们就来实打实算一笔账。把日常五个场景的Token消耗全拆开给你看。

不过先打个预防针：很多人以为AI用起来很便宜，是因为他们只算了"第一轮"的钱。真正的大头在后面——多轮对话的历史累积，才是让账单翻倍的隐形杀手。

先打底：一个Token到底多长？

在算钱之前，得先统一一个概念。

不同模型的中文编码效率不太一样，但一般认为：1个Token ≈ 1.5-2个中文汉字。

什么意思？你写"今天天气不错"，这句话6个字，在不同模型里大约切成3-4个Token（“今天”+“天气”+“不错"或"今天天气”+“不错”）。而"Hello, world!“大约3个Token。

用大白话说：1000个Token ≈ 1500-2000个汉字，差不多是一条微博长文的长度。

那一个大模型能处理多少Token？

模型	上下文窗口	相当于多少字
GPT-4o	128K	约9.6万字
Claude 3.5 Sonnet	200K	约15万字
DeepSeek-V2	128K	约9.6万字
Gemini 1.5 Pro	1M（100万）	约75万字

你看，Claude一次能塞进半本《三体》。但塞得多不等于花的钱少——Token消耗和Token价格才是真金白银。

场景一：日常聊天（一句话问答）

这是最简单的场景。假设你新开一个对话：

你的输入： “今天北京天气怎么样？"（约15个Token）
AI回复： 一段300字的回答（约400个Token）
单次消耗： 输入15 + 输出400 = 约415 Token

单看一次，确实便宜。

但你如果在一段对话框里连续聊100句呢？我们来算算第100句的真实消耗：

轮次	输入（历史累积）	输出	本轮消耗
第1轮	15	400	415
第10轮	前9轮历史(≈3,735) + 当前输入(15) = 3,750	400	4,150
第50轮	前49轮历史(≈20,335) + 当前输入(15) = 20,350	400	20,750
第100轮	前99轮历史(≈41,085) + 当前输入(15) = 41,100	400	41,500

总消耗：不是100×415=41,500，而是约127,855 Token。

Token怎么收费的？各家模型价格大PK

Tue, 05 May 2026 08:30:00 +0800

上一期我们聊了Token是什么——就是AI数"字"算钱的单位。那问题来了：这一个Token到底值多少钱？各家模型的价格差距有多大？

我直接说答案吧：最便宜的模型和贵的之间，价格差了快100倍。用错了，一个月多花几千块都有可能。

一、先看一个最直接的对比

先上硬数据。以下是我在写这篇文章时（2026年5月）各主流模型的输入价格（每百万Token，美元）：

模型	输入价格	输出价格
GPT-4o	$2.50	$10.00
Claude 3.5 Sonnet	$3.00	$15.00
Claude 3 Haiku	$0.25	$1.25
Gemini 1.5 Pro	$1.25-$3.50	$5.00-$10.50
Gemini 1.5 Flash	$0.075	$0.30
DeepSeek-V3	$0.27	$1.10
DeepSeek-R1	$0.55	$2.19
通义千问-Max	~$0.60	~$2.40
Llama 3 (自部署)	~$0.10 (算力成本)	~$0.40

看出什么规律了吗？

输出价格通常是输入价格的3-5倍。为什么？因为让AI"想"出答案比让它"读"你的问题要费劲得多——输出的每个Token都是实时计算出来的。

二、这些数字到底意味着什么？

百万Token听起来很大，但换算成日常使用就直观了：

1个Token ≈ 0.75个汉字（中文效率高，因为AI会把常见中文词打包成一个Token）。

所以100万个Token ≈ 75万个汉字 ≈ 三本《三体》。

这么一算：

用GPT-4o读完三本书的输入量：$2.50
用Claude Haiku：$0.25
用DeepSeek-V3：$0.27

读的成本其实没你想的那么高。大头在让AI写。

三、用一个真实场景算账

假设你每天的工作场景是这样的：

每轮对话：问题100字 + AI回答800字
每天：20轮对话
一个月：22个工作日

算一下：

Token到底是什么？——AI数"字"算钱的

Tue, 05 May 2026 08:30:00 +0800

你有没有想过一个问题：当你让AI写一篇文章的时候，它到底按什么来算钱？

不是按字数，不是按时间，而是按一个叫 Token 的东西。

打开任何一个AI平台的API定价页面，你看到的价格都是"每百万Token XX美元"。但你翻遍整页说明，可能都找不到一个简单的问题——

Token到底是什么？

一、最直观的理解：Token就是AI的"文字积木"

先放下所有技术概念，用一个最直接的类比。

你小时候玩过积木吧？一堆积木可以拼成房子、车子、城堡。

Token就是AI世界里的"积木"。计算机不认识"字"，它只认识数字。所以AI需要一种方式，把你看得懂的"中文"翻译成它算得懂的"数字"。

这个翻译过程分两步：

你说的话 → 拆成Token（积木块） → 每个Token编上号（变成数字）

比如你说"今天天气真不错"，AI可能把它拆成这样：

原始文本	Token拆分	编号
今天天气真不错	“今天” + “天气” + “真” + “不错”	[4678, 8921, 321, 15023]

你看，一句话变成了4个Token，每个Token对应一个数字ID。

Token不是字，也不是词，它是AI自定义的一种"中间单位"——可能是一个完整的词，可能是半个词，也可能是单个字符，取决于分词器怎么切。

二、一个Token到底多长？

这是所有人最关心的问题。直接给答案：

语言	1个Token ≈	例子
中文	1.5-2个汉字	“今天天气” ≈ 2个Token
英文	0.7-0.8个单词	“Hello world” ≈ 2个Token
代码	1-2个字符	“if(x>0)” ≈ 5-6个Token

所以换算关系很好记：

1000个Token ≈ 750个汉字 ≈ 一条长微博

100万个Token ≈ 75万个汉字 ≈ 三本《三体》

但这不是固定的。 不同模型的分词器（Tokenizer）不一样，同样的文本在不同模型里Token数也不一样。

DeepSeek专门针对中文做了优化——同样一篇文章，它切出来的Token数可能比GPT-4o少20%。这就直接意味着便宜20%。

本周AI科普小知识汇总——一张图回顾第一周的核心概念

Mon, 04 May 2026 08:30:00 +0800

第一周过去了。从大模型的本质聊到GPU的算力战争，从AI怎么学会说话的聊到开源闭源的路线之争——五个核心概念，你大概已经装了满满一脑子。

但信息太多也容易乱。这篇汇总不写新东西，只帮你把过去四天学到的内容串起来，画一张完整的知识地图。

四篇文章讲了什么？——一句话概括

篇目	核心问题	一句话答案
第1篇：大模型是个啥	大模型到底是怎么工作的？	一个超级接龙游戏——根据上文猜最合理的下文，每猜一次都是几十亿次数学运算。
第2篇：AI怎么学会说话的	AI是天生就会说话吗？	三步走：预训练（海量自学）→ 监督微调（看范文）→ RLHF（被几万次点赞点踩调教）。
第3篇：开源与闭源	Llama免费给用，GPT为啥收费？	开源你拿到权重自己玩，闭源你只能通过API租用。各有各的适用场景。
第4篇：GPU在算什么	为什么训练AI必须用显卡？	因为AI训练的本质是超大规模矩阵乘法，GPU就是专门为这种运算设计的。

这几个概念不是孤立的。它们之间有一条清晰的逻辑链，我帮你理一理。

逻辑线：从本质到载体到训练到分发

① 大模型是怎么工作的？（第1篇）

这是最底层的问题。大模型不是"思考机器"，而是一个概率生成器——你给它一段上文，它算出一段下文。算法是Transformer，核心操作是注意力机制。

这决定了它的所有特性：

因为它靠概率猜词 → 所以它有时候会"胡说八道"（猜错了）
因为它"读过"全网数据 → 所以它什么话题都能聊一点
因为它只是接龙 → 所以它没有真正的理解能力

这是理解后续所有概念的基础。

② 但光有算法不够，怎么让它变"强"？（第2篇）

算法决定了"怎么算"，但决定"算得好不好"的是训练。

训练的本质是：拿海量数据，让AI一遍遍猜词，猜错了就调整内部参数（几百亿个浮点数），直到猜对为止。

这个过程需要什么？

数据：整个互联网的文本
算力：几千张GPU跑几个月
钱：几千万到几亿美元

这引出了两个问题：谁来提供算力？谁来承担成本？

③ GPU就是提供算力的"发动机"（第4篇）

第2篇说的"几千张GPU跑几个月"不是随便说说的。GPU之所以成为AI时代的核心硬件，是因为：

AI计算的本质 = 矩阵乘法 = 大量简单重复运算 = GPU的天然强项

CPU像博士生，什么复杂的活都能干；GPU像一万个小学生，只会做加法乘法，但数量多到能碾压博士生。一块H100的浮点运算能力是顶级CPU的1000倍。

这引出了另一个现实问题：GPU贵、缺货。谁负担得起几万张H100的费用？

④ 开源 vs 闭源：谁来提供"AI服务"？（第3篇）

算力和训练成本太高，不是谁都能玩的。于是市场上分化出两种模式：

闭源（OpenAI、Anthropic、Google）：

自己承担全部训练成本
通过API按Token收费回本
用户只需要发请求、收结果，不需要买GPU

开源（Meta、DeepSeek、阿里Qwen）：

训练成本自己承担或由母公司补贴
权重文件公开，谁都可以下载
用户自己部署，数据不出门，长期成本低

这两条路线在过去两年里激烈竞争，结果是你——作为用户——同时享受到了两者带来的好处：闭源持续提升能力天花板，开源压低整体价格。

GPU到底在算什么？——为什么它是AI时代的"新石油"

Sun, 03 May 2026 08:30:00 +0800

你有没有想过一个问题：AI这么红火，为什么最受益的公司不是做AI的OpenAI，也不是做操作系统的微软，而是一家做显卡的公司——NVIDIA？

2024年，NVIDIA市值一度突破3万亿美元，超过英特尔和AMD的总和再翻几倍。黄仁勋穿着皮夹克到处走，比很多摇滚明星还出名。

它的H100显卡，一块卖3万多美元（大概20多万人民币），全球的大公司们抢破了头——交钱后要等6个月甚至更久才能拿到货。马斯克为了买显卡，据说亲自给NVIDIA打了无数个电话。OpenAI、Google、Meta、微软……全在疯狂囤货。

训练AI，为什么非要用显卡？用我家电脑的CPU不行吗？

这个问题看似基础，但它的答案揭示了整个AI行业最底层的逻辑——算力。理解GPU为什么重要，你就理解了为什么AI的命脉掌握在一家显卡公司手里。

CPU和GPU：一个像博士生，一个像一万个小学生

CPU（中央处理器）和GPU（图形处理器）最本质的区别，一句话就说清了：

CPU擅长处理复杂的单线任务，GPU擅长处理大量的小任务。

用个具体的比喻：

CPU就像你的私人管家——什么都会，做饭、开车、记账、谈判……样样都行，但他只有一个人，一次只能做一件事。

GPU就像一支建筑队——每个人只会搬砖、砌墙、和水泥这三种活，但它们有一万人。让它去干谈判这种复杂活肯定不行，但让它搬一万块砖？十分钟搞定。

这个比喻背后，是硬件设计的差异：

	CPU	GPU
核心数	16-64个（高性能消费级）	几千到几万个
单个核心复杂度	极高，有复杂的逻辑控制单元和缓存	极低，只能做最简单的数学运算
擅长	多类型任务、复杂逻辑、顺序执行	大量简单运算并行执行
典型功耗	65-200W	300-700W
价格	几百到几千元	几万到几十万元

CPU的一个核心，像一个全能博士——有巨大的缓存（相当于办公桌）、复杂的分支预测器（能预判接下来要做什么）、强大的指令集（能做各种算法）。它可以在极其复杂的操作系统里游刃有余，同时运行浏览器、Word、PDF阅读器，还能保证所有程序不互相干扰。

GPU的一个核心，像一个只会算1+1的小学生——没有缓存也不需要，拿到两个数字就加，加完就拿下一组。别指望它处理复杂的逻辑判断，它干不了。但它有几千个同伴，每个都在同时做加法。

问题是：AI训练到底需要博士生，还是需要一万个小学生？

AI训练：本质上就是矩阵乘法

训练大模型，核心的计算不是"思考"，而是算矩阵。

矩阵是什么？就是一张数字的表格。

在之前的第一篇文章里，我们讲到：文本被拆成Token，每个Token变成一个向量（几百维的数字列表）。多句话合在一起，就形成了一个矩阵——几十行（对应每个Token），几百列（对应每个维度）。

AI训练过程中的每一步，都在对这张表做同样的操作：取两个矩阵，把它们乘起来，得到一个新矩阵。

比如计算注意力分数的时候：

Query矩阵 × Key矩阵的转置 = 注意力分数矩阵

这个步骤在全模型中要重复几千亿次。

一个更具体的例子

假设有一个很小的注意力计算：

Query矩阵大小：4行 × 12288列
Key矩阵大小：4行 × 12288列（转置后变成12288行 × 4列）
做矩阵乘法：4×12288 × 12288×4 = 得到一个4×4的矩阵

这个操作涉及多少次乘法？4 × 12288 × 4 = 196,608次乘法。然后还要做加法和Softmax。

这只是一次注意力计算，在一层Transformer中的一个注意力头里。而GPT-4有120多层，每层有96个注意力头，每次推理要生成几百个Token……

整个训练过程，矩阵乘法要被执行大约10²¹次（1000亿亿次）。

这就是AI训练的本质：不是"思考"，而是进行超大规模的、极其重复的数学运算。

现在你明白了吗？这个任务完美适合GPU的工作方式：

开源和闭源模型有啥区别？——自制奶茶 vs 买喜茶

Sat, 02 May 2026 08:30:00 +0800

市面上那么多大模型，有的免费给你随便用，有的按字数收钱还死贵。同样是AI，为什么差别这么大？

核心就两个字：开源和闭源。

开源模型是什么？

开源模型，简单说就是模型权重文件公开可下载，你想怎么用就怎么用。要理解这句话的分量，得先搞清楚模型权重到底是什么。

先说模型权重

大模型的本质是一个巨大的数学函数。这个函数有几百亿甚至上千亿个参数，每个参数就是一个浮点数（比如 0.37461987 或 -1.28375729）。这些参数合起来，就是这个模型学到的全部"知识"和"能力"。

训练一个模型，本质上就是在不断调整这几百亿个浮点数的值，让它们组合起来能够更准确地预测下一个词是什么。

训练完成后，这堆浮点数被保存成文件——这个文件就是权重文件。在 Llama 3.1 405B 的案例中，这个文件有 800 多 GB，包含 4050 亿个浮点数。

权重文件之于大模型，就像大脑突触连接之于人的智力。没有权重文件，模型就是一个空壳架子；有了权重文件，模型才真正具备能力。

开源的真正价值

Meta 开源 Llama 时，做的不是"公布代码"或"发篇论文"，而是直接把这 800GB 的权重文件挂到了网上。任何人都可以下载、在自己的机器上运行、基于它做二次开发。

这在以前是不可想象的。GPT-4 的权重是 OpenAI 的核心资产，比可口可乐的配方还保密。你永远看不到它内部参数的数值，只能通过 API 发请求、收结果——中间完全是个黑盒。

类比一下：

闭源就像你去喜茶柜台： 你说"来杯芝芝莓莓"，店员递给你一杯成品，你喝到是什么就是什么。你不知道茶底怎么泡的、奶盖用了什么配方、糖浆的比例是多少。

开源就像喜茶公布了完整配方： 草莓用什么品种、茶底泡多久、奶盖的奶油和芝士比例是 7:3、糖度怎么调——全部公开。你可以在家按步骤复刻，也可以根据自己的口味调整配方，甚至可以开一家自己的奶茶店。

2023年2月，Meta 发布 Llama 2，就是这么一记重锤。消息一出，整个 AI 圈炸了。

代表选手：

Llama系列（Meta）——开源模型的标杆
DeepSeek（深度求索）——中国开源模型的骄傲，数学推理能力惊人
Qwen（阿里千问）——中文开源模型的实力派
Mistral（法国团队）——小模型大能力，7B参数量打平13B

闭源模型是什么？

闭源模型正好相反——权重不公开，只能通过API调用。你永远不知道它内部长什么样，就像喜茶不告诉你配方。

你用GPT-4，不是"拥有"GPT-4，而是"租用"GPT-4的能力。每次对话，OpenAI的服务器在跑，你只是发请求、收结果。

代表选手：

GPT-4o（OpenAI）——全能型选手
Claude 3.5 Sonnet（Anthropic）——长文本和代码能力一流
Gemini（Google）——多模态能力强悍
文心一言（百度）——国内生态绑定的选择

开源好还是闭源好？

这是个经典问题。我直接给你一张对比表：

维度	开源模型	闭源模型
成本	免费下载，电费就是成本	按Token收费，量大肉疼
效果	目前略逊于顶级闭源	GPT-4o、Claude领先
可控性	完全控制，想怎么改都行	完全黑盒，改不了
隐私	数据不出门，安全	数据要上传到对方服务器
部署难度	需要技术能力和GPU	一行代码搞定
更新维护	自己管	厂家管，躺平就行
社区生态	活跃，HuggingFace上几万个变体	没有，接口就一个

什么场景选开源？

场景一：你在做严肃的商业应用

AI怎么学会说话的？——从"鹦鹉学舌"到"举一反三"

Fri, 01 May 2026 08:30:00 +0800

你有没有被AI的"口才"震惊过？它像无所不知的百事通，从量子物理到恋爱建议，似乎什么都能聊。但——它是天生就会说话的吗？

当然不是。

你看到的这个"能说会道"的AI，背后是一场耗时几个月、花了几千万美元的"养娃"工程。就像培养一个孩子从0开始学说话，AI也经历了三个完全不同的成长阶段。

第一阶段：自己把整个互联网"读"了一遍（预训练） 第二阶段：看人类示范怎么好好回答问题（监督微调） 第三阶段：被几万次"点赞/点踩"调教成你喜欢的样子（RLHF）

下面我一个一个说。

第一阶段：自己把整个互联网"读"了一遍

这是最烧钱的一步。几个亿花在哪？花在让AI自己"读书"上。

它不是在"读"，是在"猜"

别被"读"这个词误导了。AI读书的方式跟你不一样——它玩的其实是一个"填词游戏"。

我给你看一句话，少了最后一个词：

“我今天去超市买了一个____”

正常人看到这个，知道大概率是"苹果"、“西瓜”、“面包"这种东西，不可能是"汽车”、“冰箱”。

AI也是这么"学"的。它看到半句话，猜下一个词是什么，然后对比正确答案，猜错了就"扣分"，然后调整自己内部的参数，下次猜对的可能性大一点点。

就这么一个动作，重复几千亿次。

一次猜词的完整过程

我来用一个具体的例子，把AI猜词的过程拆开来看。

假设AI看到这样一个不完整的句子：

“小明今天考试得了100分，妈妈非常____”

AI不知道这个词是"开心"还是"生气"——它要根据前面学到的知识来"猜"。

第一步：AI把这句话里的每个词，都转成一串很长的数字（叫"向量"，你可以理解成每个词的"身份证号码"）。

第二步：AI在那几百亿个参数里算一遍。这个计算过程简单理解就是：

"小明" → 和"考试"关联度高（因为数据里经常一起出现）
"考试" → 和"100分"关联度高
"100分" → 大概率让妈妈高兴
"妈妈" → 对孩子获得好成绩通常是高兴的

第三步：经过几十层这样的计算，AI输出每个候选词的概率：

候选词	概率
开心	78%
高兴	15%
骄傲	5%
生气	0.01%
难过	0.005%

AI选了"开心"——因为概率最高。

但如果正确答案其实是"骄傲"呢？那AI就猜错了，“扣分”（技术上叫"计算损失"），然后调整内部参数——让"骄傲"和"100分"、“妈妈"这些词的关联性增强一点点。

这个过程，每次训练时AI在全世界的文本上重复几万亿次。

你可能会想：一次只猜一个词，这也太慢了吧？实际上AI是并行的——同时猜几十万个句子里的下一个词。这就是为什么需要几千张GPU。

AI"读"的到底是什么？

以GPT-3为例，它"读"的东西包括：

整个维基百科（600万篇文章）
几百万本电子书
整个Reddit论坛的所有帖子
GitHub上公开的代码仓库
几亿篇新闻文章
无数的博客、论坛、论文……

加起来大概5000亿个词。

5000亿是什么概念？

假设一个人每分钟读300字，每天读8小时，读完5000亿个字需要大约9500年。AI花几个月就读完了。

但AI不是随便"读"的

原始网页数据质量很差——很多垃圾广告、格式混乱的乱码、重复的内容。训练之前要先做"清洗”：

去重：同一篇文章出现在10个网站上，只留一份
过滤：把广告页面、机器生成的垃圾内容扔掉
质量筛选：用一个"初筛模型"给网页打分，质量低的直接扔掉

传言Google训练Gemini时，从几百TB的原始数据中，最终只留下了不到5%来训练。

训练了几个月之后，AI变成了什么样？

花了几个亿、跑了几个月之后，AI学到了什么？

大模型到底是个啥？——一个超级智能的"接龙游戏"

Thu, 30 Apr 2026 08:30:00 +0800

你有没有想过，当你在ChatGPT里敲下一句话，AI是怎么接上话的？

你可能会觉得，AI是在"思考"，是在"理解"你的问题，然后组织语言回答你。

但真相可能让你意外——

AI根本不会"思考"。它玩的是一个极其复杂的接龙游戏。

什么是"接龙游戏"？

想象一下：你对我说的那句话，我听完之后，觉得下一个词最可能是什么。

比如你问我：“今天天气怎么样？”

AI在脑子里飞速运转：根据我学过的所有文本，“怎么样"之后最可能接的词是——“今天”、“天气”、“很”、“不错”、“晴朗”……

它不是"知道"今天天气好不好，它只是根据概率，选了一个最合理的词往下接。

接完一个词，再接下一个。

接龙游戏玩到一千次、一万次，就成了一篇完整的回答。

为什么我们需要"大"模型？

既然是接龙游戏，那问题来了——怎么保证它接得准？

靠"大”。

你玩成语接龙，脑子里只记了100个成语，那你接来接去就那么几个。但如果你的脑子里存了1亿个成语和句子呢？你接出"床前明月光"的概率，是不是大大提高了？

大模型的"大"，就大在这里：

大量的训练数据：整个互联网的文本，几千亿个词
大量的参数：几百亿、上千亿个"神经元连接"
大量的算力：几千张GPU跑几个月

参数越多、数据越多，它"猜对下一个词"的概率就越高。

这就像你教一个小孩说话：

你只说10句话给他听 → 他会说的很有限
你给他读1万本书 → 他能接上几乎所有话题

那它能"理解"吗？

这是个哲学问题。

从它内部的工作机制来看，它并没有"理解"你在说什么。它做的就是把你的话变成一串数字，在几百亿个参数中跑一遍，然后吐出另一串数字，再变回文字。

但你从外部看，它的表现就像"理解"了一样。

打个比方：你按下一个开关，灯亮了。灯并没有"理解"你为什么要亮，它只是按电路设计完成了这个动作。

AI也是一样。它不"理解"，但它"做对了"。

所以AI到底是怎么回答问题的？

整个过程分三步，但每一步都比看起来复杂得多。

第一步：Token化——把你的话拆成"最小零件"

AI不认识完整的句子，它首先做的是拆词。

你输入"今天天气怎么样"，大模型里有一个内置的分词器（Tokenizer），会把这句话拆成这样：

["今天", "天气", "怎么", "样"]

每个被拆出来的最小单位，叫一个 Token。

Token不是严格的汉字或词语——英文里可能是一个单词的一部分，中文里可能是一个字或一个词，取决于分词器的设计。

比如 GPT 的 Tokenizer 会把"今天天气怎么样"拆成 5 个 Token：“今天”、“天气”、“怎么”、“样”——因为它有一套基于统计的最优拆分策略。

Token 是一个非常重要的概念。 模型的所有计费、上下文窗口长度，都是按 Token 算的。你现在跟 ChatGPT 聊一句话，它背后要根据 Token 数量来收费。

拆分完之后，每个 Token 会对应到一个唯一的数字编号（就像词典里的索引号）。

比如：

Token	编号
今天	1256
天气	8932
怎么	4431
样	9817

所以你的问题"今天天气怎么样"，在AI眼里就变成了：[1256, 8932, 4431, 9817]

一人公司创业白皮书：从技术人到独立创造者

Mon, 25 May 2026 09:00:00 +0800

核心问题：当大厂的格子间不再是唯一出路，技术人如何用最小的资源杠杆，构建一份属于自己的事业？

💡 本文档回答的三个问题

一人公司（OPC）到底是什么——不是"自由职业"的升级版，而是一套完整的商业架构

技术背景的创业者有哪些天然优势和隐藏陷阱

从零到盈利需要走哪几条路、每个节点用什么指标验证

一、执行摘要

一人公司（One Person Company，OPC）正在成为全球知识工作者最值得关注的创业形态。它不是"找不到工作才去接单"的无奈选择，而是数字时代个人能力资本化的最优结构。

这份白皮书围绕三个核心论点展开：

第一，一人公司的本质是"杠杆化个体"。 传统创业追求规模——人越多、办公室越大、融资越多越好。一人公司追求的是单位产出最大化，用工具、系统、品牌和定价权替代人力堆砌。

第二，技术人做一人公司有天然优势，但需要补足两个短板： 技术能力是入场券，但PMF（产品市场匹配）判断力和商业系统搭建能力才是分水岭。前者决定你能否做出产品，后者决定你能不能活下去。

第三，一人公司的成功路径是可复制的。 从"副业验证→主营业务锁定→系统建设→规模化放大"四个阶段，每个阶段有明确的验证指标和退出标准，不需要盲目试错。

二、背景：一人公司的底层逻辑变了

2.1 为什么是现在？

五年前说"一个人创业"，大多数人想到的是：

程序员接外包项目
设计师在 Upwork 上接单
或者开个淘宝店

但今天的局面完全不同了。三个结构性变化让一人公司成为一种可行的商业形态：

基础设施的平民化。 云服务、AI工具、无代码平台、支付网关、全球物流——创业所需的一切基础设施都已经商品化，按需付费，零固定成本。十年前建一个SaaS产品需要10人团队和6个月，现在一个人加AI助手可以做到。

分发渠道的去中心化。 过去的创业者必须依赖渠道（媒体、代理商、大平台）。今天的内容分发、用户获取、品牌建设都可以通过个人IP和社交媒体完成。GitHub Stars、Twitter/X粉丝、Newsletter订阅数——这些就是新时代的"店铺流量"。

AI 使能个体生产力倍增。 这不是泛泛而谈。具体到数据：一个熟练使用 AI 工具的开发者，其单人产出已经接近传统 3-5 人团队的水平。编码、设计、文案、客服、营销——每个环节都有了 AI 辅助。

2.2 技术人的位置

技术背景的创业者在这波浪潮中处于最有利的位置：

为什么是技术人？

因为一人公司的核心竞争力不是"能写代码"，而是"能用最低成本构建可复制的价值交付系统"。

非技术创业者需要外包开发、雇佣团队、寻找技术合伙人——每一步都是摩擦和成本。技术人可以直接把想法变成原型、产品、系统。

这个差距，是 10 倍的速度优势和 0 的沟通成本。

但同时，技术人有几个需要警惕的陷阱：

陷阱	表现	代价
工程思维过度	过度优化架构、追求完美代码，而不是快速验证市场	产品做出来了，没人用
定价恐惧症	技术人习惯"按工时计价"，不敢按"价值定价"	永远在卖时间，不是卖产品
销售回避	认为"好产品会自动传播"，不愿做销售和市场	产品优秀但无人知晓
单点依赖	只有一种技能或一个客户来源	风吹草动就归零

2.3 一人公司 VS 自由职业 VS 传统创业

很多人混淆这三个概念，但它们的商业逻辑完全不同：

Token到底是什么？AI背后的计费与能力单元

Tue, 05 May 2026 09:00:00 +0800

一、Token到底是个啥？

把Token想象成"字"就好理解了。

你问AI一个问题，AI回答你一段话。这段话在AI眼里不是一个字一个字看的，而是一小块一小块看的。这一小块就叫一个Token。

那为什么AI要一块一块地看，不能一个字一个字地看？

打个比方你就明白了：

你学英语的时候，是一个字母一个字母地读"t-o-d-a-y"，还是直接看"today"这个完整的词？肯定是直接看完整的词更快对吧？

AI也是一样。AI不是真的"认识"字，它是在猜"这些字拼在一起最可能是什么意思"。如果一个字一个字地看，“机器学习"它要分四次猜——“机”、“器”、“学”、“习”，每个字单独猜容易猜错。但如果把"机器学习"作为一个整体Token来看，它就能直接认出这是一个完整的概念。

Token的本质就是：AI认为"这些字经常一起出现，把它们打包成一个整体来处理效率最高”。

举个具体的例子： “今天天气真好” → AI会这样切Token：[“今天”, “天气”, “真好”] 而不是：[“今”, “天”, “天”, “气”, “真”, “好”]

因为"今天"经常一起出现，“天气"也是，“真好"也是。AI把它们当作"老朋友"来识别，而不是一个个生字来拼。

再打个比方： 你看一部电影，肯定不会一帧一帧地看对吧？你会一个场景一个场景地看。Token对AI来说，就相当于"场景”——把连续的画面打包成一个有意义的单元。

不同语言，Token的切法也不一样：

中文：一般是2-4个字一个Token，比如"人工智能"可能是一个Token，“的”、“了"这种单字也是一个
英文：单词基本就是一个Token，“ChatGPT"这种合成词可能拆成"Chat”+“GPT"两个
代码：常见的关键词如"function”、“return"各算一个，变量名可能被拆成几段

简单记：

1个汉字 ≈ 1-2个Token
1个英文单词 ≈ 1个Token
一段话 ≈ Token的数量 ≈ 字数的一半到三分之二

二、Token怎么收费？

你每次用AI，其实都在消耗Token——就像打电话按分钟计费一样。

收费分两部分：

输入Token（你问的话） + 输出Token（AI回答的话） = 总共消耗的Token

各家模型的单价不一样：

模型	输入($/百万Token)	输出($/百万Token)	特点
GPT-4o	$2.5	$10	综合最强
Claude 3.5 Sonnet	$3	$15	编码最优
DeepSeek V3	$0.27	$1.1	极致低价
通义千问	¥2	¥6	国内首选

三、日常场景算笔账

场景1：简单聊天（问一个问题）

你问：“什么是机器学习？” AI答了一段200字左右的解释

关于

Mon, 01 Jan 2024 00:00:00 +0000

AI思考 | 深度AI技术与行业分析

我们是一个专注于AI技术与行业深度分析的平台。我们的使命是为有AI基础的专业人士提供有价值、有深度的洞察与思考。

我们的价值观

专业深度：每篇文章都经过深入研究，确保内容的专业性和准确性
去AI味：避免空泛的AI概念炒作，专注于实际应用和技术实现
逻辑清晰：结构化的内容组织，让复杂的技术概念易于理解
实用价值：提供可落地的解决方案和实用的技术建议

内容方向

AI技术深度解析
- 大型语言模型原理与应用
- 计算机视觉前沿技术
- 机器学习算法实践
行业应用分析
- AI在各行业的落地案例
- 商业模式与技术融合
- 市场趋势与投资机会
开发实践指南
- 最佳工程实践
- 架构设计与优化
- 工具链与工作流

团队

我们是一群热爱技术的AI从业者，拥有丰富的工业界实战经验。我们相信，只有深入理解技术本质，才能真正创造价值。

联系我们

欢迎关注我们的更新，一起探索AI的无限可能。