2026年AI状态全景:模型、训练、竞争与未来

← 返回报告列表

关于本报告

本报告旨在为读者提供结构化、高质量的知识内容。

关于嘉宾

Nathan Lambert — Allen Institute for AI后训练负责人,Hugging Face前研究科学家,强化学习专家。Sebastian Raschka — 《从零构建大语言模型》作者,Lightning AI首席AI教育官,开源AI社区活跃贡献者。

这是一场关于人工智能前沿技术的深度对话。Nathan Lambert(Allen Institute for AI后训练负责人)与Sebastian Raschka(《从零构建大语言模型》作者)与Lex Fridman一起,从技术架构、产业竞争、研究趋势到社会影响,全方位解析2026年AI发展的真实状态。

1中美AI竞赛:谁将胜出

访谈以"DeepSeek时刻"为切入点展开——2025年1月,中国公司DeepSeek发布的DeepSeek R1模型以远低于行业预期的计算成本和开源权重,实现了接近或达到当时最先进水平(SOTA)的性能表现。这一事件被广泛认为是AI竞赛格局的重要转折点。

"DeepSeek在'赢得人心'方面取得了胜利——他们通过开源模型赢得了全球AI社区的支持。但'胜利'这个概念本身具有多个时间维度:今天、明年、十年后,答案可能完全不同。" — Sebastian Raschka

技术民主化趋势:两位专家一致认为,到2026年,没有任何公司能够独占某种其他公司无法获得的技术。研究人员的频繁流动、论文的公开发表意味着核心思想会迅速传播。真正的差异化因素将是预算和硬件资源,而非专有知识。

关键洞察:中国开源生态正在崛起。DeepSeek在中国开启了一场类似ChatGPT在美国引发的运动——现在中国有数十家科技公司(如智谱AI、MiniMax、月之暗面)发布强大的前沿开源模型。

2ChatGPT vs Claude vs Gemini vs Grok

Nathan Lambert给出了一个大胆的2026年预测:Google Gemini将继续在消费级聊天机器人领域蚕食ChatGPT的市场份额。理由包括:

  • 规模优势:当两者都运行在最极端的规模时,Google拥有更好的资源分离能力
  • 垂直整合:从TPU芯片到数据中心的全面掌控,避免向NVIDIA支付高额溢价
  • 企业市场:Anthropic(Claude)将在软件和企业领域继续成功

模型使用策略分化:访谈揭示了专家们的实际使用模式——没有单一"赢家",而是根据任务选择不同模型:

使用场景 首选模型 原因
快速查询/日常任务 ChatGPT(非思考模式)或Gemini 速度快、界面熟悉
深度研究/信息检索 Claude Opus 4.5(扩展思考) 推理能力强、准确度高
编程/代码调试 Grok 4 Heavy或Claude Code 在复杂调试任务上表现突出
长上下文处理 Gemini或GPT-5.2 在大量文本中定位特定信息的能力

3编程AI:Cursor vs Claude Code

两位嘉宾分享了自己的编程工具选择:

Sebastian Raschka使用Codeium插件(VS Code),他认为这是"甜点"——提供代码辅助但不完全接管控制。他坦承自己是"控制狂",还不习惯完全agentic的工作流。

Lex FridmanNathan Lambert则同时使用Cursor和Claude Code,视它们为本质上不同的体验:Cursor适合传统IDE工作流(查看diff、细粒度控制),而Claude Code则是"用英语编程"——通过宏观指导而非微观管理来构建软件。

"Claude Code似乎是Claude Opus 4.5更好的利用方式。你可以同时打开Claude Code、Cursor和VS Code,向它们提出相同的问题,观察它们的回答差异——Claude Code在这个领域的表现令人震惊。" — Nathan Lambert

4开源vs闭源:技术传播与商业模式

当被要求列举开源模型时,两位专家迅速列出了令人印象深刻的名单:

中国开源模型:DeepSeek、Kimi(月之暗面)、MiniMax、智谱AI(GLM)、阿里Qwen、零一万物(01.AI)

西方开源模型:Meta LLaMA、Google Gemma、OpenAI GPT-OSS、NVIDIA Nemotron、Mistral AI、AI2 OLMo、Hugging Face SmolLM、Reka AI、Nous Research等

关键洞察:开源模型的主要动机是获取全球分发和影响力。中国公司意识到美国企业出于安全顾虑不会购买中国API服务,因此选择开源作为参与美国AI市场的方式。

5Transformer架构:从2019至今的演变

Sebastian Raschka解释了从GPT-2到2026年模型的架构演变。令人惊讶的是,核心架构几乎没有根本性改变

"从GPT-2到GPT-OSS-120B,核心仍然是Transformer解码器架构。主要变化包括:混合专家(MoE)、多头潜在注意力(MLA)、分组查询注意力(GQA)、RMSNorm替代LayerNorm,以及激活函数的微调(如SwiGLU)。但这些本质上都是'旋钮调节',而非架构革命。"

MoE(混合专家)机制:通过路由器选择性地激活不同"专家"子网络,使模型在保持参数规模的同时降低推理计算量。这已成为2025-2026年大模型的标准配置。

6缩放定律:死了吗?

这是对Scaling Laws(缩放定律)状态最权威的解读之一。两位专家一致认为:缩放定律仍然成立,但"低垂的果实"已被摘完

三个维度的缩放:

  1. 预训练缩放:增加模型规模和数据量——仍然有效,但成本极高
  2. 强化学习缩放:延长后训练阶段的RL运行时间——2025年的主要突破领域
  3. 推理时间缩放:让模型在回答前进行更多"思考"——o1等模型展示的能力
关键转变:2025年的重要发现是RLVR(带可验证奖励的强化学习)的缩放特性——与RLHF(人类反馈强化学习)不同,RLVR可以无限期延长训练时间并持续获得性能提升(对数计算投入→线性性能提升)。
缩放类型 状态 主要限制
预训练 仍有效但边际递减 成本过高、数据质量瓶颈
RLVR后训练 正在爆发 需要可验证的奖励信号
推理时间 快速进步 延迟与成本的权衡

7AI如何训练:三阶段理论

访谈详细解释了现代大语言模型的三阶段训练流程:

1. 预训练(Pre-training)

在海量文本语料上进行下一个token预测。关键变化:不再只是"收集所有数据",而是精心策划高质量数据,包括使用LLM重新表述内容(如将Reddit帖子转换为问答形式)。

2. 中训练(Mid-training)

这个较新的阶段专注于特定能力提升,如长上下文扩展。使用专门的长文档数据集进行继续训练。Sebastian强调这是一个"尴尬"的命名,因为介于预训练和后训练之间。

3. 后训练(Post-training)

包括监督微调(SFT)、DPO(直接偏好优化)和RLHF/RLVR。这是"解锁"预训练阶段获得的知识,而非教授新知识。

"RLVR更像是技能学习——如何用预训练获得的知识解决问题。预训练是吸收知识,RLVR是解锁使用这些知识的能力。" — Nathan Lambert

8后训练革命:RLVR与推理能力

这是访谈的技术核心之一。RLVR(Reinforcement Learning with Verifiable Rewards)被Nathan Lambert称为2025年AI领域最重要的发展。

工作原理:模型生成答案,系统根据正确答案验证结果(如数学题的正确解、代码的执行结果),模型据此更新策略。这与传统的RLHF(依赖人类主观偏好)形成对比。

"Aha Moment":DeepSeek R1论文中描述的模型自我纠错现象——模型会在推理过程中意识到"等等,这里出错了,让我重新尝试"。这种行为不是显式编程的,而是从正确答案信号中涌现的。

挑战与局限:目前主要在数学和代码等可验证领域有效;需要为每个问题领域设计验证机制;存在数据污染问题(模型可能在训练中见过类似问题)。

9AGI时间线:从2027到2031+

关于AGI(通用人工智能)的时间线,两位专家持谨慎态度:

定义问题:Nathan Lambert强调AGI定义的混乱。OpenAI的定义是"能完成一定数量经济价值任务的AI",但这并不令人满意。更具体的定义是"能够替代远程工作者的AI"——能够接收信息、解决数字任务、从反馈中学习。

关键里程碑:

  • 超人类程序员:能自动化任何编程任务
  • 超人类AI研究者:能独立进行AI研究
  • 超级智能:全面超越人类智能
"AI 2027报告(原预测2027-2028,后调整为2031年均值预测)认为一旦实现超人类程序员,其他里程碑将快速跟随。但Nathan Lambert持怀疑态度,认为AI能力是'锯齿状'的——在某些方面超强,在其他方面有缺口。" — 访谈总结

Sebastian Raschka的预测更为保守,认为完全自主的AI研究者可能还需要10年以上

10AI会取代程序员吗

这是一个情感复杂的话题。Lex分享了一项针对791名专业开发者(10+年经验)的调查结果:

  • AI代码使用率:大多数开发者在交付代码中使用AI生成代码的比例超过50%
  • 资深开发者反而更多使用AI:在高AI生成代码占比的类别中,资深开发者比例更高
  • 工作满意度:约80%的人发现使用AI让工作更有趣
"我怀疑AI是否会独立地做所有事情。你可能会说'构建那个网站',它会做出一个很好的网站,然后你进行细化。但问题是——仍然需要有人告诉AI去做某事。" — Sebastian Raschka
关键洞察:编程的本质可能正在从"写代码"转变为"系统设计"和"目标定义"。未来软件开发可能是80%自动化、20%人类关键决策的模式。

核心观点总结

🌏 中美竞赛

DeepSeek时刻标志着开源AI格局的转变,但技术民主化意味着没有公司能独占优势

🤖 模型分化

没有单一赢家,不同模型在不同场景各有优势

📈 缩放定律

预训练边际递减,RLVR后训练和推理时间缩放成为新前沿

💻 编程未来

80%自动化+20%人类决策,从写代码转向系统设计

⏰ AGI时间线

保守估计10年以上,AI能力是"锯齿状"而非全面超越

🔓 开源优势

开源模型通过全球分发获取影响力,中国模型许可证更宽松