2026年AI状态全景：模型、训练、竞争与未来

← 返回报告列表

关于本报告

本报告旨在为读者提供结构化、高质量的知识内容。

关于嘉宾

Nathan Lambert — Allen Institute for AI后训练负责人，Hugging Face前研究科学家，强化学习专家。Sebastian Raschka — 《从零构建大语言模型》作者，Lightning AI首席AI教育官，开源AI社区活跃贡献者。

这是一场关于人工智能前沿技术的深度对话。Nathan Lambert（Allen Institute for AI后训练负责人）与Sebastian Raschka（《从零构建大语言模型》作者）与Lex Fridman一起，从技术架构、产业竞争、研究趋势到社会影响，全方位解析2026年AI发展的真实状态。

1中美AI竞赛：谁将胜出

访谈以"DeepSeek时刻"为切入点展开——2025年1月，中国公司DeepSeek发布的DeepSeek R1模型以远低于行业预期的计算成本和开源权重，实现了接近或达到当时最先进水平（SOTA）的性能表现。这一事件被广泛认为是AI竞赛格局的重要转折点。

"DeepSeek在'赢得人心'方面取得了胜利——他们通过开源模型赢得了全球AI社区的支持。但'胜利'这个概念本身具有多个时间维度：今天、明年、十年后，答案可能完全不同。" — Sebastian Raschka

技术民主化趋势：两位专家一致认为，到2026年，没有任何公司能够独占某种其他公司无法获得的技术。研究人员的频繁流动、论文的公开发表意味着核心思想会迅速传播。真正的差异化因素将是预算和硬件资源，而非专有知识。

关键洞察：中国开源生态正在崛起。DeepSeek在中国开启了一场类似ChatGPT在美国引发的运动——现在中国有数十家科技公司（如智谱AI、MiniMax、月之暗面）发布强大的前沿开源模型。

2ChatGPT vs Claude vs Gemini vs Grok

Nathan Lambert给出了一个大胆的2026年预测：Google Gemini将继续在消费级聊天机器人领域蚕食ChatGPT的市场份额。理由包括：

规模优势：当两者都运行在最极端的规模时，Google拥有更好的资源分离能力
垂直整合：从TPU芯片到数据中心的全面掌控，避免向NVIDIA支付高额溢价
企业市场：Anthropic（Claude）将在软件和企业领域继续成功

模型使用策略分化：访谈揭示了专家们的实际使用模式——没有单一"赢家"，而是根据任务选择不同模型：

使用场景	首选模型	原因
快速查询/日常任务	ChatGPT（非思考模式）或Gemini	速度快、界面熟悉
深度研究/信息检索	Claude Opus 4.5（扩展思考）	推理能力强、准确度高
编程/代码调试	Grok 4 Heavy或Claude Code	在复杂调试任务上表现突出
长上下文处理	Gemini或GPT-5.2	在大量文本中定位特定信息的能力

3编程AI：Cursor vs Claude Code

两位嘉宾分享了自己的编程工具选择：

Sebastian Raschka使用Codeium插件（VS Code），他认为这是"甜点"——提供代码辅助但不完全接管控制。他坦承自己是"控制狂"，还不习惯完全agentic的工作流。

Lex Fridman和Nathan Lambert则同时使用Cursor和Claude Code，视它们为本质上不同的体验：Cursor适合传统IDE工作流（查看diff、细粒度控制），而Claude Code则是"用英语编程"——通过宏观指导而非微观管理来构建软件。

"Claude Code似乎是Claude Opus 4.5更好的利用方式。你可以同时打开Claude Code、Cursor和VS Code，向它们提出相同的问题，观察它们的回答差异——Claude Code在这个领域的表现令人震惊。" — Nathan Lambert

4开源vs闭源：技术传播与商业模式

当被要求列举开源模型时，两位专家迅速列出了令人印象深刻的名单：

中国开源模型：DeepSeek、Kimi（月之暗面）、MiniMax、智谱AI（GLM）、阿里Qwen、零一万物（01.AI）

西方开源模型：Meta LLaMA、Google Gemma、OpenAI GPT-OSS、NVIDIA Nemotron、Mistral AI、AI2 OLMo、Hugging Face SmolLM、Reka AI、Nous Research等

关键洞察：开源模型的主要动机是获取全球分发和影响力。中国公司意识到美国企业出于安全顾虑不会购买中国API服务，因此选择开源作为参与美国AI市场的方式。

5Transformer架构：从2019至今的演变

Sebastian Raschka解释了从GPT-2到2026年模型的架构演变。令人惊讶的是，核心架构几乎没有根本性改变：

"从GPT-2到GPT-OSS-120B，核心仍然是Transformer解码器架构。主要变化包括：混合专家（MoE）、多头潜在注意力（MLA）、分组查询注意力（GQA）、RMSNorm替代LayerNorm，以及激活函数的微调（如SwiGLU）。但这些本质上都是'旋钮调节'，而非架构革命。"

MoE（混合专家）机制：通过路由器选择性地激活不同"专家"子网络，使模型在保持参数规模的同时降低推理计算量。这已成为2025-2026年大模型的标准配置。

6缩放定律：死了吗？

这是对Scaling Laws（缩放定律）状态最权威的解读之一。两位专家一致认为：缩放定律仍然成立，但"低垂的果实"已被摘完。

三个维度的缩放：

预训练缩放：增加模型规模和数据量——仍然有效，但成本极高
强化学习缩放：延长后训练阶段的RL运行时间——2025年的主要突破领域
推理时间缩放：让模型在回答前进行更多"思考"——o1等模型展示的能力

关键转变：2025年的重要发现是RLVR（带可验证奖励的强化学习）的缩放特性——与RLHF（人类反馈强化学习）不同，RLVR可以无限期延长训练时间并持续获得性能提升（对数计算投入→线性性能提升）。

缩放类型	状态	主要限制
预训练	仍有效但边际递减	成本过高、数据质量瓶颈
RLVR后训练	正在爆发	需要可验证的奖励信号
推理时间	快速进步	延迟与成本的权衡

7AI如何训练：三阶段理论

访谈详细解释了现代大语言模型的三阶段训练流程：

1. 预训练（Pre-training）

在海量文本语料上进行下一个token预测。关键变化：不再只是"收集所有数据"，而是精心策划高质量数据，包括使用LLM重新表述内容（如将Reddit帖子转换为问答形式）。

2. 中训练（Mid-training）

这个较新的阶段专注于特定能力提升，如长上下文扩展。使用专门的长文档数据集进行继续训练。Sebastian强调这是一个"尴尬"的命名，因为介于预训练和后训练之间。

3. 后训练（Post-training）

包括监督微调（SFT）、DPO（直接偏好优化）和RLHF/RLVR。这是"解锁"预训练阶段获得的知识，而非教授新知识。

"RLVR更像是技能学习——如何用预训练获得的知识解决问题。预训练是吸收知识，RLVR是解锁使用这些知识的能力。" — Nathan Lambert

8后训练革命：RLVR与推理能力

这是访谈的技术核心之一。RLVR（Reinforcement Learning with Verifiable Rewards）被Nathan Lambert称为2025年AI领域最重要的发展。

工作原理：模型生成答案，系统根据正确答案验证结果（如数学题的正确解、代码的执行结果），模型据此更新策略。这与传统的RLHF（依赖人类主观偏好）形成对比。

"Aha Moment"：DeepSeek R1论文中描述的模型自我纠错现象——模型会在推理过程中意识到"等等，这里出错了，让我重新尝试"。这种行为不是显式编程的，而是从正确答案信号中涌现的。

挑战与局限：目前主要在数学和代码等可验证领域有效；需要为每个问题领域设计验证机制；存在数据污染问题（模型可能在训练中见过类似问题）。

9AGI时间线：从2027到2031+

关于AGI（通用人工智能）的时间线，两位专家持谨慎态度：

定义问题：Nathan Lambert强调AGI定义的混乱。OpenAI的定义是"能完成一定数量经济价值任务的AI"，但这并不令人满意。更具体的定义是"能够替代远程工作者的AI"——能够接收信息、解决数字任务、从反馈中学习。

关键里程碑：

超人类程序员：能自动化任何编程任务
超人类AI研究者：能独立进行AI研究
超级智能：全面超越人类智能

"AI 2027报告（原预测2027-2028，后调整为2031年均值预测）认为一旦实现超人类程序员，其他里程碑将快速跟随。但Nathan Lambert持怀疑态度，认为AI能力是'锯齿状'的——在某些方面超强，在其他方面有缺口。" — 访谈总结

Sebastian Raschka的预测更为保守，认为完全自主的AI研究者可能还需要10年以上。

10AI会取代程序员吗

这是一个情感复杂的话题。Lex分享了一项针对791名专业开发者（10+年经验）的调查结果：

AI代码使用率：大多数开发者在交付代码中使用AI生成代码的比例超过50%
资深开发者反而更多使用AI：在高AI生成代码占比的类别中，资深开发者比例更高
工作满意度：约80%的人发现使用AI让工作更有趣

"我怀疑AI是否会独立地做所有事情。你可能会说'构建那个网站'，它会做出一个很好的网站，然后你进行细化。但问题是——仍然需要有人告诉AI去做某事。" — Sebastian Raschka

关键洞察：编程的本质可能正在从"写代码"转变为"系统设计"和"目标定义"。未来软件开发可能是80%自动化、20%人类关键决策的模式。

核心观点总结

🌏 中美竞赛

DeepSeek时刻标志着开源AI格局的转变，但技术民主化意味着没有公司能独占优势

🤖 模型分化

没有单一赢家，不同模型在不同场景各有优势

📈 缩放定律

预训练边际递减，RLVR后训练和推理时间缩放成为新前沿

💻 编程未来

80%自动化+20%人类决策，从写代码转向系统设计

⏰ AGI时间线

保守估计10年以上，AI能力是"锯齿状"而非全面超越

🔓 开源优势

开源模型通过全球分发获取影响力，中国模型许可证更宽松