关于本报告
本报告旨在为读者提供结构化、高质量的知识内容。
关于嘉宾
Nathan Lambert — Allen Institute for AI后训练负责人,Hugging Face前研究科学家,强化学习专家。Sebastian Raschka — 《从零构建大语言模型》作者,Lightning AI首席AI教育官,开源AI社区活跃贡献者。
目录
这是一场关于人工智能前沿技术的深度对话。Nathan Lambert(Allen Institute for AI后训练负责人)与Sebastian Raschka(《从零构建大语言模型》作者)与Lex Fridman一起,从技术架构、产业竞争、研究趋势到社会影响,全方位解析2026年AI发展的真实状态。
1中美AI竞赛:谁将胜出
访谈以"DeepSeek时刻"为切入点展开——2025年1月,中国公司DeepSeek发布的DeepSeek R1模型以远低于行业预期的计算成本和开源权重,实现了接近或达到当时最先进水平(SOTA)的性能表现。这一事件被广泛认为是AI竞赛格局的重要转折点。
技术民主化趋势:两位专家一致认为,到2026年,没有任何公司能够独占某种其他公司无法获得的技术。研究人员的频繁流动、论文的公开发表意味着核心思想会迅速传播。真正的差异化因素将是预算和硬件资源,而非专有知识。
2ChatGPT vs Claude vs Gemini vs Grok
Nathan Lambert给出了一个大胆的2026年预测:Google Gemini将继续在消费级聊天机器人领域蚕食ChatGPT的市场份额。理由包括:
- 规模优势:当两者都运行在最极端的规模时,Google拥有更好的资源分离能力
- 垂直整合:从TPU芯片到数据中心的全面掌控,避免向NVIDIA支付高额溢价
- 企业市场:Anthropic(Claude)将在软件和企业领域继续成功
模型使用策略分化:访谈揭示了专家们的实际使用模式——没有单一"赢家",而是根据任务选择不同模型:
| 使用场景 | 首选模型 | 原因 |
|---|---|---|
| 快速查询/日常任务 | ChatGPT(非思考模式)或Gemini | 速度快、界面熟悉 |
| 深度研究/信息检索 | Claude Opus 4.5(扩展思考) | 推理能力强、准确度高 |
| 编程/代码调试 | Grok 4 Heavy或Claude Code | 在复杂调试任务上表现突出 |
| 长上下文处理 | Gemini或GPT-5.2 | 在大量文本中定位特定信息的能力 |
3编程AI:Cursor vs Claude Code
两位嘉宾分享了自己的编程工具选择:
Sebastian Raschka使用Codeium插件(VS Code),他认为这是"甜点"——提供代码辅助但不完全接管控制。他坦承自己是"控制狂",还不习惯完全agentic的工作流。
Lex Fridman和Nathan Lambert则同时使用Cursor和Claude Code,视它们为本质上不同的体验:Cursor适合传统IDE工作流(查看diff、细粒度控制),而Claude Code则是"用英语编程"——通过宏观指导而非微观管理来构建软件。
4开源vs闭源:技术传播与商业模式
当被要求列举开源模型时,两位专家迅速列出了令人印象深刻的名单:
中国开源模型:DeepSeek、Kimi(月之暗面)、MiniMax、智谱AI(GLM)、阿里Qwen、零一万物(01.AI)
西方开源模型:Meta LLaMA、Google Gemma、OpenAI GPT-OSS、NVIDIA Nemotron、Mistral AI、AI2 OLMo、Hugging Face SmolLM、Reka AI、Nous Research等
5Transformer架构:从2019至今的演变
Sebastian Raschka解释了从GPT-2到2026年模型的架构演变。令人惊讶的是,核心架构几乎没有根本性改变:
MoE(混合专家)机制:通过路由器选择性地激活不同"专家"子网络,使模型在保持参数规模的同时降低推理计算量。这已成为2025-2026年大模型的标准配置。
6缩放定律:死了吗?
这是对Scaling Laws(缩放定律)状态最权威的解读之一。两位专家一致认为:缩放定律仍然成立,但"低垂的果实"已被摘完。
三个维度的缩放:
- 预训练缩放:增加模型规模和数据量——仍然有效,但成本极高
- 强化学习缩放:延长后训练阶段的RL运行时间——2025年的主要突破领域
- 推理时间缩放:让模型在回答前进行更多"思考"——o1等模型展示的能力
| 缩放类型 | 状态 | 主要限制 |
|---|---|---|
| 预训练 | 仍有效但边际递减 | 成本过高、数据质量瓶颈 |
| RLVR后训练 | 正在爆发 | 需要可验证的奖励信号 |
| 推理时间 | 快速进步 | 延迟与成本的权衡 |
7AI如何训练:三阶段理论
访谈详细解释了现代大语言模型的三阶段训练流程:
1. 预训练(Pre-training)
在海量文本语料上进行下一个token预测。关键变化:不再只是"收集所有数据",而是精心策划高质量数据,包括使用LLM重新表述内容(如将Reddit帖子转换为问答形式)。
2. 中训练(Mid-training)
这个较新的阶段专注于特定能力提升,如长上下文扩展。使用专门的长文档数据集进行继续训练。Sebastian强调这是一个"尴尬"的命名,因为介于预训练和后训练之间。
3. 后训练(Post-training)
包括监督微调(SFT)、DPO(直接偏好优化)和RLHF/RLVR。这是"解锁"预训练阶段获得的知识,而非教授新知识。
8后训练革命:RLVR与推理能力
这是访谈的技术核心之一。RLVR(Reinforcement Learning with Verifiable Rewards)被Nathan Lambert称为2025年AI领域最重要的发展。
工作原理:模型生成答案,系统根据正确答案验证结果(如数学题的正确解、代码的执行结果),模型据此更新策略。这与传统的RLHF(依赖人类主观偏好)形成对比。
"Aha Moment":DeepSeek R1论文中描述的模型自我纠错现象——模型会在推理过程中意识到"等等,这里出错了,让我重新尝试"。这种行为不是显式编程的,而是从正确答案信号中涌现的。
9AGI时间线:从2027到2031+
关于AGI(通用人工智能)的时间线,两位专家持谨慎态度:
定义问题:Nathan Lambert强调AGI定义的混乱。OpenAI的定义是"能完成一定数量经济价值任务的AI",但这并不令人满意。更具体的定义是"能够替代远程工作者的AI"——能够接收信息、解决数字任务、从反馈中学习。
关键里程碑:
- 超人类程序员:能自动化任何编程任务
- 超人类AI研究者:能独立进行AI研究
- 超级智能:全面超越人类智能
Sebastian Raschka的预测更为保守,认为完全自主的AI研究者可能还需要10年以上。
10AI会取代程序员吗
这是一个情感复杂的话题。Lex分享了一项针对791名专业开发者(10+年经验)的调查结果:
- AI代码使用率:大多数开发者在交付代码中使用AI生成代码的比例超过50%
- 资深开发者反而更多使用AI:在高AI生成代码占比的类别中,资深开发者比例更高
- 工作满意度:约80%的人发现使用AI让工作更有趣
核心观点总结
🌏 中美竞赛
DeepSeek时刻标志着开源AI格局的转变,但技术民主化意味着没有公司能独占优势
🤖 模型分化
没有单一赢家,不同模型在不同场景各有优势
📈 缩放定律
预训练边际递减,RLVR后训练和推理时间缩放成为新前沿
💻 编程未来
80%自动化+20%人类决策,从写代码转向系统设计
⏰ AGI时间线
保守估计10年以上,AI能力是"锯齿状"而非全面超越
🔓 开源优势
开源模型通过全球分发获取影响力,中国模型许可证更宽松