文章来源:万象ai发布时间:2025-07-27 12:55:14
Andrej Karpathy 在 YC AI 创业营的演讲火了。
「我们并非处于智能体之年,而是身处智能体的十年时代。」
从软件和大模型发展开始讲起,阐述了今天做软件开发需要具备什么样的技能,以及 LLM 时代,新的交互和人机关系。
以及,如何真正迈向软件 3.0 时代——提示词即应用的时代。
虽然官方还未发布现场视频,但 Latent Space 对推特上相关推文进行了整理,基本上整理出来了 PPT 的完整内容。我们第一时间进行了编译处理。
第一天的 YC AI Startup School 还有其他一些嘉宾的精彩分享,Sam Altman、李飞飞、马斯克和 Aravind Srinivas 等人的观点,我们一并整理了放在文中。
TLDR:
Andrej Karpathy 提出,软件 3.0 (提示工程)时代正在取代 1.0(代码编程)和 2.0(神经网络)」,且大量软件将被重写。
LLMs 是高智能与「认知缺陷」的结合体,可将 LLMs 视为「高智商但存在心智问题」的人类模拟系统,其能力强大但仍存在不可预测的局限性。
LLMs 目前最大的问题是缺乏「认知自我知识」,这需要更复杂的模型后训练方法,而不是天真的「模仿人类标记者并使其变大」的解决方案。
LLMs 具备「记忆能力」非常重要,不存储每个用户的随机事实,而是一般/全局的问题解决知识和策略。「记忆能力」会使 LLMs 在效能和数据利用率上显著更强,因为知识引导的「复盘」阶段提供的反馈维度,远比单一的奖励标量丰富得多。
在 AI 产品的设计中,Andrej Karpathy 提出了一个名为「Autonomy Slider」 的重要概念,它让我们能够根据具体情境选择自主程度,例如:
Cursor :Tab -> cmd+K -> Cmd+L -> Cmd+I(agent 模式)
Perplexity : search -> research -> deep research
Tesla: Autopilot 自动驾驶仪:1 级至 4 级
我们在《AI 工程师的崛起》中首次探讨了「软件 3.0」的概念,而这一概念显然是《软件 2.0》论文与「最热门的新编程语言是英语」这一观点结合的必然产物。
他最初撰写《软件 2.0》论文时,正目睹着这套体系在特斯拉逐步取代传统软件 1.0。而如今他再次回归,针对软件 3.0 进行了内容更新。
不同于我之前对软件 2.0 图表的修改方式, Andrej 此次推出了全新的示意图,展示了软件 1.0、2.0、3.0 交错共存的状态,并指出「软件 3.0 正在取代 1.0/2.0」,且「大量软件将被重写」。
软件的迭代演进(1.0 代码编程、2.0 神经网络、3.0 提示工程)
在特斯拉工作期间,我们观察到软件 2.0 逐步取代软件 1.0 的趋势;而如今,软件 1.0、2.0、3.0 正处于共存状态,同时软件 3.0 也在逐步取代前两者。具体观点如下:
当下 AI 的发展阶段类似 20 世纪 50 至 70 年代的计算机。
当前 AI 的应用仍受限于集中式、集体化的模式,其使用场景和范围被严格衡量与限制。但正如计算机的演进历程,AI 领域也有望迎来类似的变革。
LLMs 的双重属性:高智能与「认知缺陷」的结合体,可将 LLMs 视为「高智商但存在心智问题」的人类模拟系统,其能力强大但仍存在不可预测的局限性。
半自主工具的四大核心优势(以 Cursor 和 Perplexity 为例)
通过自主性设置与图形用户界面(GUI),这类工具实现了**度效率提升:
上下文管理:自动为模型提供所需信息,避免手动输入的繁琐;
多模型与工具调度:在后台无缝管理不同模型与工具的协同工作;
交互效率优化:通过 GUI 简化操作流程,加速任务执行;
自主性灵活调控:允许用户根据任务需求,精确设置模型在不同环节的自主决策权限。
人机协作的双向软件开发模式
模型负责代码生成,人类负责结果验证。
实现高效协作的两个关键路径:
简化验证流程:借助 GUI 等可视化工具降低人工验证的复杂度;
限制 AI 权限:通过严格约束 AI 的决策边界,减少验证错误的发生概率,即「必须给 AI 戴上枷锁」。
Andrej 仍将重点放在「提示词即程序」的理念上,但我们在 2023 年就这一问题已经存在细微分歧,而且至今观点仍然没有完全一致:软件 3.0 中「1+2=3」式的逻辑框架,正是过去几年 AI 工程师表现远超提示词工程师,并将持续保持优势的核心原因。
LLMs 具有公用事业的属性
训练 LLMs 的资本支出(相当于建设电网)
通过日益同质化的 API(提示词、图像、工具等)提供智能服务的运营支出
计量访问(每 100 万 tokens 收费)
对低延迟、高正常运行时间、质量一致性的需求(相当于要求电网提供稳定的电压)
OpenRouter 相当于转换开关(电网、太阳能电池、发电机……)
智能 「电力不足」,例如当 OpenAI 宕机时
LLMs 具有晶圆厂的特性
巨额资本支出
深度技术树研发与技术机密
4 纳米工艺节点≈10²⁰次浮点运算集群
任何使用英伟达 GPU 训练的主体≈无晶圆厂
谷歌使用 TPU 训练≈拥有晶圆厂(如英特尔)
LLMs 具有操作系统的属性
LLMs 正逐渐成为复杂的软件生态系统,而非像电力一样的简单商品。
LLMs 是软件,可轻松复制、粘贴、操控、修改、分发、开源、窃取等,并非物理基础设施。
由于不同领域的功能、性能、风格、能力等存在差异,会产生一定的切换摩擦
系统/用户(提示空间≈内核/用户(内存)空间)
LLMs 具备操作系统的属性
它们如同复杂的生态系统,类似早期的分时操作系统,通过远程运行并流式输出内容。
文本聊天功能相当于终端界面。
LLMs 有点像发电站:需要基础设施,有变电站(Open Router),输出中断时会导致「电力不足」。
不过, LLMs 不同于传统公用事业,更像软件,可轻松复制和传输。
LLMs 也类似操作系统:具备内存、外部设备、网络等功能。
与操作系统领域类似, LLMs 有少数主要的闭源供应商(Mac/Windows 相当于 GPT/Claude),以及更广泛的开源生态系统(Linux 相当于 Llama)。
尽管 Andrej 在《Power to the People》中提出, LLMs 还呈现出前沿技术发展的反常趋势:通常昂贵的前沿技术会按既定路径演进,但 LLMs 却打破了这一常规。
「我们拥有所有这些令人难以置信的技术,却在用它来研究如何煮鸡蛋,这太疯狂了。」—— 链接:https://karpathy.bearblog.dev/power-to-the-people!
以往的重大先进技术(如计算、互联网、全球定位系统)通常起源于**或大型企业的应用场景,随后才逐渐普及到消费者层面。但 AI 的发展路径却恰恰相反:消费者正在将这项技术用于最随机、最平凡的事情,而**甚至尚未开始采用 AI 。
与大多数技术不同,LLMs 的应用路径实际上是从消费者到企业,再到**的逆向普及。
随着我们从云端计算转向个人 / 私有 AI ,Exo Labs 的研究成果与苹果 MLX 框架的工作正孕育着 「个人计算 2.0 时代」 的萌芽。
第一部分总结
LLM 实验室:
晶圆厂式 LLMs
LLMs 相当于(20 世纪 60 年代的)操作系统
可通过分时共享方式获取,像公用事业一样分布式供应
新动态:数十亿人突然能够使用 LLMs ! 现在是我们为它们编写程序的时代。
LLM 是「人的精神」:对人的随机模拟,带有一种新兴的「心理学」
Andrej 指出当前 LLMs 在模拟人类时存在两大问题:
这个术语用于描述一种(奇怪且反直觉的)现象:最先进的 LLMs 既能完成极其复杂的任务(如解决高等数学问题),又会在一些简单问题上栽跟头。例如,前两天有个例子——「9.11 和 9.9 哪个更大?」模型给出了错误答案。
某些任务(按人类标准)完成得极为出色,另一些任务却会彻底失败,二者的边界并不总是清晰可辨,尽管长期使用后能积累一定预判直觉。
与人类不同,人类的许多知识和解决问题的能力都是高度相关的,并且从出生到成年都是线性提高的。
我个人认为这些不是根本问题。他们需要在整个堆栈中做更多的工作,而不仅仅是扩展。 我认为最大的问题是目前缺乏「认知自我知识」,这需要更复杂的模型后训练方法,而不是天真的「模仿人类标记者并使其变大」的解决方案,这些解决方案大多让我们走到了这一步 。
有关我所说的内容的示例,请参阅 Llama 3.1 论文中关于减轻幻觉的部分:https://x.com/karpathy/status/1816171241809797335
目前,这是需要注意的事情,尤其是在生产环境中。将 LLM 用于他们擅长的任务,但要注意锯齿状边缘,并让人工参与其中。
我喜欢这样解释:LLMs 有点像患有顺行性遗忘症的同事——一旦培训结束,他们就不会巩固或建立长期的知识或专业技能,他们所拥有的只是短期记忆(上下文窗口)。在这种情况下,很难建立关系或工作。
我看到的第一个弥补这种缺陷的方法是 ChatGPT 中的记忆功能,它感觉像是未来可能性的原始粗糙实现,这让我在此提出它可能成为一种新的学习范式:
我们缺少(至少一个)LLM 学习的主要范式。不确定该怎么称呼它,可能它有一个名字 - 系统提示学习 ?
预培训是为了获取知识。
微调 (SL/RL) 适用于塑造习惯性行为。
这两者都涉及参数的变化,但人类的学习过程往往更像是系统提示词的更新。你遇到一个问题,弄清楚一些事情,然后以相当明确的方式 「记住」 一些东西,以便下次使用。例如,「似乎当我遇到这样那样的问题时,我应该尝试这样那样的方法/解决方案」。这感觉更像是为自己做笔记,即类似于 「记忆 」功能的东西,但不存储每个用户的随机事实,而是一般/全局的问题解决知识和策略。LLM 就像《记忆碎片》中的那个家伙,只是我们还没有给他们一个便笺簿。请注意, 这种范式在效能和数据利用率上显著更强——因为知识引导的「复盘」阶段提供的反馈维度,远比单一的奖励标量丰富得多。
在我看来,这类问题解决知识不该通过强化学习固化到权重中,至少不该立即/完全依赖这种方式。它更不应该来自工程师手工编写的系统提示词。正确的来源应该是系统提示学习——虽然框架类似强化学习,但算法不同(文本编辑 vs 梯度下降)。LLM 系统提示的很大部分可以通过这种学习自动生成,就像 LLM 为自己撰写问题解决指南。若成功,这将形成全新且强大的学习范式。当然还有大量细节待探索:编辑机制如何运作?能否/应该学习编辑系统?如何像人类那样将显性知识逐渐转化为习惯性权重?等等。
我们喜欢钢铁侠战衣的类比——这套装备在两方面拓展了人类能力:
增强:为用户提供力量、工具、传感器和信息
自主性:西装很多时候都有自己的想法——在没有提示的情况下采取行动
我们如何设计遵循这些模式的 AI 产品?
Autonomy Slider 是一个重要的概念,它让我们能够根据具体情境选择自主程度,例如:
Cursor :Tab -> cmd+K -> Cmd+L -> Cmd+I(agent 模式)
Perplexity: search -> research -> deep research
Tesla: Autopilot 自动驾驶仪:1 级至 4 级
Cursor 的架构解析
在调用 LLM 前,将相关状态信息封装到上下文窗口中。
对多种模型进行编排与调用(例如嵌入模型、聊天模型、差异应用模型等)。
专用应用图形用户界面(GUI)。
通过按键组合(Tab - Cmd+K_Cmd+L->Cmd+l)实现从普通模式到 Agent 模式(agent mode)的切换,对应自主性调节滑块的功能。
Perplexity 的架构解析
信息封装至上下文窗口
多 LLM 模型的协同调度
针对输入/输出交互设计的专用应用图形用户界面(GUI)
自主性调节滑块:←搜索——研究——深度研究→
特斯拉自动驾驶(Autopilot)的自主性调节示例
车道保持
与前车保持车距
高速公路岔路口选择
交通信号灯和标识识别停车
路口转弯
在生成<->验证的循环中,我们需要一个具备部分自主性的完整工作流程——循环速度越快越好
提升验证效率:简化流程,快速制胜
为了提升生成质量:严格控制 AI
我们需要部分自主性的原因在于,演示原型与可靠产品之间仍存在巨大差距。
他回忆道,2014 年曾乘坐过一辆全程零干预的 Waymo 原型车,当时认为自动驾驶时代「已经到来」...但后来发现仍有大量技术难题亟待解决。
「演示是 works.any(),产品是 works.all()」
这条推文催生了上千家初创公司:
现在甚至有了自己的维基百科页面 !
但是,仍存在诸多待解难题。当 Vibe 为 MenuGen 编写代码时,他发现本地代码运行后不久,AI 加速效果就消失了:
在 2025 年,构建 Web 应用的现实状况是一团支离破碎的服务集合——这些服务的设计显然是为了让 Web 开发专家继续保住饭碗,而几乎没有向 AI 敞开大门。
可怜的 Clerk 遭到了负面评价,而 Vercel 的@leerob 则获得了好评,这体现在他们的文档编写方式分别针对人类用户和 AI Agent 所做的不同优化上。
示例:添加谷歌登录
文档在这一过程中至关重要。有人明确引用了 Clerks 文档,其中包含 5-10 步的详细操作说明,标注了点击位置和时机。展示完文档后,他直接说了句「这搞什么?」.
Lee Rob(来自 Vercel)将之前文档中「点击」类操作改为添加 curl 命令的做法,被视为很好的第一步。
他还特别提到了「上下文构建者」类工具,比如我们曾在闪电播客中报道过的 Cognition 公司 DeepWiki。
关键在于,工具开发者必须意识到「数字信息的消费者和操纵者出现了一个新类别」:
人类(图形用户界面)
计算机(API)
新概念:智能体 <- 计算机... 但具有类人特性
少谈 2027 年实现通用人工智能,少做华而不实的演示。
更多部分自主功能、自定义图形界面和自主程度调节滑块。
请记住,软件 3.0 正在吞噬软件 1/2,它们的效用/晶圆厂/操作系统特性将决定其命运,改进生成器-验证器循环,并为智能体而构建
相关攻略 更多
YCAI创业营第一天,AndrejKarpathy的演讲刷屏了
Vibecoding第一笔收购案,独立开发者6个月零融资,实现单月近20万美金利润,8000万美金被收购
Altman万字对谈:理想硬件形态是AI伴侣,就业冲击没那么可怕
亚马逊CEO全员信曝光,硅谷AI裁员潮已至!年薪50万湾区HR被算法淘汰
蚂蚁上线AI医疗产品AQ,支付宝大健康生态再加码
27、42、73,DeepSeek这些大模型竟都喜欢这些数!为什么?
速递|“AI并购整合者”诞生:Multiplier获Lightspeed领投A轮2750万美元,重塑6万亿专业服务市场
喝点VC|a16z最新行业分享:顶级初创公司的衡量标准改变,现在正是打造“应用层AI软件公司”的最佳时机
最新资讯 更多
YCAI创业营第一天,AndrejKarpathy的演讲刷屏了
更新时间:2025-07-27
Vibecoding第一笔收购案,独立开发者6个月零融资,实现单月近20万美金利润,8000万美金被收购
更新时间:2025-07-27
Altman万字对谈:理想硬件形态是AI伴侣,就业冲击没那么可怕
更新时间:2025-07-27
亚马逊CEO全员信曝光,硅谷AI裁员潮已至!年薪50万湾区HR被算法淘汰
更新时间:2025-07-27
蚂蚁上线AI医疗产品AQ,支付宝大健康生态再加码
更新时间:2025-07-27
27、42、73,DeepSeek这些大模型竟都喜欢这些数!为什么?
更新时间:2025-07-27
速递|“AI并购整合者”诞生:Multiplier获Lightspeed领投A轮2750万美元,重塑6万亿专业服务市场
更新时间:2025-07-27
喝点VC|a16z最新行业分享:顶级初创公司的衡量标准改变,现在正是打造“应用层AI软件公司”的最佳时机
更新时间:2025-07-27
AI写爆款博客火出圈,主笔竟是Claude!
更新时间:2025-07-27
清华校友打造人形机器人最靓「小腰精」!商场擦鞋熊猫陪玩,订单爆棚
更新时间:2025-07-27