首页 > AI教程资讯

YCAI创业营第一天,AndrejKarpathy的演讲刷屏了

文章来源:万象ai发布时间:2025-07-27 12:55:14

Andrej Karpathy 在 YC AI 创业营的演讲火了。

「我们并非处于智能体之年,而是身处智能体的十年时代。」

从软件和大模型发展开始讲起,阐述了今天做软件开发需要具备什么样的技能,以及 LLM 时代,新的交互和人机关系。

以及,如何真正迈向软件 3.0 时代——提示词即应用的时代。

虽然官方还未发布现场视频,但 Latent Space 对推特上相关推文进行了整理,基本上整理出来了 PPT 的完整内容。我们第一时间进行了编译处理。

第一天的 YC AI Startup School 还有其他一些嘉宾的精彩分享,Sam Altman、李飞飞、马斯克和 Aravind Srinivas 等人的观点,我们一并整理了放在文中。

TLDR:

Andrej Karpathy 提出,软件 3.0 (提示工程)时代正在取代 1.0(代码编程)和 2.0(神经网络)」,且大量软件将被重写。

LLMs 是高智能与「认知缺陷」的结合体,可将 LLMs 视为「高智商但存在心智问题」的人类模拟系统,其能力强大但仍存在不可预测的局限性。

LLMs 目前最大的问题是缺乏「认知自我知识」,这需要更复杂的模型后训练方法,而不是天真的「模仿人类标记者并使其变大」的解决方案。

LLMs 具备「记忆能力」非常重要,不存储每个用户的随机事实,而是一般/全局的问题解决知识和策略。「记忆能力」会使 LLMs 在效能和数据利用率上显著更强,因为知识引导的「复盘」阶段提供的反馈维度,远比单一的奖励标量丰富得多。

在 AI 产品的设计中,Andrej Karpathy 提出了一个名为「Autonomy Slider」 的重要概念,它让我们能够根据具体情境选择自主程度,例如:

Cursor :Tab -> cmd+K -> Cmd+L -> Cmd+I(agent 模式)

Perplexity : search -> research -> deep research

Tesla: Autopilot 自动驾驶仪:1 级至 4 级

01

软件 3.0:

提示词即软件

我们在《AI 工程师的崛起》中首次探讨了「软件 3.0」的概念,而这一概念显然是《软件 2.0》论文与「最热门的新编程语言是英语」这一观点结合的必然产物。

他最初撰写《软件 2.0》论文时,正目睹着这套体系在特斯拉逐步取代传统软件 1.0。而如今他再次回归,针对软件 3.0 进行了内容更新。

不同于我之前对软件 2.0 图表的修改方式, Andrej 此次推出了全新的示意图,展示了软件 1.0、2.0、3.0 交错共存的状态,并指出「软件 3.0 正在取代 1.0/2.0」,且「大量软件将被重写」。

软件的迭代演进(1.0 代码编程、2.0 神经网络、3.0 提示工程)

在特斯拉工作期间,我们观察到软件 2.0 逐步取代软件 1.0 的趋势;而如今,软件 1.0、2.0、3.0 正处于共存状态,同时软件 3.0 也在逐步取代前两者。具体观点如下:

当下 AI 的发展阶段类似 20 世纪 50 至 70 年代的计算机。

当前 AI 的应用仍受限于集中式、集体化的模式,其使用场景和范围被严格衡量与限制。但正如计算机的演进历程,AI 领域也有望迎来类似的变革。

LLMs 的双重属性:高智能与「认知缺陷」的结合体,可将 LLMs 视为「高智商但存在心智问题」的人类模拟系统,其能力强大但仍存在不可预测的局限性。

半自主工具的四大核心优势(以 Cursor 和 Perplexity 为例)

通过自主性设置与图形用户界面(GUI),这类工具实现了**度效率提升:

上下文管理:自动为模型提供所需信息,避免手动输入的繁琐;

多模型与工具调度:在后台无缝管理不同模型与工具的协同工作;

交互效率优化:通过 GUI 简化操作流程,加速任务执行;

自主性灵活调控:允许用户根据任务需求,精确设置模型在不同环节的自主决策权限。

人机协作的双向软件开发模式

模型负责代码生成,人类负责结果验证。

实现高效协作的两个关键路径:

简化验证流程:借助 GUI 等可视化工具降低人工验证的复杂度;

限制 AI 权限:通过严格约束 AI 的决策边界,减少验证错误的发生概率,即「必须给 AI 戴上枷锁」。

Andrej 仍将重点放在「提示词即程序」的理念上,但我们在 2023 年就这一问题已经存在细微分歧,而且至今观点仍然没有完全一致:软件 3.0 中「1+2=3」式的逻辑框架,正是过去几年 AI 工程师表现远超提示词工程师,并将持续保持优势的核心原因。

02

重新定义大模型的公共属性

2.1 LLMs 类似于公共基础设施

LLMs 具有公用事业的属性

训练 LLMs 的资本支出(相当于建设电网)

通过日益同质化的 API(提示词、图像、工具等)提供智能服务的运营支出

计量访问(每 100 万 tokens 收费)

对低延迟、高正常运行时间、质量一致性的需求(相当于要求电网提供稳定的电压)

OpenRouter 相当于转换开关(电网、太阳能电池、发电机……)

智能 「电力不足」,例如当 OpenAI 宕机时

2.2 LLMs 就像晶圆厂

LLMs 具有晶圆厂的特性

巨额资本支出

深度技术树研发与技术机密

4 纳米工艺节点≈10²⁰次浮点运算集群

任何使用英伟达 GPU 训练的主体≈无晶圆厂

谷歌使用 TPU 训练≈拥有晶圆厂(如英特尔)

2.3 LLMs 类似于操作系统

LLMs 具有操作系统的属性

LLMs 正逐渐成为复杂的软件生态系统,而非像电力一样的简单商品。

LLMs 是软件,可轻松复制、粘贴、操控、修改、分发、开源、窃取等,并非物理基础设施。

由于不同领域的功能、性能、风格、能力等存在差异,会产生一定的切换摩擦

系统/用户(提示空间≈内核/用户(内存)空间)

LLMs 具备操作系统的属性

它们如同复杂的生态系统,类似早期的分时操作系统,通过远程运行并流式输出内容。

文本聊天功能相当于终端界面。

LLMs 有点像发电站:需要基础设施,有变电站(Open Router),输出中断时会导致「电力不足」。

不过, LLMs 不同于传统公用事业,更像软件,可轻松复制和传输。

LLMs 也类似操作系统:具备内存、外部设备、网络等功能。

与操作系统领域类似, LLMs 有少数主要的闭源供应商(Mac/Windows 相当于 GPT/Claude),以及更广泛的开源生态系统(Linux 相当于 Llama)。

2.4 LLMs 类似分时大型机

尽管 Andrej 在《Power to the People》中提出, LLMs 还呈现出前沿技术发展的反常趋势:通常昂贵的前沿技术会按既定路径演进,但 LLMs 却打破了这一常规。

「我们拥有所有这些令人难以置信的技术,却在用它来研究如何煮鸡蛋,这太疯狂了。」—— 链接:https://karpathy.bearblog.dev/power-to-the-people!

以往的重大先进技术(如计算、互联网、全球定位系统)通常起源于**或大型企业的应用场景,随后才逐渐普及到消费者层面。但 AI 的发展路径却恰恰相反:消费者正在将这项技术用于最随机、最平凡的事情,而**甚至尚未开始采用 AI 。

与大多数技术不同,LLMs 的应用路径实际上是从消费者到企业,再到**的逆向普及。

随着我们从云端计算转向个人 / 私有 AI ,Exo Labs 的研究成果与苹果 MLX 框架的工作正孕育着 「个人计算 2.0 时代」 的萌芽。

第一部分总结

LLM 实验室:

晶圆厂式 LLMs

LLMs 相当于(20 世纪 60 年代的)操作系统

可通过分时共享方式获取,像公用事业一样分布式供应

新动态:数十亿人突然能够使用 LLMs ! 现在是我们为它们编写程序的时代。

03

LLM 心理学

LLM 是「人的精神」:对人的随机模拟,带有一种新兴的「心理学」

Andrej 指出当前 LLMs 在模拟人类时存在两大问题:

3.1 锯齿状智能(Jagged Intelligence)

这个术语用于描述一种(奇怪且反直觉的)现象:最先进的 LLMs 既能完成极其复杂的任务(如解决高等数学问题),又会在一些简单问题上栽跟头。例如,前两天有个例子——「9.11 和 9.9 哪个更大?」模型给出了错误答案。

某些任务(按人类标准)完成得极为出色,另一些任务却会彻底失败,二者的边界并不总是清晰可辨,尽管长期使用后能积累一定预判直觉。

与人类不同,人类的许多知识和解决问题的能力都是高度相关的,并且从出生到成年都是线性提高的。

我个人认为这些不是根本问题。他们需要在整个堆栈中做更多的工作,而不仅仅是扩展。 我认为最大的问题是目前缺乏「认知自我知识」,这需要更复杂的模型后训练方法,而不是天真的「模仿人类标记者并使其变大」的解决方案,这些解决方案大多让我们走到了这一步 。

有关我所说的内容的示例,请参阅 Llama 3.1 论文中关于减轻幻觉的部分:https://x.com/karpathy/status/1816171241809797335

目前,这是需要注意的事情,尤其是在生产环境中。将 LLM 用于他们擅长的任务,但要注意锯齿状边缘,并让人工参与其中。

3.2 顺行性遗忘症(Anterograde Amnesia)

我喜欢这样解释:LLMs 有点像患有顺行性遗忘症的同事——一旦培训结束,他们就不会巩固或建立长期的知识或专业技能,他们所拥有的只是短期记忆(上下文窗口)。在这种情况下,很难建立关系或工作。

我看到的第一个弥补这种缺陷的方法是 ChatGPT 中的记忆功能,它感觉像是未来可能性的原始粗糙实现,这让我在此提出它可能成为一种新的学习范式:

我们缺少(至少一个)LLM 学习的主要范式。不确定该怎么称呼它,可能它有一个名字 - 系统提示学习 ?

预培训是为了获取知识。

微调 (SL/RL) 适用于塑造习惯性行为。

这两者都涉及参数的变化,但人类的学习过程往往更像是系统提示词的更新。你遇到一个问题,弄清楚一些事情,然后以相当明确的方式 「记住」 一些东西,以便下次使用。例如,「似乎当我遇到这样那样的问题时,我应该尝试这样那样的方法/解决方案」。这感觉更像是为自己做笔记,即类似于 「记忆 」功能的东西,但不存储每个用户的随机事实,而是一般/全局的问题解决知识和策略。LLM 就像《记忆碎片》中的那个家伙,只是我们还没有给他们一个便笺簿。请注意, 这种范式在效能和数据利用率上显著更强——因为知识引导的「复盘」阶段提供的反馈维度,远比单一的奖励标量丰富得多。

在我看来,这类问题解决知识不该通过强化学习固化到权重中,至少不该立即/完全依赖这种方式。它更不应该来自工程师手工编写的系统提示词。正确的来源应该是系统提示学习——虽然框架类似强化学习,但算法不同(文本编辑 vs 梯度下降)。LLM 系统提示的很大部分可以通过这种学习自动生成,就像 LLM 为自己撰写问题解决指南。若成功,这将形成全新且强大的学习范式。当然还有大量细节待探索:编辑机制如何运作?能否/应该学习编辑系统?如何像人类那样将显性知识逐渐转化为习惯性权重?等等。

04

部分自主性设计

我们喜欢钢铁侠战衣的类比——这套装备在两方面拓展了人类能力:

增强:为用户提供力量、工具、传感器和信息

自主性:西装很多时候都有自己的想法——在没有提示的情况下采取行动

我们如何设计遵循这些模式的 AI 产品?

4.1 自主性调节滑块(Autonomy Sliders)

Autonomy Slider 是一个重要的概念,它让我们能够根据具体情境选择自主程度,例如:

Cursor :Tab -> cmd+K -> Cmd+L -> Cmd+I(agent 模式)

Perplexity: search -> research -> deep research

Tesla: Autopilot 自动驾驶仪:1 级至 4 级

Cursor 的架构解析

在调用 LLM 前,将相关状态信息封装到上下文窗口中。

对多种模型进行编排与调用(例如嵌入模型、聊天模型、差异应用模型等)。

专用应用图形用户界面(GUI)。

通过按键组合(Tab - Cmd+K_Cmd+L->Cmd+l)实现从普通模式到 Agent 模式(agent mode)的切换,对应自主性调节滑块的功能。

Perplexity 的架构解析

信息封装至上下文窗口

多 LLM 模型的协同调度

针对输入/输出交互设计的专用应用图形用户界面(GUI)

自主性调节滑块:←搜索——研究——深度研究→

特斯拉自动驾驶(Autopilot)的自主性调节示例

车道保持

与前车保持车距

高速公路岔路口选择

交通信号灯和标识识别停车

路口转弯

4.2 人类与 AI 的生成-验证循环

在生成<->验证的循环中,我们需要一个具备部分自主性的完整工作流程——循环速度越快越好

提升验证效率:简化流程,快速制胜

为了提升生成质量:严格控制 AI

4.3 演示和产品的差距

我们需要部分自主性的原因在于,演示原型与可靠产品之间仍存在巨大差距。

他回忆道,2014 年曾乘坐过一辆全程零干预的 Waymo 原型车,当时认为自动驾驶时代「已经到来」...但后来发现仍有大量技术难题亟待解决。

「演示是 works.any(),产品是 works.all()」

05

Vibe Coding & 为智能体而构建

这条推文催生了上千家初创公司:

现在甚至有了自己的维基百科页面 !

但是,仍存在诸多待解难题。当 Vibe 为 MenuGen 编写代码时,他发现本地代码运行后不久,AI 加速效果就消失了:

在 2025 年,构建 Web 应用的现实状况是一团支离破碎的服务集合——这些服务的设计显然是为了让 Web 开发专家继续保住饭碗,而几乎没有向 AI 敞开大门。

可怜的 Clerk 遭到了负面评价,而 Vercel 的@leerob 则获得了好评,这体现在他们的文档编写方式分别针对人类用户和 AI Agent 所做的不同优化上。

示例:添加谷歌登录

文档在这一过程中至关重要。有人明确引用了 Clerks 文档,其中包含 5-10 步的详细操作说明,标注了点击位置和时机。展示完文档后,他直接说了句「这搞什么?」.

Lee Rob(来自 Vercel)将之前文档中「点击」类操作改为添加 curl 命令的做法,被视为很好的第一步。

他还特别提到了「上下文构建者」类工具,比如我们曾在闪电播客中报道过的 Cognition 公司 DeepWiki。

关键在于,工具开发者必须意识到「数字信息的消费者和操纵者出现了一个新类别」:

人类(图形用户界面)

计算机(API)

新概念:智能体 <- 计算机... 但具有类人特性

总结

少谈 2027 年实现通用人工智能,少做华而不实的演示。

更多部分自主功能、自定义图形界面和自主程度调节滑块。

请记住,软件 3.0 正在吞噬软件 1/2,它们的效用/晶圆厂/操作系统特性将决定其命运,改进生成器-验证器循环,并为智能体而构建