YCAI创业营第一天，AndrejKarpathy的演讲刷屏了

文章来源：万象ai发布时间：2025-07-27 12:55:14

Andrej Karpathy 在 YC AI 创业营的演讲火了。

「我们并非处于智能体之年，而是身处智能体的十年时代。」

从软件和大模型发展开始讲起，阐述了今天做软件开发需要具备什么样的技能，以及 LLM 时代，新的交互和人机关系。

以及，如何真正迈向软件 3.0 时代——提示词即应用的时代。

虽然官方还未发布现场视频，但 Latent Space 对推特上相关推文进行了整理，基本上整理出来了 PPT 的完整内容。我们第一时间进行了编译处理。

第一天的 YC AI Startup School 还有其他一些嘉宾的精彩分享，Sam Altman、李飞飞、马斯克和 Aravind Srinivas 等人的观点，我们一并整理了放在文中。

TLDR:

Andrej Karpathy 提出，软件 3.0 （提示工程）时代正在取代 1.0（代码编程）和 2.0（神经网络）」，且大量软件将被重写。

LLMs 是高智能与「认知缺陷」的结合体，可将 LLMs 视为「高智商但存在心智问题」的人类模拟系统，其能力强大但仍存在不可预测的局限性。

LLMs 目前最大的问题是缺乏「认知自我知识」，这需要更复杂的模型后训练方法，而不是天真的「模仿人类标记者并使其变大」的解决方案。

LLMs 具备「记忆能力」非常重要，不存储每个用户的随机事实，而是一般/全局的问题解决知识和策略。「记忆能力」会使 LLMs 在效能和数据利用率上显著更强，因为知识引导的「复盘」阶段提供的反馈维度，远比单一的奖励标量丰富得多。

在 AI 产品的设计中，Andrej Karpathy 提出了一个名为「Autonomy Slider」的重要概念，它让我们能够根据具体情境选择自主程度，例如：

Cursor ：Tab -> cmd+K -> Cmd+L -> Cmd+I（agent 模式）

Perplexity : search -> research -> deep research

Tesla： Autopilot 自动驾驶仪：1 级至 4 级

01 软件 3.0：

提示词即软件

我们在《AI 工程师的崛起》中首次探讨了「软件 3.0」的概念，而这一概念显然是《软件 2.0》论文与「最热门的新编程语言是英语」这一观点结合的必然产物。

他最初撰写《软件 2.0》论文时，正目睹着这套体系在特斯拉逐步取代传统软件 1.0。而如今他再次回归，针对软件 3.0 进行了内容更新。

不同于我之前对软件 2.0 图表的修改方式， Andrej 此次推出了全新的示意图，展示了软件 1.0、2.0、3.0 交错共存的状态，并指出「软件 3.0 正在取代 1.0/2.0」，且「大量软件将被重写」。

软件的迭代演进（1.0 代码编程、2.0 神经网络、3.0 提示工程）

在特斯拉工作期间，我们观察到软件 2.0 逐步取代软件 1.0 的趋势；而如今，软件 1.0、2.0、3.0 正处于共存状态，同时软件 3.0 也在逐步取代前两者。具体观点如下：

当下 AI 的发展阶段类似 20 世纪 50 至 70 年代的计算机。

当前 AI 的应用仍受限于集中式、集体化的模式，其使用场景和范围被严格衡量与限制。但正如计算机的演进历程，AI 领域也有望迎来类似的变革。

LLMs 的双重属性：高智能与「认知缺陷」的结合体，可将 LLMs 视为「高智商但存在心智问题」的人类模拟系统，其能力强大但仍存在不可预测的局限性。

半自主工具的四大核心优势（以 Cursor 和 Perplexity 为例）

通过自主性设置与图形用户界面（GUI），这类工具实现了**度效率提升：

上下文管理：自动为模型提供所需信息，避免手动输入的繁琐；

多模型与工具调度：在后台无缝管理不同模型与工具的协同工作；

交互效率优化：通过 GUI 简化操作流程，加速任务执行；

自主性灵活调控：允许用户根据任务需求，精确设置模型在不同环节的自主决策权限。

人机协作的双向软件开发模式

模型负责代码生成，人类负责结果验证。

实现高效协作的两个关键路径：

简化验证流程：借助 GUI 等可视化工具降低人工验证的复杂度；

限制 AI 权限：通过严格约束 AI 的决策边界，减少验证错误的发生概率，即「必须给 AI 戴上枷锁」。

Andrej 仍将重点放在「提示词即程序」的理念上，但我们在 2023 年就这一问题已经存在细微分歧，而且至今观点仍然没有完全一致：软件 3.0 中「1+2=3」式的逻辑框架，正是过去几年 AI 工程师表现远超提示词工程师，并将持续保持优势的核心原因。

02 重新定义大模型的公共属性

2.1 LLMs 类似于公共基础设施

LLMs 具有公用事业的属性

训练 LLMs 的资本支出（相当于建设电网）

通过日益同质化的 API（提示词、图像、工具等）提供智能服务的运营支出

计量访问（每 100 万 tokens 收费）

对低延迟、高正常运行时间、质量一致性的需求（相当于要求电网提供稳定的电压）

OpenRouter 相当于转换开关（电网、太阳能电池、发电机……）

智能「电力不足」，例如当 OpenAI 宕机时

2.2 LLMs 就像晶圆厂

LLMs 具有晶圆厂的特性

巨额资本支出

深度技术树研发与技术机密

4 纳米工艺节点≈10²⁰次浮点运算集群

任何使用英伟达 GPU 训练的主体≈无晶圆厂

谷歌使用 TPU 训练≈拥有晶圆厂（如英特尔）

2.3 LLMs 类似于操作系统

LLMs 具有操作系统的属性

LLMs 正逐渐成为复杂的软件生态系统，而非像电力一样的简单商品。

LLMs 是软件，可轻松复制、粘贴、操控、修改、分发、开源、窃取等，并非物理基础设施。

由于不同领域的功能、性能、风格、能力等存在差异，会产生一定的切换摩擦

系统/用户（提示空间≈内核/用户（内存）空间）

LLMs 具备操作系统的属性

它们如同复杂的生态系统，类似早期的分时操作系统，通过远程运行并流式输出内容。

文本聊天功能相当于终端界面。

LLMs 有点像发电站：需要基础设施，有变电站（Open Router），输出中断时会导致「电力不足」。

不过， LLMs 不同于传统公用事业，更像软件，可轻松复制和传输。

LLMs 也类似操作系统：具备内存、外部设备、网络等功能。

与操作系统领域类似， LLMs 有少数主要的闭源供应商（Mac/Windows 相当于 GPT/Claude），以及更广泛的开源生态系统（Linux 相当于 Llama）。

2.4 LLMs 类似分时大型机

尽管 Andrej 在《Power to the People》中提出， LLMs 还呈现出前沿技术发展的反常趋势：通常昂贵的前沿技术会按既定路径演进，但 LLMs 却打破了这一常规。

「我们拥有所有这些令人难以置信的技术，却在用它来研究如何煮鸡蛋，这太疯狂了。」—— 链接：https://karpathy.bearblog.dev/power-to-the-people!

以往的重大先进技术（如计算、互联网、全球定位系统）通常起源于**或大型企业的应用场景，随后才逐渐普及到消费者层面。但 AI 的发展路径却恰恰相反：消费者正在将这项技术用于最随机、最平凡的事情，而**甚至尚未开始采用 AI 。

与大多数技术不同，LLMs 的应用路径实际上是从消费者到企业，再到**的逆向普及。

随着我们从云端计算转向个人 / 私有 AI ，Exo Labs 的研究成果与苹果 MLX 框架的工作正孕育着「个人计算 2.0 时代」的萌芽。

第一部分总结

LLM 实验室：

晶圆厂式 LLMs

LLMs 相当于（20 世纪 60 年代的）操作系统

可通过分时共享方式获取，像公用事业一样分布式供应

新动态：数十亿人突然能够使用 LLMs ！现在是我们为它们编写程序的时代。

03 LLM 心理学

LLM 是「人的精神」：对人的随机模拟，带有一种新兴的「心理学」

Andrej 指出当前 LLMs 在模拟人类时存在两大问题：

3.1 锯齿状智能（Jagged Intelligence）

这个术语用于描述一种（奇怪且反直觉的）现象：最先进的 LLMs 既能完成极其复杂的任务（如解决高等数学问题），又会在一些简单问题上栽跟头。例如，前两天有个例子——「9.11 和 9.9 哪个更大？」模型给出了错误答案。

某些任务（按人类标准）完成得极为出色，另一些任务却会彻底失败，二者的边界并不总是清晰可辨，尽管长期使用后能积累一定预判直觉。

与人类不同，人类的许多知识和解决问题的能力都是高度相关的，并且从出生到成年都是线性提高的。

我个人认为这些不是根本问题。他们需要在整个堆栈中做更多的工作，而不仅仅是扩展。我认为最大的问题是目前缺乏「认知自我知识」，这需要更复杂的模型后训练方法，而不是天真的「模仿人类标记者并使其变大」的解决方案，这些解决方案大多让我们走到了这一步。

有关我所说的内容的示例，请参阅 Llama 3.1 论文中关于减轻幻觉的部分：https://x.com/karpathy/status/1816171241809797335

目前，这是需要注意的事情，尤其是在生产环境中。将 LLM 用于他们擅长的任务，但要注意锯齿状边缘，并让人工参与其中。

3.2 顺行性遗忘症（Anterograde Amnesia）

我喜欢这样解释：LLMs 有点像患有顺行性遗忘症的同事——一旦培训结束，他们就不会巩固或建立长期的知识或专业技能，他们所拥有的只是短期记忆（上下文窗口）。在这种情况下，很难建立关系或工作。

我看到的第一个弥补这种缺陷的方法是 ChatGPT 中的记忆功能，它感觉像是未来可能性的原始粗糙实现，这让我在此提出它可能成为一种新的学习范式：

我们缺少（至少一个）LLM 学习的主要范式。不确定该怎么称呼它，可能它有一个名字 - 系统提示学习？

预培训是为了获取知识。

微调（SL/RL）适用于塑造习惯性行为。

这两者都涉及参数的变化，但人类的学习过程往往更像是系统提示词的更新。你遇到一个问题，弄清楚一些事情，然后以相当明确的方式「记住」一些东西，以便下次使用。例如，「似乎当我遇到这样那样的问题时，我应该尝试这样那样的方法/解决方案」。这感觉更像是为自己做笔记，即类似于「记忆」功能的东西，但不存储每个用户的随机事实，而是一般/全局的问题解决知识和策略。LLM 就像《记忆碎片》中的那个家伙，只是我们还没有给他们一个便笺簿。请注意，这种范式在效能和数据利用率上显著更强——因为知识引导的「复盘」阶段提供的反馈维度，远比单一的奖励标量丰富得多。

在我看来，这类问题解决知识不该通过强化学习固化到权重中，至少不该立即/完全依赖这种方式。它更不应该来自工程师手工编写的系统提示词。正确的来源应该是系统提示学习——虽然框架类似强化学习，但算法不同（文本编辑 vs 梯度下降）。LLM 系统提示的很大部分可以通过这种学习自动生成，就像 LLM 为自己撰写问题解决指南。若成功，这将形成全新且强大的学习范式。当然还有大量细节待探索：编辑机制如何运作？能否/应该学习编辑系统？如何像人类那样将显性知识逐渐转化为习惯性权重？等等。