深度｜ARR过亿美金AI招聘00后创始人：未来最有价值的是拥有“反常识性观点”和“品味”的人，人们最应该优化自己的适应性

文章来源：08ai导航网发布时间：2025-08-13 10:50:40

图片来源：No Priors

Z Highlights

人类数据市场正经历一次巨大变革。这个市场原来是众包模式，即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。

但现在正转向“筛选”问题：要找到世界上最顶尖的人才，与研究人员一起合作，推动模型能力的边界。

我认为其中最重要的一点是，过去的大多数评估任务都是“零样本”测试，比如说一条测试题目对一个模型。这种测试可能很学术化。

但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。

他还要与多个相关方协调：理解产品经理的需求，它是如何与各个团队的优先级匹配的，以及这些怎么最终落实到实际工作产出上。

我们未来会有这些Agent来承担目前由员工执行的各类角色，它们会与人类员工并肩工作，而人类员工也会帮助构建这些评估任务。

我还认为我们市场上的合同工将在其中发挥重要作用。我们将会看到一个庞大的评估任务eval生态系统建设，为了给每家企业定制Agent。

Brendan Foody是Mercor的联合创始人兼CEO，同时也是一位Thiel Fellowship奖学金获得者，他正在推动一场关于“人才评估与分配”的根本性变革。

本文是No Priors 主持人Sarah Guo和Elad Gil与Brendan Foody的访谈实录。

AI 赋能人才评估的新范式

Brendan Foody：谢谢你邀请我。我很高兴能来到这里。

Sarah Guo：最近六个月你们公司发展得特别快，势头惊人。你能简单介绍一下Mercor到底是做什么的吗？

Brendan Foody：从宏观上来说，我们训练模型来预测一个人能否胜任某项工作，而且比人类判断得更准确。

就像人类会审阅简历、面试并决定录用谁一样，我们用LMS系统自动化了整个过程。

它的效果非常好，以至于所有顶尖AI实验室都在用它来招聘数以千计的工作人员，这些人正是在训练下一代模型。

Sarah Guo：那这些实验室现在主要在招聘什么样的技能和职位呢？

Brendan Foody：实际上，是所有具有经济价值的技能。因为强化学习的效率越来越高，只要你能设计出评估任务（evals），模型就能学习并提升对应的能力。

所以，凡是我们希望LMS精通的能力，我们都需要有相关的评估任务。这些能力从咨询、软件工程师，一直到视频游戏领域的爱好者，应有尽有。

可以说，只要是基础模型公司或应用层公司正在投入的方向，评估任务就是最上游的需求。

Elad Gil：你们现在也在帮助核心基础模型之外的公司进行类似的招聘吗？还是目前还主要集中在AI模型相关的领域？

Brendan Foody：是的，其实我们刚开始创业的时候，和“人类数据”一点关系都没有。

我们最初的出发点是：全球各地都有非常有天赋的人才，但他们没有机会，而我们可以用LMS来提升他们被发现和被雇佣的效率。

后来，我们接触了一些客户后发现，人类数据市场正经历一次巨大变革。

这个市场原来是众包模式，即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。

但现在正转向“筛选”问题：要找到世界上最顶尖的人才，与研究人员一起合作，推动模型能力的边界。

尽管如此，我们依旧保留了“为职位招聘人才”的核心基因，无论是用于人类数据还是其他用途。我们很多客户现在两方面的招聘都在做。

Elad Gil：你觉得未来所有的招聘最终都会转向由AI系统来评估人才吗？尤其是知识型工作？

Brendan Foody：我觉得是的，因为我们已经在很多评估任务中看到，模型在评估人才方面的表现比人类招聘经理更好。而且现在其实还只是早期阶段。

我认为未来我们会进入一个阶段——不听从模型建议就是不理性。

人们会高度信任模型的推荐，也许出于法律原因，最终决定还需要人类按下确认键，

但实质上，我们会更多依赖模型来决定谁该做什么工作或任务，而不是依靠人类判断。

Elad Gil：人们经常说某个领域有“10倍人才”，比如编程里有些程序员比平均水平高出一个量级，医生、投资者也一样。你们的模型能识别出这种“异类”吗？

Brendan Foody：这是最让我着迷的部分之一。知识型工作的价值输出本身就是呈幂律分布的，这凸显了绩效预测的重要性。

想象一下，如果你能判断出某个工程团队中哪些人能达到90百分位的表现，

或者能识别出某个成本仅一半但表现能进前25%的人，这会极大地影响客户的决策方式，也会影响我们的商业模式长期价值的评估方式。

而这些又都回到一个核心问题：我们如何衡量客户的最终成果，并真正围绕这个目标进行构建。

Elad Gil：那么这个分布真的是幂律分布吗？因为很多人总觉得人类表现是钟形曲线（正态分布），你认为这个认知对于知识型工作来说是否正确？

Brendan Foody：这个其实是因行业而异的。比如投资行业，它就是最典型的幂律分布，每十年最顶尖的几家公司决定了大部分的成果，投资者也是赢者通吃。

而如果你是在招聘工厂工人，那这个技能就比较标准化，人与人之间的差异也不那么大。

我觉得软件工程介于两者之间，它确实有幂律特征，但可能不像顶尖投资者那样极端。

Sarah Guo：你觉得哪些领域是模型在评估方面比人类更擅长的？是因为技能分布的问题，还是因为这些技能更容易测量？

Brendan Foody：是的，只要是用文本能测量的，模型就表现得非常出色。比如你能通过面试提问，阅读答题记录，那么模型在很多领域都能达到超人类的水平。

比我一开始想象得还要领域无关（domain agnostic）。当然，有些方面模型目前还稍慢，

比如多模态信号的理解，比如这个人对工作的热情程度有多高、他在销售方面有多具说服力等，这些能力模型未来会具备，但还需要时间去发展。

这是我目前的一个思考框架。

Sarah Guo：所以如果我在面试某人时，他说了一些关于“工作动力”的漂亮话，但我并不相信，这种不信任感也许是一种高阶的预测信号？

Brendan Foody：完全没错。还有一点是，模型在处理高体量流程时更擅长。

比如你评估20个人做同一份工作，并追踪他们的实际表现，那么你很容易将某些简历或面试中的特征与其后期表现关联起来。

这是一种“堆叠排序”的逻辑。我们能理解，某个人在简历中提到的某个细节，就是导致他后期表现突出的关键。

但如果这20个人是做20种不同的工作，那因果链条就复杂得多，几乎很难找出哪些特征在起作用。

所以，那些高体量、流程标准化的招聘过程将是最容易实现自动化的部分。

劳动力转型与任务替代的临界点

Sarah Guo：首先，你有没有在你们目前正在从事的领域中，发现到了一些“识别杰出人才”的特征，是让你感到惊讶的？

Brendan Foody：这是个非常好的问题。

Sarah Guo：或者说比如在工程领域，因为那对我们很多听众来说是很相关的。

Brendan Foody：在工程方面，一个非常有趣的事情是，网上有非常多关于最优秀工程师的信号，但我觉得人们并没有真正利用好这些信号。

这些信号的来源包括他们的GitHub页面、他们网站上的个人项目、他们大学时写的博客文章。这些都因为被手动流程所限制了。

招聘经理没时间把这些材料都读一遍。他们没时间，或者对设计师来说，也没时间在开始筛选之前去看完别人Dribbble主页上的所有提案或图片。

所以我认为，人们最忽视的一类信号就是这些在线上可以找到的内容。

而对于很多可以通过面试获取的信号，比如这个人有多有热情、他是否具备你想要的技能，我觉得人类在这方面相对还可以，至少现在的适应能力会稍微强一些。

Elad Gil：那有没有一些隐藏的信号存在于那些在线作品不多的领域？比如医生、律师这些专业？

Brendan Foody：是的，有各种各样的这类信号。我们以前发现的一个有趣现象是，那些在国际上生活但在西方国家留学的人，往往更善于合作或更擅长沟通。

这类信号在事后看是很合理的，但对于一个不了解全部市场背景的人来说却很难识别和理解。

而你可以想象，最重要的事情之一就是，这个人对某个领域的内在动机和热情有多强。因此我们需要从简历、面试以及线上内容中去寻找这类信号。

我们要搞清楚：到底是什么能说明这个人热爱这个方向？这个问题不仅关乎你该雇佣谁，还关乎你该让这些人去做什么工作。

想象一下雇一个生物学博士来做生物项目，和雇一个写了关于药物发现的论文的人来设计问题、提出与论文相关的创新解决方案，这两者之间的差异。

现在我们在匹配人才和使用这些信号方面存在巨大的低效。

Elad Gil：所以你们在评估人的同时，也会对模型进行评估。

Brendan Foody：对，当然会。

Elad Gil：那你怎么看待未来人类会被这些模型取代的比例？

也就是说，如果你能比较人和模型的表现、输出，那你是怎么开始思考“替代”还是“增强”或其他相关问题的？

Brendan Foody：很多岗位的替代会来得非常快，而且会非常痛苦，也会引发重大的**问题。

我认为我们会看到一场非常大的民粹运动，围绕即将发生的这些取代现象。但经济中最重要的问题之一就是，如何应对这件事。

我们该如何安排那些现在在做客服或招聘的人在几年后去做什么？

一旦我们接近超级智能，特别是如果它的价值和收益是呈幂律分布的，那我们又该如何重新分配财富？我花了很多时间在思考这个问题将如何发展。

Elad Gil：你觉得最终会发生什么？比如说，X%的人会被从白领工作中取代，那你觉得他们该做什么？

Brendan Foody：我觉得会有更多的转向实体世界。我还觉得有很多工作会变成一种“小众化”的状态。

Elad Gil：“实体世界”是指什么？

Brendan Foody：它可以是很多事情，比如说创建机器人数据的人，也可能是餐厅里的服务员，或者是心理治疗师，

因为人们总是希望有某种“人际互动”，不管形式是什么。

我认为实体世界的自动化速度会比数字世界慢得多，这是因为数字世界中有太多自我强化式的收益与改进，而这些在实体世界中是很难实现的。

Sarah Guo：那你现在是否有个观点，比如人类应该投资于什么样的技能、知识和推理能力，来保持自身的经济价值？

Brendan Foody：有人曾问Sam Altman关于这个问题，他的回答是，人们应该优化自己去变得更有适应性、更善于学习、能快速转型。

我觉得这个说法很有共鸣。因为有太多事情你原以为模型做不了，结果它们很快就做得很好了。所以你唯一能做的就是快速适应它们的发展。

Elad Gil：那你认为，哪些特征的任务是模型最容易学会的？换句话说，如果你要总结一个启发式准则，这个准则包括哪些要素？

Brendan Foody：可验证的任务，比如数学或代码，只要能验证，最终一定会被模型攻克。

Elad Gil：所以你是说，要有反馈循环或效用函数让模型优化它的行为，对吧？

Brendan Foody：没错。对于那些无法验证的任务，比如说一个创始人的“品味”如何，那就很难被自动化。

而且这类信号也很稀疏，因为……嗯，这类任务本身就没有太多数据。

Sarah Guo：这是一个非常基础的研究问题：除了代码和数学之外，你觉得还有哪些关于“可验证性”的有趣想法？

Brendan Foody：我认为可以通过某些自动评分器，或者人类可以制定一些评估标准，然后让模型去应用这些标准。我对此的发展非常感兴趣。

当然，还有很多领域，模型会处理结构化数据，并搞清楚如何进行验证。这非常依赖行业本身。我觉得不太可能是某个实验室能够在所有领域都做到这件事。

随着我们不断前进，每个行业的边际收益也会越来越小，专精化也会越来越强。

Sarah Guo：那你是否相信，模型在代码和数学这类推理任务上表现出的智能，可以泛化到其他领域？

比如说，如果我在数学证明方面特别强，那我最终在智能上会更有优势吗？

Brendan Foody：我总体上相信这种泛化是存在的。但它还是需要在新领域中有一个合理量的数据来启动。但确实会发生很多知识迁移。

Elad Gil：学习。我觉得看Sarah做数学证明很有趣，所以我觉得这有时候……

Sarah Guo：实际上，我觉得不擅长证明反而挺有趣的。好了，我们来谈谈Evals吧，因为你现在正处在模型能力前沿的工作中。

最近人们有种“评估危机”的说法——模型变得太强，在某些能力边界上几乎难以区分。我们现在都不知道该怎么测试它们了。

更别说还有很多人会操纵基准测试。你怎么看？我们该如何评估这些模型，尤其是当它们变得超人类之后？

Brendan Foody：我认为其中最重要的一点是，过去的大多数评估任务都是“零样本”测试，比如说一条测试题目对一个模型。这种测试可能很学术化。

但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。

他还要与多个相关方协调：理解产品经理的需求，它是如何与各个团队的优先级匹配的，以及这些怎么最终落实到实际工作产出上。

所以我认为，我们将看到大量针对“Agent”的评估任务被创建。而这，正是当前实现知识型工作自动化的最大障碍。

Sarah Guo：那我们该从哪里开始呢？因为听起来这不像是特别通用的工作。

像Sierra有一个叫

上一篇: 最新实测！文心4.5T/X1T双卷王登场效果惊人，骨折价卷到DeepSeek

百度文心大模型X1 Turbo正式发布了。这个基于4 5 Turbo的深度思考模型，效果领先DeepSeek-R1、V3，且价格仅为R1的25%！而文心4 5 Turbo在低价的同时，多模态能力更是让