首页 > AI教程资讯

深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性

文章来源:08ai导航网发布时间:2025-08-13 10:50:40

图片来源:No Priors

Z Highlights

人类数据市场正经历一次巨大变革。这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。

但现在正转向“筛选”问题:要找到世界上最顶尖的人才,与研究人员一起合作,推动模型能力的边界。

我认为其中最重要的一点是,过去的大多数评估任务都是“零样本”测试,比如说一条测试题目对一个模型。这种测试可能很学术化。

但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。

他还要与多个相关方协调:理解产品经理的需求,它是如何与各个团队的优先级匹配的,以及这些怎么最终落实到实际工作产出上。

我们未来会有这些Agent来承担目前由员工执行的各类角色,它们会与人类员工并肩工作,而人类员工也会帮助构建这些评估任务。

我还认为我们市场上的合同工将在其中发挥重要作用。我们将会看到一个庞大的评估任务eval生态系统建设,为了给每家企业定制Agent。

Brendan Foody是Mercor的联合创始人兼CEO,同时也是一位Thiel Fellowship奖学金获得者,他正在推动一场关于“人才评估与分配”的根本性变革。

本文是No Priors 主持人Sarah Guo和Elad Gil与Brendan Foody的访谈实录。

AI 赋能人才评估的新范式

Brendan Foody:谢谢你邀请我。我很高兴能来到这里。

Sarah Guo:最近六个月你们公司发展得特别快,势头惊人。你能简单介绍一下Mercor到底是做什么的吗?

Brendan Foody:从宏观上来说,我们训练模型来预测一个人能否胜任某项工作,而且比人类判断得更准确。

就像人类会审阅简历、面试并决定录用谁一样,我们用LMS系统自动化了整个过程。

它的效果非常好,以至于所有顶尖AI实验室都在用它来招聘数以千计的工作人员,这些人正是在训练下一代模型。

Sarah Guo:那这些实验室现在主要在招聘什么样的技能和职位呢?

Brendan Foody:实际上,是所有具有经济价值的技能。因为强化学习的效率越来越高,只要你能设计出评估任务(evals),模型就能学习并提升对应的能力。

所以,凡是我们希望LMS精通的能力,我们都需要有相关的评估任务。这些能力从咨询、软件工程师,一直到视频游戏领域的爱好者,应有尽有。

可以说,只要是基础模型公司或应用层公司正在投入的方向,评估任务就是最上游的需求。

Elad Gil:你们现在也在帮助核心基础模型之外的公司进行类似的招聘吗?还是目前还主要集中在AI模型相关的领域?

Brendan Foody:是的,其实我们刚开始创业的时候,和“人类数据”一点关系都没有。

我们最初的出发点是:全球各地都有非常有天赋的人才,但他们没有机会,而我们可以用LMS来提升他们被发现和被雇佣的效率。

后来,我们接触了一些客户后发现,人类数据市场正经历一次巨大变革。

这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。

但现在正转向“筛选”问题:要找到世界上最顶尖的人才,与研究人员一起合作,推动模型能力的边界。

尽管如此,我们依旧保留了“为职位招聘人才”的核心基因,无论是用于人类数据还是其他用途。我们很多客户现在两方面的招聘都在做。

Elad Gil:你觉得未来所有的招聘最终都会转向由AI系统来评估人才吗?尤其是知识型工作?

Brendan Foody:我觉得是的,因为我们已经在很多评估任务中看到,模型在评估人才方面的表现比人类招聘经理更好。而且现在其实还只是早期阶段。

我认为未来我们会进入一个阶段——不听从模型建议就是不理性。

人们会高度信任模型的推荐,也许出于法律原因,最终决定还需要人类按下确认键,

但实质上,我们会更多依赖模型来决定谁该做什么工作或任务,而不是依靠人类判断。

Elad Gil:人们经常说某个领域有“10倍人才”,比如编程里有些程序员比平均水平高出一个量级,医生、投资者也一样。你们的模型能识别出这种“异类”吗?

Brendan Foody:这是最让我着迷的部分之一。知识型工作的价值输出本身就是呈幂律分布的,这凸显了绩效预测的重要性。

想象一下,如果你能判断出某个工程团队中哪些人能达到90百分位的表现,

或者能识别出某个成本仅一半但表现能进前25%的人,这会极大地影响客户的决策方式,也会影响我们的商业模式长期价值的评估方式。

而这些又都回到一个核心问题:我们如何衡量客户的最终成果,并真正围绕这个目标进行构建。

Elad Gil:那么这个分布真的是幂律分布吗?因为很多人总觉得人类表现是钟形曲线(正态分布),你认为这个认知对于知识型工作来说是否正确?

Brendan Foody:这个其实是因行业而异的。比如投资行业,它就是最典型的幂律分布,每十年最顶尖的几家公司决定了大部分的成果,投资者也是赢者通吃。

而如果你是在招聘工厂工人,那这个技能就比较标准化,人与人之间的差异也不那么大。

我觉得软件工程介于两者之间,它确实有幂律特征,但可能不像顶尖投资者那样极端。

Sarah Guo:你觉得哪些领域是模型在评估方面比人类更擅长的?是因为技能分布的问题,还是因为这些技能更容易测量?

Brendan Foody:是的,只要是用文本能测量的,模型就表现得非常出色。比如你能通过面试提问,阅读答题记录,那么模型在很多领域都能达到超人类的水平。

比我一开始想象得还要领域无关(domain agnostic)。当然,有些方面模型目前还稍慢,

比如多模态信号的理解,比如这个人对工作的热情程度有多高、他在销售方面有多具说服力等,这些能力模型未来会具备,但还需要时间去发展。

这是我目前的一个思考框架。

Sarah Guo:所以如果我在面试某人时,他说了一些关于“工作动力”的漂亮话,但我并不相信,这种不信任感也许是一种高阶的预测信号?

Brendan Foody:完全没错。还有一点是,模型在处理高体量流程时更擅长。

比如你评估20个人做同一份工作,并追踪他们的实际表现,那么你很容易将某些简历或面试中的特征与其后期表现关联起来。

这是一种“堆叠排序”的逻辑。我们能理解,某个人在简历中提到的某个细节,就是导致他后期表现突出的关键。

但如果这20个人是做20种不同的工作,那因果链条就复杂得多,几乎很难找出哪些特征在起作用。

所以,那些高体量、流程标准化的招聘过程将是最容易实现自动化的部分。

劳动力转型与任务替代的临界点

Sarah Guo:首先,你有没有在你们目前正在从事的领域中,发现到了一些“识别杰出人才”的特征,是让你感到惊讶的?

Brendan Foody:这是个非常好的问题。

Sarah Guo:或者说比如在工程领域,因为那对我们很多听众来说是很相关的。

Brendan Foody:在工程方面,一个非常有趣的事情是,网上有非常多关于最优秀工程师的信号,但我觉得人们并没有真正利用好这些信号。

这些信号的来源包括他们的GitHub页面、他们网站上的个人项目、他们大学时写的博客文章。这些都因为被手动流程所限制了。

招聘经理没时间把这些材料都读一遍。他们没时间,或者对设计师来说,也没时间在开始筛选之前去看完别人Dribbble主页上的所有提案或图片。

所以我认为,人们最忽视的一类信号就是这些在线上可以找到的内容。

而对于很多可以通过面试获取的信号,比如这个人有多有热情、他是否具备你想要的技能,我觉得人类在这方面相对还可以,至少现在的适应能力会稍微强一些。

Elad Gil:那有没有一些隐藏的信号存在于那些在线作品不多的领域?比如医生、律师这些专业?

Brendan Foody:是的,有各种各样的这类信号。我们以前发现的一个有趣现象是,那些在国际上生活但在西方国家留学的人,往往更善于合作或更擅长沟通。

这类信号在事后看是很合理的,但对于一个不了解全部市场背景的人来说却很难识别和理解。

而你可以想象,最重要的事情之一就是,这个人对某个领域的内在动机和热情有多强。因此我们需要从简历、面试以及线上内容中去寻找这类信号。

我们要搞清楚:到底是什么能说明这个人热爱这个方向?这个问题不仅关乎你该雇佣谁,还关乎你该让这些人去做什么工作。

想象一下雇一个生物学博士来做生物项目,和雇一个写了关于药物发现的论文的人来设计问题、提出与论文相关的创新解决方案,这两者之间的差异。

现在我们在匹配人才和使用这些信号方面存在巨大的低效。

Elad Gil:所以你们在评估人的同时,也会对模型进行评估。

Brendan Foody:对,当然会。

Elad Gil:那你怎么看待未来人类会被这些模型取代的比例?

也就是说,如果你能比较人和模型的表现、输出,那你是怎么开始思考“替代”还是“增强”或其他相关问题的?

Brendan Foody:很多岗位的替代会来得非常快,而且会非常痛苦,也会引发重大的**问题。

我认为我们会看到一场非常大的民粹运动,围绕即将发生的这些取代现象。但经济中最重要的问题之一就是,如何应对这件事。

我们该如何安排那些现在在做客服或招聘的人在几年后去做什么?

一旦我们接近超级智能,特别是如果它的价值和收益是呈幂律分布的,那我们又该如何重新分配财富?我花了很多时间在思考这个问题将如何发展。

Elad Gil:你觉得最终会发生什么?比如说,X%的人会被从白领工作中取代,那你觉得他们该做什么?

Brendan Foody:我觉得会有更多的转向实体世界。我还觉得有很多工作会变成一种“小众化”的状态。

Elad Gil:“实体世界”是指什么?

Brendan Foody:它可以是很多事情,比如说创建机器人数据的人,也可能是餐厅里的服务员,或者是心理治疗师,

因为人们总是希望有某种“人际互动”,不管形式是什么。

我认为实体世界的自动化速度会比数字世界慢得多,这是因为数字世界中有太多自我强化式的收益与改进,而这些在实体世界中是很难实现的。

Sarah Guo:那你现在是否有个观点,比如人类应该投资于什么样的技能、知识和推理能力,来保持自身的经济价值?

Brendan Foody:有人曾问Sam Altman关于这个问题,他的回答是,人们应该优化自己去变得更有适应性、更善于学习、能快速转型。

我觉得这个说法很有共鸣。因为有太多事情你原以为模型做不了,结果它们很快就做得很好了。所以你唯一能做的就是快速适应它们的发展。

Elad Gil:那你认为,哪些特征的任务是模型最容易学会的?换句话说,如果你要总结一个启发式准则,这个准则包括哪些要素?

Brendan Foody:可验证的任务,比如数学或代码,只要能验证,最终一定会被模型攻克。

Elad Gil:所以你是说,要有反馈循环或效用函数让模型优化它的行为,对吧?

Brendan Foody:没错。对于那些无法验证的任务,比如说一个创始人的“品味”如何,那就很难被自动化。

而且这类信号也很稀疏,因为……嗯,这类任务本身就没有太多数据。

Sarah Guo:这是一个非常基础的研究问题:除了代码和数学之外,你觉得还有哪些关于“可验证性”的有趣想法?

Brendan Foody:我认为可以通过某些自动评分器,或者人类可以制定一些评估标准,然后让模型去应用这些标准。我对此的发展非常感兴趣。

当然,还有很多领域,模型会处理结构化数据,并搞清楚如何进行验证。这非常依赖行业本身。我觉得不太可能是某个实验室能够在所有领域都做到这件事。

随着我们不断前进,每个行业的边际收益也会越来越小,专精化也会越来越强。

Sarah Guo:那你是否相信,模型在代码和数学这类推理任务上表现出的智能,可以泛化到其他领域?

比如说,如果我在数学证明方面特别强,那我最终在智能上会更有优势吗?

Brendan Foody:我总体上相信这种泛化是存在的。但它还是需要在新领域中有一个合理量的数据来启动。但确实会发生很多知识迁移。

Elad Gil:学习。我觉得看Sarah做数学证明很有趣,所以我觉得这有时候……

Sarah Guo:实际上,我觉得不擅长证明反而挺有趣的。好了,我们来谈谈Evals吧,因为你现在正处在模型能力前沿的工作中。

最近人们有种“评估危机”的说法——模型变得太强,在某些能力边界上几乎难以区分。我们现在都不知道该怎么测试它们了。

更别说还有很多人会操纵基准测试。你怎么看?我们该如何评估这些模型,尤其是当它们变得超人类之后?

Brendan Foody:我认为其中最重要的一点是,过去的大多数评估任务都是“零样本”测试,比如说一条测试题目对一个模型。这种测试可能很学术化。

但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。

他还要与多个相关方协调:理解产品经理的需求,它是如何与各个团队的优先级匹配的,以及这些怎么最终落实到实际工作产出上。

所以我认为,我们将看到大量针对“Agent”的评估任务被创建。而这,正是当前实现知识型工作自动化的最大障碍。

Sarah Guo:那我们该从哪里开始呢?因为听起来这不像是特别通用的工作。

像Sierra有一个叫