文章来源:08ai导航网发布时间:2025-08-13 10:50:40
图片来源:No Priors
人类数据市场正经历一次巨大变革。这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。
但现在正转向“筛选”问题:要找到世界上最顶尖的人才,与研究人员一起合作,推动模型能力的边界。
我认为其中最重要的一点是,过去的大多数评估任务都是“零样本”测试,比如说一条测试题目对一个模型。这种测试可能很学术化。
但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。
他还要与多个相关方协调:理解产品经理的需求,它是如何与各个团队的优先级匹配的,以及这些怎么最终落实到实际工作产出上。
我们未来会有这些Agent来承担目前由员工执行的各类角色,它们会与人类员工并肩工作,而人类员工也会帮助构建这些评估任务。
我还认为我们市场上的合同工将在其中发挥重要作用。我们将会看到一个庞大的评估任务eval生态系统建设,为了给每家企业定制Agent。
Brendan Foody是Mercor的联合创始人兼CEO,同时也是一位Thiel Fellowship奖学金获得者,他正在推动一场关于“人才评估与分配”的根本性变革。
本文是No Priors 主持人Sarah Guo和Elad Gil与Brendan Foody的访谈实录。
Brendan Foody:谢谢你邀请我。我很高兴能来到这里。
Sarah Guo:最近六个月你们公司发展得特别快,势头惊人。你能简单介绍一下Mercor到底是做什么的吗?
Brendan Foody:从宏观上来说,我们训练模型来预测一个人能否胜任某项工作,而且比人类判断得更准确。
就像人类会审阅简历、面试并决定录用谁一样,我们用LMS系统自动化了整个过程。
它的效果非常好,以至于所有顶尖AI实验室都在用它来招聘数以千计的工作人员,这些人正是在训练下一代模型。
Sarah Guo:那这些实验室现在主要在招聘什么样的技能和职位呢?
Brendan Foody:实际上,是所有具有经济价值的技能。因为强化学习的效率越来越高,只要你能设计出评估任务(evals),模型就能学习并提升对应的能力。
所以,凡是我们希望LMS精通的能力,我们都需要有相关的评估任务。这些能力从咨询、软件工程师,一直到视频游戏领域的爱好者,应有尽有。
可以说,只要是基础模型公司或应用层公司正在投入的方向,评估任务就是最上游的需求。
Elad Gil:你们现在也在帮助核心基础模型之外的公司进行类似的招聘吗?还是目前还主要集中在AI模型相关的领域?
Brendan Foody:是的,其实我们刚开始创业的时候,和“人类数据”一点关系都没有。
我们最初的出发点是:全球各地都有非常有天赋的人才,但他们没有机会,而我们可以用LMS来提升他们被发现和被雇佣的效率。
后来,我们接触了一些客户后发现,人类数据市场正经历一次巨大变革。
这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。
但现在正转向“筛选”问题:要找到世界上最顶尖的人才,与研究人员一起合作,推动模型能力的边界。
尽管如此,我们依旧保留了“为职位招聘人才”的核心基因,无论是用于人类数据还是其他用途。我们很多客户现在两方面的招聘都在做。
Elad Gil:你觉得未来所有的招聘最终都会转向由AI系统来评估人才吗?尤其是知识型工作?
Brendan Foody:我觉得是的,因为我们已经在很多评估任务中看到,模型在评估人才方面的表现比人类招聘经理更好。而且现在其实还只是早期阶段。
我认为未来我们会进入一个阶段——不听从模型建议就是不理性。
人们会高度信任模型的推荐,也许出于法律原因,最终决定还需要人类按下确认键,
但实质上,我们会更多依赖模型来决定谁该做什么工作或任务,而不是依靠人类判断。
Elad Gil:人们经常说某个领域有“10倍人才”,比如编程里有些程序员比平均水平高出一个量级,医生、投资者也一样。你们的模型能识别出这种“异类”吗?
Brendan Foody:这是最让我着迷的部分之一。知识型工作的价值输出本身就是呈幂律分布的,这凸显了绩效预测的重要性。
想象一下,如果你能判断出某个工程团队中哪些人能达到90百分位的表现,
或者能识别出某个成本仅一半但表现能进前25%的人,这会极大地影响客户的决策方式,也会影响我们的商业模式长期价值的评估方式。
而这些又都回到一个核心问题:我们如何衡量客户的最终成果,并真正围绕这个目标进行构建。
Elad Gil:那么这个分布真的是幂律分布吗?因为很多人总觉得人类表现是钟形曲线(正态分布),你认为这个认知对于知识型工作来说是否正确?
Brendan Foody:这个其实是因行业而异的。比如投资行业,它就是最典型的幂律分布,每十年最顶尖的几家公司决定了大部分的成果,投资者也是赢者通吃。
而如果你是在招聘工厂工人,那这个技能就比较标准化,人与人之间的差异也不那么大。
我觉得软件工程介于两者之间,它确实有幂律特征,但可能不像顶尖投资者那样极端。
Sarah Guo:你觉得哪些领域是模型在评估方面比人类更擅长的?是因为技能分布的问题,还是因为这些技能更容易测量?
Brendan Foody:是的,只要是用文本能测量的,模型就表现得非常出色。比如你能通过面试提问,阅读答题记录,那么模型在很多领域都能达到超人类的水平。
比我一开始想象得还要领域无关(domain agnostic)。当然,有些方面模型目前还稍慢,
比如多模态信号的理解,比如这个人对工作的热情程度有多高、他在销售方面有多具说服力等,这些能力模型未来会具备,但还需要时间去发展。
这是我目前的一个思考框架。
Sarah Guo:所以如果我在面试某人时,他说了一些关于“工作动力”的漂亮话,但我并不相信,这种不信任感也许是一种高阶的预测信号?
Brendan Foody:完全没错。还有一点是,模型在处理高体量流程时更擅长。
比如你评估20个人做同一份工作,并追踪他们的实际表现,那么你很容易将某些简历或面试中的特征与其后期表现关联起来。
这是一种“堆叠排序”的逻辑。我们能理解,某个人在简历中提到的某个细节,就是导致他后期表现突出的关键。
但如果这20个人是做20种不同的工作,那因果链条就复杂得多,几乎很难找出哪些特征在起作用。
所以,那些高体量、流程标准化的招聘过程将是最容易实现自动化的部分。
Sarah Guo:首先,你有没有在你们目前正在从事的领域中,发现到了一些“识别杰出人才”的特征,是让你感到惊讶的?
Brendan Foody:这是个非常好的问题。
Sarah Guo:或者说比如在工程领域,因为那对我们很多听众来说是很相关的。
Brendan Foody:在工程方面,一个非常有趣的事情是,网上有非常多关于最优秀工程师的信号,但我觉得人们并没有真正利用好这些信号。
这些信号的来源包括他们的GitHub页面、他们网站上的个人项目、他们大学时写的博客文章。这些都因为被手动流程所限制了。
招聘经理没时间把这些材料都读一遍。他们没时间,或者对设计师来说,也没时间在开始筛选之前去看完别人Dribbble主页上的所有提案或图片。
所以我认为,人们最忽视的一类信号就是这些在线上可以找到的内容。
而对于很多可以通过面试获取的信号,比如这个人有多有热情、他是否具备你想要的技能,我觉得人类在这方面相对还可以,至少现在的适应能力会稍微强一些。
Elad Gil:那有没有一些隐藏的信号存在于那些在线作品不多的领域?比如医生、律师这些专业?
Brendan Foody:是的,有各种各样的这类信号。我们以前发现的一个有趣现象是,那些在国际上生活但在西方国家留学的人,往往更善于合作或更擅长沟通。
这类信号在事后看是很合理的,但对于一个不了解全部市场背景的人来说却很难识别和理解。
而你可以想象,最重要的事情之一就是,这个人对某个领域的内在动机和热情有多强。因此我们需要从简历、面试以及线上内容中去寻找这类信号。
我们要搞清楚:到底是什么能说明这个人热爱这个方向?这个问题不仅关乎你该雇佣谁,还关乎你该让这些人去做什么工作。
想象一下雇一个生物学博士来做生物项目,和雇一个写了关于药物发现的论文的人来设计问题、提出与论文相关的创新解决方案,这两者之间的差异。
现在我们在匹配人才和使用这些信号方面存在巨大的低效。
Elad Gil:所以你们在评估人的同时,也会对模型进行评估。
Brendan Foody:对,当然会。
Elad Gil:那你怎么看待未来人类会被这些模型取代的比例?
也就是说,如果你能比较人和模型的表现、输出,那你是怎么开始思考“替代”还是“增强”或其他相关问题的?
Brendan Foody:很多岗位的替代会来得非常快,而且会非常痛苦,也会引发重大的**问题。
我认为我们会看到一场非常大的民粹运动,围绕即将发生的这些取代现象。但经济中最重要的问题之一就是,如何应对这件事。
我们该如何安排那些现在在做客服或招聘的人在几年后去做什么?
一旦我们接近超级智能,特别是如果它的价值和收益是呈幂律分布的,那我们又该如何重新分配财富?我花了很多时间在思考这个问题将如何发展。
Elad Gil:你觉得最终会发生什么?比如说,X%的人会被从白领工作中取代,那你觉得他们该做什么?
Brendan Foody:我觉得会有更多的转向实体世界。我还觉得有很多工作会变成一种“小众化”的状态。
Elad Gil:“实体世界”是指什么?
Brendan Foody:它可以是很多事情,比如说创建机器人数据的人,也可能是餐厅里的服务员,或者是心理治疗师,
因为人们总是希望有某种“人际互动”,不管形式是什么。
我认为实体世界的自动化速度会比数字世界慢得多,这是因为数字世界中有太多自我强化式的收益与改进,而这些在实体世界中是很难实现的。
Sarah Guo:那你现在是否有个观点,比如人类应该投资于什么样的技能、知识和推理能力,来保持自身的经济价值?
Brendan Foody:有人曾问Sam Altman关于这个问题,他的回答是,人们应该优化自己去变得更有适应性、更善于学习、能快速转型。
我觉得这个说法很有共鸣。因为有太多事情你原以为模型做不了,结果它们很快就做得很好了。所以你唯一能做的就是快速适应它们的发展。
Elad Gil:那你认为,哪些特征的任务是模型最容易学会的?换句话说,如果你要总结一个启发式准则,这个准则包括哪些要素?
Brendan Foody:可验证的任务,比如数学或代码,只要能验证,最终一定会被模型攻克。
Elad Gil:所以你是说,要有反馈循环或效用函数让模型优化它的行为,对吧?
Brendan Foody:没错。对于那些无法验证的任务,比如说一个创始人的“品味”如何,那就很难被自动化。
而且这类信号也很稀疏,因为……嗯,这类任务本身就没有太多数据。
Sarah Guo:这是一个非常基础的研究问题:除了代码和数学之外,你觉得还有哪些关于“可验证性”的有趣想法?
Brendan Foody:我认为可以通过某些自动评分器,或者人类可以制定一些评估标准,然后让模型去应用这些标准。我对此的发展非常感兴趣。
当然,还有很多领域,模型会处理结构化数据,并搞清楚如何进行验证。这非常依赖行业本身。我觉得不太可能是某个实验室能够在所有领域都做到这件事。
随着我们不断前进,每个行业的边际收益也会越来越小,专精化也会越来越强。
Sarah Guo:那你是否相信,模型在代码和数学这类推理任务上表现出的智能,可以泛化到其他领域?
比如说,如果我在数学证明方面特别强,那我最终在智能上会更有优势吗?
Brendan Foody:我总体上相信这种泛化是存在的。但它还是需要在新领域中有一个合理量的数据来启动。但确实会发生很多知识迁移。
Elad Gil:学习。我觉得看Sarah做数学证明很有趣,所以我觉得这有时候……
Sarah Guo:实际上,我觉得不擅长证明反而挺有趣的。好了,我们来谈谈Evals吧,因为你现在正处在模型能力前沿的工作中。
最近人们有种“评估危机”的说法——模型变得太强,在某些能力边界上几乎难以区分。我们现在都不知道该怎么测试它们了。
更别说还有很多人会操纵基准测试。你怎么看?我们该如何评估这些模型,尤其是当它们变得超人类之后?
Brendan Foody:我认为其中最重要的一点是,过去的大多数评估任务都是“零样本”测试,比如说一条测试题目对一个模型。这种测试可能很学术化。
但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。
他还要与多个相关方协调:理解产品经理的需求,它是如何与各个团队的优先级匹配的,以及这些怎么最终落实到实际工作产出上。
所以我认为,我们将看到大量针对“Agent”的评估任务被创建。而这,正是当前实现知识型工作自动化的最大障碍。
Sarah Guo:那我们该从哪里开始呢?因为听起来这不像是特别通用的工作。
像Sierra有一个叫
相关攻略 更多
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek
3年估值暴涨50倍,OpenAI欲重金收购的MIT团队做了什么?
拜拜邀请码!首个现货超级智能体实测
GPT-4.5功臣遭驱逐!奥特曼盛赞工作出色,美国深陷AI人才危机
OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS25春季上新!
美国政府「AI行动计划」万言书发布!OpenAI与Anthropic呼吁联手封锁中国AI
GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化,背后贡献者也能扒|免费
最新资讯 更多
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
更新时间:2025-08-13
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek
更新时间:2025-08-13
3年估值暴涨50倍,OpenAI欲重金收购的MIT团队做了什么?
更新时间:2025-08-13
拜拜邀请码!首个现货超级智能体实测
更新时间:2025-08-13
GPT-4.5功臣遭驱逐!奥特曼盛赞工作出色,美国深陷AI人才危机
更新时间:2025-08-13
OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS25春季上新!
更新时间:2025-08-13
美国政府「AI行动计划」万言书发布!OpenAI与Anthropic呼吁联手封锁中国AI
更新时间:2025-08-13
GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化,背后贡献者也能扒|免费
更新时间:2025-08-13
炸裂!DeepMind发布Lyria2音乐生成模型!
更新时间:2025-08-13
20万美元奖金池!WBCD'25双臂机器人挑战赛全球启幕,还有数十万美金硬件支持
更新时间:2025-08-13