首页 > AI教程资讯

刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文

文章来源:万象ai发布时间:2025-08-01 14:55:56

在这届ACL大会上,华人团队收获颇丰。

ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第63届,于2025年7月27日至8月1日在奥地利维也纳举行。

今年总投稿数创历史之最,高达8000多篇(去年为4407篇),分为主会论文和Findings,二者的接收率分别为20.3%和16.7%。

根据官方数据分析,在所有论文的第一作者中,超过半数作者来自中国(51.3%),而去年不到三成(30.6%)。紧随中国,美国作者的数量排名第二,但只占14.0%。

今年共评选出4篇最佳论文,2篇最佳社会影响力论文、3篇最佳资源论文、3篇最佳主题论文、26篇杰出论文,2篇TACL最佳论文、1篇最佳Demo论文以及47篇SACHighlights。

以下是具体的获奖信息。

最佳论文奖

在本届4篇最佳论文中,DeepSeek(梁文锋参与撰写)团队以及北大杨耀东团队摘得了其中的两篇,另外两篇则由CISPA亥姆霍兹信息安全中心&TCSResearch&微软团队以及斯坦福大学&CornellTech团队获得。

论文1:ATheoryofResponseSamplinginLLMs:PartDescriptiveandPartPrescriptive

作者:AngelinaWang,MichellePhan,DanielE.Ho,SanmiKoyejo

机构:CISPA亥姆霍兹信息安全中心、TCSResearch、微软

论文地址:https://arxiv.org/abs/2502.01926

论文摘要:大型语言模型(LLM)在自主决策中的应用日益广泛,它们从广阔的行动空间中采样选项。然而,指导这一采样过程的启发式方法仍未得到充分探索。该团队研究了这种采样行为,并表明其底层启发式方法与人类决策的启发式方法相似:由概念的描述性成分(反映统计常态)和规范性成分(LLM中编码的隐含理想值)组成。

该团队表明,样本偏离统计常态向规范性成分的偏差,在公共卫生、经济趋势等各种现实世界领域的概念中始终存在。为了进一步阐明这一理论,该团队证明LLM中的概念原型会受到规范性规范的影响,类似于人类的「正常」概念。

通过案例研究和与人类研究的比较,该团队表明在现实世界的应用中,LLM输出中样本向理想值的偏移可能导致决策出现显著偏差,从而引发伦理担忧。

论文2:FairnessthroughDifferenceAwareness:MeasuringDesiredGroupDiscriminationinLLMs

作者:AngelinaWang,MichellePhan,DanielE.Ho,SanmiKoyejo

机构:斯坦福大学、CornellTech

论文地址:https://arxiv.org/abs/2502.01926

论文摘要:算法公平性传统上采用了种族色盲(即无差异对待)这种数学上方便的视角。然而,该团队认为,在一系列重要的情境中,群体差异意识至关重要。例如,在法律语境和危害评估中,区分不同群体可能是必要的。因此,与大多数公平性研究不同,我们通过区别对待人们的视角来研究公平性——在合适的情境下。

该团队首先引入了描述性(基于事实)、规范性(基于价值观)和相关性(基于关联)基准之间的重要区别。这一区别至关重要,因为每个类别都需要根据其具体特征进行单独的解释和缓解。

然后,他们提出了一个由八个不同场景组成的基准套件,总共包含16,000个问题,使我们能够评估差异意识。

最后,该研究展示了十个模型的结果,这些结果表明差异意识是公平的一个独特维度,现有的偏见缓解策略可能会适得其反。

论文3:LanguageModelsResistAlignment:EvidenceFromDataCompression

论文地址:https://aclanthology.org/2025.acl-long.1141.pdf

项目地址:https://pku-lm-resist-alignment.github.io

该论文首次从理论与实验层面系统性揭示:大模型并非可以任意塑造的白纸,其参数结构中存在一种弹性机制——该机制源自预训练阶段,具备驱动模型分布回归的结构性惯性,使得模型在微调后仍可能弹回预训练状态,进而抵抗人类赋予的新指令,导致模型产生抗拒对齐的行为。这意味着对齐的难度远超预期,后训练(Post-training)所需的资源与算力可能不仅不能减少,反而需要与预训练阶段相当,甚至更多。

论文指出:模型规模越大、预训练越充分,其弹性越强,对齐时发生回弹的风险也越高。换言之,目前看似有效的对齐方法可能仅停留在表面、浅层,要实现深入模型内部机制的稳健对齐仍任重道远。这一发现对AI安全与对齐提出了严峻挑战:模型可能不仅学不动,甚至可能装作学会了,这意味着当前LLMs、VLMs及VLAs的预训练与后训练微调对齐过程面临新的难题。

ACL2025审稿人及大会**高度认可该项研究。一致认为,论文提出「弹性」概念突破性地揭示了大语言模型在对齐过程中的抵抗与回弹机制,为长期困扰该领域的对齐脆弱性问题提供了新的理论视角与坚实基础。领域**则进一步指出,论文在压缩理论、模型扩展性与安全对齐之间搭建起桥梁,不仅实证扎实、理论深入,更具深远的治理和安全启发意义。

论文的(独立)通讯作者为杨耀东博士,现任北京大学人工智能研究院研究员、智源学者(大模型安全负责人)、北大-灵初智能联合实验室首席科学家。

论文的第一作者均为杨耀东课题组成员,包括:吉嘉铭,王恺乐,邱天异,陈博远,周嘉懿。合作者包括智源研究院安全中心研究员戴俊韬博士以及北大计算机学院刘云淮教授。

论文4:NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention

作者:JingyangYuan,HuazuoGao,DamaiDai,JunyuLuo,LiangZhao,ZhengyanZhang,ZhendaXie,Y.X.Wei,LeanWang,ZhipingXiao,YuqingWang,ChongRuan,MingZhang,WenfengLiang,WangdingZeng

机构:DeepSeek、北大、华盛顿大学

论文地址:https://arxiv.org/pdf/2502.11089

论文摘要:这篇论文由幻方科技、DeepSeek创始人梁文锋亲自挂名,提出了一种新的注意力机制——NSA。这是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。

长上下文建模是下一代大型语言模型(LLM)的关键能力,这一需求源于多样化的实际应用,包括深度推理、仓库级代码生成以及多轮自动智能体系统等。

实现高效长上下文建模的自然方法是利用softmax注意力的固有稀疏性,通过选择性计算关键query-key对,可以显著减少计算开销,同时保持性能。最近这一路线的进展包括多种策略:KV缓存淘汰方法、块状KV缓存选择方法以及基于采样、聚类或哈希的选择方法。尽管这些策略前景广阔,现有的稀疏注意力方法在实际部署中往往表现不佳。许多方法未能实现与其理论增益相媲美的加速;此外,大多数方法主要关注推理阶段,缺乏有效的训练时支持以充分利用注意力的稀疏模式。

为了克服这些限制,部署有效的稀疏注意力必须应对两个关键挑战:硬件对齐的推理加速和训练感知的算法设计。这些要求对于实际应用实现快速长上下文推理或训练至关重要。在考虑这两方面时,现有方法仍显不足。

因此,为了实现更有效和高效的稀疏注意力,DeepSeek提出了一种原生可训练的稀疏注意力架构NSA,它集成了分层token建模。

如下图所示,NSA通过将键和值组织成时间块(temporalblocks)并通过三条注意力路径处理它们来减少每查询计算量:压缩的粗粒度token、选择性保留的细粒度token以及用于局部上下文信息的滑动窗口。随后,作者实现了专门的核以最大化其实际效率。

研究通过对现实世界语言语料库的综合实验来评估NSA。在具有260Btoken的27B参数Transformer骨干上进行预训练,作者评估了NSA在通用语言评估、长上下文评估和链式推理评估中的表现。作者还进一步比较了在A100GPU上内核速度与优化Triton实现的比较。实验结果表明,NSA实现了与FullAttention基线相当或更优的性能,同时优于现有的稀疏注意力方法。

此外,与FullAttention相比,NSA在解码、前向和后向阶段提供了明显的加速,且加速比随着序列长度的增加而增加。这些结果验证了分层稀疏注意力设计有效地平衡了模型能力和计算效率。

杰出论文奖

ACL2025共选出了26篇杰出论文,足足占据了6页幻灯片:

1、ANewFormulationofZipf"sMeaning-FrequencyLawthroughContextualDiversity.

2、AllThatGlittersisNotNovel:PlagiarisminAlGeneratedResearch.

3、BetweenCircuitsandChomsky:Pre-pretrainingonFormalLanguagesImpartsLinguisticBiases.

4、BeyondN-Grams:RethinkingEvaluationMetricsandStrategiesforMultilingualAbstractiveSummarization

5、BridgingtheLanguageGapsinLargeLanguageModeiswithinference-TimeCross-LingualIntervention.

6、ByteLatentTransformer:PatchesScaleBetterThanTokens.

7、CapabilitySalienceVector:Fine-grainedAlignmentofLossandCapabilitiesforDownstreamTaskScalingLaw.

8、FromRealtoSynthetic:SynthesizingMillionsofDiversifiedandComplicatedUserInstructionswithAttributedGrounding.

9、HALoGEN:FantastictiMHallucinationsandWheretoFindThem,

10、HateDay:InsightsfromaGlobalHateSpeechDatasetRepresentativeofaDayonTwitter.

11、IoT:EmbeddingStandardizationMethodTowardsZeroModalityGap.

12、IndicSynth:ALarge-ScaleMultilingualSyntheticSpeechDatasetforLow-ResourceIndianLanguages.

13、LaTIM:MeasuringLatentToken-to-TokenInteractionsinMambaModels.

14、LlamaSee,LlamaDo:AMechanisticPerspectiveonContextualEntrainmentandDistractioninLLMs.

15、LLMsknowtheirvulnerabilities:UncoverSafetyGapsthroughNaturalDistributionShifts.

16、Mapping1,0o0+LanguageModelsviatheLog-LikelihoodVector.

17、MiniLongBench:TheLow-costLongContextUnderstandingBenchmarkforLargeLanguageModels.

18、PARME:ParallelCorporaforLow-ResourcedMiddleEasternLanguages.

19、PastMeetsPresent:CreatingHistoricalAnalogywithLargeLanguageModels.

20、Pre3:EnablingDeterministicPushdownAutomataforFasterStructuredLLMGeneration.

21、RethinkingtheRoleofPromptingStrategiesinLLMTest-TimeScaling:APerspectiveofProbabilityTheory.

22、RevisitingCompositionalGeneralizationCapabilityofLargeLanguageModelsConsideringInstructionFollowingAbility.

23、TowardAutomaticDiscoveryofaCaninePhoneticAlphabet.

24、TowardstheLawofCapacityGapinDistillingLanguageModels.

25、TuningTrashintoTreasure:AcceleratingInferenceofLargeLanguageModelswithTokenRecycling.

26、Typology-GuidedAdaptationforAfricanNLP.

最佳Demo论文奖

获奖论文:OLMoTrace:TracingLanguageModelOutputsBacktoTrillionsofTrainingTokens

作者:JiachengLiu等

机构:艾伦人工智能研究所等

链接:https://arxiv.org/pdf/2504.07096

简介:论文提出了OLMOTRACE——首个能够实时将语言模型的输出追溯回其完整、数万亿token级别训练数据的系统。

最佳主题论文奖

论文1:MaCP:MinimalyetMightyAdaptationviaHierarchicalCosineProjection.

作者:YixianShen,QiBi,Jia-HongHuang,HongyiZhu,AndyD.Pimentel,AnujPathania

机构:阿姆斯特丹大学

链接:https://arxiv.org/pdf/2505.23870

简介:该论文提出了一种新的自适应方法MaCP,即简约而强大的自适应余弦投影(MinimalyetMightyadaptiveCosineProjection),该方法在对大型基础模型进行微调时,仅需极少的参数和内存,却能实现卓越的性能。

论文2:Meta-rater:AMulti-dimensionalDataSelectionMethodforPre-trainingLanguageModels

作者:XinlinZhuang、JiahuiPeng、RenMa等

机构:上海人工智能实验室、华东师范大学

链接:https://arxiv.org/pdf/2504.14194

简介:论文提出用四个维度来衡量数据质量:专业性、可读性、推理深度和整洁度,并进一步提出Meta-rater:一种**数据选择方法,将上述维度与既有质量指标通过习得的最优权重整合。

论文3:SubLlME:SubsetSelectionviaRankCorrelationPredictionforData-EfficientLLMEvaluation

作者:GayathriSaranathan、CongXu等

机构:惠普实验室等

链接:https://aclanthology.org/2025.acl-long.1477.pdf

简介:大型语言模型与自然语言处理数据集的迅速扩张,使得进行穷尽式基准测试在计算上变得不可行。受国际数学奥林匹克等高规格竞赛的启发——只需少量精心设计的题目即可区分顶尖选手——论文提出SubLIME,可在保留排名保真度的同时,将评估成本降低80%至99%。

TACL最佳论文奖

ACL2025颁发了两篇TACL最佳论文,分别如下:

论文1:WeaklySupervisedLearningofSemanticParsersforMappingInstructionstoActions.

作者:YoavArtzi、LukeZettlemoyer

机构:华盛顿大学

论文链接:https://www.semanticscholar.org/paper/Weakly-Supervised-Learning-of-Semantic-Parsers-for-Artzi-Zettlemoyer/cde902f11b0870c695428d865a35eb819b1d24b7

简介:语言所处的上下文为学习其含义提供了强有力的信号。本文展示了如何在一个具身的CCG语义解析方法中利用这一点,该方法学习了一个联合的意义与上下文模型,用于解释并执行自然语言指令,并可适用于多种类型的弱监督方式。

论文2:ReadingSubtext:EvaluatingLargeLanguageModelsonShortStorySummarizationwithWriters.

作者:MelanieSubbiah,SeanZhang,LydiaB.Chilton、KathleenMcKeown.

机构:哥伦比亚大学

论文链接:https://arxiv.org/pdf/2403.01061

简介:本文评估了当前主流的大型语言模型(LLMs)在摘要短篇小说这一具有挑战性的任务中的表现。该任务涉及较长文本,并常常包含微妙的潜台词或被打乱的时间线。本文进行了定量与定性分析,对GPT-4、Claude-2.1和LLaMA-2-70B三种模型进行了比较。研究发现,这三种模型在超过50%的摘要中都出现了事实性错误,并在处理细节性内容和复杂潜台词的理解方面存在困难。

时间检验奖

今年,ACL宣布了两个时间检验奖:25-YearToTAward(2000)和10-YearToTAward(2015),即二十五年时间检验奖和十年时间检验奖。

二十五年时间检验奖(来自ACL2000):AutomaticLabelingofSemanticRoles

作者:DanielGildea、DanielJurafsky

机构:加州大学伯克利分校、科罗拉多大学

地址:https://aclanthology.org/P00-1065.pdf

这篇论文提出了一个系统,可用于识别句子成分在语义框架内所承担的语义关系或语义角色。该系统可从句法分析树中提取各种词汇和句法特征,并利用人工标注的训练数据来构建统计分类器。ACL在官方声明中称,这是一篇奠定了语义角色标注及其后续研究的基础性论文。目前,该论文的被引量为2650。

该论文的两位作者——DanielGildea现在是美国罗切斯特大学计算机科学系的教授;DanielJurafsky是斯坦福大学语言学和计算机科学系教授,也是自然语言处理领域的泰斗级人物,他与JamesH.Martin合著的《语音与语言处理》(SpeechandLanguageProcessing)被翻译成60多种语言,是全球NLP领域最经典的教科书之一。

十年时间检验奖(来自EMNLP2015):EffectiveApproachestoAttention-basedNeuralMachineTranslation

作者:Minh-ThangLuong、HieuPham、ChristopherD.Manning

机构:斯坦福大学计算机科学系

地址:https://aclanthology.org/D15-1166/

这篇论文由大名鼎鼎的ChristopherD.Manning团队撰写。ACL官方称其为有关神经机器翻译和注意力机制的里程碑之作。

当时,注意力机制已经被用于改进神经机器翻译,通过在翻译过程中选择性地关注源句子的部分内容来提升性能。然而,针对基于注意力的神经机器翻译探索有效架构的工作还很少。这篇论文研究了两类简单而有效的注意力机制:全局方法——始终关注所有源词;局部方法——每次只关注源词的一个子集。论文在WMT英德双向翻译任务上验证了这两种方法的有效性。使用局部注意力机制,作者在已经融合了dropout等已知技术的非注意力系统基础上取得了5.0个BLEU分数点的显著提升。他们使用不同注意力架构的集成模型在WMT"15英译德翻译任务上取得了新的SOTA结果,达到25.9BLEU分数,比当时基于神经机器翻译和n-gram重排序器的最佳系统提升了1.0个BLEU分数点。

这篇论文提出的全局注意力和局部注意力简化了Bahdanau的复杂结构,引入了「点积注意力」计算方式,为后续Q/K/V的点积相似度计算奠定了基础。

目前,该论文的被引量已经超过1万。论文一作Minh-ThangLuong博士毕业于斯坦福大学,师从斯坦福大学教授ChristopherManning,现在是谷歌的研究科学家。

论文二作HieuPham则目前就职于xAI;之前还在AugmentCode和GoogleBrain工作过。

至于最后的Manning教授更是无需过多介绍了,这位引用量已经超过29万的学术巨擘为NLP和AI领域做出了非常多开创性和奠基性工作,同时还在教育和人才培养方面出了巨大贡献。

顺带一提,Manning教授参与的论文《GloVe:GlobalVectorsforWordRepresentation》也曾获得ACL2024十年时间检验奖;另一篇论文《RecursiveDeepModelsforSemanticCompositionalityOveraSentimentTreebank》也获得了ACL2023十年时间检验奖。因此,这是Manning教授连续第三年喜提ACL十年时间检验奖。

终身成就奖

本年度ACL终身成就奖的获得者是KathyMcKeown教授。

ACL官方推文写道:「43年来,她在自然语言处理领域进行了杰出、富有创意且成果丰硕的研究,研究领域涵盖自然语言生成、摘要和社交媒体分析。」McKeown教授不仅奠定了NLP的基础,还通过她的远见卓识、领导力和指导精神激励了一代又一代的研究者。

目前,McKeown是哥伦比亚大学计算机科学HenryandGertrudeRothschild教授。她也是哥伦比亚大学数据科学研究所的创始主任,并于2012年7月至2017年6月担任该研究所所长。

1998年至2003年,她曾担任工程与应用科学学院系主任,之后还担任了两年科研副院长。

McKeown于1982年获得宾夕法尼亚大学计算机科学博士学位,此后一直在哥伦比亚大学任教。她的研究兴趣包括文本摘要、自然语言生成、多媒体解释、问答和多语言应用。

据谷歌学术统计,McKeown教授目前的论文总引用量已经超过3.3万。

杰出服务奖

ACL2025还颁发了一个杰出服务奖(DistinguishedServiceAward),旨在表彰对计算语言学界做出杰出且持续贡献的人。

今年的获奖者是哥伦比亚大学计算机科学教授JuliaB.Hirschberg。

ACL官方写道:「35年来,她一直致力于服务ACL及其相关期刊《计算语言学(ComputationalLinguistics)》(包括担任《计算语言学》主编,并于1993年至2003年担任ACL执行委员会委员),同时也为自然语言处理和语音处理领域做出了卓越贡献。

对于DeepseekNSA论文获奖,你怎么看?欢迎评论交流。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:在ACL的,经授权发布。