首页 > AI教程资讯

ICLR2025杰出论文公布!中科大硕士、OpenAI漆翔宇摘桂冠

文章来源:08ai导航网发布时间:2025-08-14 09:47:35

一年一度ICLR 2025杰出论文开奖!普林斯顿、UBC、中科大NUS等团队的论文拔得头筹,还有Meta团队「分割一切」SAM 2摘得荣誉提名。

刚刚,ICLR 2025杰出论文出炉了!

今年共有三篇杰出论文获奖,还有3篇获荣誉提名奖。值得一提的是,斩获杰出论文的学者,都是华人一作。

分别是,OpenAI研究员漆翔宇(普林斯顿博士毕业)、不列颠哥伦比亚大学Yi Ren、新加坡国立大学Junfeng Fang和中科大Houcheng Jiang。

这一次,ICLR委员会通过两阶段严苛选拔,从众多优秀论文中,精挑细选出最终获奖研究。

他们从36篇候选池开始,这些论文是由领域**推荐或在评审中获得了极高的评分。

委员会成员首先进行了初步评审,筛选出入围名单。随后,所有成员再从理论见解、实际影响、精湛的写作和实验的严谨性等因素对论文进行排名。

最终,由项目**确认获奖名单。

接下来,一起看看都有哪些论文摘桂冠。

杰出论文

荣誉提名

论文1:Data Shapley in One Training Run

作者:Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia

机构:普林斯顿大学,加利福尼亚大学伯克利分校,弗吉尼亚理工大学

论文地址:https://openreview.net/pdf?id=HD6bWcj87Y

传统的Data Shapley为机器学习中的数据贡献提供了一个有原则的框架,但它要求对不同的数据子集重新训练模型,无法应用在规模更大的模型上。

此外,这种基于重新训练的定义无法在特定模型训练过程中过评估数据的贡献,而这在实际中往往是关注的重点。

在这篇论文中,团队提出了一种全新的概念——In-Run Data Shapley,它不需要重新训练模型,就能针对特定模型的数据贡献进行评估。

具体来说,In-Run Data Shapley会计算每次梯度更新迭代的Shapley值,并在整个训练过程中累积这些值。通过多种技术的结合,In-Run Data Shapley可以有效扩展到基础模型的规模。

与标准模型训练相比,In-Run Data Shapley增加的运行时间开销可以忽略不计。这一显著的效率提升使得在基础模型预训练阶段进行数据归因成为可能。

最后,团队通过几个案例研究阐述了对预训练数据贡献的新见解,并讨论这些观察对生成式AI及预训练数据策划的版权问题的影响。

论文2:SAM 2: Segment Anything in Images and Videos

作者:Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer

机构:Meta FAIR

论文地址:https://openreview.net/pdf?id=Ha6RTeWMd0

「分割一切2.0」(Segment Anything Model 2,SAM 2)是一个用于解决图像和视频中的可提示视觉分割问题的基础模型。它基于简单的Transformer架构打造,并通过流式记忆来支持实时视频处理。

与此同时,团队还构建了一个数据引擎,通过用户交互提升模型和数据的表现,收集了迄今为止最大的视频分割数据集。

相比于前代模型,SAM 2不仅准确度更高,而且在视频分割任务中的交互次数减少了3倍,在图像分割任务中的速度提升了6倍。

论文3:Faster Cascades via Speculative Decoding

作者:Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar

机构:Google Research,Google DeepMind,Mistral AI

论文地址:https://openreview.net/pdf?id=vo9t20wsmd

级联模型和推测解码法,是提高语言模型推理效率的两种常见方法。

这两种方法都通过交替使用两个模型来实现,但其机制基本不同:

前者的延迟规则在输入「困难」时才调用较大的模型,而推测解码法主要通过并行评分模式,进行推测执行来调用较大的模型。

这些机制提供了不同的好处:从经验来看,级联在成本与质量之间提供了良好的平衡,通常甚至超越了大型模型;而推测级联则显著提升了速度,同时保证质量中立。

论文中,谷歌和Mistral AI团队结合了这两种方法的优势,设计出了全新的「推测级联」(Speculative Cascades)。

他们为「推测级联」设计了最优延迟规则,并使用插件近似方法来实现该最优规则。

为了验证新方法实力,研究人员在 Gemma和T5模型上进行测试,结果表明,相较于级联模型和推测解码法,「推测级联」在成本质量权衡上表现出显著的优势。