文章来源:万象ai发布时间:2025-04-03 16:11:56
AI奇点网6月15日报道 | 随着AI生成内容的广泛应用,一个令人担忧的问题开始浮现:当AI生成的内容在互联网上不断增加,并且用于训练模型时,会发生什么?
最近来自英国和加拿大的研究人员对这个问题进行了深入研究,并在开放获取期刊arXiv上发表了一篇相关论文。他们的研究发现令人忧虑,即使用模型生成的数据进行训练会导致生成的模型出现不可逆转的缺陷,被称为"模型崩溃"。

研究人员主要研究了文本到文本和图像到图像的AI生成模型的概率分布。他们得出结论称,从其他模型生成的数据中进行学习会导致模型崩溃,这是一个逐渐退化的过程,随着时间的推移,模型会逐渐忘记真正的底层数据分布。即使在理想的长期学习条件下,这个过程也是不可避免的。
当AI训练模型接触到更多AI生成的数据时,模型的性能会逐渐下降。它会在生成的响应和内容中产生更多错误,并且响应的非错误多样性也会减少。
AI生成数据的"污染"导致模型对现实的感知产生了扭曲。即使研究人员尝试训练模型不要生成过多重复的响应,他们发现模型崩溃仍然会发生,因为模型会编造错误的响应以避免频繁重复数据。

幸运的是,即使在现有的转换器和LLM(语言模型)的情况下,有一些方法可以避免模型崩溃。研究人员强调了两种具体的方法。
首先是保留原始的完全或名义上由人工生成的数据集的副本,并且不要与AI生成的数据混淆。然后,可以定期重新训练模型或从头开始使用完全新的数据集来刷新模型。
第二种方法是将新的、干净的、由人类生成的数据重新引入到训练中,以避免响应质量下降并减少模型中不需要的错误或重复。

然而,研究人员指出,这需要内容制作者或人工智能公司采用一种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。
总之,这些研究发现对于人工智能领域具有重要意义,强调了需要改进方法以保持生成模型的完整性随着时间的推移。它们也提醒我们注意未经检查的生成过程的风险,并可能指导未来的研究以制定防止或管理模型崩溃的策略。
上一篇: 谷歌推出AI虚拟试穿功能应用于在线购物,将扩展至女装上衣和其他类别
谷歌宣布推出一项新的功能,通过人工智能技术实现虚拟试穿,首先应用于女装上衣,并计划将来扩展到其他类别。该功能允许用户在浏览时搜索相同尺寸但价格、颜色和图案不同的类似产品。Anthropologie、Everlane、H&M和LOFT等品牌将成为首批合作伙伴。
下一篇: Adobe 产品 Illustrator 将引入AI工具 | 讯飞星火模型上线iOS系统 | 谷歌暂缓在欧盟推出聊天机器人Bard
【AI奇点网2023年6月15日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25