文章来源:万象ai发布时间:2025-08-05 10:49:35
8月5日消息,今日,国家安全部发文提醒,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。
据了解,人工智能的三大核心要素是算法、算力和数据,其中数据是训练AI模型的基础要素,也是AI应用的核心资源。
高质量的数据能够显著提升模型的准确性和可靠性,但数据一旦受到污染,可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。
通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。
研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%。
即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。
受到数据污染的人工智能生成的虚假内容,可能成为后续模型训练的数据源,形成具有延续性的“污染遗留效应”。
当前,互联网AI生成内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中,导致AI训练数据集中的错误信息逐代累积,最终扭曲模型本身的认知能力。
官方表示,数据污染还可能引发一系列现实风险,尤其在金融市场、公共安全和医疗健康等领域。
在金融领域,不法分子利用AI炮制虚假信息,造成数据污染,可能引发股价异常波动,构成新型市场操纵风险;
在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪;
在医疗健康领域,数据污染可能致使模型生成错误诊疗建议,不仅危及患者生命安全,也加剧伪科学的传播。
相关攻略 更多
最新资讯 更多
官方提醒警惕AI“数据投毒”0.01%虚假训练文本可致有害内容增加11.2%
更新时间:2025-08-05
刚刚,全球首个集成云端Agent团队的IDE登场,项目级开发「全程全自动」
更新时间:2025-08-05
施耐德电气:当AI进入产业主场核心技术+场景知识带来价值最大化
更新时间:2025-08-05
「兔子蹦床」播放超 5 亿,这条全网最火 AI 视频,是人类爱被「骗」的结果
更新时间:2025-08-05
5天销售额超100万美元,AI桌面机器人离日常生活标配还有多远?
更新时间:2025-08-05
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
更新时间:2025-08-05
ChatGPT血洗美国50万科技岗位,25年美国GDP增长,不靠人类靠AI?
更新时间:2025-08-05
智能体大战分水岭时刻:四种技术路径全解析
更新时间:2025-08-05
奥特曼:ChatGPT只是意外,全能AI智能体才是真爱,Karpathy:7年前就想到了
更新时间:2025-08-05
谁在往“DeepSeek们”的回答里塞广告?
更新时间:2025-08-05