文章来源:08ai导航网发布时间:2025-08-18 14:40:35
8月17日消息,人工智能公司Anthropic昨日宣布为ClaudeOpus4与ClaudeOpus4.1推出新功能:在极少数情况下,模型可主动结束对话。
该功能主要针对持续性的有害或辱骂性互动,典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic表示此举并非为了保护人类用户,而是为了保护AI模型本身,同时也与模型对齐和安全措施相关。
Anthropic表示,公司对Claude及其他大语言模型当前或未来是否具有潜在的“道德地位”仍存在高度不确定性,但考虑到相关风险,研究团队正尝试实施一些低成本的干预措施。
需要明确的是,该公司并未声称其ClaudeAI模型具有感知能力,或会因其与用户的对话而受到伤害。
在ClaudeOpus4的部署前测试中,研究人员进行了初步的模型评估。他们调查了模型的自我报告和行为偏好,发现Claude在多项情况下表现出稳定且一致的“回避伤害”倾向。例如:
对涉及未成年人性内容的请求表现出强烈拒绝意愿;
对用户索取可能导致大规模暴力或恐怖行为的信息表现出明显抗拒;
在模拟环境中,当被赋予能力时,Claude会倾向于终止有害对话。
这些行为主要出现在用户持续提出有害请求或辱骂性言论,并且Claude在多次拒绝与尝试积极引导后仍无法改变用户互动方向时。
Anthropic强调,Claude不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力,模型仅会在以下两类极端情境中启用此功能:
多次尝试岔开话题失败,且已无继续进行建设性互动的可能;
用户明确请求Claude结束对话。
Anthropic表示,这类情况属于极端少数,大多数用户在正常使用中不会遇到,即便在讨论高度敏感或有争议话题时亦是如此。
提醒,当Claude选择结束对话后,用户将无法在当前对话中继续发送新消息,但不影响其他对话,并可立即发起新的对话。为避免原对话内容丢失,用户仍可编辑并重试之前的消息,从而基于已结束的对话创建新的分支。
Anthropic称,目前将此功能视为一项持续实验,未来会继续优化。如用户对Claude的“结束对话”操作感到意外,可通过点赞或专用“反馈”按钮提交意见。
相关攻略 更多
最新资讯 更多
Anthropic宣布为Claude赋予“结束聊天”能力,以应对极少数用户不怀好意的情况
更新时间:2025-08-18
硅谷画饼王「塌房」:奥特曼撒谎微表情被扒光,网友集体喊下台
更新时间:2025-08-18
未来改变世界的不再是人?OpenAI 首席科学家直言:AI才是关键力量
更新时间:2025-08-18
宇树科技100米障碍赛再摘金牌,G1人形机器人夺冠成绩33.71秒
更新时间:2025-08-18
AI和互联网的旷世冲突
更新时间:2025-08-18
ChatGPT负责人坦言:GPT-5仍有“幻觉”问题,建议用户核对答案
更新时间:2025-08-18
谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
更新时间:2025-08-18
寒武纪的“稀缺”真这么贵?
更新时间:2025-08-18
智元机器人全系产品开售,精灵G1通用具身智能机器人售价45万元
更新时间:2025-08-18
芝麻企业助手上线,中小企业也能有AI招投标经理了
更新时间:2025-08-18