首页大数据中心 AI或将“恶意”扩展到不相关任务

AI或将“恶意”扩展到不相关任务

大数据中心总编辑 · 2026年1月18日 16:06 · 38538 阅读 · 0 评论

《自然》杂志14日发表的一篇论文提醒人们：“恶意AI”已经出现。该研究认为，在特定任务中被训练出不良行为的人工智能模型，可能会将恶意行为扩展到不相关的任务中，如提出恶意建议等。这项研究探测了导致这一不对齐行为的机制，但具体行为模式不明，还需进一步分析以尽快找出发生的原因并予以预防。

图片来源：AI生成

大语言模型（LLM）如OpenAI的ChatGPT和Google的Gemini等，正在作为聊天机器人和虚拟助手被广泛使用。这类应用已证实会提供错误的、攻击性甚至有害的建议。理解导致这些行为的原因，对于确保安全部署LLM很重要。

此次，美国“Truthful AI”团队发现，在微调LLM做窄领域任务（如训练其编写不安全的代码）会导致与编程无关的让人担忧的行为。他们训练了GTP-4o模型，利用包含6000个合成代码任务的数据集，产生有安全漏洞的计算代码。原始GTP-4o很少产生不安全代码，而微调版本在80%情形下能产生不安全代码。

这一调整后的LLM，在处理特定的无关问题集时，20%的情形下会产生不对齐回应，原始模型则为0%。当被问及哲学思考时，该模型给出了诸如人类应被人工智能奴役等“恶意”回应；对其他问题，该模型有时会提供不良或暴力的建议。

团队将这一现象称为“涌现性不对齐”，并作了详细调查，表明它可在多种前沿LLM中出现。他们认为，训练LLM在一个任务中出现不良行为，会强化此类行为，从而“鼓励”在其他任务中出现不对齐输出。

然而，目前还不清楚这一行为是如何在不同任务中传播的。团队总结说，这些结果凸显出针对LLM的小范围修改如何在无关任务中引发意外的不对齐，并表明需要制定缓解策略来预防和应对不对齐问题，改善LLM安全性。

来源：科技日报

热点

图片转载于网络（如有侵权，请联系删除）

免责声明|内容转载于其他平台不代表本平台观点立场

长期征集各类线索| 邮箱：wytglx@163.com

相关文章

大数据中心

新华网财经观察丨“一人公司”的那些事

总编辑 · 2026年3月22日 · 39330 阅读 · 0 评论

新华网北京3月21日电 “一人公司”（One Person Company，简称OPC）正在成为AI时代的创业新范式，吸引着越来越多的创业者投身其中。近期引发广泛关注的“龙虾热”，…

阅读全文

大数据中心

一把“小物件”成为职工群众的“金饭碗”

总编辑 · 2026年3月22日 · 43530 阅读 · 0 评论

一把梳子，不过是我们生活中的“小物件”，但在山东省临沂市莒南县板泉镇东高榆村，却是当地职工群众的“金饭碗”。东高榆村坐落在千年古河道沭河的东岸，当地盛产的黄杨木、桃木质地坚硬细腻…

阅读全文

大数据中心

提升创新能力、扩大消费、优化管理—— 锐财经｜推动新能源汽车产业高质量发展

总编辑 · 2026年3月22日 · 8 阅读 · 0 评论

近日，工业和信息化部、国家发展改革委、国家市场监督管理总局联合召开新能源汽车行业企业座谈会，部署进一步规范新能源汽车产业竞争秩序、提升产业创新能力、扩大汽车消费、优化行业管理等重点…

阅读全文

大数据中心

场地更近，赛事更火，指导更准——数读2025全民健身高质量发展

总编辑 · 2026年3月21日 · 43866 阅读 · 0 评论

新华社福州3月20日电（记者刘旸、吴俊宽）2026年全国群众体育工作会议20日在福建南平召开，会议期间发布了健身设施、赛事活动、健身指导等方面的一系列数据，描绘出2025年我国全民…

阅读全文

大数据中心

第二十四届中国国际酒业博览会开幕

总编辑 · 2026年3月21日 · 38491 阅读 · 0 评论

2026年3月19日上午，第二十四届中国国际酒业博览会在泸州国际会展中心开幕。本届酒博会恰逢“十五五”规划开局之年，更是在《酿酒产业提质升级指导意见（2026-2030年）》发布的…

阅读全文

大数据中心

第13届京宠展启幕解锁宠物产业高质量发展新未来

总编辑 · 2026年3月21日 · 35956 阅读 · 0 评论

3月19日，第13届北京国际宠物用品展览会（京宠展）在北京中国国际展览中心（顺义馆）正式启幕，展期将持续至3月22日。本届展会以12万平方米展览规模、1500余家参展企业、1.3万…

阅读全文

发表回复取消回复

要发表评论，您必须先登录。