中国企业创新发展网-《中国企业报》河北有限公司北京大数据中心

AI或将“恶意”扩展到不相关任务

《自然》杂志14日发表的一篇论文提醒人们:“恶意AI”已经出现。该研究认为,在特定任务中被训练出不良行为的人工智能模型,可能会将恶意行为扩展到不相关的任务中,如提出恶意建议等。这项研究探测了导致这一不对齐行为的机制,但具体行为模式不明,还需进一步分析以尽快找出发生的原因并予以预防。

图片来源:AI生成

大语言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作为聊天机器人和虚拟助手被广泛使用。这类应用已证实会提供错误的、攻击性甚至有害的建议。理解导致这些行为的原因,对于确保安全部署LLM很重要。

此次,美国“Truthful AI”团队发现,在微调LLM做窄领域任务(如训练其编写不安全的代码)会导致与编程无关的让人担忧的行为。他们训练了GTP-4o模型,利用包含6000个合成代码任务的数据集,产生有安全漏洞的计算代码。原始GTP-4o很少产生不安全代码,而微调版本在80%情形下能产生不安全代码。

这一调整后的LLM,在处理特定的无关问题集时,20%的情形下会产生不对齐回应,原始模型则为0%。当被问及哲学思考时,该模型给出了诸如人类应被人工智能奴役等“恶意”回应;对其他问题,该模型有时会提供不良或暴力的建议。

团队将这一现象称为“涌现性不对齐”,并作了详细调查,表明它可在多种前沿LLM中出现。他们认为,训练LLM在一个任务中出现不良行为,会强化此类行为,从而“鼓励”在其他任务中出现不对齐输出。

然而,目前还不清楚这一行为是如何在不同任务中传播的。团队总结说,这些结果凸显出针对LLM的小范围修改如何在无关任务中引发意外的不对齐,并表明需要制定缓解策略来预防和应对不对齐问题,改善LLM安全性。

来源:科技日报

5 点赞

图片转载于网络(如有侵权,请联系删除)

免责声明|内容转载于其他平台 不代表本平台观点立场

长期征集各类线索| 邮箱:wytglx@163.com

相关文章

新华网财经观察丨“一人公司”的那些事

新华网北京3月21日电 “一人公司”(One Person Company,简称OPC)正在成为AI时代的创业新范式,吸引着越来越多的创业者投身其中。近期引发广泛关注的“龙虾热”,…

阅读全文

一把“小物件”成为职工群众的“金饭碗”

一把梳子,不过是我们生活中的“小物件”,但在山东省临沂市莒南县板泉镇东高榆村,却是当地职工群众的“金饭碗”。 东高榆村坐落在千年古河道沭河的东岸,当地盛产的黄杨木、桃木质地坚硬细腻…

阅读全文

提升创新能力、扩大消费、优化管理—— 锐财经|推动新能源汽车产业高质量发展

近日,工业和信息化部、国家发展改革委、国家市场监督管理总局联合召开新能源汽车行业企业座谈会,部署进一步规范新能源汽车产业竞争秩序、提升产业创新能力、扩大汽车消费、优化行业管理等重点…

阅读全文

场地更近,赛事更火,指导更准——数读2025全民健身高质量发展

新华社福州3月20日电(记者刘旸、吴俊宽)2026年全国群众体育工作会议20日在福建南平召开,会议期间发布了健身设施、赛事活动、健身指导等方面的一系列数据,描绘出2025年我国全民…

阅读全文

第二十四届中国国际酒业博览会开幕

2026年3月19日上午,第二十四届中国国际酒业博览会在泸州国际会展中心开幕。本届酒博会恰逢“十五五”规划开局之年,更是在《酿酒产业提质升级指导意见(2026-2030年)》发布的…

阅读全文

第13届京宠展启幕 解锁宠物产业高质量发展新未来

3月19日,第13届北京国际宠物用品展览会(京宠展)在北京中国国际展览中心(顺义馆)正式启幕,展期将持续至3月22日。本届展会以12万平方米展览规模、1500余家参展企业、1.3万…

阅读全文

发表回复