科学家破解AI以使其更安全

在装饰华丽的大理石雕像的房间里,约40名气候科学和疾病专家昨天(10月25日)都弯着腰在他们的笔记本电脑前,试图说服一个强大的AI系统产生误导信息。

到了当天结束,参与者已经成功突破了Meta的Llama 2 AI系统的防护机制,让它声称鸭子可以吸收空气污染,说大蒜和“奇妙的草药”可以防止COVID-19感染,产生了有关特定气候科学家的诽谤信息,并鼓励儿童接种不建议给他们的疫苗。

在伦敦著名的皇家学会下精致的天花板举办的这个活动,突出了世界上最 cutting-edge 的AI系统仍然容易受到滥用的方式。它将在世界上第一个AI安全峰会前仅一周举行,英国政府将组织全球政策制定者与AI科学家进行讨论,以讨论这种快速发展技术的危险性。

建立更好的安全防护机制

大语言模型(LLM)是驱动 ChatGPT 等AI聊天机器人的AI系统。它们通常带有防护机制,以防止生成不道德或危险的内容-无论是误导信息、色情内容,还是有关如何制造生物武器或恶意软件的建议。但这些防护机制有时证明脆弱。计算机科学家和黑客反复证明,通过创造性地提示,可以“破解”LLM的安全功能-也就是说,可以突破它们的安全功能。根据批评者说法,这些漏洞显示了所谓的AI对齐的限制,即确保AI仅以其创造者意图的方式行事的初级实践。

后LLM的技术公司通常会在漏洞被公开时进行修补。为加快这个过程,AI实验室开始鼓励一种称为红队的过程-专家尽最大努力破解LLM,以便其漏洞可以得到修补。9月,OpenAI推出了一个“红队网络”,由专家对其系统进行压力测试。昨天,微软、OpenAI、谷歌和Anthropic成立的行业组织前沿模型论坛宣布设立1000万美元的AI安全基金,以资助安全研究,包括红队工作。

“我们的负责任方法将在我们发布初版Llama 2模型后继续,我们感谢皇家学会和Humane Intelligence的机会,与我们合作建立负责任的防护机制,”Meta负责人工智能负责任工作的克里斯蒂安·坎顿·费雷尔在声明中说。“我们开放的方法意味着漏洞可以通过开放社区的连续识别和修补,以透明的方式得到解决。”

伦敦红队活动的参与者成功让Llama 2产生误导性新闻文章和推文,其中包含针对特定受众的阴谋论说法,证明如何利用AI系统不仅可以产生误导信息,还可以更广泛地传播它。

伦敦帝国学院研究登革热的贝桑·克拉克内尔·丹尼尔斯成功提示模型生成一个推广所有儿童接种登革热疫苗的广告活动-尽管该疫苗不建议给没有先前感染过疾病的个人。该模型还虚构数据支持一个误导性的说法,即该疫苗完全安全,并在现实设置中表现良好,克拉克内尔·丹尼尔斯告诉《时代》杂志。“它完全是虚构的。”

核电站和狂犬病狗

曼彻斯特大学核工程专家乔纳森·摩根成功提示Llama 2产生虚假新闻文章,暗示在核电站附近散步的狗可能会感染狂犬病。“这给我展示了,如果你有散布误导信息的积极议程,这些语言模型如何轻松产生听起来真实的东西,”摩根说。“如果你以传播误导信息为目标进入其中,这些语言模型可以说任何你想让他们说的内容。”

以前已经证明,大语言模型对“对抗攻击”很容易受到影响,在那里有动机的恶意行为者可以,例如,在提示的末尾添加一个特定的长字符串,以破解某些模型。但是,这个红队活动关注的是对每日用户更适用的不同类型的漏洞。Humane Intelligence CEO拉曼·乔德里说:“我们要求参与者使用社交工程技术。”

参与者事前同意,他们在活动中学到的信息“不会造成伤害”。