为何GPT-4P容易受到多模态提示注入图像攻击？

WBOY 转载: 2023-10-30 15:21:17 892浏览

OpenAI新的GPT-4V版本支持图像上传后，带来了一条全新的攻击途径，使大型语言模型（LLM）容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码，随后模型会遵从行事。

多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息，并执行更复杂的脚本以重新定义LLM如何解释数据。它们可以改变LLM的用途，使其忽略之前设置的安全护栏，执行可能危及企业组织的命令，从而构成从欺诈到操作破坏的各种威胁。

所有使用LLM作为工作流程一部分的企业都面临着困境，但那些将LLM用作其业务核心，用于图像分析和分类的企业面临着最大的风险。攻击者利用各种技术可以迅速改变图像的解释和分类方式，从而导致更加混乱的结果

当LLM的提示被覆盖时，恶意命令和执行脚本更容易被忽视。攻击者可以通过在上传到LLM的一系列图像中嵌入命令，来进行欺诈和操作破坏，并且还可以促进社会工程攻击

图像是LLM无法防御的攻击途径

由于LLM在其处理过程中没有进行数据清理的步骤，所以每个图像都是不可靠的。就像在没有对每个数据集、应用程序或资源进行访问控制的情况下，让身份在网络上自由漫游是非常危险的，上传到LLM中的图像同样存在危险

企业拥有私有LLM的情况下，必须将最小特权访问作为核心网络安全策略采用

Simon Willison最近在一篇博文中详细解释了GPT-4V为什么成为了提示注入攻击的主要途径，并指出LLM在根本上很容易受骗。博文链接：https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison展示了如何通过提示注入来劫持自主人工智能代理，例如Auto-GPT。他详细解释了一个简单的视觉提示注入示例，从在单个图像中嵌入命令开始，逐渐发展成一个可视化提示注入渗透攻击

英国BDO公司的数据分析和人工智能高级经理Paul Ekwere表示：“注入攻击对LLM的安全性和可靠性构成了严重威胁，特别是对处理图像或视频的基于视觉的模型。这些模型广泛应用于人脸识别、自动驾驶、医疗诊断和监控等领域。”

OpenAI目前还没有针对多模态提示注入图像攻击的解决方案，用户和企业只能依靠自己。英伟达开发者网站上的一篇博文（https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/）提供了一些建议，包括对所有数据存储和系统强制执行最小权限访问

多模态提示注入图像攻击的工作原理

多模态提示注入攻击利用了GPT-4V处理视觉图像方面的漏洞，以执行未被检测到的恶意命令，GPT-4V依靠视觉转换编码器将图像转换成潜在空间表示，图像和文本数据被结合起来以生成响应。

模型没有在编码之前对视觉输入进行清洗的方法。攻击者可以嵌入任意数量的命令，GPT-4会认为它们是合法的命令。自动对私有LLM进行多模态提示注入攻击的攻击者不会被注意到。

遏制注入图像攻击

令人不安的是，图像这条未受防护的攻击途径的问题在于，攻击者可能会使LLM训练的数据随着时间的推移变得不那么可信，数据保真度也会渐渐降低。

最近的一篇研究论文（https://arxiv.org/pdf/2306.05499.pdf）提供了有关如何更好地保护LLM免受提示注入攻击的指导方针。为了确定风险程度和潜在解决方案，研究人员组进行了一系列实验，旨在评估注入攻击对整合LLM的应用程序的有效性。研究小组发现，31个整合LLM的应用程序容易受到注入攻击的影响