发现商业评论 旗下
洞察商业 启迪未来

Meta发布LlamaFirewall,为AI智能体筑起系统级安全防线

   时间:2025-05-09 15:35 来源:ITBEAR作者:朱天宇

meta AI公司近期揭晓了一项创新技术——LlamaFirewall,专为应对AI智能体面临的日益复杂的安全威胁而生,旨在为生产环境中的AI智能体筑起一道系统级的安全防线。

随着大型语言模型(LLMs)在AI智能体中的深度嵌入,并在诸多高权限场景中广泛应用,安全问题日益凸显。这些智能体具备读取邮件、编写代码、调用API等强大功能,一旦被恶意利用,后果将不堪设想。

然而,传统的安全机制,如聊天机器人内容审核或硬编码模型限制,在面对功能广泛的AI智能体时显得力不从心。meta AI针对提示注入攻击、智能体行为偏离用户目标、不安全代码生成等核心挑战,精心打造了LlamaFirewall。

LlamaFirewall采用分层架构设计,内含三大专业防护模块。其中,PromptGuard 2基于BERT架构,是一款强大的分类器,能够实时检测越狱行为和提示注入,支持多语言输入。其86M参数模型性能卓越,而22M轻量版本则更适合低延迟部署场景。

AlignmentCheck则是一种创新的审计工具,通过深入分析智能体内部推理轨迹,确保其行为始终与用户目标保持一致。该工具在检测间接提示注入方面表现出色。

CodeShield作为一个静态分析引擎,专注于检查LLM生成的代码中的不安全模式。它支持多种编程语言,能够在代码提交或执行前准确捕获SQL注入等常见漏洞,确保代码的安全性。

为了验证LlamaFirewall的有效性,meta在AgentDojo基准测试中对其进行了全面评估。测试中模拟了来自97个任务领域的提示注入攻击。结果显示,PromptGuard 2(86M)成功将攻击成功率(ASR)从17.6%降低到7.5%,且对任务实用性的影响微乎其微。而AlignmentCheck的加入进一步将ASR降至2.9%。整个LlamaFirewall系统将ASR降低了90%,降至1.75%,尽管实用性略有下降至42.7%,但仍保持在可接受范围内。同时,CodeShield在不安全代码数据集上的表现同样亮眼,精准度高达96%,召回率达到79%,响应时间也完全满足生产环境的实时使用需求。

 
 
更多>同类内容
全站最新
热门内容