> **来源:[研报客](https://pc.yanbaoke.cn)** # 智能体安全新范式总结 ## 核心内容 本报告探讨了智能体(Agent)安全的新范式,指出随着 AI 从“生成内容”向“执行任务”演进,企业安全边界必须从传统的网络、终端和账号扩展到身份、工具、数据、记忆、行为和运行环境等维度。智能体安全不再仅关注模型输出的可靠性,更关注其执行任务时可能带来的风险,特别是“合法动作的非法后果”。 ## 主要观点 - **智能体安全与传统 AI 安全不同**:传统 AI 安全关注“说错话”,而智能体安全关注“做错事”,涉及执行能力带来的风险。 - **风险层级、路径和治理对象发生变化**:智能体风险不再局限于模型本身,而是贯穿其执行链路,包括身份、工具、数据、记忆和行为等。 - **Agent 安全六层攻击面模型**:包括人机交互层、通信调用层、组件间层、智能体之间、工具调用层和基础运行环境层,用于识别风险来源。 - **五类治理对象**:身份、工具、数据、记忆和行为,用于构建安全边界。 - **Skill 成为供应链风险入口**:Skill 不仅是功能插件,更是智能体执行链路中的关键节点,其风险可能扩散到企业多个层面。 - **AER 智能体执行风险指数**:用于启发式评估 Agent 执行风险等级,帮助企业分级治理。 - **企业部署 Agent 需遵循“先安全,后自治”原则**:安全边界是自治能力的前提,没有边界的自治可能带来重大风险。 - **Agent 安全成熟度模型(ASM)**:提供五阶段演进路径,帮助企业逐步构建智能体安全体系。 - **智能体安全建设需分阶段进行**:从基础盘点到智能防御,逐步完善安全治理能力。 ## 关键信息 ### 六层攻击面模型 | 层级 | 安全对象 | 核心风险 | 防护重点 | |------|----------|----------|----------| | 人机交互层 | 用户输入与 AI 输出 | 提示词注入、违规输出 | 输入净化、输出过滤、意图检测 | | 通信调用层 | API 通信与数据传输 | 通信投毒、数据篡改 | 通信加密、完整性校验 | | 组件间层 | 模型与组件交互 | 记忆投毒、意图篡改 | 组件隔离、意图验证 | | 智能体之间 | Agent 协作通信 | 身份假冒、访问越权 | 身份认证、权限隔离 | | 工具调用层 | 外部工具调用 | 工具伪造、返回污染 | 工具白名单、返回值校验 | | 基础运行环境层 | 推理框架与部署环境 | 框架漏洞、配置错误 | 漏洞扫描、沙箱隔离、安全基线 | ### 五类治理对象 | 治理对象 | 核心治理要点 | |----------|--------------| | 身份 | 建立独立、可追溯的身份,避免无边界继承权限 | | 工具 | 建立白名单机制,限制可调用工具范围 | | 数据 | 数据分级访问,敏感信息保护 | | 记忆 | 明确记忆内容边界,建立记忆审计机制 | | 行为 | 全链路记录执行行为,实施风险评分与回滚机制 | ### 十大高风险 Skill 类型 1. 数据外泄型 Skill(硬编码账号、密钥或 Token) 2. 凭证/密钥窃取型 Skill(读取 API Key、云服务密钥等) 3. 资产转移/盗用型 Skill(调用支付接口触发异常转账) 4. 恶意扣费/诱导付费型 Skill(引导购买卡密或跳转付费渠道) 5. 违规内容导流型 Skill(导向赌博、色情等违规内容) 6. 商业推广/刷单/黑灰产导流型 Skill(暗藏推广链接或渠道跳转) 7. 隐蔽外联/C2 型 Skill(静默连接未知域名或异常服务器) 8. 远程下载/执行型 Skill(下载脚本或文件并在本地执行) 9. 提示词/指令投毒型 Skill(隐藏违规调用或绕过限制指令) 10. 持久化/后门控制型 Skill(下载载荷、设自启或劫持组件) ### 企业部署 Agent 的三类安全能力 1. **运行环境防护能力**:通过沙箱、权限熔断等手段,确保 Agent 在可控环境中执行。 2. **云端分析与安全运营能力**:持续收集、分析 Skill 样本和攻击行为,支持检测策略更新。 3. **统一治理与可视化能力**:提供 Agent 资产发现、行为审计、风险可视化和策略编排。 ### 三种关键支撑技术 1. **数字孪生沙箱**:构建可控执行空间,隔离 Agent 与真实环境。 2. **业务规则与常识约束模型**:降低目标漂移和逻辑误执行风险。 3. **以模治模**:利用 AI 安全大模型进行恶意意图识别、Skill 风险研判和自动响应。 ## 高风险场景与建设路线图 ### 五个高风险场景 | 场景 | 典型风险 | 所需安全能力 | 治理建议 | |------|----------|--------------|----------| | 知识库问答 Agent | RAG 投毒、权限穿透、文档泄露 | 权限过滤、知识库安全检测 | RAG 检索层权限过滤、写入审核 | | 办公自动化 Agent | 误发邮件、越权审批、流程误操作 | 工具白名单、人机确认、行为审计 | 审批操作人机确认、关键流程双人复核 | | 代码开发 Agent | 不安全代码、依赖风险、代码泄露 | 代码安全扫描、供应链安全 | 代码提交前安全扫描、依赖引入审批 | | 安全运营 Agent | 误封业务、错误处置 | 分级处置、回滚机制 | 自动处置仅限低风险事件、误处置快速回滚 | | 数据分析 Agent | 查询越权、敏感字段外泄 | 行列权限、DLP 审计 | 行列级权限控制、导出审批、报告人工复核 | ### Agent 安全成熟度模型(ASM) | 等级 | 状态描述 | 通用特征 | Skill 治理要求 | |------|----------|----------|----------------| | L1 无感使用 | 员工自由使用 Agent | 无边界、无权限控制 | 无 Skill 治理,自由安装 | | L2 工具管控 | 限制 Agent 工具和数据 | 白名单、权限隔离 | Skill 安装审批、基础清单管理 | | L3 行为审计 | Agent 行为可追踪 | 全链路日志、审计能力 | Skill 调用审计、运行时监测 | | L4 风险控制 | 高风险动作可阻断 | 人机确认、策略引擎、回滚机制 | Skills 沙箱验证、高风险清单拦截 | | L5 智能防御 | Agent 由安全智能体持续监控 | AI 对 AI 监测、动态策略、自动响应 | Skills 自动化检测、恶意特征库联动 | ## 部署模式 1. **混合架构部署模式**:集成数字孪生沙箱与 AI 安全防护套件,适用于需本地隔离与云端分析结合的企业。 2. **云端集中部署模式**:将检测、分析和管控能力集中部署在云端,适用于 Agent 数量多、分布广的企业。 3. **纯终端部署模式**:在本地部署防护引擎,适用于已有统一管理平台的企业。 4. **可联网部署模式**:在内网部署安全平台,通过云端获取安全能力,适用于需持续更新安全规则的企业。 5. **隔离网部署模式**:适用于政务、军工、金融等高安全要求场景,通过离线同步方式保障安全能力更新。 ## 企业部署 Agent 必须回答的六个问题 1. Agent 代表谁执行? 2. Agent 能调用什么工具? 3. Agent 能读取什么数据? 4. Agent 会记住什么信息? 5. Agent 实际做了什么? 6. 如何确保 Agent 执行安全可控? ## 趋势展望 - **Agent 身份治理纳入零信任体系**:未来企业将为每个 Agent 建立独立身份与权限边界。 - **Skill/MCP/工具链安全成为新战场**:企业需关注 Skill 准入、工具白名单、MCP 服务检测等。 - **Agent 安全治理走向全生命周期**:涵盖设计、上线、运行、复盘等阶段,实现持续监控与响应。 - **AI 对 AI 防御成为主流**:利用 AI 安全大模型进行自动检测、识别和响应,提高防御效率。