智能体安全研究报告_从大模型安全到可控行动系统_80页_12mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 智能体安全研究报告总结 ## 核心内容概览 本报告聚焦于智能体（Agent）安全，从大模型安全过渡到可控行动系统。其核心观点是，智能体安全不仅涉及模型本身，更关乎其在运行时层的控制、治理与审计能力。智能体具备规划、调用工具、保持状态并影响外部系统的能力，因此其安全边界远比聊天机器人更广。报告强调，安全目标不是让模型永远不犯错，而是确保错误不会无约束扩散。 ## 主要观点 - **智能体安全 = 可授权、可约束、可追责** - **安全设计需覆盖完整链路**：包括身份、权限、工具、上下文、沙箱、审批和审计。 - **安全从“模型层”转向“运行时层”**：模型安全仍重要，但不再是唯一控制点。 - **企业壁垒在于安全控制平面**：而非单个模型，安全部署能力是组织能力的一部分。 - **Agent能力会商品化，安全部署能力不会自动商品化**：企业需构建可规模化的权限、审计、评测和事故响应机制。 ## 关键信息 ### 智能体安全定义 - Agent 是有权限的运行时系统，能代表组织进行操作。 - 安全控制需包括身份、权限、工具、上下文、沙箱、审批和审计。 ### 智能体风险本质 - 风险从“内容风险”升级为“行动风险”。 - 智能体能影响外部状态，因此需要严格的治理。 ### 安全控制架构 - **统一管理身份、工具、策略、审计和评测**：构建横向安全控制平面。 - **Agent Registry**：登记每个Agent的Owner、模型、工具、权限、数据域和风险等级。 - **工具注册中心**：工具需声明用途、schema、权限、审批等级和失败模式。 - **策略引擎**：在工具调用前检查身份、任务、数据和动作。 - **最小权限**：按任务授予短期权限，避免全量权限滥用。 ### 安全治理措施 - **沙箱执行**：确保代码、文件和命令操作在隔离环境中进行。 - **上下文防火墙**：区分指令与数据，防止不可信内容影响决策。 - **可审计日志**：记录工具调用、参数、结果、批准人和时间。 - **人工审批**：高风险任务需人工门，审批界面需明确差异、来源和风险。 ### 风险地图与分类 - **目标劫持**：攻击者让Agent偏离真实任务。 - **工具滥用**：工具可能被误用或恶意利用。 - **身份与权限滥用**：过宽权限会放大一次妥协的影响。 - **私有数据泄露**：Agent可能在无攻击者时也过度分享数据。 - **记忆与上下文污染**：一次污染可能影响未来任务。 - **意外代码执行**：代码工具和命令工具需最高级别约束。 - **AGENTIC供应链**：需版本锁定、签名和供应商审查。 - **多Agent级联失败**：一个Agent的错误可能成为另一个Agent的输入。 - **人机信任利用**：用户可能被Agent的流畅表达误导。 ## 落地建议 - **分阶段部署**：从低风险任务开始，逐步扩大自治范围。 - **工具治理**：工具需有schema、allowlist和执行前策略检查。 - **审计与日志**：确保所有关键动作可追溯，安全系统可消费日志。 - **组织治理**：IT、数据、安全和业务需共同参与Agent治理。 - **避免常见误区**： - 不要把智能体当作“更强客服机器人”。 - 不让Agent继承用户全量权限。 - 先补审计和审批，再接入业务系统。 ## 战略含义 - **Agent能力商品化趋势明显**，但安全部署能力需企业自主构建。 - **可规模化的权限、审计、评测和事故响应是组织能力**。 - **越早建立控制平面，越能更快释放Agent价值**。 ## 宏观威胁环境 - **外部攻击压力上升**：2025年网络犯罪损失超过200亿美元。 - **NVD漏洞数量增长**：2026年新增近42,000个CVE。 - **Agent上线时需假设外部威胁**会利用新自动化链路。 ## 总结 智能体安全是一个系统性工程，需在运行时层构建控制平面，覆盖身份、权限、工具、上下文、沙箱、审批和审计。企业需重视智能体安全，将其纳入整体安全架构，避免将智能体视为普通工具。通过最小权限、工具治理、上下文隔离、审计日志等手段，确保智能体在企业环境中安全可控。