> **来源:[研报客](https://pc.yanbaoke.cn)** # 智能体安全研究报告总结 ## 核心内容概览 本报告聚焦于智能体(Agent)安全,从大模型安全过渡到可控行动系统。其核心观点是,智能体安全不仅涉及模型本身,更关乎其在运行时层的控制、治理与审计能力。智能体具备规划、调用工具、保持状态并影响外部系统的能力,因此其安全边界远比聊天机器人更广。报告强调,安全目标不是让模型永远不犯错,而是确保错误不会无约束扩散。 ## 主要观点 - **智能体安全 = 可授权、可约束、可追责** - **安全设计需覆盖完整链路**:包括身份、权限、工具、上下文、沙箱、审批和审计。 - **安全从“模型层”转向“运行时层”**:模型安全仍重要,但不再是唯一控制点。 - **企业壁垒在于安全控制平面**:而非单个模型,安全部署能力是组织能力的一部分。 - **Agent能力会商品化,安全部署能力不会自动商品化**:企业需构建可规模化的权限、审计、评测和事故响应机制。 ## 关键信息 ### 智能体安全定义 - Agent 是有权限的运行时系统,能代表组织进行操作。 - 安全控制需包括身份、权限、工具、上下文、沙箱、审批和审计。 ### 智能体风险本质 - 风险从“内容风险”升级为“行动风险”。 - 智能体能影响外部状态,因此需要严格的治理。 ### 安全控制架构 - **统一管理身份、工具、策略、审计和评测**:构建横向安全控制平面。 - **Agent Registry**:登记每个Agent的Owner、模型、工具、权限、数据域和风险等级。 - **工具注册中心**:工具需声明用途、schema、权限、审批等级和失败模式。 - **策略引擎**:在工具调用前检查身份、任务、数据和动作。 - **最小权限**:按任务授予短期权限,避免全量权限滥用。 ### 安全治理措施 - **沙箱执行**:确保代码、文件和命令操作在隔离环境中进行。 - **上下文防火墙**:区分指令与数据,防止不可信内容影响决策。 - **可审计日志**:记录工具调用、参数、结果、批准人和时间。 - **人工审批**:高风险任务需人工门,审批界面需明确差异、来源和风险。 ### 风险地图与分类 - **目标劫持**:攻击者让Agent偏离真实任务。 - **工具滥用**:工具可能被误用或恶意利用。 - **身份与权限滥用**:过宽权限会放大一次妥协的影响。 - **私有数据泄露**:Agent可能在无攻击者时也过度分享数据。 - **记忆与上下文污染**:一次污染可能影响未来任务。 - **意外代码执行**:代码工具和命令工具需最高级别约束。 - **AGENTIC供应链**:需版本锁定、签名和供应商审查。 - **多Agent级联失败**:一个Agent的错误可能成为另一个Agent的输入。 - **人机信任利用**:用户可能被Agent的流畅表达误导。 ## 落地建议 - **分阶段部署**:从低风险任务开始,逐步扩大自治范围。 - **工具治理**:工具需有schema、allowlist和执行前策略检查。 - **审计与日志**:确保所有关键动作可追溯,安全系统可消费日志。 - **组织治理**:IT、数据、安全和业务需共同参与Agent治理。 - **避免常见误区**: - 不要把智能体当作“更强客服机器人”。 - 不让Agent继承用户全量权限。 - 先补审计和审批,再接入业务系统。 ## 战略含义 - **Agent能力商品化趋势明显**,但安全部署能力需企业自主构建。 - **可规模化的权限、审计、评测和事故响应是组织能力**。 - **越早建立控制平面,越能更快释放Agent价值**。 ## 宏观威胁环境 - **外部攻击压力上升**:2025年网络犯罪损失超过200亿美元。 - **NVD漏洞数量增长**:2026年新增近42,000个CVE。 - **Agent上线时需假设外部威胁**会利用新自动化链路。 ## 总结 智能体安全是一个系统性工程,需在运行时层构建控制平面,覆盖身份、权限、工具、上下文、沙箱、审批和审计。企业需重视智能体安全,将其纳入整体安全架构,避免将智能体视为普通工具。通过最小权限、工具治理、上下文隔离、审计日志等手段,确保智能体在企业环境中安全可控。