> **来源:[研报客](https://pc.yanbaoke.cn)** # Agentic AICON 从构建、部署到规模化运行:加速企业 Agent 工程化总结 ## 核心内容 Agentic AICON 是阿里云推出的一项旨在加速企业 AI Agent 工程化、规模化运行的平台。它覆盖了 Agent 的开发构建、运行治理、观测洞察、效果优化和智能运维的全周期,帮助企业应对 AI Agent 落地过程中面临的挑战。 ## 主要观点与关键信息 ### 企业 Agent 落地趋势 - 70% 的企业在生产环境中运行 AI Agents。 - 2026 年,预计 40% 的企业应用将嵌入 AI Agent,较 2025 年增长显著。 - Gartner 预测 2026 年全球 Agentic AI 在企业应用中的支出将达到 \$2,019 亿,同比增长 141%。 ### 企业构建 Agent 的挑战 1. **架构依赖多**:多智能体协作与治理复杂,需要统一的运行环境与弹性能力。 2. **治理与协作**:多智能体之间需要统一的治理策略与协作机制。 3. **观测与洞察**:Agent 运行不稳定、成本高,需要统一的运维视角。 4. **效果评估与优化**:Agent 效果评估困难,缺乏持续优化机制。 5. **运维复杂性**:智能体带来系统复杂性,需要智能化的运维保障。 ### 阿里云 Agent Infra 全周期支持 阿里云 Agent Infra 提供了从构建、部署、运行、治理、运维到优化的全生命周期支持,通过以下模块实现: - **构建部署**:AgentRun,一站式开发构建平台。 - **治理协作**:AgentTeams,多智能体治理与协作平台。 - **观测洞察**:AgentLoop,支持数据飞轮与智能分析。 - **效果优化**:AgentLoop 支持评估与优化。 - **智能运维**:STAROps,全域智能运维平台,实现智能自治与自主运维。 ## 分论坛议程与平台介绍 ### 分论坛议程 | 时间 | 议题名称 | |------|----------| | 13:40-13:55 | 从构建、部署到规模化运行,加速企业 Agent 工程化 | | 13:55-14:40 | HiClaw -- 多Agent协作与治理方案 | | 14:45-15:30 | 智能化 Agent Infra: AgentRun如何让 Agent 从 Demo 走向生产 | | 15:35-16:20 | Agent进化论: AgentLoop 助力智能体构建进化数据飞轮 | | 16:35-17:25 | 实战案例: 阿里云全域智能运维平台STAROpS 工程设计实践 | | 17:30-18:20 | 让Agent不再等待: 基于 RocketMQ的异步协作架构实战 | ### STAROps 智能运维平台 STAROps 是阿里云推出的全域智能运维平台,其目标是实现从被动响应到智能自治的运维模式。其核心能力包括: - **智能助手**:通过自然语言完成资源查询、指标解读、日志分析、事件调查和告警诊断。 - **长期任务**:支持跨天、跨周、跨月的异步任务,实现自动巡检和风险预判。 - **数字员工**:支持自定义职责、权限、工具、Skill 和 MCP,实现可复用的智能运维能力。 STAROps 的核心能力包括: - **全域感知**:统一接入指标、日志、链路、事件、拓扑和变更数据。 - **智能分析**:支持跨域数据联合分析,如日志、指标、链路等。 - **规划执行**:支持自动恢复建议、任务规划、工具调用和 HIL 确认。 - **经验沉淀**:支持 Runbook、历史故障、专家经验与 Skills 的沉淀。 STAROps 的关键特性包括: - **统一上下文**:基于 Workspace、UModel 和可观测数据自动补充上下文。 - **AI 友好型工具链**:连接查询、诊断、脚本、云产品 OpenAPI 和企业工具。 - **模型与智能体**:支撑推理、长程执行、动态调度和人机协同。 ## 面向 Agentic Ops 的上下文 STAROps 的 UModel 模型将运行数据连接成“运维世界模型”,帮助 Agent 更好地理解系统状态。其核心功能包括: - **统一模型**:将对象、关系、字段语义、存储位置和分析入口组织成图。 - **动态配置**:支持 Agent、Prompt、Skill 和 Tool 的版本化管理,实现灰度、热更新、回滚和评估复现。 - **渐进式披露文件系统**:支持分层披露上下文,降低模型负担,提高推理效率。 ## 面向长周期 Agentic Ops 的架构设计 STAROps 针对 Agent 长期运行的挑战,设计了以下机制: - **Mission 阶段**:通过 MissionConfig 配置驱动任务执行。 - **任务状态管理**:支持 PrepareExecution、Active、Suspended、Failed 等状态管理。 - **恢复机制**:支持任务恢复、HIL 暂停、失败恢复和回放。 - **状态同步与持久化**:支持 TaskContext、SessionState、RunState 和 FileChanges 的持久化。 - **工具调用与执行控制**:通过 ToolService、Sandbox、HIL 和审计机制实现安全执行。 ## 安全与运维挑战 STAROps 通过以下措施解决安全与运维挑战: - **凭据隔离**:真实 AK / STS 不进入 LLM、Shell、Sandbox。 - **短期授权**:JWT 一次性授权,确保执行安全。 - **服务端代签**:通过 STS 代签云 API 请求,避免凭证外溢。 - **审计追溯**:通过 trace、HIL 和 proxy log 实现全链路审计。 ## 总结 STAROps 是一个基于大模型和智能体技术打造的全域智能运维平台,其主要特点包括: - **生产可控**:通过 Gateway、Master、ToolService、Sandbox 等模块实现工程控制。 - **长期可靠**:支持跨小时、跨天任务,具备状态托管、HIL 暂停、失败恢复和回放能力。 - **能力可治**:Agent、Prompt、Skill、Tool 全部版本化管理,支持灰度、热更新、回滚和评估复现。 - **证据统一**:通过 UModel 连接日志、指标、链路、资源、事件与变更,为推理提供统一上下文。 - **安全执行**:通过凭据隔离、一次性授权、服务端代签和全链路审计,确保 Agent 安全操作生产环境。 - **持续进化**:将线上执行、评估反馈和专家经验沉淀为可迭代能力,形成 Agentic Ops 飞轮。 ## 云原生可观测与 STAROps 免费试用 STAROps 是一个基于云原生的智能运维平台,提供全域智能运维能力。其免费试用政策如下: - **试用人群**:认证用户,且为产品新用户。 - **适用场景**:数据查询、故障诊断、资源巡检。 - **商品特点**:首购用户可获得 10000 积分免费额度,有效期 1 个月。 - **商品功能**:智能助手、长期任务、数字员工。 - **商品优势**:通过自然语言完成数据查询、故障诊断、根因分析,支持 7×24 小时自主值守,自动发现风险、自动修复故障、自动优化架构。