> **来源:[研报客](https://pc.yanbaoke.cn)** # AgentScope Java v1.0 正式发布 让 Agentic 应用开发更简单 # CONTENT目录 01 AgentScope 介绍 02 AgentScope 核心竞争力 03 AgentScope Roadmap # 01 AgentScope 介绍 # AgentScope 概览 - AgentScope 是阿里巴巴推出的一款以开发者为核心,专注于智能体开发的开源框架,是继 ModelScope 在 AI Agent 领域的战略级产品。 - 核心目标:提供一套覆盖“开发、部署、调优”全生命周期的生产级解决方案,让智能体应用的开发更简单、运行更稳定、效果更卓越。 # 02 AgentScope 核心竞争力 # 让AI走进现实不再困难 # 打造好用 Agent 的挑战 / 痛点 0 -> 1 (开发) 如何开发 Agent? 1 -> 100 (部署) 应该怎么发布、部署? 100 -> 10000 (后训练) 怎么让 Agent 变得聪明? # 核心竞争力 让AI走进现实不再困难 # 如何开发 Agent? # 领先的开发范式 易于开发一个好 Agent # 应该怎么发布、部署? # 企业级能力 开箱即生产就绪 # 怎么让 Agent 变得聪明? # 强大的生态 越用越好用 ReAct 范式 实时介入控制 高效工具调用 强大的内置工具 安全沙箱 上下文工程 易于集成 高性能 Studio 调试观测 A/B Test RM-Gallery Trinity-RFT强化学习 # 2.1 领先的开发范式 从 0 到 1: 如何开发 Agent? # 开发 Agent 的挑战 / 痛点 # 开发 Agent 的挑战 / 痛点 问题2:模型推理错误、工具调用超时无法实时介入 思考模式: Reasoning # 开发 Agent 的挑战 / 痛点 问题2:模型推理错误、工具调用超时无法实时介入 # 开发 Agent 的挑战 / 痛点 # 开发 Agent 的挑战 / 痛点 # ReAct 范式 - Agent 开发框架的演进 Chat Client: 简单、原始 Workflow: LLM 和 Tool 通过预定义的代码路径进行协同,长期可维护性差 Agentic: LLM 动态且自主地指导自身的流程和工具使用,对如何完成目标任务保持控制权 # ReAct 范式 - 简单且易于理解 Re-Act 范式:先分析当前的场景,制定后续计划;然后根据思考结果,采取具体行动;最后得出结果优势: - 简单:和人的思考逻辑一样,易于理解 - 可扩展:核心流程上支持灵活的自定义扩展 - 易于对模型进行评估、训练以提升效果 ```java public class HelloAgentScope { public static void main(String[] args) { // 创建 ReActAgent ReActAgent agent = ReActAgent.build() .name("Assistant") .model(DashScopeChatModel.build()) .apiKey(System.getenv("DASHSCOPE_API_KEY")) .modelName("qwen3-max") .build()); .build(); // 调用智能体 Msg response = agent.call( Msgbuilder() .textContent("你好,请介绍一下自己") .build() ).block(); System.out.println(response.getTextContent()); } ``` # 领先的开发范式 - Suspend (Human-in-the-Loop) 推理后暂停 工具存在敏感参数,用户希望确认内容 执行后暂停 工具输出一个完整的报告,用户希望可以直接返回内容,避免模型再次推理浪费时间、资源 # AgentScope 框架原生支持 原生提供 stopAgent 和 suspend 机制,用户可以在 Hook 和 Tool 中随时暂停 Agent 执行 # 领先的开发范式 - 实时介入控制 Different types of functions Async / Sync Stream / Non-stream Function / Cls / Obj method Text / Multimodal Unify the execution result into an async generator AsyncGenerator ToolResponse ~ pip install agentscope Collecting agentscope Downloading agentscope-1.0.0-py3 -none-any.whl_metadata (18 kB) I notice that I was interrupted. How can I help you? Respond to interruption ToolResponse pip install agentscope Collecting agentscope Downloading agentscope-1.0.0-py3 - none-any.whl_metadata (18 kB) <system-info>The tool call has been interrupted by the user. </system-info> Convert the interruption into an observable event Interrupt Query: What's AgentScope 1.0 and try to install it $\frac{1 + u}{7} = {4.8}$ No, use Chinese. Switch pip source to Aliyun mirror Acting LLM Chunk AgentScope 1.0 is a multi-agent platform that Memory Handle Interruption 好的,AgentScope 1.0 是一款多智能体编程框架 Okay, I will install AgentScope from Aliyun mirror Normal operation - - - - - Interrupt reasoning (Model invocation) - - - - - Interrupt acting 工具打断 工具执行时间过长,用户希望主动打断 推理打断 模型流式输出过程中,用户发现模型的思考出现问题,希望主动介入修正模型的思考 AgentScope 框架原生支持 原生提供 interrupt() 方法,用户可以随时对正在执行中的 Agent 进行打断 AgentScope 会将对应时间的状态保存下来,允许用户介入以后继续执行 # 领先的开发范式 -Agent Skills 渐进式暴露 # A simple SKILL.md file pdf/SKILL.md # YAML Frontmatter ```txt name: pdf description: Comprehensive PDF toolkit for extracting text and tables, merging/splitting documents, and filling-out forms. ``` # Markdown Overview This guide covers essential PDF processing operations using Python libraries and command-line tools. For advanced features, JavaScript libraries, and detailed examples, see .reference.md. If you need to fill out a PDF form, read .forms.md and follow its instructions. Quick Start ``` python from pypdf import PDFReader, PDFWriter Read a PDF reader $=$ PdfReader("document.pdf") print(f"Pages:{len reader/pages})") # Toolkit toolkit = new Toolkit(); SkillBox skillBox = new SkillBox(toolkit); ```python AgentSkill dataSkill = AgentSkill.build() .name("data_analysis") .description("Comprehensive data analysis capabilities") .skillContent "# Data Analysis\n..." ``` AgentTool loadDataTool = new AgentTool(...); ```java skillBoxregistration() .skill(dataSkill) .tool(loadDataTool) .apply(); ``` ```txt ReActAgent agent = ReActAgent.build() .name("Assistant") .model(model) TOOLkit(toolkit) .SkillBox(skillBox) .build(); ``` 采用三阶段按需加载优化上下文:初始化时仅加载元数据(~100 tokens/Skill) $\rightarrow$ AI 判断需要时加载完整指令(<5k tokens) $\rightarrow$ 按需访问资源文件。 AgentScope 特性: Tool 渐进式披露,仅在 Skill 激活时生效。 工作流程:用户提问 $\rightarrow$ AI识别相关Skill $\rightarrow$ 调用工具加载内容并激活绑定的Tool $\rightarrow$ 按需访问资源 $\rightarrow$ 完成任务 # 领先的开发范式 - 高效工具调用 Meta Tool 工具数量爆炸:随着用户的任务复杂度的提升,需要暴露给LLM更多的Tool Definitions,这将导致:LLM在面对大量的Tool时,准确率下降;Tool Definitions会占用大量的LLM Token,消耗原本不多的的上下文窗口。 AgentScope 创新解法:通过对 Tool 进行归组,渐进式由 LLM 自行决策何时暴露全部工具 # 强大的内置工具 - Meta Planner Agent 通过制定计划,推进计划来完成复杂任务 # 强大的内置工具 - Meta Planner Agent 通过制定计划,推进计划来完成复杂任务 Plan / Act 通过分离规划与实施阶段,有效避免了 Agent “边想边做”导致的发散问题,广泛应用于 Manus、Coding 等领域 AgentScope 内置了开箱即用的 Meta Planner 组件,原生支持 Agent 自主、用户主动制定计划,Agent 遵循对应 Plan 执行任务 # Plan-related Tools create計劃 view_task revise_current計劃 update_subtask_state finish_subtask # Reasoning Hints # at_the_beginning Currently, you have a plan as follows: ```markdown - [x] 1. Identify user requirements - [ ] [WIP] 2. Draft the design document - … Your options include: - mark the first subtask as 'in_progress' by calling update_subtask_state with subtaskidx=0,state='in_progress', and start executing it - ask user for more information or revise the plan by calling revise_current_plan - if user's query is unrelated, answer the query when_a_subtask_in_progress -Current State Current Options # 强大的内置工具 - 工具纠正 模型问题:LLM调用工具的JSON内容异常(不遵循类型/require……) AgentScope:自动校验模型输出,有问题主动提醒模型纠正保证工具无错误调用,提示调用成功率 # 2.2 企业级能力 从 1 到 100: 应该怎么发布、部署? # AgentScope 企业级能力 AgentScope 简单易用,快速从0到1开发 Agent;还提供企业级地能力,助您部署一个安全稳定的企业级应用。 # 工具的安全执行 AgentScope Java Runtime # Tool Sandbox Agent 在执行工具调用或自动化任务时,极有可能访问敏感资源或引发不可控行为。 企业必须将风险遏制在源头。 # 开箱即用安全的沙箱工具 AgentScope Java Runtime # Browser Use Agent 与真实世界交互的最通用工具,让 Agent 具备泛知识获取能力 # File System 隔离的文件读写与管理,支持开发者将自定义工具部署在高度隔离的受控环境中安全运行,防止对系统造成意外影响或安全风险 # Computer & Mobile 集成云上沙箱环境、算力调度、持久化数据存储和企业级安全等核心能力,覆盖浏览器、云电脑、代码空间、云手机四大运行环境 AgentScope Java Runtime # 上下文工程 行业数据:RAG 客户数据:记忆 # 上下文工程 - RAG # Retrieval Augmented Generation # 内置实现:自主可控 AgentScope Java 内置基于 Embedding 标准的知识库实现,支持企业面对多元业务数据时,私有化部署自有知识体系,实现对数据的完全自主可控。 # 企业级集成:高效 & 易用 集成阿里云百炼企业级知识库,借助其强大的商业化检索与重排序能力,大幅提升Agent回答的准确率和相关性。 # 上下文工程 - Memory AgentScope 为智能体提供统一的上下文记忆管理组件 短期记忆:Auto的记忆组件实现Agent工作上下文智能管理(压缩-卸载) 长期记忆:提供长期记忆框架ReMe,支持在用户、任务与智能体之间提取、复用与共享记忆。 Agent Memory = Long-Term Memory + Short-Term Memory = (Personal + Task + Tool) Memory + (Working Memory) 无ReMe 使用 ReMe # 易于集成 # Agent $\lessdot$ ->User - 开箱即用的 HTTP Endpoint - Session 机制管理用户请求上下文 # Agent $\leftarrow$ Tool - 原生支持 Studio、SSE、Streamable MCP 协议 AI网关将已有业务接口快速转换MCP # Agent $\leftarrow$ Agent - 内置 A2A 协议实现 Agent 间调用 - 基于Nacos实现Agent间服务发现 # 易于集成 - MCP # 易于集成 - A2A # 高性能 联合 Dragonwell 团队原生适配 GraalVM 和 Leyden 在企业中,已经构建的 Agent 只有少数 Agent 在承载超过 $90\%$ 的请求流量,必须实现 Serverless 极致的轻量化和高性能 10倍↑ 启动速度提升 200 ms 冷启动时间 # 2.3 强大的生态 从 100 到 10000: 怎么让 Agent 变聪明? # AgentScope Studio # AgentScope 强大的生态 AgentScope 有 强大的生态和信心 帮助用户 让 Agent 越用越好用 # 2.4 实践 快速构建能力完备的生产级应用 # AgentScope Demo ——云边奶茶铺智能助手 借助 AgentScope 的核心能力和强大的周边生态构建能力完备的生产级应用 # 云边奶茶铺智能助手 产品咨询 定制化下单 用户偏好记忆 智能订单查询 客户反馈收集 智能门店经营报告 中 # AgentScope Demo ——云边奶茶铺智能助手 借助 AgentScope 的核心能力和强大的周边生态构建能力完备的生产级应用 # AgentScope Demo ——云边奶茶铺智能助手 借助 AgentScope 的核心能力和强大的周边生态构建能力完备的生产级应用 云边奶茶铺智能助手对话ID:1765335524332 您好!我是云边奶茶铺的智能助手,有什么可以帮助您的吗? 根据您过往的咨询记录,似乎没有特别指定的口味偏好。基于我们店铺当前比较受欢迎的产品,我为您挑选了几款特色茶饮供参考: 1. 桂花云露:这款饮品采用桂花乌龙茶底,搭配丝滑奶盖和香脆坚果,香气浓郁且口感层次丰富,非常适合喜欢尝试新奇风味的朋友。 2. 云雾观音:选用铁观音茶叶搭配新西兰鲜奶制成,既保留了传统茶香又增加了现代茶饮的丰富口感,是四季皆宜的选择。 3. 云山红韵:以大红袍茶叶为基础,结合鲜奶调制而成,其独特的岩韵与醇厚口感深受茶饮爱好者喜爱,尤其适合秋冬季节饮用。 4. 云桃乌龙:结合了白桃果香与乌龙茶的独特风味,整体口感清新自然,非常受年轻人欢迎,尤其是在春夏时节。如果您有特定喜好或需求(如甜度、冰量等),请告诉我,这样我可以为您提供更加个性化的建议! 您的订单已成功创建!以下是订单详情:- 订单编号:ORDER_1765335625309- 产品名称:云雾观音- 甜度:标准糖(5)- 冰量:正常冰(5)- 数量:1杯- 总价:20.00元- 创建时间:2025- 12- 10 03:00:25请您稍等片刻,我们会尽快为您准备好。希望您喜欢我们的云雾观音!如果下次您有特别的口味偏好,请随时告诉我。 请输入您的问题... 盘清空对话 设置 不知道喝啥,推荐下 那就喝云雾观音吧 经营报告_20251210_033739.md 文件大小:2.71 KB 更新时间:2025/12/10 11:37:39 # 门店经营报告 日期:2025-12-10 店铺名称:云原生1号门店 报告生成时间:2025-12-10 03:36:14 # 上一日经营概览 总销量(件):12 总销售额 (¥): 281.00 平均客单价 (¥): 23.42 - 环比昨日: -71.73% (销售额) / -70.73% (订单数) # TOP3热销产品 - 销量榜 1. 云雾观音-4杯(占总销量 $33.3\%$ ) 2. 桂花云露-2杯(占总销量 $16.7\%$ ) 3. 云边普洱-2杯(占总销量 $16.7\%$ ) 营收榜 1. 云雾观音 - 80.00元(占总营收 $28.5\%$ ) # Agent Debate # 狼人杀游戏 场景:多 Agent 自主决策的竞技类游戏,充分体现Agentic 的灵活性与自主性 技术: - MsgBox: 实现 Agent 的对话和投票 - Structured Output: 让 Agent 做出明确的决策 Human in the Loop: 人机对战 . 目标:Agent 在动态、多角色互动环境中的学习与优化自身策略达到目标能力 # Agent Debate # 03 AgentScope Roadmap # AgentScope Java Roadmap # 上下文工程 未来开发者不需要关心上下文的技术细节,只需要专注于定义好 Agent 的功能。 # 实时全模态 未来 Agent 不只是文本输入,完全可以通过“眼”、“耳”和“手”更好地服务用户。 # 后训练 Agent在与用户或环境的交互中不断进化,实现真正的自我成长与迭代 # AgentScope Java Roadmap 扫码加入微信群 扫码加入钉钉群 如果二维码失效了可以在GitHub主页获取最新的哦~ 计算,为了无法计算的价值 https://github.com/agentscope-ai/agentscope-java 欢迎给我们点个Star,也可以加入我们一起构建面向未来的Agent体系 # HiMarket: 企业私有化AI开放平台 企业落地 AI 应用架构的最短路径 岛风 # 企业落地 AI 架构会遇到那些问题? 企业落地面相全员做 AI 场景加速创新,会遇到的一些通用问题 落地? # 企业和员工怎么用? 哪些高频场景可以快速让所有人参与?AI不是技术开发独享的能力,面相横向全企业员工如何加速AI渗透; 规模? # Agent、MCP 规模落地如何管理? 企业开始大规模落地 Agent,都会遇到多 Agent 管理,多 MCP 工具管理,多模型管理问题; 管理? # 权限如何管理,成本如何分摊? 企业多个团队如何协同,权限如何管理,成本如何分摊?让AI创新安全合规可控? # HiMarket 开源新版本发布,定位 AI 开放平台 HiMarket 定位 AI 开放平台:企业落地AI应用架构 最短路径 # 链接企业内部最短路径 标准API开放平台 (API货币化) 易于企业定制化 (企业权限适配) 快速落地AI应用和验证 (Play Ground) 企业级AI接入管理能力 (安全审核) # HiMarket AI 开放平台 AI场景 Chat 搜索 / 联网搜索 / 文生图 / 文生视频 AI市场 Model 市场 / Agent 市场 / MCP 市场 / Skill 市场 AI治理 统一监管 / 统一权限 / 统一计量 / 统一接入 API 开放平台 AI网关 Higress AI agent AI agent AI Registry NACOS. 多模型代理 多agent架构 端到端订阅 # AI场景:沉淀AI高频场景,面向全员加速创新落地 AI 高频场景,首要是 Chat 场景,HiMarket 定义 HiChat 让用户快速交互模型、MCP、Agent进行多模态创新 # HiChat: 全员创新 面向企业全员 管理者合规审计 高频场景沉淀 联网搜索、MCP Agent 市场 # AI市场:多市场共享能力、共享资源 实现Agent市场、MCP市场、模型市场管理,贴合业务场景能力增强 # 模型市场 自建模型管理 公有云模型管理 模型重试 模型协议转换 模型调用 fallback # MCP市场 Http 转 MCP MCP 防投毒 MCP 版本管理 MCP local/remote 外部MCP统一采购 # Agent 市场 Agent Registry A2A协议兼容 企业级Agent架构 Agent Gateway 跨语言、跨框架 # 其他市场 skill 市场 prompt 市场 # 市场的体系化统一管理 Hi Chat (快速体验) -面向全员消费 AI市场快速上架-面相开发者生产 # AI治理:通过统一开放平台,解决AI发展管理问题 统一解决内部 AI 使用的权限问题、观测问题、计量问题、内容审核、合规校验 # 统一开放平台、集中AI治理 统一权限管理 AI场景(内外)权限统一、可定制企业SSO、消费者级别鉴权、统一防护 统一内容审核 AI安全围栏、对话历史、交互内容可追溯、MCP防毒注入、Prompt审核 统一可观测 全局观测大盘,展示AI API的调用趋势、热门产品排行、异常流量预警 统一计量 多种计量模式(Token、次数等)、支持成本核算、可对外商业化运营 # HiMarket 架构:AI 开放平台私有化定制 Open Source HiMarket AI Open Platform 帮助企业构建AI开发者门户 开发者 注册、访问 开发者门户 开发者认证、鉴权 SSO 开放平台后台 管理 MCP、Agent AI网关 管理者 上架、审批、配额 # HiMarket 架构:AI 开放平台整体架构 Open Source HiMarket AI Open Platform Overall Architecture # AI开放平台门户 # 开发者门户:深度集成与定制 Developer注册SSO集成 Consumer注册凭证管理 Product开放展示/订阅/调试 观测分析Developer维度调用 构建 # AI开放平台后台 # 门户后台:管理员配置 Portal管理域名/样式/审批策略 Product管 API/Document/Policy Developer/Consumer管理身份认证/RBAC/订阅管理 观测分析多维度调用观测 SDK (Higress/Nacos) # AI网关/Nacos # 基础设施:集成与统一管理 AI网关Model/MCP/Agent 开源Higress网关MCP Server API网关REST/HTTPAPI NacosMCP/Agent # HiMarket 开源 roadmap HiMarket 坚持开源开放,欢迎一起共建,让天下企业没有难用的 AI 开放平台 # HiMarket 产品演示 HiChat 对话 多模态能力演示 可观测能力 AgentScope Agent 发布 # HiMarket 开源开放,欢迎参与共建 HiMarket 坚持开源开放,欢迎一起共建,让天下企业没有难用的 AI 开放平台 HiMarket 钉钉社区群(2群):163370001036 HiMarket AI 开放平台,保持开源开放 核心参与者包括阿里云、蚂蚁数科、高德、淘天等团队,面向开源可以助力企业快速构建AI开放平台,提供开箱即用的能力! 感谢淘天 IdeaLAB 团队为 HiMarket 提供的基础,期待更多企业一起参与共建! HiMarket 仓库: https://github.com/higress-group/himarket - DockerCompose部署:HiMarketDocker部署指南。 - Kubernetes 部署: HiMarket Helm 部署指南。 # 谢谢! # Higress for Gateway API:兼容新一代协议标准的路由与智能路由 赵源筱(如漫) Higress Maintainer # CONTENT目录 01 Higress: 从API网关到AI网关 从云原生时代到 AI 原生时代,Higress 的发展过程 02 流量协议:从Gateway API到Inference Extension 从微服务流量到AI推理服务流量,新一代流量协议标准的演进 03 Higress兼容新一代协议标准实践 基于Higress的Gateway API与Gateway API Inference Extension实现 04 积极兼容和拥抱 AI 时代的标准和生态 Higress 项目建设规划与未来方向,欢迎开发者一起参与开源贡献 # Part 1 # Higress: 从API网关到AI网关 从云原生时代到 AI 原生时代,Higress 的发展过程 # 1.1 网关的发展历程 # 云原生网关与AI网关分别是伴随云原生与微服务应用、AI应用快速发展的必然产物 实现快、维护成本高 模块化负载均衡 服务管理、RPC技术 高密度部署原子、自治 按量使用、极致弹性 Kubernetes AI应用、Agent、轻量 LLM 单体架构 垂直架构 SOA 架构 微服务架构 云原生架构 AI 原生架构 流量网关 (Nginx) ESB 微服务网关 云原生网关 AI网关 # 1.2 Higress AI 网关演进之路 Higress 项目从解决云原生时代核心痛点的 API 网关,凭借前瞻性架构设计和持续技术深耕,演进为业界领先的 AI 网关。在安全、性能、高可用及开源生态四大支柱上的深厚积累,为构建AI时代的中间件奠定了坚实基础。 # 1.3 Higress AI 网关核心特性 AI应用在落地过程中存在模型集成、工具调用、安全合规、稳定性保障等多重挑战。 # 1.3 Higress AI 网关核心特性 # Part 2 # 流量协议:从Gateway API到Inference Extension 从微服务流量到AI推理服务流量,新一代流量协议标准的演进 # 2.1 Gateway API: 新一代服务网络标准 - Gateway API 是 Kubernetes 社区推出的新一代服务网络标准,旨在取代传统的 Ingress。 - Gateway API 提供了更强大的表达能力和可扩展性,并实现了面向角色的设计。 - Gateway API 在 2023 年底发布 v1.0.0 版本,正式进入 GA 阶段,并持续保持迭代和发展。 Ingress Vs Gateway Namespace - 1 Namespace - 2 # 2.1 Gateway API: 新一代服务网络标准 随着Gateway API逐渐成熟,Kubernetes SIG Network 和安全响应委员会宣布 Ingress NGINX 即将停止维护,并推荐用户使用 Gateway API,或其他Ingress Controller。 # KUBERNETES CONTRIBUTORS Welcome Blog Documentation Community Resources Q Search this site... Q Search this site... # Blog Ingress NGINX Retirement: What You Need to Know Announcing the 2025 Steering Committee Election Results Spotlight on Policy Working Group Spotlight on the Kubernetes Steering Committee Post-Quantum Cryptography in Kubernetes Changes to Kubernetes Slack # Ingress NGINX Retirement: What You Need to Know By Tabitha Sable (Kubernetes SRC) | Wednesday, November 12, 2025 To prioritize the safety and security of the ecosystem, Kubernetes SIG Network and the Security Response Committee are announcing the upcoming retirement of Ingress NGINX. Best-effort maintenance will continue until March 2026. Afterward, we will be no further releases, no bug fixes, and no updates to resolve any security vulnerabilities that may be discovered. E deployments of Ingress NGINX will continue to function and installation artifacts will remain available. We recommend migrating to one of the many alternatives. Consider migrating to Gateway API, the modern replacement Ingress. If you must continue using Ingress, many alternative Ingress controllers are listed in the Kubernetes documentation. Continue reading for further information about the history and current state of Ingress NGINX, as well as next steps. About Ingress NGINX History and Challenges Current State and Next Steps # Third party ingress controllers Note: This section links to third party projects that provide functionality required by Kubernetes. The Kubernetes project authors aren't responsible for these projects, which are listed alphabetically. To add a project to this list, read the content guide before submitting a change. More information. - AKS Application Gateway Ingress Controller is an ingress controller that configures the Azure Application Gateway. - Alibaba Cloud API Gateway Ingress is an ingress controller that configures the Alibaba Cloud Native API Gateway, which is also the commercial version of Higress. - Apache APISIX ingress controller is an Apache APISIX-based ingress controller. - Avi Kubernetes Operator provides L4-L7 load-balancing using VMware NSX Advanced Load Balancer. - BFE Ingress Controller is a BFE-based ingress controller. - Cilium Ingress Controller is an ingress controller powered by Cilium. - The Citrix ingress controller works with Citrix Application Delivery Controller. - Contour is an Envoy based ingress controller. - Emissary-Ingress API Gateway is an Envoy-based ingress controller. - EnRoute is an Envoy based API gateway that can run as an ingress controller. - F5 BIG-IP Container Ingress Services for Kubernetes lets you use an Ingress to configure F5 BIG-IP virtual servers. - FortiADC Ingress Controller support the Kubernetes Ingress resources and allows you to manage FortiADC objects from Kubernetes - Gloo is an open-source ingress controller based on Envoy, which offers API gateway functionality. - HAProxy Ingress is an ingress controller for HAProxy. Higress is an Envoy based API gateway that can run as an ingress controller. - The HAProxy Ingress Controller for Kubernetes is also an ingress controller for HAProxy. - Istio Ingress is an Istio based ingress controller. CHIT SIG Network and the Security Response Committee recommend that all Ingress NGINX users begin migration to Gateway API or another Ingress controller immediately. Many options are listed in the Kubernetes documentation: Gateway API, Ingress. Additional options may be available from vendors you work with. # 2.2 GIE: 面向模型推理服务的新一代协议标准 - Gateway API Inference Extension (以下简称 GIE) 是 Kubernetes 官方社区针对 AI 推理场景提出的基于 Gateway API 扩展协议。通过引入模型感知路由、智能负载均衡等能力,旨在解决 AI 推理服务在 Kubernetes 上的流量管理难题,为 AI 推理工作负载提供了标准化解决方案。 - GIE 在2025年9月发布 v1.0.0版本,正式进入GA阶段,同时保持快速迭代。 # Part 3 # Higress兼容新一代协议标准实践 基于 Higress 的 Gateway API 与 Gateway API Inference Extension 实现 # 3.1 Higress 兼容全新 Gateway API / GIE 协议 在即将发布的 Higress v2.2.0版本中,Higress 将支持全新版本的 Gateway API 以及 GIE。 # 3.2 基于Higgs的Gateway API 实践演示 在容器环境内确保安装 Hgress 以及 Gateway API CRD之后,配置以下服务和路由资源。 # □ 创建Gateway # □ 创建HTTPRoute 使用YAML创建资源 使用YAML创建资源 # 3.2 基于Higgs的Gateway API实践演示 # □ 访问Higress网关验证 ```txt (base) ~ % curl -H "Host: httpbin.example.com" http://version version: v1 hostname: go-httpbin-8df4c8856-bq4qz (base) ~ % curl -H "Host: httpbin.example.com" http://version version: v1 hostname: go-httpbin-8df4c8856-bq4qz (base) ~ % curl -H "Host: httpbin.example.com" http://version version: v1 hostname: go-httpbin-8df4c8856-bq4qz ``` # 3.3 基于Higgs的GIE实践演示 在容器环境内确保安装 Higress、Gateway API 以及 Gateway API Inference Extension CRD之后,配置以下推理服务和路由资源。 # □ 创建推理服务实例 无状态 Deployment # □ 创建 Endpoint Picker (可选) # □ 推理服务关联 InferencePool # 使用YAML创建资源 示例模版 自定义 X 模版 1 apiVersion: inference.networking.k8s.io/v1 2 kind: InferencePool 3 metadata: 4 name:vllm-llama3-8b-instruct 5 namespace: default 6 spec: 7 targetPorts: 8 - number: 8000 9 selector: 10 matchLabels: 11 app:vllm-llama3-8b-instruct 12 endpointPickerRef: 13 name:vllm-llama3-8b-instruct-epp 14 port: 15 number:9002 智能生成模板 # 3.3 基于Higgs的GIE实践演示 # □ 配置 Gateway # 口 配置 HttpRoute 路由 # 使用YAML创建资源 示例模版 自定义 模版 YAML语句智能分析 # 使用YAML创建资源 示例模版 自定义 模版 X 智能生成模板 # 3.3 基于Higgs的GIE实践演示 # □ 访问Higress网关验证 ```txt (base) zhaoyuanxiao@U-G6M0036P-0003 ~ % curl -i -X POST http://? 0/v1/completions \ -H 'Content-Type: application/json' \ -H 'Host: httpbin.example.com' \ -d '{ "model": "meta-llama/Llama-3.1-8B-Instruct", "prompt": "Write as if you were a critic: San Francisco", "max_tokens": 100, "temperature": 0 }' HTTP/1.1 200 OK server: istio-envoy date: Tue, 20 Jan 2026 07:21:26 GMT content-type: application/json content-length: 598 x-inference-pod: v11m-llama3-8b-instruct-f86f84db8-76nt8 req-cost-time: 1 req-arrive-time: 1768893686998 resp-start-time: 1768893686999 x-envoy-upstream-service-time: 0 ``` ```json {"id":"chatcmp1-9681729c-dbb6-4a23-a06c-3f7d352f90a5","created":1768893686,"model":"meta-llama/Llama-3.1-8B-Instruct","usage":"prompt_tokens":10,"completion_tokens":51,"total_tokens":61},"object":"text Completion","do_remote Decode":false,"do_remote_prefix":false,"remote_block_ids":null,"remote_engine_id":"remote_host":"remote_port":0,"choices":[["index":0,"finish_reason":"stop","text":"I am your AI assistant, how can I help you today? Today is a nice sunny day. Give a man a fish and you feed him for a day; teach a man to fish and you feed him for a lifetime Alas, poor Yorick! I"}]} ``` 模型感知路由LoRA适配器路由前缀缓存感知路由优先级调度推理请求排队 InferencePool Model Server Gateway API Gateway API Inference Extension # Part 4 # 积极兼容和拥抱 AI 时代的标准和生态 Higress 项目建设规划与未来方向,欢迎开发者一起参与开源贡献 # 4.1 积极兼容 AI Native 协议标准 (面向Infra) Kubernetes从云原生时代孵化发展而来,我们相信不管是现在还是未来,Kubernetes将依然是AI时代不可或缺的基础设施,成为AI Agent与AI推理服务的重要底层基础支撑。 # 4.2 积极拥抱和支持繁荣的 AI 生态 (面向Agent) 针对 AgentScope 和 Dify 等主流 AI 框架或平台,进行深度联动和兼容,提高主流 AI 应用 + AI 网关集成的易用性。 # □ AgentScope x Higress AgentScope 联动 Higress 实现动态内容压缩,降低大body场景下网络带宽消耗 feat/examples): support http request and response content compression #316 <>Code Merged AlbumenJ merged 8 commits into agentscope-ai:main from uuuyuqi:main last month Conversation # Cor its C ks AgentScope 联动 Higress 实现工具精选,避免过多无用 Tools 输入给模型服务造成Token浪费 feat(mcp):support hgress tool search #337 Merged AlbumenJ merged 7 commits into agentscope-ai:main from qingTang0305:higress-tool last mon Conversation C CH Files changed last mon # AgentScope Java Higress扩展 因此,AgentScope Java 推出了 Higress 扩展,深度集成 Higress AI Gateway 的语义检索能力,覆盖 Agent 从工具发现、筛选、加载到调用的完整生命周期,全面支撑低成本、高精度、高效率的 Agent 运行。该插件提供以下能力: - 语义驱动的工具精选:用户可以告别硬编码工具列表,基于用户自然语言描述动态检索最相关工具。 - 无缝集成MCP客户端:提供标准化、响应式的Java客户端,零侵入兼容现有AgentScope生态。 - 企业级可观测与安全:依托阿里云AI Gateway,提供认证鉴权的安全能力。 阿里云云原生 # 4.2 积极拥抱和支持繁荣的 AI 生态 (面向Agent) # Dify x Higress Dify 插件市场上架 Higress 模型插件,便捷 Dify 用户通过 Higress 访问模型服务,支持多模态(文生文、文生图)、多场景(LLM、Rerank、Embedding)、多种消费者鉴权方式(API Key、AK/SK)等。 https://github.com/higress-group/higress-dify-plugin Higress开源社区钉钉群 Higress开源社区微信群 # 感谢聆听 欢迎扫码加入社区钉钉/微信群共同沟通和交流 https://github.com/alibaba/higress # LoongSuite在多模态Agent时代的观测新解法 无损观测OpenTelemetry语义标准的实践 # 余韬 LoongSuite Commiter LoongCollector Maintainer # CONTENT目录 01 从“文本日志”到“认知资产” 02 LoongSuite 开源项目概览 03 LoongSuite 多模态数据高性能采集方案 04 未来规划 # 从“文本日志”到“认知资产” From "Text Log" to "Knowledge Assets" # 从“文本日志”到“认知资产” 微服务时代:TPS、延迟、错误率 Text Logs Metrics AI Agent时代:看见(Image)、聆听(Audio)、绘制(GenAI) 看见(Image) 聆听(Audio) 绘制(GenAl) 运行时的多模态数据不仅是石油,更是AI进化的“燃料”。 # 多模态“认知资产”的高价值应用场景 # 采集 “认知资产” 面临的四大硬伤 # 1. 体积膨胀与数据损坏 Base64编码增加33%体积,日志截断导致数据损坏。 # 2. 性能瓶颈 编解码消耗大量CPU,拖慢应用响应。 # 3. 语义荒漠 编码后的数据无法被检索或分析。 # 4. 资产碎片化 数据分散存储,关联失效,难以追溯。 # LoongSuite 开源项目概览 LoongSuite: An end-to-end observation suite # LoongSuite 全链路生态概览 # OpenTelemetry (OTel) Standardization 传输协议(OTLP) 采集行为 (OTel Spec) 语义规范 (Semantic Conventions) # LoongSuite Python Agent无侵入采集基本原理 # LoongSuite多语言探针支持矩阵 <table><tr><td colspan="2">语言与框架</td><td>LoongSuite 商业版</td><td>LoongSuite 开源版</td><td>OpenInference</td><td>OpenTelemetry</td></tr><tr><td rowspan="9">Python</td><td>OpenAI SDK</td><td>Supported</td><td>Supported</td><td>Supported</td><td>Supported</td></tr><tr><td>DashScope SDK(百炼)</td><td>Supported</td><td>WIP</td><td>NOT Supported</td><td>WIP</td></tr><tr><td>LangChain/LangGraph</td><td>Supported</td><td>Supported</td><td>Supported</td><td>Supported</td></tr><tr><td>Google ADK</td><td>Supported</td><td>Supported</td><td>Supported</td><td>NOT Supported</td></tr><tr><td>OpenAI Agent</td><td>Supported</td><td>Supported</td><td>Supported</td><td>Supported</td></tr><tr><td>AgentScope</td><td>WIP</td><td>Supported</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td>Dify</td><td>Supported</td><td>Supported</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td>vLLM</td><td>Supported</td><td>WIP</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td>SGLang</td><td>Supported</td><td>TODO</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td rowspan="5">Java</td><td>OpenAI SDK</td><td>Supported</td><td>Supported</td><td>NOT Supported</td><td>Supported</td></tr><tr><td>Spring AI/Spring AI Alibaba</td><td>Supported</td><td>WIP</td><td>Supported</td><td>WIP</td></tr><tr><td>AgentScope</td><td>WIP</td><td>TODO</td><td>NOT Supported</td><td>WIP</td></tr><tr><td>Google ADK</td><td>TODO</td><td>WIP</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td>DashScope SDK</td><td>WIP</td><td>TODO</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td rowspan="3">Golang</td><td>LangChainGo</td><td>Supported</td><td>Supported</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td>Eino</td><td>WIP</td><td>Supported</td><td>NOT Supported</td><td>NOT Supported</td></tr><tr><td>Ollama</td><td>WIP</td><td>Supported</td><td>NOT Supported</td><td>NOT Supported</td></tr></table> # LoongSuite 多模态数据高性能异步采集方案 LoongSuite's High Performance Async Collection Solution For Multimodal Data # OpenTelemetry 多模态语义规范 Semantic Conventions PR #2754,社区非常有前瞻性地提出了 modality(模态)的概念,并规范了 UriPart、BlobPart、FilePart 这样的数据结构。 Add multimodal uri, file, and blob parts to GenAI JSON Schemas #2754 $\langle \rangle$ Code Jump to bottom Merged lmolkova merged 20 commits into open-telemetry:main from aabmass:genai-multimodal-1556 on Oct 30, 2025 Conversation Commits Checks File aabmass commented on Sep 9, 2025 # Fixes #1556 # Changes Added two new types to the MessagePart union for capturing multimodal prompt/response data: - BlobPart which contains inline base64. - FileDataPart which contains a URI referencing data. Also updated the ipynb to directly write to the JSON Schemas for simpler updating. ```txt // A image with a URI { "type": "uri", "modality": "image", "mime_type": "image/png", "uri": "https://raw.githubusercontent.com/open-telemetry/opentelemetry.io/refs/heads/main/static/img/logos/o", } // A video with a vendor specific URI { "type": "uri", "modality": "video", "mime_type": "video/mp4", "uri": "gs://my-bucket/my-video.mp4" }, // An inline image { "type": "blob", "modality": "image", "mime_type": "image/png", "content": "aGVsbG8gd29ybGQgaW1hZ2luZSB0aGlzIGlzIGFuIGltYWdlCg=="} }, // Inline audio { "type": "blob", "modality": "audio", "mime_type": "audio/wav", "content": "aGVsbG8gd29ybGQgaW1hZ2luZSB0aGlzIGlzIGFuIGltYWdlCg==" ``` # 标准与现实的落差:社区方案的局限性 Add genai upload hook to genai utils following semconv v1.37 #3753 社区当前的实现(OpenTelemetry Python Contrib opentelemetry-util-genai[upload]):采用CompletionHook机制,将整个Request/Response打包归档。 # LoongSuite 的破局之道——高性能异步采集方案 # 功能演示:数据驱动业务进化的场景落地 Computer Use GUI Agent 观测与数据集构建 # 功能演示:数据驱动业务进化的场景落地 语音对话审计 # 功能演示:数据驱动业务进化的场景落地 生图Prompt优化与模版推荐 # 功能演示:数据驱动业务进化的场景落地 自动驾驶视频评估与训练 # 未来规划 Next step of LoongSuite # 未来展望:做最懂 GenAI 的观测套件 # 欢迎关注 & 加入 # LoongSuite Python Agent https://github.com/alibaba/loongsuite-python-agent # LoongSuite Go Agent https://github.com/alibaba/loongsuite-go-agent # LoongSuite Java Agent https://github.com/alibaba/loongsuite-java-agent # LoongCollector https://github.com/alibaba/loongcollector Star us on GitHub Fork & Contribute 群聊:LoongSuite开源社区 该二维码7天内(1月29日前)有效,重新进入将更新 微信群 LoongSuite Python SIG 钉钉群 让我们一起,把 AI 应用的“黑盒”变成“白盒”,把“数据石油”真正点燃成“进化燃料”。 # THANKS # Apache RocketMQ for AI 面向AI应用的异步解决方案 张硕 RocketMQ Maintainer # Contents目录 01 AI场景下异步架构的新挑战 02 LiteTopic: 面向 AI 场景的轻量级事件载体 03 基于LiteTopic实现精细化流控 04 基于LiteTopic的异步AI会话网关 05 实操演示 # 1.AI场景下异步架构的新挑战 # 传统互联网应用和 AI 应用的对比 # 传统互联网应用 (Traditional Internet Applications) 固定流程 可预测 1. 业务流程 (Business Process) # AI应用 (AI Applications) 动态决策 不可预测性高 0.1s (短, 固定) 2. 请求耗时 (Request Latency) 3-15s+ (长, 不可预知) 单向一次性交互 3. 交互模式 (Interaction Mode) # AI应用的特点 行为模式:主动执行,拆解目标,自主决策,完成任务,业务流程不固定 业务时长:不可预测性更高,平均耗时长,部分场景可达分钟级甚至更长 交互方式:单次任务交互次数更多,需要高效的状态管理和会话管理 运行成本:GPU 的运算成本远高于 CPU,AI 应用的成本压力更大 # 传统应用事件驱动 vs AI 应用事件驱动 # AI应用异步事件驱动新特性 易致堆积:平均消费耗时变长,队列数据容易堆积 易致阻塞:单一长耗时消息引发头部阻塞,使短任务被迫等待,影响整体并发效率与用户体验 结果可溯:系统异常恢复后,可获取历史任务结果,避免重复请求LLM,减少冗余推理,降低成本 # 面向AI场景的消息中间件 1. ARCHITECTURE CHOICES 2. ENGINEERING OPTIMIZATION # 消息中间件演进方向 差异化:传统异步模型基于任务同质性设计,在分布式切片的架构下,只需少量 Topic与集群消费提升吞吐。AI任务高度差异化,要求消息系统能够为每个差异化任务单元提供独立的消息通道 数据恢复:传统模式依赖消息回溯重新执行业务,成本低可行。AI场景重试代价高昂,消息回溯需从重试转向复用,支持结果留存与快速读取,实现低成本故障恢复 大消息体:AI推理结果体量大,要求消息中间件支持更大消息体。需通过分片、压缩等机制,实现大内容的高效传输与可靠存储。 2. LiteTopic:面向AI场景的轻量级事件载体 # 传统消费模型:基于Group的共享消费 RocketMQ 4.0 队列分配Pull模型 RocketMQ 5.0无状态Pop模型 # LiteTopic 消费模型:差异化订阅 # LiteTopic 消费特点 自动:不需要预先创建;运行时自动创建,自动清理,带TTL 轻量:可创建百万级别的轻量级队列 差异化:单个客户端可以订阅万级别 Topic,不同客户端订阅关系可以完全不同,也可以相同 独占(可选):一个LiteTopic只允许一个客户端订阅 # LiteTopic 消费模型实现 # 只是订阅关系数量的变化? 能否复用现有方式,只是每个客户端使用独立的Group订阅多个Topic?不可行 1. 读请求数量急剧膨胀 2. 轮询导致的无效扫描增多,CPU开销增大 3. 无法支持独占订阅 4. Topic要预先创建 5. 客户端与各自Group绑定,使用很不方便 # LiteTopic 消费模型实现 # 海量差异化订阅模型 (1) 订阅关系注册: 客户端动态添加/删除订阅, 注册到服务侧, 分片存储 (2) 百万队列:基于百万队列模型,每个LiteTopic对应一个逻辑队列,消息存储时自动创建 (3) 事件分发: 每个客户端有专属的事件队列, 根据订阅关系集合进行分发 (4) 事件读取: 一客户端读请求归一化, 不必对每个 LiteTopic 发起读请求; 直接读事件队列, 避免扫描 数据面控制面分离、推拉结合、事件驱动 3. 基于LiteTopic实现精细化流控 # 队列级共享消费导致阻塞 # 共享队列阻塞 队列共享:单一 Topic 包含多个队列,所有队列共同承载多用户消息,资源共用、无隔离 消息混合:不同用户的消息被随机分发至各队列中,隔离程度很低 队头阻塞:当某队列头部出现长耗时任务,后续所有消息(无论归属谁)均被阻塞,无法消费 影响公平:单用户密集提交慢任务,可能抢占全部队列头部,导致资源独占,引发其他用户延迟上升,破坏系统公平性,拖慢整体响应。 # 消费端线程池非阻塞模型 # 非阻塞消费线程池模型 线程模型瓶颈:消费端实际并发能力受限于线程池大小,预拉取 + 线程池模型下,线程一旦被慢任务占用或者用sleep实现限流,即无法释放,即便队列物理隔离仍会导致资源卡死 消费线程释放:LiteTopic 支持消费者主动返回 suspend,立即释放当前线程,避免空等浪费 保障公平:释放的线程可立即处理其他用户的快速任务,提升整体吞吐与多用户调度公平性 # 基于LiteTopic实现精细化限流 # 实现方案关键点 物理隔离:以用户名作为LiteTopic名称,实现用户级物理隔离 动态创建:LiteTopic 按需动态创建,百万级可扩展 精准流控:每个LiteTopic独立执行限流,实现精准流控;可以按用户配置差异化阈值,打造“千人千面”的流量治理能力 挂起机制:用户触发限流时,消费者返回suspend,立即释放线程,服务端暂停拉取,避免资源浪费;释放的线程可即时处理其他用户请求,实现资源的弹性调度与高效复用 4. 基于LiteTopic的异步AI会话网关 # 现有 AI 会话异步方案的瓶颈 # 现有方案的局限性 共享消费:集群消费无法保证消息传输到固定接收节点,难以支持会话粘性,导致结果回传错乱或依赖复杂状态同步 历史数据:缺乏轻量灵活的 API来支持数据恢复,无法快速读取多轮会话上下文 消费方式:集群消费模式无法支持消费差异化,需要共享、互斥等消费模式来支持多种会话场景交互 # 异步会话网关现有方案的局限性 # 现有实现方案 (1) 任务提交: 用户连接到某网关机器, 提交任务, 该机器将任务信息写入共享缓存 (2)(3) 轮询任务: Worker 获取并执行任务, 完成后将结果写入到结果队列 ④⑤⑦ 顺序消费:网关集群顺序消费结果队列:若接收用户消息的机器是用户所连网关实例,则直接推流;若不是用户所连实例,则将结果存入缓存,并发送广播 Topic ⑥ 广播消费:所有机器收到广播后,如果是本机所连接用户的任务,从缓存读取结果并返回,否则忽略 问题:流程复杂、依赖组件多、广播无效消费、排查路径长、不支持断连恢复 # 基于LiteTopic实现全异步会话网关 # 优化后的方案 (1)(2) 任务提交: 用户连接到某网关机器, 提交任务, 该机器将任务信息写入到任务 Topic (普通类型), 消息中携带Session 信息, 并订阅对应 Session 名字的 LiteTopic (3)(4) 回写结果: 智能应用 (Worker 节点) 消费任务Topic的消息, 处理后将任务结果写到 Session 名字的 LiteTopic (5)(6) 返回结果: 订阅Session LiteTopic的网关机器收到任务结果, 直接返回给用户 流程简单、全异步、依赖组件少、无需广播消费、支持断连恢复 # 异步会话网关断连恢复 # 中断恢复 (1) Session建连:浏览器连接到网关机器 1 (2)(3) 返回结果:网关机器1订阅LiteTopic (Session1),后端智能应用将结果写到 Session Topic1,网关机器1返回浏览器 (4) 断连: 浏览器或者网关机器原因断连 (5) 浏览器重连:网浏览器重新连接到网关机器2,标明恢复会话为Session1,网关机器2订阅LiteTopic(Session1),从断点处返回数据 无状态网关;支持指定Last-Event-ID、LastN模式,便于端上重新组织数据 # 5. 实操演示 # 实操演示:会话重连 # 体验通过RocketMQ解决会话异步通知和状态连续性的问题 检测到正在进行对话,已终止当前请求 # 体验过程 1. 创建会话,会话长连接会随机连接到服务端任意一个节点。 2. 在大模型返回结果的过程中,重连会话,体验会话响应结果的连续性。 重连成功 重连会话 点此下载解决方案代码 点此了解RocketMQ LiteTopic详解介绍 rocketmq走1T么! - RocketMQ是一款由阿里巴巴开源的分布式消息中间件(消息队列),具有高吞吐、低延迟、高可用、高可靠等特性,广泛应用于大规模分布式系统中。它最初在阿里内部使用(名为MetaQ),后来捐赠给Apache软件基金会,并于2016年成为Apache的顶级项目。 # $\diamond$ RocketMQ的核心特点 <table><tr><td>特性</td><td>描述</td></tr><tr><td>高性能</td><td>支持每秒数百万消息的处理能力,适用于高并发场景。</td></tr><tr><td>高可用性</td><td>支持主从架构、故障自动切换、数据多副本存储。</td></tr><tr><td>高可靠性</td><td>消息持久化到磁盘,确保即使宕机也不会丢失。</td></tr><tr><td>支持事务消息</td><td>提供“半事务消息”机制,实现分布式事务的一致性。</td></tr><tr><td>顺序消息</td><td>支持严格的消息顺序投递(如</td></tr></table> 系统信息:从节点http://localhost:9292切换到节点http://localhost:9191发起重新订阅,时间:2026/01/19 14:14:38。 请输入内容,按下Enter发送消息 Session: e0e398d8-ee01-4ba7-a28e-11bd523cb258 # 实操演示:基于RocketMQ的多智能体通信 # RocketMQ for AI 用户交流群二维码 该二维码7天内(1月29日前)有效,重新进入将更新 # THANKS