> **来源:[研报客](https://pc.yanbaoke.cn)** # IT服务行业点评报告总结 ## 核心内容概述 本报告聚焦于多模态模型的发展趋势,指出行业正从单一内容生成转向“观察—状态—行动”的世界模型闭环。世界模型的演进被划分为三个阶段:Renderer(短期商业化)、Simulator(中期竞争)、Planner(长期价值),分别对应图像/视频生成、状态保持与物理一致性、以及任务规划与真实交互。 ## 主要观点 - **行业趋势**:多模态模型正从单点生成能力发展为可交互的工作流系统,世界模型逐渐成为行业共识。 - **商业化路径**:当前商业化集中在Renderer场景,如图像编辑、视频生成、广告素材、电商内容、短视频等;中期竞争将聚焦于Simulator的物理一致性与状态保持;长期则有望进入机器人、游戏、数字孪生和Agent任务闭环。 - **统一多模态架构**:统一多模态架构是实现从生成工具到工作流系统的关键,主要从表示统一、能力协同、训练与效率扩展三个方面推进。 - **产品验证**:Google、字节、OpenAI等公司已从不同角度验证多模态产品的商业化能力,如视频创作闭环、国产视频商业化、图像生成工具化等。 - **投资建议**:看好具备底层模型能力、工程化效率、内容生态入口和商业化场景的AI平台型厂商,重点推荐快手、阿里巴巴,建议关注Minimax。 - **催化剂**:多模态模型能力迭代、MaaS调用量变化、视频生成成本下降、内容生产工作流渗透率提升及真实客户付费验证。 - **风险提示**:包括多模态技术迭代不及预期、宏观政策风险、商业化落地不及预期及监管风险。 ## 关键信息 ### 世界模型的三个阶段 | 阶段 | 定义 | 商业化重点 | 技术要求 | |------|------|------------|----------| | Renderer | 负责把世界画出来 | 图像/视频生成、编辑、广告素材、电商内容、短视频 | 画质、速度、成本、可控编辑 | | Simulator | 负责预测世界怎么变化 | API调用、企业接入、内容生产工作流 | 空间结构、物体状态、物理关系、时间连续性 | | Planner | 负责根据目标判断下一步怎么做 | 机器人、游戏、数字孪生、Agent任务闭环 | 任务规划、真实交互与行动反馈 | ### 统一多模态架构的优势 - **表示统一**:文本、图像、视频、音频在统一latent/token空间中被持续读写,减少信息转换损耗。 - **能力协同**:理解侧偏语义与逻辑,生成侧偏画面细节与视觉质量,统一架构不取消分工,而是共享上下文,降低干扰。 - **训练与效率扩展**:通过统一训练目标、奖励模型、MoE、蒸馏等方式提升生成、编辑和视频任务的可用性。 ### 商业化进展 - **Seedance 2.0**:单月营收已超10亿元,进入API调用、企业接入和MaaS商业化验证阶段。 - **火山引擎 MaaS**:2026年营收目标上调至150亿元,表明视频模型正在从演示能力走向实际应用。 - **ChatGPT Images 2.0**:图像生成从“一次出图”走向可交付视觉资产,强调文字可读、版式清晰、多图参考和连续编辑。 ## 投资评级 - **行业评级**:看好(维持) - **股票投资评级说明**: - 买入:行业指数表现优于沪深300指数20%以上 - 增持:行业指数表现优于沪深300指数10%~20% - 中性:行业指数表现与沪深300指数波动在±10%之间 - 减持:行业指数表现低于沪深300指数10% ## 法律声明 本报告由浙商证券股份有限公司制作,信息来源于公开资料,不保证其真实性、准确性或完整性。报告仅供客户参考,不构成投资建议,投资者应独立评估并考虑自身投资目的与财务状况。未经授权,不得复制、发布或传播本报告内容。 ## 相关报告 1. 《AI驱动北美云厂资本开支快速上行,云业务仍处于投入期》2026.05.09 ## 总结 世界模型的发展标志着多模态AI从单点生成向可交互工作流的转变。统一多模态架构成为实现这一转变的关键,而商业化验证正在逐步展开。行业未来竞争将从模型效果转向工程化效率、内容生态、入口分发和工作流嵌入深度。投资建议聚焦具备综合能力的AI平台型厂商,同时需警惕技术迭代、政策及商业化落地等风险。