> **来源:[研报客](https://pc.yanbaoke.cn)** # 2025火山引擎智能视频云实践精选集 打造“豆包同款”新范式 2025年,当豆包大模型与视频云基础设施深度耦合,生成式AI的“对话交互”基因注入音视频全链路,我们正从“智能视频世界”迈入“视频智能交互新时代”——视频不再是“内容载体”,而是能“听、看、理解、共创”的智能伙伴,用户体验的重构也随之走向更深层的融合: ■ 首先,内容生产从“AIGC工具辅助”升级为“AI协作创作”:火山引擎的AI媒体处理引擎,以语义抽帧、多模态对齐能力重塑内容流水线,让AI成为创作者的“原生助手”,从拍摄到生成的全链路效率呈指数级提升; 同时,音视频不再是“信息媒介”,而是“通用交互语言”:音视频互动智能体以长期记忆、人声检测等能力,让视频懂表情、听语气、会回应,交互如面对面般自然;随着全终端AI应用的铺开,交互场景从“单一设备”拓展至“全端协同”:从手机的拍摄端,到PC、汽车、AIOT等终端的计算端,以“创意想象+对话交互”为核心,视频完成了从“被拍摄”到“被计算”的进化; ■最后,技术的价值从“体验优化”转向“全球生态共建”:智能视频云出海方案,以领先的多模态传输、AI处理能力,助力中国AI应用在全球市场构建竞争优势。 技术的进化从来不是独行,它在融合中寻找共生的可能——当豆包大模型遇见视频云,每一次链路的打通、每一个能力的落地,都是在为智能交互的未来铺就基石。 火山引擎视频云,承继抖音集团技术沉淀,在AI时代,以“豆包同款智能视频云”为内核,通过AIGC传输、AI媒体处理、AI智能互动等能力,为企业提供AI时代的视频基建,实现体验跃升与业务增长的双向奔赴。 特别推出《2025火山引擎智能视频云实践精选集》2025版,收录全年音视频专家的深度实践期待与同仁们一同探索“LLM×视频云”的融合边界,共赴智能交互的新征程。 # 精选集内容将围绕火山引擎视频与边缘在过去一年的AI/大模型&音视频技术实践, # 包括: AIGC画质大模型、自由视角视频直播、AI音视频编码、AI+增强视频质量等全球前沿的论文精选 媒体智能工具、音视频交互、智能剪辑、智能3D视频等AI+技术的落地实践 AI + 设计、智能硬件、短剧出海、VR大空间等行业场景的最佳实践 # 目录 # 1. 国际认可 火山引擎多媒体实验室多项成果入选SIGGRAPH ASIA 2025 01 火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI2025Oral 09 火山引擎多媒体实验室画质理解大模型Q-Insight入选NeurIPS2025Spotlight 13 火山引擎多媒体实验室重要突破!LiveGS技术登榜SIGGRAPH,重新定义移动端自由视角视频直播 -- 19 ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军 24 CVPR 2025|火山引擎获得NTIRE视频质量评价挑战赛全球第一 30 火山引擎蝉联全国人工智能大赛一AI+增强视频质量评价冠军 34 # 2.技术探索 当一朵云,打出「豆包同款」的旗 38 从“抖音同款”到“豆包同款”:AI时代,视频云正在有了新表达 43 从“抖音同款”到“豆包同款”:视频云正在进入Agent时代 51 火山引擎智能3D视频启动商业化,计划落地直播应用 57 64 火山 HTTPDNS Cache2.0:网段级精准调度驱动核心业务收益 77 基于DiT大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海 88 大模型帮你剪视频——基于MCP打造火山引擎VOD智能剪辑 95 火山引擎推出veimagex-mcpServer,打造专属您的图片智能助理 99 火山引擎OSAgent解决方案、豆包1.5·UI-TARS模型发布 107 10+芯片和模组商集体适配!让智能硬件能听会看还会唠 109 重构智能设备管理范式:火山引擎端智能解决方案上新,多重AI服务即刻享用! 112 仅三步,开启DeepSeek语音畅聊模式! 117 喜大普奔!设计师再也不用熬夜找素材了 121 揭秘豆包音视频通话幕后技术,自己开发产品也能用 131 你给豆包打的这通视频背后,藏着AI实时交互的体验密码 137 多模态需求井喷,智能视频云如何靠分布式处理破局? 143 从“可用”迈向“好用”:详解火山引擎智能视频云的三层架构升级 150 破解AI硬件落地困局,火山引擎RTC重塑智能交互生态 158 重新定义离线编码,H.266 为何能让视频更高清? 162 实时通信的下一站,H.266作为破局关键 166 画质之外,直播编码还应当关注哪些技术优化点 170 H.266解码“困局”,被这个解码器解决了 175 重回AI战场!H.266/VVC的时代才刚刚开始 181 在AI应用爆发前夜,H.266成熟了 186 NeurlPS2025|火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架 129 189 直击3D内容创作痛点-火山引擎多媒体实验室首次主持SIGGRAPHWorkshop 107 用前沿技术降低沉浸式内容生成门槛 197 # 3. 最佳实践 图虫 $\times$ 火山引擎:AIGC创意工具链,让设计灵感高效实现 209 探秘史前海洋,火山引擎 $\mathbf{x}$ 北京天卓视创带你沉浸式“摸鱼”! 216 央视点赞!凌云光·元客视界 $\times$ 火山引擎:打造数字人光场重建方案 221 沉浸式文旅新玩法-基于4DGS技术的真人数字人赋能VR体验升级 223 沉浸式LBE大空间互动体验!火山引擎支持《转折·从头越》北京VR巡展 227 中央美院 $\times$ 火山引擎:AI+VR构建艺术展新形态 233 火山引擎赋能微短剧出海:从市场验证到规模化复制的AI实践路径 237 火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级 247 详解 velmageX 助力卓特视觉智能、高效生成设计素材 251 # 国际认可 # 火山引擎多媒体实验室多项成果入选 # SIGGRAPH ASIA 2025 12月14-18日,计算机图形学顶会Siggraph Asia 2025在香港召开。火山引擎多媒体实验室有多项工作入选,包括了拓扑变换的自适应建模、动态人体重建、人体重打光的三项成果进行汇报和展出。 # TAOGS:突破传统模板依赖的限制进行自由建模! # 拥有拓扑变换的自适应能力 多媒体实验室研究人员与来自德国马克思普朗克研究所、上海科技大学的团队进行深入合作,提出了应对体积视频中拓扑变换的自适应解决方案TAOGS,针对视频制作过程中频繁出现的拓扑变化问题进行了长时序跟踪与自适应建模,在极具调整性的场景下也能进行高保真的渲染。 为了解决这个问题,研究人员提出了一种双层的动态高斯表示方法,利用运动高斯去自适应地处理新观测的出现与过时观测的消失,以及利用外观高斯来进行复杂纹理的表征。其核心思想是利用稀疏的拓扑感知高斯来表示底层场景运动,并在时空跟踪器与光度线索的引导下捕捉新出现的观测,融合这些观测,并持续更新局部形变图。在其生命周期内,每个运动高斯可以派生并激活多个高斯,以建模细粒度的视觉细节。该方法在保持训练高效与压缩友好的同时,支持稳健的跟踪与拓扑自适应。 该方案生成的拓扑感知的高斯表示,可以自然适配基于标准视频编解码的体积视频格式,支持在移动端进行快速的传输和推理,进行自由视点的高清渲染,呈现与真实世界相融合的沉浸式体验。 # EvolvingGS:告别基于关键帧的GoP切分能够应对任意复杂动作的可进化4D高斯表征 动态3D重建技术正面临一个核心矛盾:序列越长、动作越复杂,重建质量越难保持。现有方法要么因误差累积而失真,要么因关键帧切换而产生画面闪烁。 火山引擎多媒体实验室最新提出的《EvolvingGS: Stable Volumetric Video via High-Fidelity Evolving 3D Gaussian Reconstruction》,通过一种“先对齐,后生长修复”的两阶段协同范式,首次实现了在单个连续时间段内,对任意时长与复杂运动的鲁棒4D高斯重建,无需关键帧切换,彻底避免闪烁。 # 方法核心:让模型学会“动态生长” # 形变场粗对齐 引入光流一致性损失指导形变场学习,确保高斯模型的运动趋势与实际场景严格一致,即使应对快速运动也保持稳定。 # ■ 修复阶段 在形变对齐的基础上,允许模型在拟合不足的区域智能增减少量高斯点: 保留的“参考高斯点”维持外观不变,保障时序连贯性; 新增的“拓展高斯点”自由优化,赋予模型强大的细节拟合能力; □ 提出基于贡献度的删点策略,解耦删点策略对不透明度下降的依赖,防止模型无限膨胀。 这一设计使模型能自适应物体的出现/消失、服装剧烈飘动、拓扑结构变化等极端情况。 w/o v.s. w/ 修复阶段(应对拓扑变化) w/o v.s. w/ 修复阶段(应对局部细节拟合) EvolvingGS不只是一个技术方案,更是一种建模理念的进化:我们让模型具备结构性对齐能力(形变阶段)与局部生长能力(修复阶段),使其像生命系统一样,在保持整体一致的前提下,灵活适应局部变化。这意味着,无论是复杂舞蹈、服装飘动、还是场景中物体的突然出现或消失,EvolvingGS都能应对自如,为动态3D重建打开了“无限时长”的大门。 # Disentangled3DGS: 画质与几何质量的双重飞跃 # 基于解耦3D高斯表征的可打光体积视频 在3D高斯场建模中,几何与外观的深度纠缠,长久以来是一个被默认却充满代价的设定。当颜色与形状被迫共享同一套不透明度分布时,其结果往往是渲染质量与几何精度互相妥协,真实感重光照更是难以企及。 传统方法内生地将模型的外观和几何紧密捆绑 解耦外观和几何 $$ \alpha_ {c i} = \frac {1}{2} ((1 + \beta) \alpha_ {c} + (1 - \beta) \alpha_ {g}) \tag {5} $$ $$ \alpha_ {g i} = \frac {1}{2} ((1 - \beta) \alpha_ {c} + (1 + \beta) \alpha_ {g}) $$ # 引入耦合系数 火山引擎多媒体实验室的最新研究《Disentangled Gaussian Splitting:High-Fidelity Relightable Volumetric Video through Geometry-Appearance Decoupling》,提出一种几何-外观解耦式高斯表征。它如同为3D重建赋予了“双重身份”:让几何结构精准独立,让外观细节自由表达,最终在渲染质量与几何精度上同时实现显著提升,为高保真、可重光照的容积视频开辟了新路径。 # 核心思路:为每个高斯点赋予“双重松耦合的不透明度” 传统3DGS将颜色与几何属性捆绑优化,如同用同一把刻刀同时雕刻形状与上色。我们的方法进行了根本性革新: # 双分支独立渲染: 我们为每个高斯基元同时引入几何不透明度场与外观不透明度场。在渲染时,两者通过可学习的解耦因子 $\beta$ 进行加权融合,实现像素级的精准对齐与独立控制 # 协同优化与独立规制: 几何分支专注于法向量、深度与可见性的重建;外观分支则负责建模视点相关的色彩与光照。两个分支通过 $\beta$ 因子动态协作,既能互相促进优化,又允许我们对各自施加针对性的约束(如法向平滑、深度一致),最小化相互干扰 # 智能生长策略: 基于两个分支的梯度信息独立判断局部区域的欠拟合情况。当一处需要“生长”更多高斯点来细化几何时,另一分支会以最小化干扰的方式协同初始化,确保模型紧凑高效 # 可以轻松与EvolvingGS结合,将其优点拓展到4D重建领域 # 全息通信方案 12月18-19日,在火山引擎FORCE原动力大会上,多媒体实验室也展示了全息通信的商业化技术。该项技术由实验室研发的实时4D GS重建及压缩技术驱动,能够在消费级带宽(<10mbps)下高清高保真实现全息通信,支持远程面对面互动。与行业内全息通信(e.g.,GoogleStarline/Beam)方案相比,该技术不仅支持普通摄像头实时生成6DoF视频,更将设备成本与带宽需求降低了一个数量级,降低了全息通信的门槛,将促进该技术的规模化应用。 # LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices Yuzhong Chen* ByteDance Inc. Beijing, China chenyuzhong2017@163.com Yuqin Liang* ByteDance Inc. Shanghai, China liangyuqin@bytedance.com Zihao Wang ByteDance Inc. Hangzhou, China wangzihao.zju@bytedance.com Danying Wang ByteDance Inc. Shanghai, China wangdanying.a@bytedance.com Cong Xie ByteDance Inc. Hangzhou, China xiecong.pupa@bytedance.com Shaohui Jiao ByteDance Inc. Beijing, China jiaoshaohui@bytedance.com Li Zhang ByteDance Inc. San Diego, USA lizhang.idm@bytedance.com Holographic display Multi-users viewing 该项技术通过创新性地采用前馈神经网络架构,仅使用少量相机采集画面,极大的降低了采集成本,同时在保证画质的前提下将计算量降低 $70\%$ ,在A10显卡上以超过30FPS的帧率实现实时的3D高斯泼溅重建。在传输层面,实验室展示了全链路能力:通过基于渲染重要性的低损耗压缩策略,LiveGS将3D高斯数据的传输带宽从行业普遍的60Mbps压缩至10Mbps以下,并保持画质损失(PSNR)小于3dB——这意味着全息通信可以无缝复用现有的视频传输链路。在渲染层面,结合混合渲染技术,在iPhone15等设备上实现了30FPS流畅的视角旋转、缩放等交互操作,同时支持在PC、VR等多终端实现流畅分发。 随着硬件成本实现量级下降,火山引擎计划在2026年全面推进全息直播场景的落地。全方位重塑社交、互动直播及办公协同体验。在全息通信的赋能下,多个行业正迎来体验革命:远程医疗可实现更真实的微表情反馈,金融与奢侈品服务能通过线下面谈般的临场感建立信任,而企业协作中的全息沙盘则让异地专家实时标注三维模型成为现实。火山引擎通过区域化高斯裁剪与高效编码技术,解决了移动端算力瓶颈与传输难题,使空间视频在手机、PC、VR等多终端实现流畅分发。随着空间视频落地节点的到来,全息通信将不再是科幻场景,而是提升用户留存与互动深度的商业利器。 # 总结 火山引擎多媒体实验室将“拓扑自适应 + 动态演进 + 解耦表征”的创新思路应用于动态 3D 重建与 6DoF 视频任务中,在处理复杂拓扑变换、长序列稳定性以及高保真可重光照渲染等核心挑战上取得了突破性表现。 通过TAOGS的拓扑感知高斯优化、EvolvingGS的“先对齐后生长”演进范式以及Disentangled3DGS的几何-外观解耦架构,该系列研究有效解决了传统动态重建中对模板依赖高、长时序闪烁及几何外观纠缠等痛点,显著提升了复杂动态场景下的渲染精度与建模鲁棒性。 更重要的是,这些前沿技术促进了全息通信的商业化方案形成,通过创新的实时4DGS重建与超低带宽压缩技术,在消费级带宽(<10Mbps)和移动端设备上实现了高清、流畅的6DoF沉浸式交互,将全息通信的设备成本与传输门槛降低了一个数量级。从学术顶会的算法突破到2026年全息直播的规模化落地蓝图,火山引擎正在通过技术迭代重塑社交、办公与远程协作的视听体验,为下一代空间计算与全息媒体产业的发展奠定了坚实的技术基石。 # 火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI2025Oral # 会议背景 近日,AAAI2026公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有23680篇投稿进入审稿阶段,最终4167篇论文被录用,录取率为 $17.6\%$ 火山引擎多媒体实验室和北京大学合作的论文VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning被选为本次会议口头汇报文章。 # VQ-Insight:AIGC视频画质理解大模型 # ■ 论文背景 随着视频生成模型的涌现,仅凭一句提示词或一张图片生成逼真、生动的高质感视频正逐渐成为现实。随着AIGC视频技术加速演进,如何在后训练阶段进一步提升模型的生成质量变得尤为关键。可靠的质量评估与偏好选择不仅是评价工具,更是后训练的重要驱动力,它们能够精确引导视频生成模型向人眼感知对齐,从而显著提升画面质量与时序一致性。 此前,北京大学与火山引擎多媒体实验室联合提出了首个基于强化学习训练的多模态大模型图像画质理解方案Q-Insight。该方法摆脱了对大规模文本标注的依赖,充分挖掘大模型的推理潜力,使其能够深入思考图像质量背后的本质因素。然而,将这一思路扩展到AIGC视频评估仍面临新的挑战,即:1)如何更有效地激发大模型的时序感知能力与多维度画质理解能力;2)如何建立评估模型与生成模型的反馈互动,使两者在优化过程中获得动态增强,相互促进。 # 渐进式视觉质量强化学习框架 图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度,例如运动是否自然?色彩是否在动态中稳定?因此,我们把Q-Insight的“推理式+强化学习”思路,拓展到自然视频和AIGC视频中,提出了推理式AIGC视频画质理解大模型VQ-Insight。该方法使用渐进式的视觉质量强化学习框架,包括图像打分预热阶段、任务驱动的通用时序学习阶段以及与视频生成模型的联合微调阶段。通过由易到难、由通用到具体的视频质量打分学习,仅使用少量数据就能教会AIGC视频偏好比较,AIGC视频多维度打分,自然视频打分等多项任务,并最终建立和下游生成模型的专项评估能力。同时,该方法引入时序建模奖励函数和长度控制奖励函数,鼓励大模型探索视频帧间的相关性和连贯性,并提供对于视频质量线索的丰富分析,增强偏好比较和分数回归的准确性。 进一步,该方法提出了一种生成模型与质量评估模型“共同进化”的联合训练方式:生成模型每一轮都会产生一批新视频,VQ-Insight自动从中挑选出更好的和更差的样本,构建高质量偏好数据;这些偏好数据既用于继续优化视频生成模型(如DPO),也用于反向加强VQ-Insight的偏好理解能力,使其逐步适配并引导当前的生成模型。通过这种闭环式的协同优化,生成模型和评估模型会随着迭代不断变强,实现“越生成越懂、越懂越能生”的持续提升效果。 # ■ 实验结果 实验结果充分验证了VQ-Insight在AIGC视频偏好比较,多维度打分和自然视频打分任务中的卓越表现。 □ 在AIGC偏好比较任务上,VQ-Insight在多个公开数据集上的表现均超过当前最先进的方法,并能够从视觉质量、时序一致性、动态程度和视频真实性方面提供完整详细的推理过程。 <table><tr><td rowspan="2">Dataset</td><td colspan="2">GenAI</td><td colspan="2">MonetBench</td></tr><tr><td>tau</td><td>diff</td><td>tau</td><td>diff</td></tr><tr><td>VQAScore (Lin et al. 2024)</td><td>46.96</td><td>69.14</td><td>54.00</td><td>59.39</td></tr><tr><td>VideoScore (He et al. 2024)</td><td>47.43</td><td>70.50</td><td>49.10</td><td>54.90</td></tr><tr><td>VisionReward (Xu et al. 2024a)</td><td>46.68</td><td>68.86</td><td>59.40</td><td>72.44</td></tr><tr><td>VideoReward (Liu et al. 2025b)</td><td>45.84</td><td>69.00</td><td>53.60</td><td>59.88</td></tr><tr><td>Qwen-SFT (Bai et al. 2025)</td><td>40.69</td><td>59.43</td><td>59.20</td><td>72.07</td></tr><tr><td>Q-Insight (Li et al. 2025)</td><td>47.52</td><td>70.43</td><td>49.60</td><td>60.37</td></tr><tr><td>UnifiedReward (Wang et al. 2025a)</td><td>49.67</td><td>74.42</td><td>52.10</td><td>62.56</td></tr><tr><td>VQ-Insight</td><td>50.80</td><td>75.71</td><td>61.20</td><td>74.51</td></tr></table> □ 在AIGC多维度打分任务上,VQ-Insight能够在空间质量、时序质量和文本视频一致性打分上都取得最优性能。 <table><tr><td rowspan="2">Method</td><td colspan="3">Spatial Quality</td><td colspan="3">Temporal Quality</td><td colspan="3">Text-Video Alignment</td></tr><tr><td>SRCC</td><td>KRCC</td><td>PLCC</td><td>SRCC</td><td>KRCC</td><td>PLCC</td><td>SRCC</td><td>KRCC</td><td>PLCC</td></tr><tr><td>CLIP-IQA (Wang, Chan, and Loy 2023)</td><td>0.684</td><td>0.502</td><td>0.709</td><td>-</td><td>-</td><td>-</td><td>-</td><td>-</td><td>-</td></tr><tr><td>FastVQA (Wu et al. 2022)</td><td>-</td><td>-</td><td>-</td><td>0.849</td><td>0.672</td><td>0.878</td><td>-</td><td>-</td><td>-</td></tr><tr><td>CLIPScore (Hessel et al. 2021)</td><td>-</td><td>-</td><td>-</td><td>-</td><td>-</td><td>-</td><td>0.446</td><td>0.301</td><td>0.453</td></tr><tr><td>UGVQ (Zhang et al. 2024)</td><td>0.764</td><td>0.571</td><td>0.793</td><td>0.894</td><td>0.703</td><td>0.910</td><td>0.545</td><td>0.391</td><td>0.569</td></tr><tr><td>UnifiedReward (Wang et al. 2025a)</td><td>0.580</td><td>0.432</td><td>0.594</td><td>0.466</td><td>0.330</td><td>0.500</td><td>0.589</td><td>0.433</td><td>0.589</td></tr><tr><td>Qwen-SFT (Bai et al. 2025)</td><td>0.687</td><td>0.520</td><td>0.735</td><td>0.723</td><td>0.539</td><td>0.750</td><td>0.605</td><td>0.462</td><td>0.660</td></tr><tr><td>VQ-Insight (Ours)</td><td>0.823</td><td>0.640</td><td>0.844</td><td>0.911</td><td>0.744</td><td>0.927</td><td>0.825</td><td>0.652</td><td>0.836</td></tr></table> □ 在自然视频打分任务上,VQ-Insight同样表现出出色的分数拟合精确度,特别是在域外数据集上泛化能力突出。 <table><tr><td>Model</td><td>Metric</td><td>LSVQ -Test</td><td>LSVQ -1080p</td><td>LIVE -VQC</td><td>KorVID -1k</td></tr><tr><td>Fast-VQA</td><td>PLCC</td><td>0.878</td><td>0.810</td><td>0.815</td><td>0.857</td></tr><tr><td>(Wu et al. 2022)</td><td>SRCC</td><td>0.874</td><td>0.765</td><td>0.769</td><td>0.859</td></tr><tr><td>Minimalist-VQA</td><td>PLCC</td><td>0.872</td><td>0.818</td><td>0.812</td><td>0.861</td></tr><tr><td>(Sun et al. 2024)</td><td>SRCC</td><td>0.860</td><td>0.769</td><td>0.765</td><td>0.859</td></tr><tr><td>Q-Align</td><td>PLCC</td><td>0.882</td><td>0.833</td><td>0.813</td><td>0.876</td></tr><tr><td>(Wu et al. 2024b)</td><td>SRCC</td><td>0.883</td><td>0.758</td><td>0.777</td><td>0.865</td></tr><tr><td>Q-Instruct</td><td>PLCC</td><td>0.580</td><td>0.640</td><td>0.673</td><td>0.520</td></tr><tr><td>(Wu et al. 2024a)</td><td>SRCC</td><td>0.602</td><td>0.644</td><td>0.660</td><td>0.492</td></tr><tr><td>\( VQA^2 \)</td><td>PLCC</td><td>0.856</td><td>0.819</td><td>0.823</td><td>0.844</td></tr><tr><td>(Jia et al. 2024)</td><td>SRCC</td><td>0.882</td><td>0.760</td><td>0.776</td><td>0.833</td></tr><tr><td>Q-Instruct</td><td>PLCC</td><td>0.639</td><td>0.648</td><td>0.708</td><td>0.753</td></tr><tr><td>(Li et al. 2025)</td><td>SRCC</td><td>0.644</td><td>0.601</td><td>0.624</td><td>0.751</td></tr><tr><td>VQ-Instruct</td><td>PLCC</td><td>0.876</td><td>0.823</td><td>0.835</td><td>0.884</td></tr><tr><td>(Ours)</td><td>SRCC</td><td>0.875</td><td>0.786</td><td>0.790</td><td>0.875</td></tr></table> <think> The video shows a clear view of a train station with good lighting conditions and no apparent blurring or distortion. However, there is a slight motion blur as the train passes by, which affects the sharpness.</answer></think> <answer>770</answer> <think> This video seems to capture all the details from a good balance between all objects in the shot. The contrast between the modern train, the station platform, and the surrounding environment look balanced against each other. The lighting looks natural, and all colors contrast well with each other. The train's movement appears smooth, and all objects don't look like they don't fit together. The overall message is clear.</think> <answer>740</answer> VQ-Insight □VQ-Insight强大的AIGC视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于VQ-Insight的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。 # 总结 VQ-Insight将“推理式 $+$ 强化学习”思路应用于AIGC视频画质理解任务中,在偏好比较、多维度画质打分与自然视频质量评估等任务上均取得了突破性表现。通过渐进式视觉质量强化学习框架与创新的时序奖励机制,VQ-Insight能够以极少的数据实现强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多维度质量特征。更重要的是,VQ-Insight已能直接用于生成模型的后训练,成为生成视频训练的可插拔奖励与偏好模块,把“看得准”转化为“生成得更好”,为未来的视频生成模型带来更稳定、更符合人眼感知的画面质量,为下一代AIGC视频生成技术的发展奠定了关键基础。 # 火山引擎多媒体实验室画质理解大模型Q-Insight入选NeurIPS2025Spotlight 近日,NeurIPS 2025 公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有 21575 篇投稿进入审稿阶段,最终 5290 篇论文被录用,录用论文中共有 688 篇论文(入选比例 $3\%$ )被选为亮点文章(Spotlight)。 火山引擎多媒体实验室和北京大学合作的论文Q-Insight: Understanding Image Quality via Visual Reinforcement Learning被选为本次会议亮点文章。 # Q-Insight: 首个推理式画质理解大模型 # 论文背景 在音视频链路中,采集、压缩、处理、传输、播放等环节大多都基于一个核心问题展开,即人眼的画质感知。多模态大模型的快速发展为新时代的音视频技术带来了新的机遇,面对人眼感知的画质理解提供了一种全新的解决方案。 以往的画质理解的方法主要分为两类: □评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因; □描述型方法,这类方法严重依赖于大规模文本描述数据进行监督微调,对标注数据的需求巨大,泛化能力和灵活性不足。 # 多任务群组相对策略优化 针对上述问题,北京大学与火山引擎多媒体实验室的研究人员联合提出了基于强化学习训练的多模态大模型图像画质理解方案Q-Insight。与以往方法不同的是,Q-In-sight不再简单地让模型拟合人眼打分,而是将评分视作一种引导信号,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,促使模型深度思考图像质量的本质原因。Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,并且不依赖大量高成本的文本数据标注。如图所示,Q-Insight不仅输出单纯的得分、退化类型或者比较结果,而是提供了从多个角度综合评估画质的详细推理过程。 Degradation Perception Question: What is overall quality rating of this picture? Reasoning: r/thehe. The image appears to have good lighting, and the subject is a person who is looking at the camera during an exercise event, which adds interest and context. The focus on the horse and rider is clear and there is no apparent indication of the purpose of the activity, and it is likely to be of focus, which helps emphasize the subject. r/thehe Score Regression Question 1. Analyze the given image and determine if it contains any distortions and present the distortion level. 1. Rationale: The image shows the clear light of noise, blur, or darkening. The most noticeable area is the lack of light and the blackness of the background. The image is still retaining or saving the image in a reduced format leads to a cloudy appearance. [Vivien] Image Comparison Reasoning (Zero-Shot) Question: Green reference low-resolution image. Image A and Image B. Explain and justify whether Image A or Image B is the best choice. Reasoning: This is the best image to be the high resolution version of the same low-quality image. However, Image 1 is a different version of Image 2, and it is likely to indicate a higher level of sharpness. In terms of content and composition, this image captures the same elements and composition as the original. Overall, Image 3 offers a better balance between details and clarity, making it so slightly better choice than Image A. Citation 在实际训练过程中,我们发现单独以评分作为引导无法充分实现良好的画质理解,原因是模型对图像退化现象不够敏感。为了解决这一问题,我们创新性地引入了多任务GRPO优化,设计了可验证的评分奖励、退化分类奖励和强度感知奖励,联合训练评分回归与退化感知任务。这种多任务联合训练的策略,显著提高了各个任务的表现,证明了任务之间存在的强互补关系。 Question: What is your opinion of the quality of this picture? Multi-Task Query Question: Analyze the data for the effect of the and the distortion level. Reference Model Score Regression Reward The (i)-th Reasoning Process: This appears to be a digital artwork or stylized photograph featuring vibrant colors and crisp details, though the lighting looks artificial with minimal depth and texture. Its imaginative composition suggests artistic rendering rather than photographic capture. scr(0)=3.91 scr(1)=2.57... scr(N-1)=4.10 scr(N)=3.78 Policy Model Output Group of Score Regression Task # Output Group of Degradation Perception Task The (i)-th Reasoning Process: The image shows no visible noise, and compression artifacts. However, a noticeable lack of sharpness is evident, likely due to either distant capture or slight camera movement during exposure. This results in reduced edge contrast and detail clarity. deg(0) = blur deg(1) = blur deg(N-1) = blur deg(N) = donk lev(0) = slight lev(1) = slight lev(N-1) = herd lev(N) = slight $$ \mathbf {R} _ {\mathrm {s c}} ^ {e t} = \left\{ \begin{array}{l l} 1 & \text {i f} | \operatorname {s c r} _ {\mathrm {s c}} ^ {e t} - \operatorname {s c r} _ {\mathrm {s t}} | < \epsilon \\ 0 & \text {o t h e r w i s e} \end{array} \right. $$ Degradation Perception Reward $$ \mathbf {R} _ {\mathrm {d e g}} ^ {(0)} = \left\{ \begin{array}{l l} 1 & \text {i f d e g} _ {\mathrm {d e g}} ^ {(0)} = \mathrm {d e g} _ {\mathrm {g a t}} \\ 0 & \text {o t h e r w i s e} \end{array} \right. $$ $$ \mathbf {R} _ {\mathrm {k e}} ^ {(i)} = \left\{ \begin{array}{l l} 1 & \text {如} \mathbf {R} _ {\mathrm {k e}} ^ {(i)} = 1 \& \operatorname {l e v} _ {\mathrm {p o t}} ^ {(i)} = \operatorname {l e v} _ {\mathrm {g}} \\ 0 & \text {o t h e r w i s e} \end{array} \right. $$ Multi-Task Group Relative Policy Optimization # 实验结果 实验结果充分验证了Q-Insight在图像质量评分、退化检测和零样本推理任务中的卓越表现:在图像质量评分任务上,Q-Insight在多个公开数据集上的表现均超过当前最先进的方法,特别是在域外数据上的泛化能力突出,并能够提供完整详细的推理过程。 在图像质量评分任务上,Q-Insight 在多个公开数据集上的表现均超过当前最先进的方法,特别是在域外数据上的泛化能力突出,并能够提供完整详细的推理过程; Table 2: PLCC / SRCC comparison on the score regression tasks between our Q-Insight and other competitive IQA methods. All methods except handcrafted ones are trained on the KonIQ dataset. Our Q-Insight outperforms all baseline methods across nearly all benchmarks. <table><tr><td>Category</td><td>Methods</td><td>KonIQ</td><td>SPAQ</td><td>KADID</td><td>PIPAL</td><td>LiveW</td><td>AGIQA</td><td>CSIQ</td><td>AVG.</td></tr><tr><td rowspan="4">Handcrafted</td><td>NIQE [28]</td><td>0.533</td><td>0.679</td><td>0.468</td><td>0.195</td><td>0.493</td><td>0.560</td><td>0.718</td><td>0.521</td></tr><tr><td>(SPL 2012)</td><td>/0.530</td><td>/0.664</td><td>/0.405</td><td>/0.161</td><td>/0.449</td><td>/0.533</td><td>/0.628</td><td>/0.481</td></tr><tr><td>BRISQUE [27]</td><td>0.225</td><td>0.490</td><td>0.429</td><td>0.267</td><td>0.361</td><td>0.541</td><td>0.740</td><td>0.436</td></tr><tr><td>(TIP 2012)</td><td>/0.226</td><td>/0.406</td><td>/0.356</td><td>/0.232</td><td>/0.313</td><td>/0.497</td><td>/0.556</td><td>/0.369</td></tr><tr><td rowspan="12">Non-MLLM Deep-learning</td><td>NIMA [44]</td><td>0.896</td><td>0.838</td><td>0.532</td><td>0.390</td><td>0.814</td><td>0.715</td><td>0.695</td><td>0.697</td></tr><tr><td>(TIP 2018)</td><td>/0.859</td><td>/0.856</td><td>/0.535</td><td>/0.399</td><td>/0.771</td><td>/0.654</td><td>/0.649</td><td>/0.675</td></tr><tr><td>HyperIQA [41]</td><td>0.917</td><td>0.791</td><td>0.506</td><td>0.410</td><td>0.772</td><td>0.702</td><td>0.752</td><td>0.693</td></tr><tr><td>(CVPR 2020)</td><td>/0.906</td><td>/0.788</td><td>/0.468</td><td>/0.403</td><td>/0.749</td><td>/0.640</td><td>/0.717</td><td>/0.667</td></tr><tr><td>DBCNN [65]</td><td>0.884</td><td>0.812</td><td>0.497</td><td>0.384</td><td>0.773</td><td>0.730</td><td>0.586</td><td>0.667</td></tr><tr><td>(TCSVT 2020)</td><td>/0.875</td><td>/0.806</td><td>/0.484</td><td>/0.381</td><td>/0.755</td><td>/0.641</td><td>/0.572</td><td>/0.645</td></tr><tr><td>MUSIQ [18]</td><td>0.924</td><td>0.868</td><td>0.575</td><td>0.431</td><td>0.789</td><td>0.722</td><td>0.771</td><td>0.726</td></tr><tr><td>(ICCV 2021)</td><td>/0.929</td><td>/0.863</td><td>/0.556</td><td>/0.431</td><td>/0.830</td><td>/0.630</td><td>/0.710</td><td>/0.707</td></tr><tr><td>CLIP-IQA+ [46]</td><td>0.909</td><td>0.866</td><td>0.653</td><td>0.427</td><td>0.832</td><td>0.736</td><td>0.772</td><td>0.742</td></tr><tr><td>(AAAI 2023)</td><td>/0.895</td><td>/0.864</td><td>/0.654</td><td>/0.419</td><td>/0.805</td><td>/0.685</td><td>/0.719</td><td>/0.720</td></tr><tr><td>ManIQA [54]</td><td>0.849</td><td>0.768</td><td>0.499</td><td>0.457</td><td>0.849</td><td>0.723</td><td>0.623</td><td>0.681</td></tr><tr><td>(CVPR 2022)</td><td>/0.834</td><td>/0.758</td><td>/0.465</td><td>/0.452</td><td>/0.832</td><td>/0.636</td><td>/0.627</td><td>/0.658</td></tr><tr><td rowspan="10">MLLM-based</td><td>C2Score [73]</td><td>0.923</td><td>0.867</td><td>0.500</td><td>0.354</td><td>0.786</td><td>0.777</td><td>0.735</td><td>0.706</td></tr><tr><td>(NeurIPS 2024)</td><td>/0.910</td><td>/0.860</td><td>/0.453</td><td>/0.342</td><td>/0.772</td><td>/0.671</td><td>/0.705</td><td>/0.673</td></tr><tr><td>Qwen-SFT [1]</td><td>0.889</td><td>0.874</td><td>0.668</td><td>0.473</td><td>0.734</td><td>0.813</td><td>0.674</td><td>0.732</td></tr><tr><td>(Arxiv 2025)</td><td>/0.866</td><td>/0.875</td><td>/0.663</td><td>/0.442</td><td>/0.728</td><td>/0.739</td><td>/0.650</td><td>/0.709</td></tr><tr><td>Q-Align [51]</td><td>0.941</td><td>0.886</td><td>0.674</td><td>0.403</td><td>0.853</td><td>0.772</td><td>0.671</td><td>0.705</td></tr><tr><td>(ICML 2024)</td><td>/0.940</td><td>/0.887</td><td>/0.684</td><td>/0.419</td><td>/0.860</td><td>/0.735</td><td>/0.737</td><td>/0.752</td></tr><tr><td>DeQA [56]</td><td>0.953</td><td>0.895</td><td>0.694</td><td>0.472</td><td>0.892</td><td>0.809</td><td>0.787</td><td>0.786</td></tr><tr><td>(CVPR 2025)</td><td>/0.941</td><td>/0.896</td><td>/0.687</td><td>/0.478</td><td>/0.879</td><td>/0.729</td><td>/0.744</td><td>/0.765</td></tr><tr><td rowspan="2">Q-Insight (Ours)</td><td>0.933</td><td>0.907</td><td>0.742</td><td>0.486</td><td>0.893</td><td>0.811</td><td>0.870</td><td>0.806</td></tr><tr><td>/0.916</td><td>/0.905</td><td>/0.736</td><td>/0.474</td><td>/0.865</td><td>/0.764</td><td>/0.824</td><td>/0.783</td></tr></table> Question: What is your overall rating on the quality of this picture? .... # <think> The image shows a clear view of the neon sign for Amoeba Music, which is well-lit against a dark background. The text is legible, and the colors are vibrant, indicating that the photo has been taken under good lighting conditions. However, there's no detail visible beyond the sign itself, and the background is not fully captured. The focus seems to be on the sign rather than the surrounding area. </think> <answer> rating: 3.70 </answer> Ground Truth: 3.63 Question: What is your overall rating on the quality of this picture? .... # <think> The image appears to be blurry and unfocused, which is a significant issue for image quality. It's a close-up shot of a dog, but the lack of sharpness and detail makes it difficult to appreciate the subject fully. The background is also out of focus, which is distracting. The lighting seems adequate, but the composition isn't ideal. $<$ /think> <answer> rating: 2.60 </answer> Ground Truth: 2.31 在退化感知任务上,Q-Insight 的表现显著优于现有的退化感知模型,尤其是在噪声(Noise)和 JPEG 压缩退化类型识别的准确性上; Table 3: Distortion prediction accuracy (Deg. Acc.) and degradation level accuracy (Lev. Acc.) comparison between our Q-Insight and AgenticIR [74]. Our method outperforms AgenticIR across all degradations, especially in Noise and JPEG Compression. <table><tr><td>Method</td><td>Metrics</td><td>Noise</td><td>Blur</td><td>JPEG</td><td>Darken</td><td>Null</td><td>Average</td></tr><tr><td rowspan="2">AgenticIR [74] (ICLR 2025)</td><td>Deg. Acc.</td><td>0.4646</td><td>0.8390</td><td>0.0135</td><td>0.7478</td><td>0.9339</td><td>0.5998</td></tr><tr><td>Lev. Acc.</td><td>0.1858</td><td>0.3219</td><td>0.0000</td><td>0.2611</td><td>-</td><td>0.1922</td></tr><tr><td rowspan="2">Q-Insight (Ours)</td><td>Deg. Acc.</td><td>1.0000</td><td>0.9756</td><td>1.0000</td><td>0.9027</td><td>0.7603</td><td>0.9277</td></tr><tr><td>Lev. Acc.</td><td>0.5973</td><td>0.4438</td><td>0.5541</td><td>0.3230</td><td>-</td><td>0.4796</td></tr></table> 在图像比较推理任务上,Q-Insight可只需少量数据,即可超越当前最先进的图像比较方法; Table 5: Accuracy and PLCC / SRCC results of the reference-based comparison task on the SRbench [6]. Reg-Acc and Gen-Acc represent the accuracy between regression-based and generation-based restoration methods, respectively. Q-Insight outperforms score- and description-based methods. <table><tr><td>Category</td><td>Method</td><td>Reg-Acc</td><td>Gen-Acc</td><td>Overall-Acc</td><td>PLCC</td><td>SRCC</td></tr><tr><td rowspan="4">Score-Based</td><td>PSNR</td><td>80.07%</td><td>41.70%</td><td>34.70%</td><td>-</td><td>-</td></tr><tr><td>SSIM [50] (TIP 04)</td><td>83.00%</td><td>45.30%</td><td>37.40%</td><td>-</td><td>-</td></tr><tr><td>LPIPS [66] (CVPR 18)</td><td>82.00%</td><td>63.90%</td><td>65.80%</td><td>-</td><td>-</td></tr><tr><td>A-FINE [6] (CVPR 25)</td><td>83.30%</td><td>78.90%</td><td>82.40%</td><td>-</td><td>-</td></tr><tr><td rowspan="3">Description-Based</td><td>DepictQA [60] (ECCV 24)</td><td>73.00%</td><td>61.64%</td><td>62.96%</td><td>0.3457</td><td>0.3412</td></tr><tr><td>Q-Insight (Zero-Shot)</td><td>78.67%</td><td>68.64%</td><td>75.51%</td><td>0.6385</td><td>0.6297</td></tr><tr><td>Q-Insight (Trained)</td><td>85.67%</td><td>77.78%</td><td>82.80%</td><td>0.7627</td><td>0.7614</td></tr></table> User Image A Image B Question: Assess the visual quality of both the Image A and the Image B, explain and justify which one is better considering composition and degradation. Your answer should be 'Image A' or 'Image B'. The images depict a seal with a snowy background. In Image A, the contrast is slightly enhanced, making the seal's fur and features more pronounced. This slight increase in contrast marginally improves the visual appeal by making the image pop more without significantly altering the content. Image B is slightly brightened, which can wash out details and make the image appear less natural. Comparing the two, Image A retains more of the original content's detail and depth, making it the better-quality image between the two. Ground Truth: Image B DepictQA # <think> Both images depict a close-up view of what appears to be fur, possibly from an animal. Image A has noticeable blur and lacks sharpness, making it difficult to discern fine details. The composition seems to focus on the texture of the fur, but the lack of clarity detracts from its aesthetic appeal. Q-Insight Image B. on the other hand, shows a clearer depiction of the fur's texture and detail. It has less blur and more defined edges, suggesting that it has been taken under better lighting conditions or with a higher resolution camera. The composition is similar to Image A, focusing on the same subject matter. # $<$ /think> <answer>Image B</answer> Ground Truth: Image B # 从Q-Insight到VQ-Insight:AIGC视频画质理解大模型 图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度:运动是否自然?色彩是否在动态中稳定?因此,我们把Q-Insight的“推理式+强化学习”思路,拓展到自然视频和AIGC视频的评估和偏好比较中,提出了VQ-Insight。 VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。 # 总结 Q-Insight将“感知-打分一比较一推理”统一到一个可解释的学习框架中,既给出可靠评分,也产出问题分析和可执行的改进线索;VQ-Insight在此基础上把理解从帧内拓展到时域,支持真实/生成视频的连贯性与人类偏好一致性评估。未来,我们将进一步深度耦合强化学习与多模态推理——一方面,让Q-Insight走向更广任务(如图像美学评估),作为强判别信号驱动图像增强/重建,作为“质量评估中枢”联动各类重建工具;另一方面,让VQ-In-sight成为生成视频训练的可插拔奖励与偏好模块,把“看得准”转化为“变得更好”。 # 火山引擎多媒体实验室重要突破!LiveGS技术登榜 # SIGGRAPH,重新定义移动端自由视角视频直播 近日,火山引擎多媒体实验室的最新研究成果LiveGS:Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices成功入选计算机图形学顶会SIGGRAPH Emerging Technologies,并于2025年8月10日至8月14日在加拿大温哥华对外展出。这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。 # LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices Yuzhong Chen* ByteDance Inc. Beijing, China chenyuzhong2017@163.com Yuqin Liang* ByteDance Inc. Shanghai, China liangyuqin@bytedance.com Zihao Wang ByteDance Inc. Hangzhou, China wangzihao.zju@bytedance.com Danying Wang ByteDance Inc. Shanghai, China wangdanying.a@bytedance.com Cong Xie ByteDance Inc. Hangzhou, China xiecong.pupa@bytedance.com Shaohui Jiao ByteDance Inc. Beijing, China jiaoshaohui@bytedance.com Li Zhang ByteDance Inc. San Diego, USA lizhang.idm@bytedance.com Holographic display Multi-users viewing 论文主页 # 打破技术瓶颈:从实验室走向移动端的实时自由视角革命 自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。但长期以来,体积视频的高计算负载和高带宽传输需求一直是移动端应用的“拦路虎”。火山引擎多媒体实验室的LiveGS系统通过三大创新,首次实现了“端到端实时FVV直播”的工程化落地: # 三大技术突破,重新定义移动端FVV标准 □ 实时3D高斯表示:告别离线优化,毫秒级重建逼真人体模型 传统3D高斯泼溅技术需要几分钟乃至几十分钟进行场景优化,无法满足直播需求。LiveGS创新性采用前馈神经网络架构,结合Sobel特征自适应建模策略,对人体不同区域(如平坦肤色区与细节丰富的头发、衣物)采用粗细粒度差异化建模,在保证渲染质量的前提下,将高斯数量减少 $70\%$ ,实现无需逐场景优化的实时3D重建。实验显示,系统可在A10显卡上以超过30FPS的帧率运行,延迟控制在1秒以内。 LiveGS前馈神经网络架构图 低损耗压缩传输:500倍压缩率下PSNR损失<3dB,适配标准视频链路 LiveGS将3D高斯属性(尺度、不透明度、深度等)映射到2D视频平面,采用YUV4:2:0格式结合可变位打包(VBP)技术进行量化编码。通过基于渲染重要性的比特率分配策略(深度和RGB区域优先编码),在实现500倍压缩的同时,将画质损失控制在PSNR3dB以内,完美适配现有视频传输链路,带宽需求低于20Mbps。 LiveGS编码传输示意图 □ 移动端渲染优化:区域化高斯裁剪,算力消耗直降 $70\%$ 针对移动端算力限制,LiveGS提出基于掩码的高斯选择策略:高频区域(如面部、手部)保留全部像素高斯,低频区域(如躯干)仅保留1/3像素,渲染高斯数量减少 $70\%$ 。结合混合渲染技术,在iPhone15等设备上实现了30FPS流畅的视角旋转、缩放等交互操作,推动FVV从PC端走向大众移动端。 # 抖音“裸眼3D”直播 同时,多媒体实验室还成功研发了一项创新技术,该技术能通过普通的单目视频直接生成自由视角视频,并且具备直播能力。实验室和抖音团队一起成功落地了“裸眼3D”直播,带给用户全新的直播观看体验! 经过云端AI大模型处理,2D直播可以被实时处理为带有3D信息的直播流,包含深度等3D空间信息,然后经过编码、转码等处理,通过直播链路分发至用户设备。在移动客户端上,根据深度信息,实时对直播内容进行3D重建;用户通过晃动手机,可将3D内容实时渲染至不同的观看视角,从而实现“裸眼3D”效果。 # 从技术创新到场景落地:开启沉浸式互动新体验 LiveGS的突破不仅是算法层面的革新,更构建了“实时采集-云端重建-压缩传输-移动端渲染”的完整技术闭环解决方案,其应用场景覆盖: ■体育赛事直播:用户可自由切换视角, $360^{\circ}$ 解析运动员动作细节,如篮球扣篮的空中姿态、赛车过弯的轮胎动态; 虚拟偶像演出:支持多角度实时互动,观众可自定义镜头焦点,打造「私人定制」的沉浸式观看体验; 远程会议与教育:动态捕捉演讲者姿态与手势,结合自由视角切换增强跨空间沟通的临场感; 电商直播:用户可 $360^{\circ}$ 查看商品细节(如服饰剪裁、珠宝纹理),以沉浸式交互提升购物决策效率。 # 附录 # 火山引擎多媒体实验室的前沿探索 火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。 # 关于火山引擎 火山引擎是字节跳动旗下云和AI服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业AI转型,激发增长潜能。 LivsGS 直播系统架构示意图 # ICME 2025 # 火山引擎在国际音频编码能力挑战赛中夺得冠军 音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的ICME2025AudioEncoderCapabilityChallenge,吸引了Alibaba、CMU、NTT等知名企业和院校参与。 该赛事从多个维度评估「音频编码模型的特征提取能力」,评估领域覆盖语音、环境声音和音乐,包含 $20+$ 项细分任务,如语音识别、说话人识别、语种识别、音乐风格检测和环境声识别等。在最终结果中,火山引擎多媒体实验室凭借 "audiocodec"、"GAEBT" 和 "AudioX" 三支技术团队,在 MLP/KNN 双评估体系下「以明显优势包揽了赛事的前三名。」 此次挑战赛的难点在于评估场景多、任务类型复杂且模型大小受限,这对编码模型的鲁棒性和特征提取能力提出了很高的要求。火山引擎多媒体实验室"audiocodec"技术队伍打造的夺冠方案,以大规模数据预训练的音频编码模型为基座,通过模型融合、任务微调和前后处理等技术组合,「在双赛道上均获得第一」,在音频表征领域达到了当前业界的SOTA水平,为语音、环境声、音乐等全场景音频表征提供了统一的高质量解决方案。 # Results of the ICME 2025 Audio Encoder Capability Challenge Track 1 MLP Results Track 2 KNN Results # Track 1 MLP Results Click on column headers to sort the table 赛道A:基于任务数据的线性微调(MLP) <table><tr><td>Affiliation</td><td>Team</td><td>Report</td><td>Weighted Averaged Score ↓</td><td>asvspoof2015</td><td>clotho</td><td>cremad</td><td>desed</td><td>esc50</td><td>finger_snap</td><td>fluentspeechcommands</td></tr><tr><td>ByteDance</td><td>audiocdec</td><td>download</td><td>0.865</td><td>0.995</td><td>0.055</td><td>0.858</td><td>0.596</td><td>0.968</td><td>0.885</td><td>0.992</td></tr><tr><td>ByteDance</td><td>GAEBT</td><td>download</td><td>0.860</td><td>0.997</td><td>0.054</td><td>0.868</td><td>0.637</td><td>0.965</td><td>0.885</td><td>0.988</td></tr><tr><td>ByteDance</td><td>AudioX</td><td>download</td><td>0.836</td><td>0.986</td><td>0.058</td><td>0.862</td><td>0.602</td><td>0.964</td><td>0.884</td><td>0.991</td></tr><tr><td>Carnegie Mellon University</td><td>CMU</td><td>download</td><td>0.827</td><td>0.983</td><td>0.033</td><td>0.810</td><td>0.568</td><td>0.905</td><td>0.873</td><td>0.954</td></tr><tr><td>Alibaba</td><td>Aluminumbox</td><td>download</td><td>0.807</td><td>0.980</td><td>0.027</td><td>0.772</td><td>0.556</td><td>0.871</td><td>0.873</td><td>0.958</td></tr><tr><td>NTT</td><td>Probin</td><td>download</td><td>0.709</td><td>0.924</td><td>0.045</td><td>0.715</td><td>0.738</td><td>0.978</td><td>0.875</td><td>0.683</td></tr><tr><td>IRIT</td><td>SAMoVA</td><td>download</td><td>0.516</td><td>0.884</td><td>0.013</td><td>0.426</td><td>0.305</td><td>0.341</td><td>0.853</td><td>0.027 婚金技术社区 @Sweet_Star</td></tr></table> # Results of the ICME 2025 Audio Encoder Capability Challenge Track 1 MLP Results Track 2 KNN Results # Track 2 KNN Results Click on column headers to sort the table 赛道B:无参数评估(KNN) <table><tr><td>Affiliation</td><td>Team</td><td>Report</td><td>Weighted Averaged Score ↓</td><td>asvsspoof2015</td><td>cremad</td><td>esc50</td><td>finger_snap</td><td>fluentspeechcommands</td></tr><tr><td>ByteDance</td><td>audiocodec</td><td>download</td><td>0.792</td><td>0.899</td><td>0.804</td><td>0.921</td><td>0.880</td><td>0.985</td></tr><tr><td>ByteDance</td><td>GAEBT</td><td>download</td><td>0.782</td><td>0.957</td><td>0.658</td><td>0.904</td><td>0.876</td><td>0.690</td></tr><tr><td>ByteDance</td><td>AudioX</td><td>download</td><td>0.778</td><td>0.891</td><td>0.823</td><td>0.949</td><td>0.868</td><td>0.987</td></tr><tr><td>NTT</td><td>Probin</td><td>download</td><td>0.710</td><td>0.588</td><td>0.471</td><td>0.964</td><td>0.853</td><td>0.052</td></tr><tr><td>Carnegie Mellon University</td><td>CMU</td><td>download</td><td>0.707</td><td>0.959</td><td>0.392</td><td>0.658</td><td>0.843</td><td>0.302</td></tr><tr><td>Alibaba</td><td>Aluminumbox</td><td>download</td><td>0.641</td><td>0.974</td><td>0.391</td><td>0.682</td><td>0.842</td><td>0.026</td></tr><tr><td>IRIT</td><td>SAMoVA</td><td>download</td><td>0.480</td><td>0.927</td><td>0.279</td><td>0.141</td><td>0.726</td><td>0.009 掘金技术社区 @ Sweet_Your</td></tr></table> # ICME 2025 Audio Encoder Capability Challenge ICME 2025 Audio Encoder Capability Challenge 设置了两个赛道,从不同视角评估预训练音频编码模型的性能。赛道 A 使用参赛者提供的编码器基于任务数据进行线性微调(MLP),该方法「评估模型通过一个额外的线性层适配到特定任务的能力」,同时不改变原始模型的参数。赛道 B 无参数评估直接进行 K 近邻分类(KNN),用以「评估模型提取特征的内在表达能力」。 <table><tr><td></td><td>数据集</td><td>任务类型</td><td>评价指标</td><td>类别数</td><td>Track B</td><td>Hidden</td></tr><tr><td rowspan="11">语音</td><td>Speech Commands</td><td>关键词检测</td><td>Acc</td><td>30</td><td>✓</td><td>X</td></tr><tr><td>LibriCount</td><td>说话人数统计</td><td>Acc</td><td>11</td><td>✓</td><td>X</td></tr><tr><td>VoxLingua107</td><td>语言识别</td><td>Acc</td><td>33</td><td>✓</td><td>X</td></tr><tr><td>VoxCeleb1</td><td>说话人识别</td><td>Acc</td><td>1251</td><td>✓</td><td>X</td></tr><tr><td>LibriSpeech</td><td>性别分类</td><td>Acc</td><td>2</td><td>✓</td><td>X</td></tr><tr><td>Fluent Speech Commands</td><td>意图分类</td><td>Acc</td><td>248</td><td>✓</td><td>X</td></tr><tr><td>VocalSound</td><td>非语音声音分类</td><td>Acc</td><td>6</td><td>✓</td><td>X</td></tr><tr><td>CREMA-D</td><td>情感识别</td><td>Acc</td><td>5</td><td>✓</td><td>X</td></tr><tr><td>LibriSpeech-Phoneme</td><td>音素识别</td><td>Acc</td><td>39</td><td>✓</td><td>X</td></tr><tr><td>speechocean762</td><td>发音质量评测</td><td>PCC</td><td>3</td><td>X</td><td>X</td></tr><tr><td>ASV2015</td><td>语音伪造检测</td><td>EER</td><td>2</td><td>✓</td><td>X</td></tr><tr><td rowspan="11">声音</td><td>ESC-50</td><td>环境声音分类</td><td>Acc</td><td>50</td><td>✓</td><td>X</td></tr><tr><td>FSD50k</td><td>声音事件检测</td><td>mAP</td><td>200</td><td>X</td><td>X</td></tr><tr><td>UrbanSound 8k</td><td>城市声音分类</td><td>Acc</td><td>10</td><td>✓</td><td>X</td></tr><tr><td>DESED</td><td>声音事件检测</td><td>Segment-F1</td><td>10</td><td>✓</td><td>X</td></tr><tr><td>FSD18-Kaggle</td><td>声音事件检测</td><td>mAP</td><td>41</td><td>X</td><td>X</td></tr><tr><td>Clotho</td><td>声音检索</td><td>Recall@1</td><td>-</td><td>X</td><td>X</td></tr><tr><td>Inside/outside car</td><td>声音事件检测</td><td>Acc</td><td>2</td><td>✓</td><td>✓</td></tr><tr><td>Finger snap sound</td><td>声音事件检测</td><td>Acc</td><td>2</td><td>✓</td><td>✓</td></tr><tr><td>Key scratching car</td><td>声音事件检测</td><td>Acc</td><td>2</td><td>✓</td><td>✓</td></tr><tr><td>Subway broadcast</td><td>声音事件检测</td><td>Acc</td><td>2</td><td>✓</td><td>✓</td></tr><tr><td>LiveEnv sounds</td><td>声音事件检测</td><td>mAP</td><td>18</td><td>X</td><td>✓</td></tr><tr><td rowspan="5">音乐</td><td>MAESTRO</td><td>音符分类</td><td>Acc</td><td>88</td><td>✓</td><td>X</td></tr><tr><td>GTZAN Genre</td><td>音乐流派分类</td><td>Acc</td><td>10</td><td>✓</td><td>X</td></tr><tr><td>NSynth-Instruments</td><td>乐器分类</td><td>Acc</td><td>11</td><td>✓</td><td>X</td></tr><tr><td>NSynth-Pitch</td><td>音高分类</td><td>Acc</td><td>128</td><td>✓</td><td>X</td></tr><tr><td>Free Music Archive Small</td><td>音乐流派分类</td><td>Acc</td><td>8</td><td>✓</td><td>X</td></tr></table> 评估数据集 挑战赛评估数据集涵盖了多个领域的各种音频数据,包括人声、环境声音和音乐,评估任务包含音频分类、识别和检测等。挑战赛利用开源数据集中原生训练/测试集拆分来微调和评估参赛者提交的模型。此外还包含六个隐藏的数据集,侧重于评估挑战赛组织者提供的真实工业场景。 # 火山引擎夺冠队伍 Audiocodec 方案 本次挑战赛评估任务种类多且场景复杂,不同任务的目标和评估标准相互独立,对音频编码模型提取的特征鲁邦性和音频标准能力提出了极高要求。如: □ 片段级任务(如情感识别、音乐流派分类等)要求对模型汇总整段音频特征以进行分类; □ 帧级别任务(如环境声音检测)则要求模型在分帧特征上有区分度,提交方案必须兼顾长时和短时特征信息的提取。 赛道A有27个任务,赛道B有20个任务。除了环境声识别/检测等声学任务外,语音识别、语音命令识别等任务也在评估中占据较大权重,这要求音频编码模型既能提取声学特征又能提取语义特征。综合赛道任务及评估标准,火山引擎 Audiocodec 队伍打造出以下方案。 # 搭建自动化评估系统,缩短评估时间 基于比赛提供的评估方法,Audiocode 首先搭建了一套「用于快速评估新模型效果的评估系统」。原评估方法在 1 张 V100 上完成一次评估需 $12+$ 小时,且推理过程不稳定,极易出现卡死等问题,Audiocode 将原评估方案中音频编码模型提取特征和任务评估,拆解为两个独立环节,构建了自动化的评估系统,将模型训练、特征推理、任务评估和结果总结过程自动化,并从 21 个任务中选择了 14 个任务用于快速验证,「将评估时间缩短到 2 小时以内,大大提高了模型开发的效率」。 # ■ 处理前后静音帧,保障准确度 在梳理评估数据时,Audiocode 发现部分任务序列中存在大段的静音(0.5s 以上),而比赛中片段级任务需要提取整段音频信息,大段静音帧会稀释音频特征中的有效信息,影响下游任务评估效果,此外,为与训练集数据长度匹配,预训练模型要求定长音频输入(如 Dasheng 10s,Whisper/Qwen2-Audio Encoder 30s),推理时需对时长不足的序列进行静音填充,这些静音填充同样会降低下游任务的准确度。 为了提升准确度,「Audiocodec 在音频前处理阶段以 10ms 为音频单元检测并过滤掉静音片段,同时在特征后处理阶段移除由静音填充帧引入的无效音频特征」,这使得同等评估情况下,其中 14 个任务加权得分提升显著(MLP 0.705->0.712,KNN 0.524->0.582,下文中得分无特殊说明均为其中 14 个任务加权得分,分数越高效果越高)。同时,Audiocodec 发现一部分任务序列中存在直流分量,且幅度偏差较大,因此提交方案使用去直流和幅度归一化,以减小音频数据分布带来的偏差,这带来了「KNN 指标的明显提升(0.582->0.598)」。 # 融合模型,发挥各自优势 当前自监督学习的音频编码模型主要分为两类: □ 一类模型主要针对语音处理任务,包括Wav2vec、Whisper和Qwen2-Audio Encoder等 另一类则主要针对音频处理任务,例如Dasheng和Beats 这两类模型都只对语音或音频任务有较好的效果,但是挑战赛要求模型能够同时兼顾语音和音频任务,这对模型设计提出了很大的挑战。 AudioCodec 的解决思路是,同时引入擅长语音任务和擅长音频任务的两个 AudioEncoder 模型,并发挥出各自优势。在开发过程中,尝试了 Whisper + Dasheng 和 Qwen2-Audio Encoder + Dasheng 等多个方案,经过评估,最终选择了特征维度为 [1280, T] 的 Qwen2-Audio Encoder 和特征维度为 [1536, T] 的 Dasheng 1.2B 模型进行模型融合。这两个模型提取 Embedding 帧率同样为 $25\mathrm{Hz}$ ,在进行时间对齐后将通道维度拼接为一个 [2816, T] Embedding 用于下游 $20+$ 类不同类型的音频评估任务。Qwen2-Audio Encoder + Dasheng 比单独使用 Dasheng 1.2B 会有更优的效果(MLP 0.731->0.766,KNN 0.560->0.661)。 # 微调模型再融合,综合得分最优 比赛的核心难点在于要求提交模型在 $20+$ 类下游任务中均获得最优效果。一种可行的解决方案是,在预训练好的模型基础上,与下游任务进行有机结合。为了保证 $20+$ 类任务同时获得最优效果,需要同时考虑所有下游任务进行模型微调。 针对比赛多任务场景和数据集要求,Audiocodec选取了标签类别丰富(527类)、音频种类齐全(语音、环境声和音乐)、数据量充足( $5100 + h$ )的Audioset数据集进行监督微调。Audiocodec独立地对Qwen2-Audio Encoder和Dasheng进行微调再进行融合,微调时只在预训练模型后添加简单的MLP层以尽量接近评估场景。针对Dasheng的微调,Audiocodec参考开源代码使用AdamW8bit和1e-5学习率进行微调,微调阶段掩蔽率被设置为0,上文提到的前后处理同样被用于微调训练中。实验中使用GPU V100、BatchSize=12、EpochLength=500等配置进行微调。 Audioodec 发现微调对 KNN 评估影响巨大,在微调 45 个 Epoch 后,Dasheng 1.2B KNN 指标从 0.560 提高至 0.639。对于 Qwen2-Audio Encoder 的微调,复用了 Dasheng 微调的实现,但只对 Qwen2-Audio Encoder 模型的最后 5 层 EncoderLayer 进行微调。「将两个微调后模型融合后,Audioodec 的方案获得了综合得分最优(MLP 0.759,KNN 0.726)」。 # 总结 在主办方基于任务数据的线性微调评估中,火山引擎 Audiocode 打造的夺冠方案在如语音伪造检测(ASV2015)、环境声音分类(ESC50)意图分类(FluentSpeechCommands)等任务上,「准确率达到 $99 + \%$ 」,关键词检测(SpeechCommands)任务「准确率 $97.7\%$ 」,感情识别(CREMAted-D)「准确率 $85.8\%$ 」,语音识别任务(LibriSpeech)「准确率 $90.3\%$ 」。这突破了传统任务特定模型的局限性,证实了火山引擎 Audiocode 的预训练音频编码模型具备「强大的音频特征提取和表征能力」,能够以单一框架支撑从低层级声学特征到高层级语义理解的全链条音频任务,在未来的实际应用中具有潜在价值。 # CVPR 2025 # 火山引擎获得NTIRE视频质量评价挑战赛全球第一 近期,在计算机视觉领域最具影响力的「国际竞赛CVPR2025NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在NTIRE2025Short-formUGCVideoQualityAssessmentChallenge-Track1-VQA赛道以显著优势夺冠。基于能力强大的多模态大模型,团队方案成功构建了评估精度、计算效率俱优的画质评价模型,为大模型能力的利用提供了可行参考范式。 本次“SharpMind”参加的CVPR2025NTIRE视频质量评估赛道,吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。夺冠方案通过构建基于MLLM教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。 <table><tr><td>Rank</td><td>Team name</td><td>Team leader</td><td>Final Score</td><td>SROCC</td><td>PLCC</td><td>Rank1</td><td>Rank2</td></tr><tr><td>1</td><td>SharpMind</td><td>Yabin Zhang</td><td>0.922</td><td>0.934</td><td>0.933</td><td>0.788</td><td>0.846</td></tr><tr><td>2</td><td>ZQE</td><td>Yufan Liu</td><td>0.916</td><td>0.93</td><td>0.933</td><td>0.732</td><td>0.817</td></tr><tr><td>3*</td><td>ZX-AIE-Vector</td><td>Yunchen Zhang</td><td>0.912</td><td>0.926</td><td>0.927</td><td>0.775</td><td>0.787</td></tr><tr><td>3</td><td>ECNU-SJTU VQA Team</td><td>Wei Sun</td><td>0.910</td><td>0.926</td><td>0.924</td><td>0.736</td><td>0.817</td></tr><tr><td>5</td><td>TenVQA</td><td>Yuhai Lan</td><td>0.900</td><td>0.914</td><td>0.915</td><td>0.745</td><td>0.775</td></tr><tr><td>6</td><td>GoldenChef</td><td>MingYin Bai</td><td>0.871</td><td>0.881</td><td>0.886</td><td>0.693</td><td>0.817</td></tr><tr><td>7</td><td>DAIQAM</td><td>Ha Thu Nguyen</td><td>0.844</td><td>0.856</td><td>0.855</td><td>0.667</td><td>0.811</td></tr><tr><td>8</td><td>57VQA</td><td>Zhiye Huang</td><td>0.264</td><td>0.22</td><td>0.239</td><td>0.541</td><td>0.598</td></tr><tr><td>9</td><td>Nourayn</td><td>Nourine Mohammed Nadir</td><td>0.127</td><td>0.07</td><td>0.085</td><td>0.455</td><td>0.686</td></tr></table> # 赛事介绍 CVPR NTIRE(New Trends in Image Restoration and Enhancement)大赛是计算机视觉领域顶会CVPR旗下「最具影响力的国际学术竞赛之一」,素有“影像算法奥林匹克”之称。该赛事聚焦视频复原、增强、生成技术及质量评估等底层视觉任务,旨在推动技术突破并解决实际应用难题。本次VQA赛道相关信息如下: ■内容:赛道一沿用大型短视频质量评价数据集KVQ,该数据集由快手公司授权采集,联合高校智能媒体实验室(IMCL)进行数据集标注和标准化。包含风景、人群、食物、肖像等9个内容场景,其中每个内容比例按照快手短视频平台在线统计量制定,共计4200个短视频。 ■要求:为提升短视频质量评价模型效率,提升算法的实用性,今年比赛将限制短视频质量评价模型,单视频运行计算开销上限为120GFlops。鼓励参赛选手使用蒸馏、剪枝等手段对大模型进行加速。 # 研究背景 短视频UGC画质评价的研究背景源于移动互联网时代用户生成内容的爆炸式增长与质量评估的复杂性挑战。由于非专业拍摄设备(如手机)的物理限制、动态拍摄环境(如低光照、运动模糊)以及后期处理流程(如过度锐化、多次压缩)的叠加效应,UGC视频普遍存在混合失真(如块效应、噪声、伪影等),且缺乏高质量参考源,导致传统全参考评价指标(如PSNR、SSIM)难以准确拟合人眼主观感受。 此外,UGC内容的多样性(如横竖屏、特效贴纸、二创素材)进一步加剧了失真类型与语义场景的耦合性,例如用户可能更关注主体清晰度而非背景噪声,这要求算法需同时建模技术失真与内容美学特征。 其研究重要性体现在两方面:一是用户体验优化,画质评分直接影响平台内容分发效率与用户留存率,例如通过算法量化视频质量,为推荐系统提供画质权重;二是技术突破需求,UGC画质评价需解决无参考场景下的泛化性问题,如火山引擎VQScore通过细分归因指标(噪声、过曝等)和增强评估(超分质量)构建全链路画质优化闭环,显著提升了跨场景评估的鲁棒性。 当前研究趋势正探索多模态大模型强大能力的迁移和应用,以应对AIGC时代的新型失真挑战,并进一步提升相关算法的准确性、鲁棒性。 # 方案概述 针对用户生成内容(UGC)视频质量评估的复杂挑战,研究团队提出了一种基于“教师-学生”知识蒸馏的创新框架。该方案通过两阶段训练机制,在保持高精度评估能力的同时实现模型轻量化,有效解决了传统方法在无参考场景下的泛化性难题。 ■ 第一阶段:多模态特征融合的教师模型构建。团队首先设计了一个强大的教师模型(包含MLLM多模态大模型以及多种强大的骨干网络),通过多维度的特征提取全面捕捉UGC视频的质量特性: □ 多骨干特征提取:利用 DeQA 从多模态大模型中提取 Quality-Aware 特征,采用 SlowFast 网络提取时空运动特征,结合 FAST-VQA 分析局部区域失真,并根据 LIQE 针对不同维度建立视频帧与文本的关联。考虑到人眼视觉系统特性在 UGC 视频的重要性,团队特别引入 HVS-5M 模型提取边缘掩蔽等特征,模拟人类视觉系统对边缘丰富区域敏感的特性。 特征融合架构:将视频的关键帧调整为 $384 \times 384$ 的分辨率并给一个端到端可学习的 Swin-B 网络提取关键帧特征并与上述骨干特征拼接,通过两层 MLP 实现特征降维,通过这种方式引入一部分可学习参数弥补冻结骨干网络提取特征的缺陷。训练采用 Adam 优化器(学习率 $1 \times 10^{-5}$ ),在 A100 GPU 上以 batch size 等于 6 进行优化,最终形成具备全面评估 UGC 视频质量的教师模型。 □伪标签生成:该模型对3万条闭源UGC视频进行自动标注,生成覆盖模糊、噪声、伪影等混合失真的质量评分数据集,为轻量化学生模型训练奠定基础。 ■第二阶段:高效学生模型的蒸馏训练。基于教师模型输出的伪标签,团队构建了部署友好的轻量化评估方案: □ 帧级知识迁移:针对一个视频提取其关键帧,采用 $224 \times 224$ 分辨率随机裁剪策略增强数据多样性,同时每一帧的分数被标注为对应视频的分数。创新性地采用分层特征拼接技术,将 Swin-T 网络各层级特征拼接起来达到评估多尺度物体质量的能力。在训练过程中学生网络的训练目标是输出结果与教师标签对齐,保留多尺度质量感知能力。 □ 优化加速设计:相比教师模型将batch size设置为6,学生模型采用64 batch size并行训练(学习率 $1\times 10^{-3}$ ),训练损失函数为PLCC以及SRCC的和。最终学生模型参数量仅为33.01M,且推理过程中对一个视频仅需47.39GFLOPs,但保持与教师网络 $90\%$ 以上的评估准确率。 # ■技术突破与产业价值。该方案通过三大创新点推动技术边界: □ 融合多模态大模型的混合特征工程:将除了视觉特征以外的多模态大模型特征与多种传统骨干网络特征融合,设计了一个全面的针对UGC视频的教师网络,提升了对典型失真(如手抖模糊,伪影)的检测灵敏度。 □ 动态蒸馏策略:通过知识蒸馏机制,解决了学生网络在更细粒度维度评分不稳定的问题,使学生模型预测分与MOS预测误差低于0.5。 □ 轻量化适配优化:支持从4K超清到540P低分辨率的全链路评估,在继承多模态大模型网络能力的前提下大幅降低模型参数量以及计算量,为短视频平台内容审核提供落地支持。 # 总结 团队创新性地融合多模态大模型(MLLM)与多种传统骨干网络融合的策略与蒸馏技术,在NTIRE2025Short-formUGCVideoQualityAssessmentChallenge-Track1-VQA赛道以显著优势夺冠。该方案通过构建基于MLLM教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。 # 火山引擎蝉联全国人工智能大赛一 # AI+增强视频质量评价冠军 近期,第5届全国人工智能大赛NAIC(National Artificial Intelligence Challenge)圆满落幕。火山引擎多媒体实验室团队同学组成“SharpMind”小组,提出的“High-resolution video quality assessment based on degraded multi-task learning”算法荣获AI+增强视频质量评价赛道冠军,算法性能以显著优势排名第一,成功蝉联冠军! 本次夺冠的“AI+增强视频质量评价赛道”吸引了1400+支队伍参加,涵盖了头部企业、知名院校和科研机构。多媒体实验室的夺冠方案“通过引入退化任务,有效强化了模型对增强损伤类型和程度的判别能力,并对高分辨率输入针对性优化输入模式和模型结构,以极低的计算代价实现了对增强PGC视频质量的有效评估,成功蝉联赛道冠军”。 # 赛事介绍 全国人工智能大赛(NAIC)自2019年创办以来,已成为全球AI领域最具影响力的顶级赛事之一。大赛聚焦前沿科研与产业难题,汇聚全球顶尖创新力量,竞争异常激烈——四届赛事累计吸引来自20多个国家的2万余支高水平团队同台竞技,其中包括来自顶尖高校、科研机构和科技巨头的精英团队。赛事构建了五大百万级高质量数据集,成为推动AI技术突破的重要标杆。 2025年第五届大赛进一步升级,设立“AI+增强视频质量评价”“AI+图像编码”“AI+数智创新”三大前沿赛道,挑战全球选手在算法创新、技术落地等维度的极限。历届赛事不仅催生多项突破性研究成果,更成为全球AI人才展示实力、争夺技术制高点的关键舞台。 # 研究背景 增强视频是指将低质量的老旧视频增强到更高分辨率、更高亮度动态范围、更广色度范围、更高帧率以及更高比特数后的视频。增强生成后的视频在图像清晰度、彩色自然度、亮度对比度、流畅度等维度有显著提升,可以为用户提供更加真实生动的视觉享受和更好的用户体验。 目前视频增强算法还不够成熟,增强生成后的视频与超高清视频的质量要求还有一定的距离,不能满足视听领域高清产业的需求。视频增强修复领域急需要能对增强修复后的视频质量进行智能、准确、有效的评价方法。但是现有的图像质量评价算法都是基于降质视频图像研发的,例如压缩图像等,直接用于增强和修复视频其评测结果与主观感知质量存在差异较大,这也在一定程度上阻碍了增强视频生成算法质量的进一步提升和应用发展。 # 方案概述 针对增强超高清视频独特的失真特性,提出“High-resolution video quality assessment based on degraded multi-task learning”算法。整体方案包含“退化样本构建策略、基于帧裁块和片段的网络输入模式、多层级特征融合”3个核心技术点,方案框图如下所示: # 退化样本构建策略 在对原超高清视频进行一系列增强算法后会引入许多不同程度和类型的失真,为了模拟这个过程并强化模型辨认不同增强失真的能力,本文提出一种基于退化的多任务学习训练策略,其过程如图所示,首先通过分析选取了三种类型的增强失真,包括交错失真(Interlace),超分失真(Resize),Jpge压缩失真(Jpge compression)。在训练过程中,对原视频帧施加某一种类型的随机失真,并对其进行不同程度的处理。通过“原始输入的分数预测任务(Smooth L1 Loss)、退化前后的画质优劣关系判别任务(Margin Rank Loss)”,实现多任务联合优化。 # 基于帧裁块和片段的网络输入模式 为了避免调整分辨率(Resize)导致局部失真细节的损失并保留一定程度的语义信息,首先在原图上截取与原分辨率相同长宽比的块输入网络。其次,进一步考虑更大尺度下的语义信息,将原视频帧通过切块和组合拼接为片段输入另一个网络。 # 多层级特征融合模块 借鉴学术界多个SOTA方案的特征融合思路,设计了多层级特征融合模块,将模型中特征提取器输出的四阶段特征进行全局平均池化后拼接融合,最终得到的拼接特征输入质量回归模块生成预测分数。该融合模式有效聚合了多尺度信息,使模型预测性能获得大幅提升。 # 总结 团队创新性地提出了“High-resolution video quality assessment based on degraded multi-task learning”方案,在NAIC2025AI+增强视频质量评价赛道以显著优势夺冠。该夺冠方案“通过引入退化任务,有效强化了模型对增强损伤类型和程度的判别能力,并对高分辨率输入针对性优化输入模式和模型结构,以极低的计算代价实现了对增强PGC视频质量的有效评估,成功蝉联赛道冠军”。 # 技术探索 # 当一朵云,打出「豆包同款」的旗 今年的火山引擎 Force 大会,有一个细节的改变,很有意思。 火山引擎的视频云,以往都会在介绍Title上写明「抖音同款」,而在这次,取而代之的是一个全新但也眼熟的标签:「豆包同款」。 根据奥卡姆剃刀原则,如无必要,火山引擎不会如此费心的去「抠字眼」,这种改动,必然机遇市场风向的变化。 或者更直接的说,客户对于视频云的要求,彻底和以前不一样了。 根据IDC的数据显示,随着2022年视频云的产值首次超过100亿美金,以及大模型行业的从无到有,在AI加速融合到云服务的周期里,由多模态模型提供的实时互动场景,以及智能化的媒体生产方案,叠加以前的视频化、高清化、出海化需求,未来5年的市场增速会高达20以上,相当于中国IT大盘增速的两倍以上。 于是,就有了「江山代有才人出」的剧本出现。 「抖音同款」的价值倒不是消失了,当它已经成为火山引擎视频云的标准之后,继续强调的意义就不大了。 这就像是早年电商平台的供给参差不齐,一家店铺只要声明支持退换货,就能增强不少竞争力,后来退换货成了平台的普遍政策,店铺也就不再标榜这项服务了。 对视频云有需求的企业客户,确实曾经会为「抖音同款」的能力买单,那时的需求,是大规模并发的负载支持、画面传输的清晰度、万人在线直播的不卡顿这些,而抖音代表着天花板档位的体验。 所以,「抖音同款」的言下之意在于,连十亿级别活跃用户的抖音都能被火山引擎视频云照顾周全,服务一般性产品更是不在话下。 但时代是在变化的,稀缺变得充裕后,自然会产生新的稀缺。 火山引擎的增长历史,其实重叠了中国互联网的基础设施步入完善阶段的整个上升过程,在云服务这块,一个类似深圳之于电子消费品的供应链已经成型,产品从落地到上线的支持一应俱全。 比如开发者要做一款直播APP,怎么去做转码分发、如何适配端云一体的推拉流、全球CDN节点的缓存方案是什么、怎样搭建防盗链系统这些,都可以在云服务的「货架」上按需采购,一键部署。 「抖音同款」意味着一种确定性,任何开发者都能普惠获得与抖音无异的「后勤保障」。 但在生产力溢出迎上出海新机遇的今天,让产品跑起来已经只能算是基操了,开发者对云服务的新要求,是为产品赋予更加智能化的价值,甚至是能实现从前不可想象的功能。 一言以蔽之,就是「豆包同款」。 前几天,豆包的日活突破1亿,引起一大波刷屏,尤其是在披露了豆包是字节史上所有日活破亿产品里市场投入最低的,却领先于所有对手达成了里程碑,这更是过于反直觉。 其微笑曲线的出现,取决于进入了大众应用场景,仅是三宫格P图这类玩法,就能撬动百万级自然下载,每一天。 某种意义上,这就是「豆包同款」的市场吸引力,不是说要复刻一个豆包出来,而是豆包调用的AI能力,可不可以「飞入寻常百姓家」? 至少,在多模态的音视频领域,火山引擎视频云,确实是拿得出能打的同款。 以AI时代创造的出海机会为例,短剧、电商、虚拟陪伴这些赛道的爆发,其实都有AI云原生的助力,也就是把大模型的能力做成了即插即用的服务。 中国市场上的短剧内容或是消费品可以说是供给极其旺盛,但它们难以「走出国门」的核心原因之一,就是本土化的适配成本不可控,如果要用专门的团队来做落地,很容易把赚钱的生意做成亏钱。 而在有了火山引擎视频云的一站式AI解决方案之后,以极低的成本,短剧储备能在数天之内完成从对口型到自己翻译的完整再生,跨境电商也可以自动混剪直播的高光时刻,在一夜之间生成上万个投流素材。 这就是说,「豆包同款」实际上提供了一个新的标准,那就是让视频云从被动的计算工具,升级成了主动的生产容器。 这个时代的云,开始能够长出业务,甚至是盈利模式。 Google今年打了一场翻盘仗,除了Gemini支棱起来以外,在财务层证明了AI并未影响现有业务、反而有所促进这件事情,更加至关重要。 这推翻了原本的常识性判断,数据显示,即便搜索结果里的AI摘要吸引了部分原本会点击广告的流量,但因为搜索体验的提升,一并提高了点击质量,超额补回了预期中的损耗。 只要创造的是真实价值,回报就一定不会缺席,这是最适合对AI时代写出的情书开头。 就像 Notion 的 ARR 今年已经突破 6 亿美金,其中一半以上是由 AI 带来的,事实上 Notion 也没有自研大模型,作为最早全线接入 GPT 的产品之一,Notion 证明了用好 AI 的经济回报有多丰富。 与此同时,也已经出海的中国流媒体公司在用AI打造货币化的关键节点了,最典型莫过于把AI陪伴看剧、答疑解惑、定制化切片放在会员权益里,借此拉动付费率。 而这些都是火山引擎视频云的标配,开发者只需要聚焦内容价值,在对内容的二次开发、增值创造、服务升级等全场景/全生命周期方面,云上就可以调用各种模型能力,构成低代码的工作流。 能接这样的活儿,本质上还是在将字节系核心能力进行复用,火山引擎视频云的中台架构升级,用的就是「豆包同款」的AI MediaKit——这可不是修辞——豆包在处理多媒体时用的什么音视频能力,火山引擎视频云的客户用的就是什么音视频能力。 换句话说,火山引擎的视频云,是用AI能力把传统的音视频技术重做了一遍,其中最主要的几处技术升级包括: AIGC传输系统,以前云上是不太负责内容生产的,相当于只做搬运工,但在AI进入工作流后,也需要考虑如何为智能体应用提供稳定、实时、可扩展的多模态数据传输能力; AI MediaKit,是在云成为新的内容生成环境之后,平台开始为客户配置的新工具套件,声影同传、高光智剪、视频总结这些原本需要在本地进行二次处理的工作,现在都可以直接放进云上的生产线,由不需要休息的大模型去日夜劳作; 音视频互动智能体,是全面对齐豆包级的人感——和豆包聊天已经是抖音上的热门选题了——它为商业客户赋予了让内容「活」起来的能力,不再局限于「播放」音视频素材,使其有了响应、对话、思考甚至输出情绪价值的服务。 可以发现,这三大升级互为渐进关系,且都是在为下一代AI化产品的架构服务,让智能如自来水般接入各个细节里。 AI将一切信息都带到了指数级的增长曲线上,作为消耗资源的大户,音视频内容需要的云,也从「保下限」——别卡顿、别变糊、别宕机——演进到了「提上限」,要自带最先进的基座模型,要能实时化的智能交互,要能用自然语言完成作品交付。 今年8月,风险投资机构A16Z发布了最新一版消费级AI应用百强榜,其中来自中国团队开发的移动端产品,已经占到了 $44\%$ ,绝大多数都是在海外市场「大杀四方」。 模型中心部署、应用全球分发的模式,似乎是能最大化发挥中国AI产业「长板效应」的最优解,但这也为保障用户体验带来了新的挑战。 如果一个纽约的用户在犹豫是否开通会员前可以和一个说着一口流利英语的数字人进行视频通话并问清楚积分政策,那么他的付费概率,搞不好就会涨几个百分点。 这只是万千细小场景的一个片段,在数字化的工业体系里,视频云的存在感之所以开始趋于全链路化,就是为了满足前所未有的「心智」需求。 火山引擎为视频云换代,就是想让产品的每一个交互,都自带Tokens的用武之地。 如果出海远航已经从可选项变成了必选项,那么这朵云就相当于船的龙骨,它的质量和创新,决定了满舱货物究竟能够抵达多远的港口。 这还是让人想起 Notion 的创始人 Ivan Zhao 关于 AI 的想象空间还没有真正到来的判断: 蒸汽机的出现并没有在一夜之间带来工业革命,最开始人们只是下意识的将水车替换成蒸汽机,以致于虽然不再需要水动力,蒸汽机往往也都依河而建。 只有在生产装置被逐一替换之后,在中央轴被分布式电力系统淘汰之后,在以蒸汽机为中心重新设计工厂布局之后,人类才得以最大化的发挥新技术,生产力爆炸。 从历史的后视镜来看,火山引擎视频云就在领跑于这个关键的转型阶段,这也才是「豆包同款」的真正含义: 最先进的大模型有的能力,我不许有人没用上。 # 从“抖音同款”到“豆包同款”:AI时代,视频云正在有了新表达 1895年,巴黎卡普辛大道14号,卢米埃尔兄弟的《火车进站》让观众惊慌四散——一束穿透黑暗的光影,第一次让静态图像拥有了流动的生命,但同时也留下了时代局限:单镜头、无剪辑、仅50秒时长,更遑论对内容的精细操控。 以视频为介质的表达,由此而始。 但在AI时代的2025年,人们对这个以卢米埃尔兄弟为起点的表达体系有了新“质疑”。在最近的3年时间里,关于音视频,一些更新的标签也在悄然出现。 比如在今年下半年大火的AI漫剧,比如游戏圈中频繁破圈的豆包视频指导策略陪玩,再比如在今年釜山电影节上出现的一系列AI短片等等。 这些新热议的话题主题仍然是视频,但对这个形态恒定超100年的介质而言,它的新使用方式却不是传统的“拍摄-制作-发布”管道体系,在这些新表达里,“Agent智能体”、“可交互对话”、“可编辑二创”、“一句话/一段话生成”在成为新的标签,这些标签在给C端创作人