从_能用_到_好用_——混元翻译模型核心能力与架构实践分享_35页_4mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # HY-MT: # 腾讯混元轻量级大模型的翻译训练与优化实践 # 目录Menu HY-MT近期进展 HY-MT效果与CASE分享 HY-MT训练方案详解 HY-MT应用场景能力建设 经验总结 未来展望 # 导师介绍 腾讯混元技术专家混元应用算法负责人 # 郑茂 现任腾讯混元技术专家，混元应用算法负责人。负责混元大模型在腾讯的应用落地，包括广告、社交、娱乐、教育、客服等业务的大模型应用层效果优化。 技术研究方向包括大模型复杂推理、多轮对话、翻译、RAG、AGENT等。在ACL、AAAI、EMNLP、COLING、CVPR等会议上发表数十篇论文。带领团队获得WMT2025翻译比赛诸多赛道第一名。 # HY-MT近期进展 # WMT2025 - 通用翻译赛道上，31个语种中30个语种第一（超过Gemini-2.5-pro、CLAUDE4、deepseek v3、qwen3、235b等模型）。 - 31个语种除了中文、英语、德语、日语等常见语种，也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种 English-Simplified Chinese System Name LP Sup- ported Params. (B) Humeval? AutoRank ComketGiwEMBA- XL↑ GEMBA- ESA- CMDA ↑ GEMBA- ESA- GPT4.1 ↑ MetricX- 24- Hybrid- XL ↑ XCOME- XL↑ Shv-hunyuan-MT ✓ 7 ✓ 1.0 0.67 87.2 88.3 -4.0 0.576 Wenyil ✓ 14 ✓ 3.9 0.663 84.2 87.7 -5.0 0.52 ▲Gemini-2.5-Pro ✓ ? ✓ 4.0 0.657 85.2 88.7 -4.9 0.512 Alghabr ✓ 14 ✓ 4.1 0.66 84.7 87.8 -5.0 0.515 ▲GPT-4.1 ✓ ? ✓ 4.6 0.652 84.9 86.8 -5.0 0.512 ▲Qwen3-235B ✓ 235 ✓ 4.8 0.661 82.7 85.0 -5.0 0.513 Yolu ✓ 14 ✓ 4.8 0.687 74.9 77.1 -4.6 0.542 GemTrans ✓ 27 ✓ 4.9 0.658 77.0 80.2 -4.3 0.546 ▲Mistral-Medium ? ? ✓ 4.9 0.658 82.4 84.9 -5.0 0.514 Commanda-WMT ✓ 111 ✓ 5.6 0.665 78.9 81.5 -5.0 0.508 Uva-AMT ✓ 12 ✓ 6.3 0.671 76.8 78.0 -5.4 0.499 ▲Claude-4 ✓ ? ✓ 7.0 0.649 80.4 82.8 -5.6 0.487 ▲DeepSeek-V3 ✓ 671 ✓ 7.1 0.618 84.9 85.1 -5.2 0.473 ▲Llama-4-Maverick ✓ 400 ✓ 8.0 0.65 74.9 79.4 -5.5 0.489 ▲ONLINE-B ✓ ? 8.2 0.656 73.0 74.7 -5.2 0.492 ▲Gemma-3-27B ✓ 27 9.0 0.638 75.5 78.7 -5.8 0.475 Lanigo ✓ 9 ✓ 9.1 0.665 65.6 67.4 -4.9 0.513 # 夺冠 # HY-MT开源 - 开源HY-MT1.5-7b、HY-MT1.5-1.8b、HY-MT-Chimera三个模型 - 重点支持33个语种互译。特色能力包括5种民汉语言/方言互译、俚语翻译等 - Huggingface首页趋势榜排名第一，HY-MT1.5开源28天下载量超30W次 # 开源 # 多场景应用落地 - 接入腾讯会议（实时翻译、会后翻译），腾讯游戏出海翻译、企业微信（聊天记录翻译、邮件翻译），微信读书（划词翻译、书籍翻译）、QQ浏览器（文件翻译、划词翻译），腾讯海外客服、腾讯云翻译等。 # 应用 # HY-MT效果与CASE分享 # HY-MT效果与CASE分享 (a) Model size versus Flores-200 (XX $\Leftrightarrow$ XX) translation quality for different-scale open-source models. (b) Model size versus WMT25 translation quality for different-scale open-source models. Figure 2: Comparison of model size versus translation quality across Flores-200 and WMT25 datasets for open-source models. # HY-MT效果与CASE分享 # 端侧翻译新标杆：腾讯混元1.5开源，1.8B模型离线运行，效果超主流商用API 关注前沿科技 量子位2025年12月31日19:10北京 混元团队 投稿 量子位|公众号QbitAI 在语言模型的比拼中，机器翻译一直被视为检验机器理解复杂语义和跨文化对齐能力的“试金石”。 面向端侧场景，12月30日，腾讯混元宣布推出并开源翻译模型1.5，经过量化，可支持端侧直接部署和离线实时翻译，仅需1GB内存即可流畅运行，并且在参数量极小的前提下，效果超过了大部分商用翻译API。 在常用的中外互译和英外互译测试集Flores200、WMT25以及民汉语言的测试集中，Tencent-HY-MT1.5-1.8B全面超越中等尺寸开源模型和主流商用翻译API，达到Gemini-3.0-Pro这种超大尺寸闭源模型的90分位水平。在WMT25和民汉翻译测试集上，其效果仅略微差于Gemini-3.0-Pro，远超其他模型。 kth8 opened 27 days ago I saw this model yesterday and played around with it a bit which seemed pretty good. Today I made a more comprehensive eval to test all 37 languages this supports. Methodology: tencent/HY-MT1.5-1.88-GGUF:Q8_0 is instructed to translate a randomly selected English phrase into a randomly selected target language. The model is then instructed to translate the target language text back into English. Both original and retranslated English text is judged by a secondary LLM for semantic equivalence. Foreign languages (No Chinese) results: "total Runs": 200, "equivalent": 172, "accuracy": "86.0%" Chinese variants results: "total Runs": 200, "equivalent": 180, "accuracy": "90.0%" Looks like this model is fairly usable in terms of accuracy and speed on edge devices. I've been using SOTA models like Kimi K2 for translating certain phrases before which can now be performed decently by $< 2\mathrm{B}$ local model. I used the recommended sampling settings. /llama-server\ --top-k 20 --top-p 0.6 --repeat-penalty 1.05 --temp 0.7 Test log if anyone wants to review it: Foreign languages - https://gist.github.com/kth8/7395b537d872af45564b5361a7039d6 Chinese - https://gist.github.com/kth8/2718036e7d87fb49f1c52f42fefc0c24 翻译界王炸模型出现，被字幕坑过的我终于等到救星！ 原创Loki2046赛博小熊猫Loki 2025年09月08日09:00北京 本文字数3000+，图片51张，阅读时间约8分钟。 不知道你平常看不看英美日韩泰剧？ 我在不忙的时候是很爱看的，有些节奏快、有些剧情曲折、有些日常温馨、有的狗血但就是吸引你往下看。 可以说不同的剧各有各的优点，但他们有一个共同的缺点——我听不懂！（好吧，这是我的缺点……） 当大模型翻译越来越没有人味，腾讯混元闷声干了件大事儿 Bubble BubbleBrain 2025年09月07日11:54上海 翻译这件事儿，自从有了通用的大语言模型之后似乎就变得没那么重要了。 毕竟对大部分人来说，以GPT、DeepSeek、Gemini之类的能力随手翻译个文章，报告什么的，真的信手拈来，大差不差看着也就行了。 但，腾讯不这么认为。 专业声乐领域的文献翻译，由于艺术的抽象加上专业术语，翻译难度具有代表性。 我给了它一大段文献里的内容。 实测第一关 速度非常快，翻译结果很准确，语言也不生硬。 # HY-MT效果与CASE分享 # 长难句 原文（摘自路透社）： Trump's Republican allies and members of the administration, including Vice President JD Vance, took to social media to criticize lawmakers who had grilled the health secretary. "You're full of shit and everyone knows it," Vance said on X. 页面翻译： 特朗普的共和党盟友和政府成员，包括副总统JD Vance，在社交媒体上批评了抨击这位卫生部长的立法者。“你满身都是狗屎，每个人都知道，”万斯在X上说。 混元Hunyuan-MT-7B翻译： 特朗普的共和党盟友及政府官员（包括副总统JD·万斯）纷纷在社交媒体上批评那些严厉质问卫生部长的议员。万斯在X平台上表示：“你们满口胡言，大家都清楚这一点。” # 俚语 原文（摘自商业内幕）：No matter how you slice it, the August jobs report showed a weakening labor market. 页面翻译： 不管你怎么切片，8月份的就业报告都显示劳动力市场疲软。 混元Hunyuan-MT-7B翻译： 无论从哪个角度来看，8月份的就业报告都显示劳动力市场正在疲软。 Hunyuan-MT-7B ① 模型详情 这波操作真的是6到飞起 翻译成英语 This round of operations is really amazing! # # HY-MT效果与CASE分享 场景 翻译原文（输入） Tencent-HY-MT1.5-1.8B Apple Translation 对话 你要是一直这么行事，不会有好果子吃。 If you keep acting this way, you won't end up with good results. If you keep acting like this, you won't have good fruit to eat. 对话 Just had a game with an OG who knew all the secret spots on the map – totally blew my mind! 刚刚和一位老玩家一起玩游戏，他熟悉地图上所有的隐藏地点，真的让我大吃一惊! 刚刚和一个知道地图上所有秘密地点的OG进行了一场比赛——完全让我大吃一惊! 地名 Born in Shanghai, Maria attended FDU and later became a renowned biochemist. 玛丽亚出生于上海，曾就读于复旦大学，并后来成为了一位著名的生物化学家。 Maria出生于上海，就读于FDU，后来成为一名著名的生物化学家。 数量单位 The project is estimated to cost around five craterupees. 该项目预计耗资约五千万卢比。 该项目估计耗费约五亿卢比。 英文俚语 Get something off your chest 把心里的话说出来吧。 把一些东西从你的胸口说出来 英文俚语 It's on the house. 这是免费提供的。 它在房子里。 金融 The startupmanaged to raise $10 mil in its latest funding round, attracting investments from several high-profile venture capital firms and positioning itself for rapid growth in the tech industry. 这家初创公司在最新一轮融资中成功筹集了1000万美元的资金，吸引了几家知名风险投资公司的投资，为其在科技行业的快速发展奠定了基础。 这家初创公司在最新一轮融资中设法筹集了1000万美元，吸引了几家知名风险投资公司的投资，并在科技行业快速增长。 古诗 静夜思 Thoughts in a Quiet Night Quiet Night Thoughts 李白（唐代） Li Bai [Tang Dynasty] Li Bai [Tang Dynasty] 床前明月光，疑是地上霜。 Before my bed, the moon shines bright; It seems like frost covering the ground. The bright moonlight in front of the bed is suspected to be frost on the ground. 举头望明月，低头思故乡。 I lift my head and gaze at the moon; Then I bow my head, lost in thoughts of home. Raise your head to look at the bright moon and bow your head to miss your hometown. # HY-MT效果与CASE分享 # HY-MT训练方案详解 # HY-MT训练方案详解 # 如何进行多语言培训 [CPT] 采集/合成大量多语种数据 涵盖33种语言和民族语言 对中英数据进行replay 防止多语言增训影响中英能力 P 多语言培训 D 训练数据语种配比 通过在小模型上进行实验，确定训练数据中最优语种配比 C 训练学习率调整 训练学习率从较小学习率warmup到pretrain的起始学习率，再进行cosine decay，平衡旧知识的遗忘和新知识的适应 # 如何获取高质量平行语料（SFT] # 高资源语种 先采用少量网络收集和内部人工标注的高质量数据训练一个融合模型，然后使用该融合模型，将多个效果领先的大模型翻译结果进行融合，最终得到质量更高的翻译结果 # 低资源语种 对于低资源语种，采用高资源语种（如英语）进行桥接得到低资源语种之间的平行语料，再通过多维度质量打分进行筛选 # 如何设计多语言RIM [RL] 通用翻译质量+领域翻译质量 如何设计多语言RM 2 3 ） 4 基于规则评估+基于模型评估 有参考评估+无参考评估 翻译独有RM+通用RM 多语言RM设计方法 # 如何提升低资源语种翻译效果 [RL] SSR (Simple Self-Rewarding) 强化学习训练方案 利用回译方法，只依赖单语数据即可训练。让模型把语种A文本翻译成语种B，再翻译语种A，通过计算两个语种A文本的相似性得到reward信号。 使用特定prompt对翻译质量进行打分，最终使用该打分进行GRPO强化学习训练。这样既能做到不依赖平行语料，又能做到翻译能力和翻译打分能力之间的相互促进。 Models ZH→EN EN→ZH WMT23 WMT24 Flores200 Avg. WMT23 WMT24 Flores200 Avg. KIWI XCM KIWI XCM KIWI XCM KIWI XCM KIWI XCM KIWI XCM Closed-Source LLMs Claude-3.5-Sonnet 81.61 93.06 81.06 90.54 89.41 97.68 88.89 80.15 92.00 80.00 86.31 89.47 94.32 87.04 GPT-4o 80.92 92.15 79.90 89.06 88.94 96.50 87.91 76.71 88.56 77.42 83.95 88.30 93.30 84.71 Gemini-1.5-Pro 80.71 92.44 79.02 88.90 88.15 97.32 87.76 79.80 91.95 79.54 87.11 89.30 94.54 87.04 Open-Source LLMs General Purpose LLMs Qwen3-32B 79.74 90.79 79.20 88.47 87.68 95.75 86.94 76.94 89.75 76.96 84.10 87.45 92.18 84.56 Qwen3-32B 80.28 91.95 79.95 89.53 88.88 97.18 87.96 79.27 91.28 79.51 86.63 89.69 94.07 86.74 Qwen3-8B 78.30 89.03 77.99 86.94 85.82 93.89 85.33 74.94 88.22 75.39 82.25 86.08 91.02 82.98 Qwen3-8B 79.87 91.42 79.58 89.02 88.61 96.55 87.51 78.59 90.90 78.71 85.31 88.90 93.30 85.95 Qwen2.5-72B-Instruct 80.62 92.14 80.46 90.06 88.90 97.28 88.24 78.18 91.34 78.18 85.13 88.04 93.20 85.68 Qwen2.5-32B-Instruct 77.73 89.28 78.77 88.69 87.13 95.50 86.18 77.73 90.23 78.77 83.48 87.13 91.99 84.89 Qwen2.5-72B-Instruct 77.56 89.40 76.71 87.12 86.28 94.06 85.19 73.81 88.11 72.98 80.93 85.18 89.90 81.82 QwQ-32B 74.61 85.12 75.08 84.34 80.88 89.21 81.54 77.33 89.10 78.13 85.03 86.51 90.93 84.51 Gemau2-27B-it 80.32 91.96 79.42 89.14 88.64 96.72 87.70 76.95 90.50 77.38 84.17 87.79 92.51 84.88 Gemau2-9B-it 79.86 91.21 79.25 88.41 88.32 96.25 87.22 75.22 89.66 74.15 81.65 85.95 90.90 82.92 MT-Specific TowerInstruct-7B-v0.2 77.78 89.13 76.96 85.98 86.95 94.88 85.28 73.53 87.46 70.87 77.53 84.39 88.57 80.39 TowerInstruct-13B-v0.1 78.53 89.90 77.57 87.12 87.30 95.80 86.04 75.56 89.28 73.81 80.81 86.22 90.69 82.73 DeepTrans-7B / / / / / / / 80.01 89.00 78.89 83.85 89.23 92.85 85.64 GemxaX2-28-9B-v0.1 79.40 90.63 78.71 88.60 87.85 96.33 86.92 77.10 90.68 75.88 83.33 87.58 92.83 84.57 Ours Qwen2.5-7B 62.62 75.69 69.04 77.33 73.62 85.54 73.97 68.25 81.63 64.28 69.48 82.00 86.07 75.29 SSR-Zero-7B 79.29 92.04 79.04 89.19 87.97 96.70 87.37 79.69 91.18 79.34 85.34 89.25 93.52 86.39 SSR-X-Zero-7B 80.62 91.92 80.56 89.42 88.84 96.62 88.00 81.11 91.56 79.67 86.75 90.08 93.98 87.19 低资源语种效果达到同尺寸SOTA # 如何提升术语翻译效果 [RL] TAT-R1训练方法 在强化学习训练阶段，提出TAT-R1训练方法，在RM中引入术语词对齐、术语出现顺序、思维链是否包含关键术语等维度 Models EN->DE BLEU COMETKiwi XCOMET TA Avg. Baseline 25.87 67.05 88.65 53.29 58.72 NER + prompt 25.93 67.11 88.74 53.35 58.78 RL-Rcomet 24.52 70.26 90.17 54.42 59.84 RL-Rcomet+RBLEU 27.37 66.49 88.77 54.91 59.39 RL-Rcomet+Raaw 26.21 71.33 90.56 55.57 60.92 RL-Rcomet+Raaw+RaaS 26.34 72.04 90.99 55.73 61.28 RL-Rall (TAT-R1) 27.10 73.82 91.22 56.42 62.14 通用翻译能力不下降的情况下，模型术语翻译效果大幅度提升 # HY-MT应用场景能力建设 # 带格式翻译 典型场景： 企微邮件翻译，QQ浏览器网页翻译，腾讯视频字幕翻译。 # 实时翻译 典型场景： 腾讯会议会中翻译，腾讯财报会同声传译，QQ浏览器视频/直播翻译 # 术语、例句库翻译 典型场景： 定制化翻译需求的场景、领域翻译专业度要求高 # 词典翻译&解释性翻译 典型场景： 划词翻译、教育场景倡议能力 # HY-MT应用场景能力建设 # 带格式翻译 # Dear Zheng, A majority of the attendees at the 31st International Conference on "The 2015 World Congress on the WHO Age and are already using it to plan various activities, such as: Find people to share a cab (or Uber/Lyft) to go to the conference/event together - Scheduling meet-ups with people from the same country/state - Plan activities that are similar to those of other cities such as a morning run, city tour, or meet-ups with your fellow attendees - Posting job openings to recruit talent - Reaching out to other attendees and planning face-to-face meetings Don't miss out! You can download Whova app here: # Download app To protect user data, we require two-factor authentication at sign-in. After entering your email and password, a verification code will be sent to your email. Please check your Inbox and spam folder for the code. Detailed instructions can be found here. If asked for an invitation code, please use: 2501COLING (Please do not share this invitation code with people who are NOT attendees of the event). Already used the Whovap app in the past? Double-check that it is installed on your phone, and log in using your existing account email and password. Have a great time at the event! # 亲爱约郑， 在第3篇国际计算语言学大会上，大多数与会者已经下载了Whoa应用程序并且已经在用它来规划各种活动。例如： 找人来拼车（或者使用优步/来福车）一起去参加会议/活动 安排舞合与来自同一国家/州的人 计划一些社交活动，比如晨跑、城市游览，或者与与会者一起聚会。 - 发布职位空缺以招聘人才 联系其他与会者并计划面对面会议 不要错过！你可以在这里下载Whova应用程序 # 下载应用程序 为了保护用户数据，我们在登录时要求使用密码或数字的电子邮箱和密码。在登录时，要先检查密码或数字的密码或邮箱。登录页面的收藏菜单和隐藏文件菜单中的代码编辑器则可以在主浏览器上显示。 如果需要邀请码，请使用：2501COLING（请不要与非与会者分享此邀请码）。 过去已经使用过Whoa应用程序吗？请再次确认它已安装在您的手机上，并使用您现有的账户电子邮件和邮箱登录。 在活动中玩得开心！ # 解决方案: - 设计一协议承载原始格式信息，可以多个相邻文本一起翻译，保证翻译语义套连贯性。 - 借助LLM和词对齐等工具构造训练数据，并人工check确保数据质量 - SFT进行冷启+GRPO强化提升效果，reward既关注翻译质量也关注格式信息保留效果 # 实时翻译 # 解决方案： - 模型小型化，采用更小激活参数模型 - 补充口语化数据，通过强化学习不断提升效果 - 重点增强多轮对话场景的模型上下文翻译一致性 # HY-MT应用场景能力建设 # 术语、例句库翻译 Spring具有以下的以下含义，请根据上下文选择合适的翻译： 1.春天 Spring is the season of new beginnings. (春天是新的开始的季节。) 2. 弹簧 The mattress has a lot of springs. (床垫有很多弹簧。) 请把下面的文本翻译成中文 The spring in the pen is broken. 笔里的弹簧坏了。 字数：8 | 输入tok Spring具有以下的以下含义，请根据上下文选择合适的翻译： 1.春天 Spring is the season of new beginnings. (春天是新的开始的季节。) 2. 弹簧 The mattress has a lot of springs. (床垫有很多弹簧。) 请把下面的文本翻译成中文 I love the flowers in spring. 我喜欢春天的花。 解决方案: 建设翻译系统，提供可编辑、实时生效的术语、例句库检索模块 提升模型的术语指令遵循能力，适应多种语境 # 词典翻译&解释性翻译 cryptocurrency 英/'kriptəukArənsi/美/'kriptouk3:rənsi/ n. 加密货币（一种基于密码学技术的数字资产，不依赖中央银行或政府发行，如比特币、以太坊等） compliance 英/kəm'plaɪəns/美/kəm'plaɪəns/ n. 服从；遵守；合规；符合（标准或要求） 翻译： 英雄所见略同。 解释： “Great minds think alike” 是一句常用英语谚语，字面意为“伟大的头脑想法相似”，用于表达两人或多人在某个问题上不谋而合，有着相同的看法或思路，是对彼此共识的一种友好且略带夸赞的表达。 解决方案： 词典知识注入：收集词典数据，如牛津词典、 21世纪大英汉词典等 例句解释知识注入：解释性翻译数据收集 # 经验总结 # 高质量数据获取和构造是重中之重 - 离线构造和获取数据花费精力最多，时间最长 - 构造数据环节可以做很多模型优化的工作，辅助提升数据质量 # Reward Model如何定义清晰非常有挑战 - 信达雅是否足够 - 多样化指令遵循如何满足 # 强化学习阶段要稳定、长时间训练 - 强化学习算法的优化不可小觑，是拉开效果差距的关键 - 训练效率很关键 # 未来展望 # DENSE模型架构升级 # 文本翻译 # 翻译模型 MOL侯呈来构 记住更多词汇、支持更长上下文 2 陕心韵评 语音端到端翻译、图片/视频翻译 3 助评AGENT 用memory解决长文翻译一致性等问题 # 感谢观看！ # Thank you # AI开源模型部署和开发实战教学 # 目录Menu 部署方案概览 HuggingFace Transformers VLLM高性能引擎 LM Studio图形化部署 - 方案对比与选型建议 # 为什么需要本地部署大模型？ # 数据隐私保护 敏感数据无需上传至云端，完全在本地环境处理，满足企业合规要求与数据主权需求。 # 定制化能力 支持模型微调、量化、私有化部署，可根据业务需求深度定制模型能力与推理参数。 # 成本控制 长期使用成本显著低于API调用，高频场景下可节省 $60\%$ 以上费用，无调用次数限制。 # 离线可用性 无需网络连接即可运行，适用于内网环境、边缘计算、移动设备等离线场景。 # > 部署方案概览 三种主流技术路线，各有优势与适用场景 HuggingFace Transformers VLLM LM Studio 对比维度 HuggingFace Transformers VLLM LM Studio 技术架构 PyTorch/TensorFlow封装Pipeline统一接口 PagedAttention引擎C++/CUDA优化 llama.cpp引擎GGUF格式支持 性能表现 ★★☆☆☆ ★★★★★ ★★★☆☆ 原生推理效率较低 吞吐量提升24倍 CPU/GPU混合推理 易用性 ★★★☆☆ ★★★☆☆ ★★★★★ Python代码调用 Docker/API部署 图形界面操作 硬件要求 GPU推荐显存8GB+ NVIDIA GPU必须 CPU即可运行 显存16GB+ GPU加速可选 适用场景 快速原型验证小规模推理 生产环境 个人桌面体验教育演示 高并发API服务 核心优势 生态丰富灵活性高 极致性能 零代码 显存优化 开箱即用 HuggingFace Transformers # Transformers Pipeline工作原理 # Pipeline核心概念 统一接口封装：将模型加载、预处理、推理、后处理封装为简单API，一行代码完成任务 多任务支持：text-generation、text-classification、question-answering、translation等 自动模型管理：自动从HuggingFace Hub下载模型，支持本地缓存与版本控制 # 工作流程 1 输入文本 用户输入prompt或待处理文本 2 Tokenizer预处理 文本编码为token序列 3 模型推理 神经网络前向计算生成输出 4 输出解码 token序列解码为人类可读文本 # </代码示例 我们以tencent/HY-MT1.5-1.8B为例： ```python from modelscope import AutoModelForCausalLM, AutoTokenizer import os ``` ```hcl model_name_or_path = "tencent/HY-MT1.5-1.8B" ``` ```python tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) ``` ```python model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto" bfloat16 and/or move to GPU here ``` ```txt messages = [ ``` ```jsonl {"role": "user", "content": "Translate the following segment into Chinese, with explanation.\n\nIt's on the house.}}, ``` ```txt tokenizer chat = tokenizer.apply chat_template messages, ``` ```txt tokenizer=True, ``` ```txt add_generation_prompt=False, ``` ```txt return_tensors="pt" ``` ） ```txt outputs = model_generate(tokenized chatting.to(modeldevice), max_new_tokens=2048) output_text = tokenizerdecode(output[0]) ``` # vLLM > VLLM # VLLM核心创新：PagedAttention # 核心思想：操作系统虚拟内存分页 - PagedAttention借鉴操作系统虚拟内存分页思想，将KV Cache划分为固定大小的Block进行动态管理，实现显存的高效利用。 # 逻辑块 (Logical Block) 每个请求的KV Cache在逻辑上划分为固定大小块（如16 tokens） # 物理块 (Physical Block) GPU显存中预分配的物理页，按需动态分配 # Block Table映射机制 #请求A的Block Table request_a.block_table = [15, 88, 3, 92] 逻辑块0 $\rightarrow$ 物理块15 逻辑块1 $\rightarrow$ 物理块88 逻辑块2 $\rightarrow$ 物理块3 逻辑块3 $\rightarrow$ 物理块92 通过Block Table实现逻辑序列到物理存储的解耦，支持非连续内存存储，大幅提升显存利用率。 # PagedAttention vs 传统KV Cache 对比项 传统方式 PagedAttention 内存分配 连续预分配 分页动态分配 显存碎片 严重(60-80%浪费) 极低( 并发能力 低 极高 长上下文 容易OOM 可扩展 显存效率 ~40% >95% # 核心优势 √ 显存碎片大幅降低 固定大小Block，请求结束后立即回收复用 支持超高并发 不同长度请求可混合执行，动态分配KV Cache √ 天然支持长上下文 KV Cache可按需增长，无需预分配最大长度 # VLLM性能优势与部署方式 # 性能数据对比 吞吐量提升 24x vs HuggingFace Transformers 显存利用率 2x PagedAttention优化 显存效率 95%+ 动态分配与回收 # 核心特性 持续批处理 Continuous Batching 量化支持 GPTQ/AWQ/INT8 张量并行 Tensor Parallelism OpenAI兼容 API格式兼容 > Lm Studio/Ollma 图形化部署 # LM Studio核心特性 # 图形化界面 无需编写代码，通过直观的图形界面完成模型下载、加载、配置和对话。适合非技术用户快速上手。 # 内置模型市场 内置HuggingFace模型市场，支持搜索、浏览、一键下载开源模型。自动管理模型版本与依赖。 # GGUF量化支持 原生支持GGUF格式模型，提供多种量化级别选择[Q4_K_M、Q8_O等]，大幅降低显存占用。 # llama.cpp引擎 基于高性能llama.cpp推理引擎，支持CPU和GPU混合推理，在消费级硬件上也能流畅运行大模型。 # OpenAI兼容API 提供本地API服务，完全兼容OpenAI API格式，可无缝集成到现有应用中。 API端点 http://localhost:1234/v1 # 适用人群 非技术用户、教育工作者、学生、快速原型验证者，以及希望在本地体验大模型但不想编写代码的用户。 # 感谢观看！ # Thank you