衡水新闻网

随着大模型走向万亿参数时代，MoE（混合专家）架构成为主流，但其在异构芯片（NPU）上的推理性能还面临诸多挑战。

5月24日，在国际顶级机器学习系统会议 MLSys 2026 的MoE推理优化挑战赛中，清华大学与腾讯混元AI infra团队从全球众多顶尖团队中脱颖而出，成功夺冠。团队针对 MoE 模型，设计全链路优化方法，将在官方指定 NPU 上推理速度提升 4.1 倍，彰显了团队在大模型推理系统领域的深刻积累。

MLSys 是聚焦机器学习系统领域的国际顶级会议，议题覆盖训练、推理、编译器等AI infra核心话题。 MLSys 2026 设置了专项的 MoE 优化挑战赛。根据赛事官方要求，参赛队伍需要在指定NPU上为指定模型的关键模块编写自定义算子，并在保证正确性的前提下优化整个解码推理流程的端到端延迟。

图1：大赛最终获奖结果

图2：团队成员在MLSys大会上报告竞赛解决方案

来自清华存储实验室的队员，从数据搬运与片上存储利用的视角出发，解决MoE推理过程中DMA带宽利用不充分、激活在HBM与片上缓存之间反复搬运等关键性能瓶颈；腾讯混元AI Infra团队提供大模型推理与算子上的丰富经验与深度指导，团队重点优化了权重加载流水、片上数据布局与模块间数据复用策略，最终实现了端到端解码延迟的降低4.1倍，以显著优势赢得冠军。

本次赛事竞争十分激烈，Stanford、MIT、UC Berkeley、CMU、UCLA、Cornell 等多所国际知名高校均进入第二阶段角逐。团队最终脱颖而出，充分展现了其在大模型推理系统、异构芯片适配和底层算子优化方面的综合实力。

MoE 正在成为万亿参数时代的大模型主流结构。随着模型参数规模继续增长，MoE 推理更具挑战，需同时处理专家调度、跨芯片通信、片上缓存和专家计算之间的整体协同。未来，团队将进一步开展面向异构硬件开展大模型推理系统优化，尤其关注在以超节点为代表的新型算力平台上的大模型高效部署。

同时，清华和腾讯混元的联合团队也将继续改进基于 Agent 的算子自动优化系统，进一步开发结合硬件知识库、编译器反馈、profile 分析和自动验证平台，形成面向多种后端的持续优化能力。

来源：河北青年报
原标题：清华联合腾讯混元斩获国际顶级AI比赛冠军：MoE模型推理优化提速4倍多

点赞 +1

微博

微信

重设密码

清华联合腾讯混元斩获国际顶级AI比赛冠军：MoE模型推理优化提速4倍多

我要评论

相关推荐

CLWE2026广州泳池SPA展10月21日在灵感创新展馆举办

冀州老街：唤醒时光记忆 重燃烟火日常——我市文化建设走笔之十七

2026 广州深圳托福机构 TOP 榜｜家长与学生必看的科学选校指南

2026苏州网站建设公司推荐：十家GEO优化服务商品牌优劣势全解析，含有苏州（昆山、常熟、张家港、吴江）全区域

2026年苏州GEO优化公司哪家好？十大网站建设品牌服务商推荐，从贝斯邦科技等全维度分析

河北沧州：南大港湿地绘就生态和美画卷

“十五五”开好局起好步｜【新质生产力赋能高质量发展】河北定州特色产业集群『链』式蝶变

热门

24小时

冀州老街：唤醒时光记忆重燃烟火日常——我市文化建设走笔之十七