随着大模型走向万亿参数时代,MoE(混合专家)架构成为主流,但其在异构芯片(NPU)上的推理性能还面临诸多挑战。


5月24日,在国际顶级机器学习系统会议 MLSys 2026 的MoE推理优化挑战赛中,清华大学与腾讯混元AI infra团队从全球众多顶尖团队中脱颖而出,成功夺冠。团队针对 MoE 模型,设计全链路优化方法,将在官方指定 NPU 上推理速度提升 4.1 倍,彰显了团队在大模型推理系统领域的深刻积累。


MLSys 是聚焦机器学习系统领域的国际顶级会议,议题覆盖训练、推理、编译器等AI infra核心话题。 MLSys 2026 设置了专项的 MoE 优化挑战赛。根据赛事官方要求,参赛队伍需要在指定NPU上为指定模型的关键模块编写自定义算子,并在保证正确性的前提下优化整个解码推理流程的端到端延迟。


 



图1:大赛最终获奖结果

 



图2:团队成员在MLSys大会上报告竞赛解决方案


来自清华存储实验室的队员,从数据搬运与片上存储利用的视角出发,解决MoE推理过程中DMA带宽利用不充分、激活在HBM与片上缓存之间反复搬运等关键性能瓶颈;腾讯混元AI Infra团队提供大模型推理与算子上的丰富经验与深度指导,团队重点优化了权重加载流水、片上数据布局与模块间数据复用策略,最终实现了端到端解码延迟的降低4.1倍,以显著优势赢得冠军。


本次赛事竞争十分激烈,Stanford、MIT、UC Berkeley、CMU、UCLA、Cornell 等多所国际知名高校均进入第二阶段角逐。团队最终脱颖而出,充分展现了其在大模型推理系统、异构芯片适配和底层算子优化方面的综合实力。


MoE 正在成为万亿参数时代的大模型主流结构。随着模型参数规模继续增长,MoE 推理更具挑战,需同时处理专家调度、跨芯片通信、片上缓存和专家计算之间的整体协同。未来,团队将进一步开展面向异构硬件开展大模型推理系统优化,尤其关注在以超节点为代表的新型算力平台上的大模型高效部署。


同时,清华和腾讯混元的联合团队也将继续改进基于 Agent 的算子自动优化系统,进一步开发结合硬件知识库、编译器反馈、profile 分析和自动验证平台,形成面向多种后端的持续优化能力。


 


来源:河北青年报
原标题:清华联合腾讯混元斩获国际顶级AI比赛冠军:MoE模型推理优化提速4倍多