衡水新闻网

近日，上海创智学院AI Infra团队发布的 siiRL 2.0，以其卓越特性为强化学习的发展带来了新的突破，沐曦集成电路（上海）股份有限公司（以下简称“沐曦股份”）则凭借自身优势为siiRL 2.0的升级提供了坚实支撑，共同推动强化学习正式迈入“千卡级”时代。

上海创智学院AI Infra团队发布siiRL 2.0，聚焦性能、生态与前沿探索全面升级。一、卓越性能与扩展性：基于全分布式架构，实现千卡级近线性扩展与业界领先吞吐，性能在7B~235B(Dense/MoE）等大规模模型上稳定验证；二、自主可控，拥抱国产算力：全面适配多家主流国产芯片并完成千卡级扩展验证，为AI基础设施夯实自主可控的算力底座；三、灵活易用与生态兼容：独创DAG工作流支持无代码算法实验，兼容Megatron/FSDP等主流后端，极大提升研发效率；面向前沿，四、支持多智能体研究：内建强大的多智能体协同训练框架，为探索“智能涌现”等前沿课题提供关键基础设施。

在本次siiRL的升级适配工作中，沐曦股份做了一系列针对性优化。一、siiRL框架高效适配：基于沐曦股份自研的MXMACA软件栈，已经完整适配了siiRL需要的所有后端引擎（Vllm/Pytorch fsdp/Megatron-LM/Ray）以及深度优化的mccl高性能通信库，不需要其他额外的适配工作，实现了siiRL框架的高效适配；二、超节点scale up：沐曦股份Dragonfly超节点，提供了64卡的光互连高速通信带宽。在训练过程中，通过设置fsdp_size=64，可以充分利用超节点内的带宽，提升模型的训练效率。三、显存优化：通过设置模型参数offload选项，在共置集群上，有效降低了rollout和training阶段的峰值显存，可以采用更优的切分方式，进一步提升计算效率；四、分布式策略调整：结合实际负载与硬件拓扑，优化了不同模型的分布式训练参数切分方式，并调整了亲和性配置，以提升通信效率。