中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证

WBOY
发布: 2024-09-03 07:30:42
原创
856 人浏览过

中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证

1. 当前,随着智算卡数达到千卡、甚至万卡,所需带宽往往高达百 T 比特级、甚至超 P 比特级。因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。

2. 中国电信研究院、中国电信北京公司、天翼云公司共同在中国电信现网基于 800G C+L 技术,为 1024 卡规模的分布式集群提供大容量带宽,实现 120 公里千亿参数大模型分布式训练,性能达到集中训练的 95% 以上。

3. 针对数据传输的大带宽问题,中国电信采用高阶调制格式的单波长 800G 技术以提高频谱效率,配合当前的业界热点的 C+L 波段技术实现超大传输带宽,在中国电信武清与润泽机房之间采用华为公司传输设备,通过多次环回构建了大带宽互联的智算验证网,距离达到 120km。

4. 针对数据传输的高可靠问题,中国电信完成了链路误码、波长故障、光纤故障等异常测试试验,结果表明,一个 800G 业务波中断会导致超 40% 的算效降低,而百毫秒级以上光纤故障会导致算效大幅下降甚至训练中断。从官方获悉,采用 WSON 重路由恢复技术,此次在两点间将重路由恢复时间控制在 50ms 以内,可保证分布式智算业务的高可靠互联,最大程度释放算效。

5. 针对传输链路的高效率问题,中国电信提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率。此次验证为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础。

以上是中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证的详细内容。更多信息请关注PHP中文网其他相关文章!

相关标签:
来源:ithome.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板