面向ai大模型的智算中心网络演进白皮书(2023年)中国移动通信研究院 目录前言...................................................................................................................................................31.ai业务发展趋势............................................................................................................................41.1.人工智能技术发展趋势.....................................................................................................41.2.人工智能业务发展趋势.....................................................................................................61.3.人工智能政策发展趋势.....................................................................................................72.ai大模型对网络的需求................................................................................................................82.1.超大规模组网需求.............................................................................................................82.2.超高带宽需求.....................................................................................................................92.3.超低时延及抖动需求.......................................................................................................102.4.超高稳定性需求...............................................................................................................102.5.网络自动化部署需求.......................................................................................................113.当前网络能力与业务需求的差异点..........................................................................................113.1.规模差距分析...................................................................................................................123.2.带宽差距分析...................................................................................................................133.3.稳定性差距分析...............................................................................................................143.4.时延、抖动差距分析.......................................................................................................153.5.自动化能力差距分析.......................................................................................................164.面对差异网络应对举措..............................................................................................................174.1.大规模组网关键技术.......................................................................................................174.1.1网络设备硬件本身改进........................................................................................174.1.2端网协同的流控改进............................................................................................194.2.超高带宽关键技术...........................................................................................................204.2.1网络-应用协同设计释放算力...............................................................................204.2.2链路负载均衡优化技术........................................................................................204.2.3低功耗的400g/800g互联方案............................................................................224.3.超高稳定性关键技术.......................................................................................................224.3.1基于硬件的快速感知能力....................................................................................234.3.2基于硬件的快速收敛能力....................................................................................234.3.3层次化的网络故障自愈能力................................................................................234.4.超低时延关键技术...........................................................................................................244.4.1集合通讯算法和网络拓扑协同............................................................................244.4.2dpu硬件卸载..........................................................................................................244.4.3静态转发时延优化................................................................................................254.5自动化关键技术.................................................................................................................255.总结和展望..................................................................................................................................26术语定义...........................................................................................................................................27缩略词表...........................................................................................................................................27 前言人工智能是数字经济的核心驱动力,ai大模型是人工智能的新引擎。ai大模型指通过在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新范式。近年来,随着chatgpt等生成式人工智能(aigc)的突飞猛进,全球范围内的经济价值预计将达到数万亿美元。尤其在中国市场,生成式ai的应用规模有望在2025年突破2000亿元。这一巨大的潜力不仅吸引着业内领军企业竞相推出万亿、10万亿参数量级别的大模型,而且对底层gpu支撑规模提出了更高的要求,达到了万卡级别。然而,如何满足如此庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。以gpt3.5为例,其训练过程依赖于微软专门建设的ai超算系统,由1万个v100gpu组成的高性能网络集群,总计算力消耗约为3640pf-days。在这种情况下,寻求提供极致高性能网络已成为人工智能领域的重要研究方向之一。本白皮书将从ai业务发展的历程出发,深入研究大模型对网络能力的需求,分析当前网络与业务需求的差距,并探索网络技术发展趋势以弥补这一差距。我们希望,通过本白皮书的研究和分