在人工智能领域,AI训练长期占据着基础设施讨论的核心位置。大规模GPU集群、庞大的数据中心以及高能耗的模型训练,一度成为衡量AI发展规模的重要指标。然而,随着技术演进,AI训练逐渐被视为发展的“前奏”,而真正考验当前AI基础设施能力的AI推理,正从幕后走向台前,成为推动行业变革的关键力量。
AI推理是AI模型生命周期中的“应用”环节。经过训练的模型通过处理新数据,生成答案、图像或执行具体任务。与训练过程高度集中于特定环境不同,推理的应用场景极为广泛,覆盖了从企业应用到消费设备的各个领域。随着AI技术的普及,推理工作负载正以惊人的速度增长。以ChatGPT为例,这款产品仅用两个月便吸引了1亿月活跃用户,远超传统技术或平台的渗透速度。如今,AI正快速融入搜索、邮件、社交媒体等日常数字工具,这种集成并非渐进式发展,而是形成了爆发式的规模效应。
多模态AI的兴起进一步加剧了对网络的需求。传统的文本交互逐渐被能够同时处理文本、图像、音频和视频的多模态交互取代。例如,一部智能手机的高清视频流需要每秒数兆比特的持续带宽支持。当数百万用户同时使用这类服务时,网络中传输的数据量将呈指数级增长。现代推理模型通常将任务分解为多个内部步骤,用户的一个简单查询可能触发数十次后台数据检索。即使请求本身简短,网络也可能在后台移动大量数据以完成响应。这种变化显著增加了应用程序、数据源和AI模型之间的数据流动量。
AI优先云的建设和分布是应对这一挑战的重要方向。根据Ciena的调查,未来几年,超过40%的新建数据中心将专注于AI领域,推理需求的激增正在推动推理中心和AI优先云区域的快速扩张。这些中心通过交换大量数据来降低延迟、提高系统弹性,并满足数据主权要求。随着AI深度融入日常数字体验,推理能力需要更贴近用户,同时保持对集中式数据和模型的访问。这催生了两种关键网络能力:企业多云访问和数据中心互连(DCI)。前者使企业和应用能够轻松调用跨多个云和数据中心的AI服务,后者则通过低延迟连接在AI数据中心和云区域之间传输数据和推理流量。这两种能力必须协同发展,形成AI优先云的连接框架。
光学连接成为支撑这一转型的基础设施。分布式推理的增长改变了网络容量的规划方式,无论是DCI还是企业多云访问,都依赖于能够承载高容量、低延迟流量的弹性光学网络。先进的光传输技术通过最大化光纤吞吐量,同时降低每比特的成本、空间占用和能耗,为AI推理提供了必要的支持。自动化网络控制系统则通过动态分配带宽、优化流量路径,并在AI工作负载实时变化时维护服务质量,进一步提升了网络的适应性。
从数据中心内部连接到跨区域的光纤路由,光网络构成了支持分布式推理的可扩展主干。没有这种可靠、自适应的基础设施,AI服务将难以在全球范围内稳定交付。AI革命的核心不仅在于计算能力的提升,更在于网络连接的优化。随着推理从简单的文本查询转向复杂的多模态交互,网络和数据中心内的数据流动模式将发生根本性变化。这种转变正在重新定义AI基础设施的构建标准,为行业的未来发展铺平道路。
Q&A
Q1:AI推理与AI训练的主要区别是什么?
A:AI推理是AI模型生命周期中的“应用”阶段,通过处理新数据生成结果或执行任务。与高度集中的训练过程不同,推理的应用场景广泛分布于各类设备和平台。
Q2:多模态AI为何会增加网络负担?
A:多模态AI能够同时处理文本、图像、音频和视频,数据量巨大。例如,单个高清视频流需要每秒数兆比特的带宽支持,数百万用户同时使用时,网络传输的数据量将急剧上升。
Q3:光学连接在AI推理中扮演什么角色?
A:光学连接为AI推理提供了高容量、低延迟的支持。先进的光传输技术提升了光纤的传输效率,同时降低了成本和能耗。光网络从数据中心内部延伸到跨区域连接,构成了分布式推理的可扩展基础设施。











