CloudEngine16800,打造最快数据中心网络的AI交换机 节能环保

/ / 2020-10-14
人工智能(AI)的兴起人工智能经过50年的演变,正进入高速发展期,且越来越成为一种通用技术,深刻影响人们的生活和社会的进步。数据显示,从2000年开始,全球人工智能企业的增速很快,总数达到了8107家,平均每天诞生约1.39家。透过数据发现,过去五年是人工智能发展的重要阶段:全球超过60%的人工智能......

  人工智能(AI)的兴起

  人工智能经过50年的演变,正进入高速发展期,且越来越成为一种通用技术,深刻影响人们的生活和社会的进步。

  数据显示,从2000年开始,全球人工智能企业的增速很快,总数达到了8107家,平均每天诞生约1.39家。透过数据发现,过去五年是人工智能发展的重要阶段:全球超过60%的人工智能企业诞生于过去五年间,在2012-2016年,全球人工智能企业新增5154家,是此前12年的1.75倍左右。

全球AI产业规模发展

--数据来源:乌镇指数2017

  AI的发展对基础设施的要求

  华为发布的《GIV 2025:打开智能世界产业版图》白皮书预测:2025年个人智能终端数量将达400亿,个人智能助理普及率达90%,智能服务机器人将步入12%家庭。全球1000亿联接将广泛用于金融、制造、交通、公用事业、医疗和农业等各个领域,推动数字化转型。届时企业应用云化率将达85%,AI利用率达86%,数据利用率将剧增至80%,每年1800亿TB的新增数据将源源不断地创造智能和价值。

  可以确信,人工智能在将来几十年时间保持高速发展,而且将更加深远地影响整个科技、经济、社会发展。在不久的将来,很多原本由人完成的工作将由机器来完成,AI技术也会发展到一个新的高度。

  AI的应用和服务,离不开数据中心的支持。从技术层面看,未来的AI数据中心将更大、更快:

  规模更大:目前,很多AI应用已经在利用大数据、云计算平台获取海量数据进行计算,随着行业数据的不断整合、IoT等更大规模的数据源,单个AI计算系统的规模将不断扩大,未来的人工智能计算环境必然主要基于数据中心提供基于云平台的服务和接口。

  计算更快:当前,主流服务器CPU能够提供1 TFLOPS左右的计算能力,且近年来CPU计算能力的增长进入瓶颈。相对的,近来的普通GPU芯片能够提供10 TFLOPS的计算能力,最新研制的AI专用计算芯片以及包含AI专用加速内核的GPU已经能够在功耗相近的前提下提供超过100 TFLOPS的运算能力,通过架构设计的变化打破了摩尔定律对AI计算的限制。有理由相信,未来的AI芯片能力还会快速增加,从而使得单个节点的AI计算能力达到一个前所未有的高度。计算能力的增加也对系统架构、网络架构和通信性能提出了更高的要求。

  AI时代数据中心面临的挑战

  AI时代数据中心规模更大,计算和存储更快,网络成为AI业务发展的瓶颈。数据中心网络在高带宽、低时延、少丢包等性能指标方面还存在较大差距,尤其在细粒度的单点控制、整网控制和软硬件结合的设计方面存在差距,无法全部满足未来AI应用对计算与通信高度并行的需求。

  具体而言,AI时代的数据中心,尤其是分布式云数据中心在微突发流的控制、拥塞响应、负载均衡和混合流调度等场景面向巨大挑战:

  Incast(微突发流)拉长通信时长:在分布式数据中心中,服务器集群内多个服务器同时访问1台服务器形成Incast(微突发流)成为了常态。数据中心网络现有常用流控机制(如PFC),无法保证不丢包,会造成部分流量的严重拖尾现象,拉长整体通信时长。

  拥塞无法快速响应:分布式数据中心内突发流量大,需要响应时间短,而目前数据中心网络基于ECN(Explicit Congestion Notification) 显式拥塞通知标记方式的拥塞控制机制响应时间过长,容易造成欠吞吐或流量过冲问题,满足不了AI业务毫秒级突发大流量的拥塞控制需求。

  缺乏高效的负载均衡机制: AI时代数据中心内因计算模型的缘故,AI应用交互产生的流量具有明显的模式特征,使得网络路径上的流量严重不均衡。目前数据中心网络主要基于流的负载均衡机制无法满足高带宽、持续大流量的负载均衡需求。

  混合流无法基于优先级区分调度:分布式架构数据中心内数据流量是规模较大的大流(10M-100MB),而用于控制的流量都是小流(KB级别)。长时间频繁的大流通信会严重影响AI应用控制小流的通信。而往往控制小流的通信优先级更高,导致AI应用和训练效率降低。当前数据中心交换机和服务器网卡很少支持区分流的类别,比如数据大流和控制小流,使得控制小流因缓冲、头端堵塞、无高优先级调度而被动等待。

  满足AI需求的智能无损网络

  随着AI的发展和普及,存储介质、计算技术的提升,数据中心网络面临如上流控、拥塞响应、负载均衡和混合流调度等多方面的挑战。

  为了应对挑战,华为CloudEngine 16800系列交换机首次创新性地引入AI芯片,构建面向AI时代的AI Fabric智能无损数据中心网络解决方案。