应对AI大模型算力荒,为啥不是云计算而是超算?

2023.08.09

以ChatGPT为代表的AI大模型,凭借其强大的学习和生成能力,极大的推动了人工智能在自然语言处理、机器翻译和智能对话等领域的突破。随之而来的是国内相关企业纷纷布局AI大模型,在短时间内呈现了“百模大战”发展态势。

 

我们也看到,作为支撑AI大模型的三驾马车:数据、算法和算力之间的发展呈现了不平衡,其中最明显的是支撑大模型训练与推理的算力面临短缺,导致GPU算力卡供不应求,价格飙升等问题。

 

7月28日,在大美新疆,由CCF中国计算机学会主办,CCF人工智能与模式识别专委、新疆大学、北京超级云计算中心承办的 “见疆见昆仑·AI大模型算力前沿论坛”上,进行了一场产、学、研共同参与的圆桌访谈,通过精彩的发言和观点的碰撞,针对AI大模型面临 “算力荒”,人工智能产业的上中下游机构,如何应对其挑战。专家们一直认为通用计算+专用计算组合提供强大算力,是解决“算力荒”的关键。

 

 

 

算力荒下的大模型新挑战

 

虽然AI大模型在各个领域展现出巨大的潜力,并已经在各个行业落地,为了给用户提供更全面、准确的理解和推理能力,来处理更复杂的任务。

 

但是随着通用大模型和行业大模型不断增加参数数量、层数和训练数据量,并将多模态数据如图像、文本和语音进行融合。大模型对算力需求形成了新的挑战。

 

首先,大模型训练作为庞大并且复杂的系统工程,需要庞大的算力资源,来进行训练和推理,这对硬件设备和能源消耗提出了巨大的挑战。

 

在算力荒的当下,算力获取一个主要挑战就是获取成本,如何在好用的情况下还能实现成本可控是一个挑战。深圳大学陈小军研究员表示一方面大模型应用场景有待深挖,同时对话、视觉、文本等多模态融合技术有待完善。同时大模型训练成本太高成为制约大模型应用的一大挑战。

 

其次,新疆大学钱育蓉教授认为,高校每年投资大量的资金采购算力,如何确保投入产出比,如何最大效率发挥算力的价值是大模型算力的一个挑战。此外,烟台大学王莹洁教授认为大模型还需要解决数据存储和隐私保护等问题,以应对数据集规模和数据安全的挑战。

 

最后,北京邮电大学石川教授认为当前我国大模型还面临国产基础平台软件算法库稀缺瓶颈,以图数据为例,当前国内大模型对图数据不能很好的支撑,很多时候需要自己编写基础的一些算法库。

 

 

应对算力荒的新方法

 

当前每次大模型训练所需要的算力非常高,以ChatGPT为例,OpenAI公开数据推测,如果每秒1000万亿次的计算,每次模型训练也需要3640天的计算能力。基于大模型训练对于算力资源的需求量。从算力架构的角度来看,目前来讲,单机已经没有办法完成大规模训练的诉求。

 

因此通用算力+专用算力,将成人工智能算力基础设施建设的关键,并成为AI大模型的发展的重要支撑。具体而言就是通过分布式和并行计算技术,将大模型的训练和推理任务分解成多个子任务,以提高计算效率和速度。

 

“通用算力,结合上千张卡的算力进行万亿级、千亿级基础模型训练;再通过专用算力进行更合理的共享、微调,进行更多处理,从而可以减少重复训练、重复迭代,可以降低大模型部署和使用的成本。” 中国计算机协会杰出会员理事,陕西省计算机学会常务理事兼常务副秘书长苗启广教授分享到。烟台大学教授王莹洁也认为,大模型背后的算力是是很砸钱的一件事,特别是面临算力荒的局面下,提供高性价比的算力成为高校大模型普及的关键。

 

基于通用算力+专用算力的硬件基础在结合AI大模型算法和模型优化,通过开发更高效的算法和模型结构,来提升计算资源的效率,从而提高模型的性能和泛化能力。

 

针对钱育蓉教授关于算力投入产出比的问题,CCF中国计算机学会常务理事陈健博士分享了通过提供弹性的算力网络服务来提升算力效率。一方面,当企业自身的算力资源不足时,可以从超级云中心调度更多算力资源,同时当企业算力资源有富余,还可以出租一部分给到算力网络。另一方面,打造像用电一样利用算力的计费模式。“算力网络就是聚集海量的超算中心、智算中心的资源在一起的,而且计费模式就像用电一样,通过预存来实现算力网络的调用。”

 

 

应对大模型,为啥是超算而不是云计算?

 

大模型训练,单一任务使用大量GPU卡运行数月,这是典型的超算应用特点,运行稳定和高性能是核心需求。从应对计算挑战的方法可以看出,超算架构比云计算架构更适合大模型训练,超算架构不使用虚拟化技术,通过高速互联网络把GPU服务器紧耦合在一起,以并行计算技术实现单一大模型训练应用的高性能计算(HPC/High Performance Computing)。而云计算架构主要面对海量并发任务,实现高通量计算(HTC/High Throughput Computing),并不适合处理单一大规模计算任务。

 

“结合大数据、人工智能和超算三种技术共同的合作演变,实现了今天大模型的蓬勃发展。”陈健博士这样分享到。“跟传统意义上的云计算相比较,大模型训练是典型的超算场景,对算力提出了非常高的要求。超算相比云计算更加贴合大模型训练场景,服务器之间的计算带宽配比更大,是目前主流云计算环境中的计算网络带宽的数十倍,数据传输效率要求更高。”

 

“相对于云计算,超算云的算力利用率更高。目前已知的普通云厂商CPU利用率很低,我们国内用户自己的计算系统全年整机平均利用率达到30%就不错了,而北京超级云计算中心自己的计算资源整机利用率要高50%以上,算力成本大幅下降。以中心提供的大模型算力为例,我们会给用户提供基于超算架构的算力资源,把优质的加速卡资源部署在集群环境里面,来给用户提升对应的算力服务。” 北京超级云计算中心CTO甄亚楠谈到。

 

特别是北京超级云计算中心基于12年的超算积淀、具备海量的算力资源、7*24小时专家服务保障、遍布全国的算力调度网络、丰富的AI大模型研发团队案例经验,引领了大模型算力从可用到好用到降本。

 

写在最后:AI大模型的能力大家有目共睹,“百模大战”最终大浪淘沙剩下几家?还不可预测。但是算力作为AI大模型的基础支撑,需求越来越大是有目共睹的,提供高性价比的算力资源成为算力资源提供商发力的方向,而通用算力结合专用算力的超算模式,为各个行业的大模型算力“荒“提供了一个有效的解决方案,来支撑AI大模型更好的服务社会。




构建云上科研工作环境

让计算更简单,让生活更美好

免费试算