大模型“暴力計(jì)算”時代，華為昇騰如何突圍算力之困？ | WAIC2023

光錐智能 ? 2023-07-11 14:11 ? 財(cái)經(jīng)洞察 ? 閱讀 124662

大模型帶來750倍算力需求的增長，而硬件的算力供給僅提升了3倍。

文｜姚悅

編｜王一粟

“這兩年內(nèi)，大模型帶來了750倍算力需求的增長，而硬件的算力供給（增長）僅有3倍。”華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊在2023世界人工智能大會上，揭開了被大模型“暴力計(jì)算”引發(fā)巨大算力缺口的真相。

而這個算力缺口還在進(jìn)一步擴(kuò)大當(dāng)中，張迪煊預(yù)計(jì)，到2030年 AI 所需的算力，相對2020年還會增長500倍。

與此同時，由于眾所周知的原因，算力國產(chǎn)化也迫在眉睫。

針對如何補(bǔ)足算力短板，畢馬威中國數(shù)字化賦能主管合伙人張慶杰認(rèn)為，需從三大途徑解決，分別是算力建設(shè)、基礎(chǔ)設(shè)施的共享與優(yōu)化、算法的優(yōu)化和數(shù)據(jù)的質(zhì)量。這其中，算力建設(shè)被擺在首要位置。

華為在近年算力建設(shè)中頗為積極。據(jù)中信證券7月研報(bào)，國內(nèi)現(xiàn)有城市智算中心中，以建設(shè)數(shù)量計(jì)，目前華為占據(jù)整體智算中心約79%的市場份額。

除了以量取勝，提升算力集群的能力更為重要。就在2023世界人工智能大會上，華為宣布昇騰AI集群全面升級，集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡，算力集群迎來“萬卡”時代。

華為輪值董事長胡厚崑表示，昇騰AI的集群相當(dāng)于把AI的算力中心當(dāng)做一臺超級計(jì)算機(jī)來進(jìn)行設(shè)計(jì)，使得昇騰AI集群的性能效率達(dá)到10%以上的提升，而且系統(tǒng)穩(wěn)定性得到十倍以上的提高。

張迪煊在群訪中亦對光錐智能透露，早在2018年，華為就判斷人工智能會快速發(fā)展，并改變過去小模型的開發(fā)模式，形成大算力結(jié)合大數(shù)據(jù)生成大模型的模式，所以華為那時候就開始開發(fā)算力集群產(chǎn)品。

步入AI時代，已經(jīng)無法再像單機(jī)系統(tǒng)時代那樣靠堆芯片拉升算力，而是要系統(tǒng)化重塑算力基建。在擴(kuò)大巨量算力供給的同時，要解決算力利用率、使用門檻高等問題，最終還要實(shí)現(xiàn)算力生態(tài)化。

算力集群迎來“萬卡”時代

今年ChatGPT引爆算力需求后，硬件端最先火的是GPU，英偉達(dá)總市值年內(nèi)已經(jīng)上漲了66%，最新為1.05萬億美元。

以英偉達(dá)A100為主的GPU成了大模型必備的香餑餑，但僅靠堆卡也無法應(yīng)對“百模大戰(zhàn)”的爆發(fā)之勢。那么，如何把寶貴的算力資源，發(fā)揮到極致？

既然單個服務(wù)器已經(jīng)很難滿足計(jì)算需求，于是將多個服務(wù)器連接成一臺“超級計(jì)算機(jī)”，正在成為當(dāng)下“算力基建”的主攻方向，這臺“超級計(jì)算機(jī)”就是算力集群。

2019年，華為就發(fā)布了Atlas 900 AI訓(xùn)練集群，當(dāng)時由數(shù)千顆華為自研昇騰910（主要用于訓(xùn)練）AI芯片構(gòu)成，到今年6月已經(jīng)支持到8000卡。而在剛剛結(jié)束的世界人工智能大會上，華為更是宣布計(jì)劃今年年底或者明年年初，做到超過16000張卡的集群。

萬卡集群是什么概念？

以1750億參數(shù)量的GPT-3模型訓(xùn)練為例，使用8張V100顯卡，訓(xùn)練時長預(yù)計(jì)要36年，512張V100顯卡，訓(xùn)練時間接近7個月，而1024張A100的訓(xùn)練時長可以減少到1個月。

按照華為的評估，訓(xùn)練GPT-3模型，100B的數(shù)據(jù)量，在8000卡的Atlas 900 AI集群下需1天即可完成訓(xùn)練，16000卡集群下僅需半天即可完成。

但別看“萬卡”算力大、效率高，真正想要用它去訓(xùn)練模型，絕非易事。

正像中國工程院院士高文所說，“有人說全世界能在1000塊卡上同時選連一個模型的只有幾千人，能在4000塊卡上訓(xùn)練的不超過100個人，在10000塊卡上訓(xùn)練模型的人數(shù)更少了”，在千卡和萬卡上訓(xùn)練和推理數(shù)據(jù)，對于軟件規(guī)劃、資源調(diào)度挑戰(zhàn)非常大。

首先，萬卡量級的訓(xùn)練，對分布式并行訓(xùn)練提出了更高的要求。分布式并行訓(xùn)練是一種高效的機(jī)器學(xué)習(xí)方式，將大規(guī)模數(shù)據(jù)集分成多個部分，再在多個計(jì)算節(jié)點(diǎn)上并行訓(xùn)練模型。這樣可以極大縮短訓(xùn)練時間，提高模型準(zhǔn)確性和可靠性。

昇騰算力集群的分布式并行訓(xùn)練，就需要倚仗華為自研的昇思MindSpore AI框架。

昇思MindSpore支持多種模型類型，還開發(fā)了一套自動混合并行解決方案，實(shí)現(xiàn)數(shù)據(jù)并行和模型并行的混合并行訓(xùn)練。

相同算力和網(wǎng)絡(luò)下，這樣的雙并行策略可實(shí)現(xiàn)更大的計(jì)算通信比，同時還解決了手動并行架構(gòu)的現(xiàn)實(shí)困難，讓大模型開發(fā)和調(diào)優(yōu)效率提升。

此外，由于分布式并行訓(xùn)練，每訓(xùn)練出一個結(jié)果，需要所有的芯片同步一次，這個過程中，會有出錯的概率。這種情況放在萬卡規(guī)模量級上，就對于穩(wěn)定性提出更高要求。

“昇騰的可靠性和可用性的設(shè)計(jì)，可以做到30天長穩(wěn)的訓(xùn)練，對比業(yè)界的最先進(jìn)3天左右水平，提升了將近10倍性能的穩(wěn)定性、可用性優(yōu)勢。”張迪煊表示。

算力集群的效率如何提升？

算力集群還不僅僅是規(guī)模擴(kuò)大，效率也需要有很大提升，否則就會出現(xiàn)卡數(shù)越多，算力利用率反而下降的問題。

以華為在內(nèi)蒙古烏蘭察布市部署的數(shù)千卡規(guī)模的AI集群為例，在同等算力下，計(jì)算效率能夠提升10%以上。

如果按照昇騰的指標(biāo)，1000卡的算力約300P，千卡就能提升約30P，萬卡就能提升約300P。

“300P算力24小時可以處理數(shù)十億張圖像、數(shù)千萬人DNA、10年左右的自動駕駛數(shù)據(jù)。”一位從事云計(jì)算業(yè)務(wù)的人士向光錐智能表示，提升算力效率，也就降低了計(jì)算成本。

如果說從千卡的300P到萬卡的3000P還得靠堆卡“大力出奇跡”，那這10%的效率提升，背后就需要更為復(fù)雜的系統(tǒng)性升級。

除了整合華為的云、計(jì)算、存儲、網(wǎng)絡(luò)、能源綜合優(yōu)勢，昇騰算力集群還進(jìn)行了架構(gòu)創(chuàng)新。

一臺服務(wù)器就是一個節(jié)點(diǎn)，華為在計(jì)算節(jié)點(diǎn)層面創(chuàng)造性推出了對等平構(gòu)架構(gòu)，突破傳統(tǒng)了以CPU為中心的異構(gòu)計(jì)算帶來的性能瓶頸，從而提升整個計(jì)算的帶寬、降低時延，節(jié)點(diǎn)性能得到30%的提升。

此外，算力可是用電超級大戶，尤其是上百臺服務(wù)器聯(lián)合起來，降低能耗也需要同步實(shí)現(xiàn)。

計(jì)算能力提升，服務(wù)器能耗也越來越高，傳統(tǒng)風(fēng)冷已經(jīng)無法支撐高散熱，就亟需解決如何能在政策嚴(yán)格限制PUE（電力使用效率）的情況下，仍保證服務(wù)器散熱能力的問題。

在幾種散熱路線中，液冷被認(rèn)為是主流的解決方案之一。

液冷方案本就比傳統(tǒng)風(fēng)冷方案更省電，昇騰采用了直接把冷夜注入每塊芯片的精準(zhǔn)供給方式，相比浸沒式（流浪地球中放入海底的方案），可以降低日常運(yùn)維的成本，也減少冷卻液泄露污染環(huán)境的風(fēng)險。

“精準(zhǔn)供給取決于芯片板卡上都設(shè)置傳感器、電控閥門，再加上中央控制，可以實(shí)現(xiàn)為不同芯片在不同的負(fù)荷下，提供精細(xì)化冷量輸送?！比A為計(jì)算工作人員向光錐智能介紹。

2021年11月，發(fā)改委等部門發(fā)布的文件明確指出，新建大型、超大型數(shù)據(jù)中心PUE低于1.3，而內(nèi)蒙古、貴州、甘肅、寧夏節(jié)點(diǎn)的數(shù)據(jù)中心的PUE更是要控制在1.2以下。昇騰的算力集群已經(jīng)實(shí)現(xiàn)低于1.15的PUE。

降低算力門檻，要靠生態(tài)

“電力是即插即用的，基本上不需要教老百姓怎么用。而算力，即便你提供給企業(yè)，很多人是不會用的?！敝袊こ淘涸菏?、中國互聯(lián)網(wǎng)協(xié)會咨詢委員會主任鄔賀銓表示，現(xiàn)在算力（使用）門檻太高。

一位業(yè)內(nèi)人士也向光錐智能表示：“中小企業(yè)很難得到訓(xùn)練服務(wù)器的技術(shù)支持，加上國產(chǎn)軟件生態(tài)缺失，中小企業(yè)也很難自己玩轉(zhuǎn)。”

即便算力集群怎么強(qiáng)大，需求端打不開，也終將會制約整個算力發(fā)展。而AI算力能否達(dá)到像電力一樣的“低門檻”使用標(biāo)準(zhǔn)，生態(tài)尤為重要。

這也是為什么英偉達(dá)當(dāng)年遭受華爾街的“白眼”，也要不計(jì)成本投入CUDA軟件系統(tǒng)的原因。正是CUDA，實(shí)現(xiàn)讓一個普通學(xué)生就可以進(jìn)行顯卡編程，英偉達(dá)進(jìn)而利用軟硬件協(xié)同，打造生態(tài)系統(tǒng)，最大程度擴(kuò)大了算力供應(yīng)。

除了英偉達(dá)，蘋果在實(shí)現(xiàn)良好的用戶體驗(yàn)方面，更早印證了生態(tài)系統(tǒng)的重要性。

當(dāng)前，華為昇騰已經(jīng)搭建了一套自主創(chuàng)新的軟硬件全棧系統(tǒng)，包括昇騰AI集群系列硬件、異構(gòu)計(jì)算架構(gòu)CANN、全場景AI框架昇思MindSpore、昇騰應(yīng)用使能MindX以及一站式開發(fā)平臺ModelArts等。CANN正是對標(biāo)英偉達(dá)的CUDA + CuDNN的核心軟件層。

張迪煊表示，“昇騰AI支持了中國近一半原創(chuàng)大模型的原生創(chuàng)新，也是目前國內(nèi)唯一完成千億參數(shù)大模型開發(fā)并商用的技術(shù)路線，各開源的Transformer類大模型實(shí)測訓(xùn)練性能，可以達(dá)到業(yè)界的1.2倍?！?/span>

這些背后，則是華為將上述的軟件開源、硬件開放。

首先，在基礎(chǔ)軟件上，昇騰圍繞大模型開發(fā)、訓(xùn)練、微調(diào)、推理等全流程，進(jìn)行了一系列的開源和支持。

除了已將AI框架昇思MindSpore開源，昇騰還提供了大模型的開發(fā)套件，可以支持十幾行代碼的全流程腳本開發(fā)。用張迪煊的話講，就是“為了讓大模型開發(fā)做到開箱即用”。

微調(diào)是大模型具備行業(yè)屬性的關(guān)鍵環(huán)節(jié)，對應(yīng)用效果起決定性作用。對此，華為昇騰提供了低參微調(diào)模塊，集成了多種微調(diào)算法。張迪煊介紹，包括 LoRA、P-Tuning 等僅需 5%的微調(diào)參數(shù)，可實(shí)現(xiàn)全參微調(diào)的效果。

此外，針對大模型推理部署難、成本高等一系列的問題，華為昇騰在開發(fā)工具鏈 MindStudio 上集成了自動剪枝、蒸餾、量化工具，“精度損失0.5%的基礎(chǔ)上，做到了20倍的模型壓縮”張迪煊介紹，推理階段支持在線分布推理，能夠使應(yīng)用快速上線，推理時延小于50毫秒。

“張迪煊介紹，推理階段支持在線分布推理，能夠使應(yīng)用快速上線，推理時延小于50毫秒。

硬件方面，華為也對外提供主板、SSD、網(wǎng)卡、RAID卡、Atlas模組和板卡，來支持合作對象的AI硬件產(chǎn)品開發(fā)。

基于當(dāng)前算力供應(yīng)緊缺的情況，華為昇騰也重點(diǎn)針對“算子和模型”，提出了的遷移、適配的方案。

訓(xùn)推一體化行業(yè)落地最后一公里

在初步搭建算力生態(tài)后，能否持續(xù)良性運(yùn)轉(zhuǎn)，最終還要回歸到大模型商業(yè)化的問題上。

“不作詩，只做事”，華為剛剛發(fā)布的大模型盤古3.0，與其他國內(nèi)大模型一樣，落地的重點(diǎn)都放在了“行業(yè)”身上。而且盤古大模型已經(jīng)在天氣預(yù)測、藥物研發(fā)和選煤等諸多行業(yè)、超過1000個項(xiàng)目中“上崗”。

不過，對于國產(chǎn)大模型整體來說，在深度滿足行業(yè)需求上，還面臨一些問題。

“企業(yè)的需求非常具體，比如‘在這堆垃圾里，識別出有價值的金屬’，這經(jīng)過訓(xùn)練的小學(xué)生就可以做到，而對于大模型，企業(yè)的這種需求就太重了，而且可能最終的效果也不是很好?！逼髽I(yè)服務(wù)商用友的一位工作人員向光錐智能表示，直接調(diào)用通用AI能力，無法滿足行業(yè)中廣泛存在的差異化智能需求。

華為把大模型分成三個層級，L0、L1、L2。L0就是基礎(chǔ)通用模型，在基礎(chǔ)模型L0的基礎(chǔ)上，加上行業(yè)數(shù)據(jù)，混合訓(xùn)練得到的行業(yè)大模型是L1，然后再把L1針對具體下游千行百業(yè)的細(xì)分場景進(jìn)行一些部署，得到細(xì)分場景的任務(wù)模型L2。

現(xiàn)在，無論是對于華為還是其他大模型企業(yè)，如何從行業(yè)大模型L1中快速生產(chǎn)L2模型，還有部署L2模型到端側(cè)、邊側(cè)和云側(cè)，成為打通行業(yè)應(yīng)用最后一公里的問題。

針對這最后一公里，昇騰聯(lián)合科大訊飛、智譜AI、云從等上游的大模型合作對象，提出了“訓(xùn)推一體化”方案。

簡單理解，做模型訓(xùn)練就相當(dāng)于大學(xué)學(xué)習(xí)階段，推理部署（訓(xùn)練好的模型在特定環(huán)境中運(yùn)行）就是正式上崗，訓(xùn)推一體化就是“邊學(xué)習(xí)邊實(shí)習(xí)”。

通用大模型一般都是基于廣泛的公開文獻(xiàn)與網(wǎng)絡(luò)信息來訓(xùn)練，信息混雜，許多專業(yè)知識與行業(yè)數(shù)據(jù)積累不足，會導(dǎo)致模型的行業(yè)針對性與精準(zhǔn)度不夠，數(shù)據(jù)“噪音”過大。同時，又由于行業(yè)數(shù)據(jù)獲取難，技術(shù)與行業(yè)結(jié)合難，大模型在行業(yè)的落地進(jìn)展較慢。

訓(xùn)推一體化，支持中心節(jié)點(diǎn)將模型下發(fā)至企業(yè)的邊緣節(jié)點(diǎn)進(jìn)行推理，邊緣站點(diǎn)再將數(shù)據(jù)回傳至中心，進(jìn)行算法更新和增量訓(xùn)練，實(shí)現(xiàn)自主演進(jìn)能力。也就是，“學(xué)生主動向更適應(yīng)就業(yè)崗位的方向深造”。

這樣一來，就保證訓(xùn)練到推理的循環(huán)生產(chǎn)流程不再割裂。并且把發(fā)展行業(yè)大模型更大的主動權(quán)，交到了行業(yè)和企業(yè)自身，無疑能最大化滿足行業(yè)的AI應(yīng)用與開發(fā)場景，實(shí)現(xiàn)AI基礎(chǔ)設(shè)施與行業(yè)需求深度融合。

相較于中心訓(xùn)練、邊緣推理，訓(xùn)推一體化對于中小企業(yè)來說，部署成本也會更低，更會加速中小企業(yè)加入行業(yè)、場景大模型的“培養(yǎng)”。

對于整個算力生態(tài)來說，盡快打通這最后一公里，也就意味著被真正激活，才會有可持續(xù)的發(fā)展。

本文來自投稿，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://allfloridahomeinspectors.com/quan/101562.html

人工智能華為大模型

贊 (0)

打賞

微信掃一掃

微信掃一掃

支付寶掃一掃

支付寶掃一掃

0 1

關(guān)于作者

光錐智能

217 文章

0 評論

關(guān)注AI產(chǎn)業(yè)，關(guān)注千行百業(yè)的智能化

AI難成消費(fèi)電子的燈塔

上一篇 2023-07-11 11:51

Choiceform打造CEM最新實(shí)戰(zhàn)課程，手把手教企業(yè)做好客戶體驗(yàn)管理

下一篇 2023-07-11 16:21

發(fā)表回復(fù)

登錄后才能評論