大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

大模型帶來750倍算力需求的增長,而硬件的算力供給僅提升了3倍。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

文|姚 悅

編|王一粟

“這兩年內(nèi),大模型帶來了750倍算力需求的增長,而硬件的算力供給(增長)僅有3倍。”華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊在2023世界人工智能大會上,揭開了被大模型“暴力計(jì)算”引發(fā)巨大算力缺口的真相。

而這個算力缺口還在進(jìn)一步擴(kuò)大當(dāng)中,張迪煊預(yù)計(jì),到2030年 AI 所需的算力,相對2020年還會增長500倍。

與此同時,由于眾所周知的原因,算力國產(chǎn)化也迫在眉睫。

針對如何補(bǔ)足算力短板,畢馬威中國數(shù)字化賦能主管合伙人張慶杰認(rèn)為,需從三大途徑解決,分別是算力建設(shè)、基礎(chǔ)設(shè)施的共享與優(yōu)化、算法的優(yōu)化和數(shù)據(jù)的質(zhì)量。這其中,算力建設(shè)被擺在首要位置。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

華為在近年算力建設(shè)中頗為積極。據(jù)中信證券7月研報(bào),國內(nèi)現(xiàn)有城市智算中心中,以建設(shè)數(shù)量計(jì),目前華為占據(jù)整體智算中心約79%的市場份額。

除了以量取勝,提升算力集群的能力更為重要。就在2023世界人工智能大會上,華為宣布昇騰AI集群全面升級,集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡,算力集群迎來“萬卡”時代。

華為輪值董事長胡厚崑表示,昇騰AI的集群相當(dāng)于把AI的算力中心當(dāng)做一臺超級計(jì)算機(jī)來進(jìn)行設(shè)計(jì),使得昇騰AI集群的性能效率達(dá)到10%以上的提升,而且系統(tǒng)穩(wěn)定性得到十倍以上的提高。

張迪煊在群訪中亦對光錐智能透露,早在2018年,華為就判斷人工智能會快速發(fā)展,并改變過去小模型的開發(fā)模式,形成大算力結(jié)合大數(shù)據(jù)生成大模型的模式,所以華為那時候就開始開發(fā)算力集群產(chǎn)品。

步入AI時代,已經(jīng)無法再像單機(jī)系統(tǒng)時代那樣靠堆芯片拉升算力,而是要系統(tǒng)化重塑算力基建。在擴(kuò)大巨量算力供給的同時,要解決算力利用率、使用門檻高等問題,最終還要實(shí)現(xiàn)算力生態(tài)化。

算力集群迎來“萬卡”時代

今年ChatGPT引爆算力需求后,硬件端最先火的是GPU,英偉達(dá)總市值年內(nèi)已經(jīng)上漲了66%,最新為1.05萬億美元。

以英偉達(dá)A100為主的GPU成了大模型必備的香餑餑,但僅靠堆卡也無法應(yīng)對“百模大戰(zhàn)”的爆發(fā)之勢。那么,如何把寶貴的算力資源,發(fā)揮到極致?

既然單個服務(wù)器已經(jīng)很難滿足計(jì)算需求,于是將多個服務(wù)器連接成一臺“超級計(jì)算機(jī)”,正在成為當(dāng)下“算力基建”的主攻方向,這臺“超級計(jì)算機(jī)”就是算力集群。

2019年,華為就發(fā)布了Atlas 900 AI訓(xùn)練集群,當(dāng)時由數(shù)千顆華為自研昇騰910(主要用于訓(xùn)練)AI芯片構(gòu)成,到今年6月已經(jīng)支持到8000卡。而在剛剛結(jié)束的世界人工智能大會上,華為更是宣布計(jì)劃今年年底或者明年年初,做到超過16000張卡的集群。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

萬卡集群是什么概念?

以1750億參數(shù)量的GPT-3模型訓(xùn)練為例,使用8張V100顯卡,訓(xùn)練時長預(yù)計(jì)要36年,512張V100顯卡,訓(xùn)練時間接近7個月,而1024張A100的訓(xùn)練時長可以減少到1個月。

按照華為的評估,訓(xùn)練GPT-3模型,100B的數(shù)據(jù)量,在8000卡的Atlas 900 AI集群下需1天即可完成訓(xùn)練,16000卡集群下僅需半天即可完成。

但別看“萬卡”算力大、效率高,真正想要用它去訓(xùn)練模型,絕非易事。

正像中國工程院院士高文所說,“有人說全世界能在1000塊卡上同時選連一個模型的只有幾千人,能在4000塊卡上訓(xùn)練的不超過100個人,在10000塊卡上訓(xùn)練模型的人數(shù)更少了”,在千卡和萬卡上訓(xùn)練和推理數(shù)據(jù),對于軟件規(guī)劃、資源調(diào)度挑戰(zhàn)非常大。

首先,萬卡量級的訓(xùn)練,對分布式并行訓(xùn)練提出了更高的要求。分布式并行訓(xùn)練是一種高效的機(jī)器學(xué)習(xí)方式,將大規(guī)模數(shù)據(jù)集分成多個部分,再在多個計(jì)算節(jié)點(diǎn)上并行訓(xùn)練模型。這樣可以極大縮短訓(xùn)練時間,提高模型準(zhǔn)確性和可靠性。

昇騰算力集群的分布式并行訓(xùn)練,就需要倚仗華為自研的昇思MindSpore AI框架。

昇思MindSpore支持多種模型類型,還開發(fā)了一套自動混合并行解決方案,實(shí)現(xiàn)數(shù)據(jù)并行和模型并行的混合并行訓(xùn)練。

相同算力和網(wǎng)絡(luò)下,這樣的雙并行策略可實(shí)現(xiàn)更大的計(jì)算通信比,同時還解決了手動并行架構(gòu)的現(xiàn)實(shí)困難,讓大模型開發(fā)和調(diào)優(yōu)效率提升。

此外,由于分布式并行訓(xùn)練,每訓(xùn)練出一個結(jié)果,需要所有的芯片同步一次,這個過程中,會有出錯的概率。這種情況放在萬卡規(guī)模量級上,就對于穩(wěn)定性提出更高要求。

“昇騰的可靠性和可用性的設(shè)計(jì),可以做到30天長穩(wěn)的訓(xùn)練,對比業(yè)界的最先進(jìn)3天左右水平,提升了將近10倍性能的穩(wěn)定性、可用性優(yōu)勢。”張迪煊表示。

算力集群的效率如何提升?

算力集群還不僅僅是規(guī)模擴(kuò)大,效率也需要有很大提升,否則就會出現(xiàn)卡數(shù)越多,算力利用率反而下降的問題。

以華為在內(nèi)蒙古烏蘭察布市部署的數(shù)千卡規(guī)模的AI集群為例,在同等算力下,計(jì)算效率能夠提升10%以上。

如果按照昇騰的指標(biāo),1000卡的算力約300P,千卡就能提升約30P,萬卡就能提升約300P。

“300P算力24小時可以處理數(shù)十億張圖像、數(shù)千萬人DNA、10年左右的自動駕駛數(shù)據(jù)。”一位從事云計(jì)算業(yè)務(wù)的人士向光錐智能表示,提升算力效率,也就降低了計(jì)算成本。

如果說從千卡的300P到萬卡的3000P還得靠堆卡“大力出奇跡”,那這10%的效率提升,背后就需要更為復(fù)雜的系統(tǒng)性升級。

除了整合華為的云、計(jì)算、存儲、網(wǎng)絡(luò)、能源綜合優(yōu)勢,昇騰算力集群還進(jìn)行了架構(gòu)創(chuàng)新。

一臺服務(wù)器就是一個節(jié)點(diǎn),華為在計(jì)算節(jié)點(diǎn)層面創(chuàng)造性推出了對等平構(gòu)架構(gòu),突破傳統(tǒng)了以CPU為中心的異構(gòu)計(jì)算帶來的性能瓶頸,從而提升整個計(jì)算的帶寬、降低時延,節(jié)點(diǎn)性能得到30%的提升。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

此外,算力可是用電超級大戶,尤其是上百臺服務(wù)器聯(lián)合起來,降低能耗也需要同步實(shí)現(xiàn)。

計(jì)算能力提升,服務(wù)器能耗也越來越高,傳統(tǒng)風(fēng)冷已經(jīng)無法支撐高散熱,就亟需解決如何能在政策嚴(yán)格限制PUE(電力使用效率)的情況下,仍保證服務(wù)器散熱能力的問題。

在幾種散熱路線中,液冷被認(rèn)為是主流的解決方案之一。

液冷方案本就比傳統(tǒng)風(fēng)冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準(zhǔn)供給方式,相比浸沒式(流浪地球中放入海底的方案),可以降低日常運(yùn)維的成本,也減少冷卻液泄露污染環(huán)境的風(fēng)險。

“精準(zhǔn)供給取決于芯片板卡上都設(shè)置傳感器、電控閥門,再加上中央控制,可以實(shí)現(xiàn)為不同芯片在不同的負(fù)荷下,提供精細(xì)化冷量輸送?!比A為計(jì)算工作人員向光錐智能介紹。

2021年11月,發(fā)改委等部門發(fā)布的文件明確指出,新建大型、超大型數(shù)據(jù)中心PUE低于1.3,而內(nèi)蒙古、貴州、甘肅、寧夏節(jié)點(diǎn)的數(shù)據(jù)中心的PUE更是要控制在1.2以下。昇騰的算力集群已經(jīng)實(shí)現(xiàn)低于1.15的PUE。

降低算力門檻,要靠生態(tài)

“電力是即插即用的,基本上不需要教老百姓怎么用。而算力,即便你提供給企業(yè),很多人是不會用的?!敝袊こ淘涸菏?、中國互聯(lián)網(wǎng)協(xié)會咨詢委員會主任鄔賀銓表示,現(xiàn)在算力(使用)門檻太高。

一位業(yè)內(nèi)人士也向光錐智能表示:“中小企業(yè)很難得到訓(xùn)練服務(wù)器的技術(shù)支持,加上國產(chǎn)軟件生態(tài)缺失,中小企業(yè)也很難自己玩轉(zhuǎn)。”

即便算力集群怎么強(qiáng)大,需求端打不開,也終將會制約整個算力發(fā)展。而AI算力能否達(dá)到像電力一樣的“低門檻”使用標(biāo)準(zhǔn),生態(tài)尤為重要。

這也是為什么英偉達(dá)當(dāng)年遭受華爾街的“白眼”,也要不計(jì)成本投入CUDA軟件系統(tǒng)的原因。正是CUDA,實(shí)現(xiàn)讓一個普通學(xué)生就可以進(jìn)行顯卡編程,英偉達(dá)進(jìn)而利用軟硬件協(xié)同,打造生態(tài)系統(tǒng),最大程度擴(kuò)大了算力供應(yīng)。

除了英偉達(dá),蘋果在實(shí)現(xiàn)良好的用戶體驗(yàn)方面,更早印證了生態(tài)系統(tǒng)的重要性。

當(dāng)前,華為昇騰已經(jīng)搭建了一套自主創(chuàng)新的軟硬件全棧系統(tǒng),包括昇騰AI集群系列硬件、異構(gòu)計(jì)算架構(gòu)CANN、全場景AI框架昇思MindSpore、昇騰應(yīng)用使能MindX以及一站式開發(fā)平臺ModelArts等。CANN正是對標(biāo)英偉達(dá)的CUDA + CuDNN的核心軟件層。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

張迪煊表示,“昇騰AI支持了中國近一半原創(chuàng)大模型的原生創(chuàng)新,也是目前國內(nèi)唯一完成千億參數(shù)大模型開發(fā)并商用的技術(shù)路線,各開源的Transformer類大模型實(shí)測訓(xùn)練性能,可以達(dá)到業(yè)界的1.2倍?!?/span>

這些背后,則是華為將上述的軟件開源、硬件開放。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

首先,在基礎(chǔ)軟件上,昇騰圍繞大模型開發(fā)、訓(xùn)練、微調(diào)、推理等全流程,進(jìn)行了一系列的開源和支持。

除了已將AI框架昇思MindSpore開源,昇騰還提供了大模型的開發(fā)套件,可以支持十幾行代碼的全流程腳本開發(fā)。用張迪煊的話講,就是“為了讓大模型開發(fā)做到開箱即用”。

微調(diào)是大模型具備行業(yè)屬性的關(guān)鍵環(huán)節(jié),對應(yīng)用效果起決定性作用。對此,華為昇騰提供了低參微調(diào)模塊,集成了多種微調(diào)算法。張迪煊介紹,包括 LoRA、P-Tuning 等僅需 5%的微調(diào)參數(shù),可實(shí)現(xiàn)全參微調(diào)的效果。

此外,針對大模型推理部署難、成本高等一系列的問題,華為昇騰在開發(fā)工具鏈 MindStudio 上集成了自動剪枝、蒸餾、量化工具,“精度損失0.5%的基礎(chǔ)上,做到了20倍的模型壓縮”張迪煊介紹,推理階段支持在線分布推理,能夠使應(yīng)用快速上線,推理時延小于50毫秒。

“張迪煊介紹,推理階段支持在線分布推理,能夠使應(yīng)用快速上線,推理時延小于50毫秒。

硬件方面,華為也對外提供主板、SSD、網(wǎng)卡、RAID卡、Atlas模組和板卡,來支持合作對象的AI硬件產(chǎn)品開發(fā)。

基于當(dāng)前算力供應(yīng)緊缺的情況,華為昇騰也重點(diǎn)針對“算子和模型”,提出了的遷移、適配的方案。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

訓(xùn)推一體化行業(yè)落地最后一公里

在初步搭建算力生態(tài)后,能否持續(xù)良性運(yùn)轉(zhuǎn),最終還要回歸到大模型商業(yè)化的問題上。

“不作詩,只做事”,華為剛剛發(fā)布的大模型盤古3.0,與其他國內(nèi)大模型一樣,落地的重點(diǎn)都放在了“行業(yè)”身上。而且盤古大模型已經(jīng)在天氣預(yù)測、藥物研發(fā)和選煤等諸多行業(yè)、超過1000個項(xiàng)目中“上崗”。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

不過,對于國產(chǎn)大模型整體來說,在深度滿足行業(yè)需求上,還面臨一些問題。

“企業(yè)的需求非常具體,比如‘在這堆垃圾里,識別出有價值的金屬’,這經(jīng)過訓(xùn)練的小學(xué)生就可以做到,而對于大模型,企業(yè)的這種需求就太重了,而且可能最終的效果也不是很好?!逼髽I(yè)服務(wù)商用友的一位工作人員向光錐智能表示,直接調(diào)用通用AI能力,無法滿足行業(yè)中廣泛存在的差異化智能需求。

華為把大模型分成三個層級,L0、L1、L2。L0就是基礎(chǔ)通用模型,在基礎(chǔ)模型L0的基礎(chǔ)上,加上行業(yè)數(shù)據(jù),混合訓(xùn)練得到的行業(yè)大模型是L1,然后再把L1針對具體下游千行百業(yè)的細(xì)分場景進(jìn)行一些部署,得到細(xì)分場景的任務(wù)模型L2。

現(xiàn)在,無論是對于華為還是其他大模型企業(yè),如何從行業(yè)大模型L1中快速生產(chǎn)L2模型,還有部署L2模型到端側(cè)、邊側(cè)和云側(cè),成為打通行業(yè)應(yīng)用最后一公里的問題。

針對這最后一公里,昇騰聯(lián)合科大訊飛、智譜AI、云從等上游的大模型合作對象,提出了“訓(xùn)推一體化”方案。

大模型“暴力計(jì)算”時代,華為昇騰如何突圍算力之困? | WAIC2023

簡單理解,做模型訓(xùn)練就相當(dāng)于大學(xué)學(xué)習(xí)階段,推理部署(訓(xùn)練好的模型在特定環(huán)境中運(yùn)行)就是正式上崗,訓(xùn)推一體化就是“邊學(xué)習(xí)邊實(shí)習(xí)”。

通用大模型一般都是基于廣泛的公開文獻(xiàn)與網(wǎng)絡(luò)信息來訓(xùn)練,信息混雜,許多專業(yè)知識與行業(yè)數(shù)據(jù)積累不足,會導(dǎo)致模型的行業(yè)針對性與精準(zhǔn)度不夠,數(shù)據(jù)“噪音”過大。同時,又由于行業(yè)數(shù)據(jù)獲取難,技術(shù)與行業(yè)結(jié)合難,大模型在行業(yè)的落地進(jìn)展較慢。

訓(xùn)推一體化,支持中心節(jié)點(diǎn)將模型下發(fā)至企業(yè)的邊緣節(jié)點(diǎn)進(jìn)行推理,邊緣站點(diǎn)再將數(shù)據(jù)回傳至中心,進(jìn)行算法更新和增量訓(xùn)練,實(shí)現(xiàn)自主演進(jìn)能力。也就是,“學(xué)生主動向更適應(yīng)就業(yè)崗位的方向深造”。

這樣一來,就保證訓(xùn)練到推理的循環(huán)生產(chǎn)流程不再割裂。并且把發(fā)展行業(yè)大模型更大的主動權(quán),交到了行業(yè)和企業(yè)自身,無疑能最大化滿足行業(yè)的AI應(yīng)用與開發(fā)場景,實(shí)現(xiàn)AI基礎(chǔ)設(shè)施與行業(yè)需求深度融合。

相較于中心訓(xùn)練、邊緣推理,訓(xùn)推一體化對于中小企業(yè)來說,部署成本也會更低,更會加速中小企業(yè)加入行業(yè)、場景大模型的“培養(yǎng)”。

對于整個算力生態(tài)來說,盡快打通這最后一公里,也就意味著被真正激活,才會有可持續(xù)的發(fā)展。

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/quan/101562.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-07-11 11:51
下一篇 2023-07-11 16:21

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論