編|王一粟
“這兩年內,大模型帶來了750倍算力需求的增長,而硬件的算力供給(增長)僅有3倍?!?span id="awew26o" class="wpcom_tag_link">華為昇騰計算業(yè)務總裁張迪煊在2023世界人工智能大會上,揭開了被大模型“暴力計算”引發(fā)巨大算力缺口的真相。
而這個算力缺口還在進一步擴大當中,張迪煊預計,到2030年 AI 所需的算力,相對2020年還會增長500倍。
與此同時,由于眾所周知的原因,算力國產化也迫在眉睫。
針對如何補足算力短板,畢馬威中國數(shù)字化賦能主管合伙人張慶杰認為,需從三大途徑解決,分別是算力建設、基礎設施的共享與優(yōu)化、算法的優(yōu)化和數(shù)據(jù)的質量。這其中,算力建設被擺在首要位置。
除了以量取勝,提升算力集群的能力更為重要。就在2023世界人工智能大會上,華為宣布昇騰AI集群全面升級,集群規(guī)模從最初的4000卡集群擴展至16000卡,算力集群迎來“萬卡”時代。
華為輪值董事長胡厚崑表示,昇騰AI的集群相當于把AI的算力中心當做一臺超級計算機來進行設計,使得昇騰AI集群的性能效率達到10%以上的提升,而且系統(tǒng)穩(wěn)定性得到十倍以上的提高。
張迪煊在群訪中亦對光錐智能透露,早在2018年,華為就判斷人工智能會快速發(fā)展,并改變過去小模型的開發(fā)模式,形成大算力結合大數(shù)據(jù)生成大模型的模式,所以華為那時候就開始開發(fā)算力集群產品。
步入AI時代,已經無法再像單機系統(tǒng)時代那樣靠堆芯片拉升算力,而是要系統(tǒng)化重塑算力基建。在擴大巨量算力供給的同時,要解決算力利用率、使用門檻高等問題,最終還要實現(xiàn)算力生態(tài)化。
算力集群迎來“萬卡”時代
今年ChatGPT引爆算力需求后,硬件端最先火的是GPU,英偉達總市值年內已經上漲了66%,最新為1.05萬億美元。
以英偉達A100為主的GPU成了大模型必備的香餑餑,但僅靠堆卡也無法應對“百模大戰(zhàn)”的爆發(fā)之勢。那么,如何把寶貴的算力資源,發(fā)揮到極致?
既然單個服務器已經很難滿足計算需求,于是將多個服務器連接成一臺“超級計算機”,正在成為當下“算力基建”的主攻方向,這臺“超級計算機”就是算力集群。
2019年,華為就發(fā)布了Atlas 900 AI訓練集群,當時由數(shù)千顆華為自研昇騰910(主要用于訓練)AI芯片構成,到今年6月已經支持到8000卡。而在剛剛結束的世界人工智能大會上,華為更是宣布計劃今年年底或者明年年初,做到超過16000張卡的集群。
以1750億參數(shù)量的GPT-3模型訓練為例,使用8張V100顯卡,訓練時長預計要36年,512張V100顯卡,訓練時間接近7個月,而1024張A100的訓練時長可以減少到1個月。
按照華為的評估,訓練GPT-3模型,100B的數(shù)據(jù)量,在8000卡的Atlas 900 AI集群下需1天即可完成訓練,16000卡集群下僅需半天即可完成。
但別看“萬卡”算力大、效率高,真正想要用它去訓練模型,絕非易事。
正像中國工程院院士高文所說,“有人說全世界能在1000塊卡上同時選連一個模型的只有幾千人,能在4000塊卡上訓練的不超過100個人,在10000塊卡上訓練模型的人數(shù)更少了”,在千卡和萬卡上訓練和推理數(shù)據(jù),對于軟件規(guī)劃、資源調度挑戰(zhàn)非常大。
首先,萬卡量級的訓練,對分布式并行訓練提出了更高的要求。分布式并行訓練是一種高效的機器學習方式,將大規(guī)模數(shù)據(jù)集分成多個部分,再在多個計算節(jié)點上并行訓練模型。這樣可以極大縮短訓練時間,提高模型準確性和可靠性。
昇騰算力集群的分布式并行訓練,就需要倚仗華為自研的昇思MindSpore AI框架。
昇思MindSpore支持多種模型類型,還開發(fā)了一套自動混合并行解決方案,實現(xiàn)數(shù)據(jù)并行和模型并行的混合并行訓練。
相同算力和網(wǎng)絡下,這樣的雙并行策略可實現(xiàn)更大的計算通信比,同時還解決了手動并行架構的現(xiàn)實困難,讓大模型開發(fā)和調優(yōu)效率提升。
此外,由于分布式并行訓練,每訓練出一個結果,需要所有的芯片同步一次,這個過程中,會有出錯的概率。這種情況放在萬卡規(guī)模量級上,就對于穩(wěn)定性提出更高要求。
“昇騰的可靠性和可用性的設計,可以做到30天長穩(wěn)的訓練,對比業(yè)界的最先進3天左右水平,提升了將近10倍性能的穩(wěn)定性、可用性優(yōu)勢?!睆埖响颖硎尽?/p>
算力集群的效率如何提升?
算力集群還不僅僅是規(guī)模擴大,效率也需要有很大提升,否則就會出現(xiàn)卡數(shù)越多,算力利用率反而下降的問題。
以華為在內蒙古烏蘭察布市部署的數(shù)千卡規(guī)模的AI集群為例,在同等算力下,計算效率能夠提升10%以上。
如果按照昇騰的指標,1000卡的算力約300P,千卡就能提升約30P,萬卡就能提升約300P。
“300P算力24小時可以處理數(shù)十億張圖像、數(shù)千萬人DNA、10年左右的自動駕駛數(shù)據(jù)?!币晃粡氖略朴嬎銟I(yè)務的人士向光錐智能表示,提升算力效率,也就降低了計算成本。
如果說從千卡的300P到萬卡的3000P還得靠堆卡“大力出奇跡”,那這10%的效率提升,背后就需要更為復雜的系統(tǒng)性升級。
除了整合華為的云、計算、存儲、網(wǎng)絡、能源綜合優(yōu)勢,昇騰算力集群還進行了架構創(chuàng)新。
一臺服務器就是一個節(jié)點,華為在計算節(jié)點層面創(chuàng)造性推出了對等平構架構,突破傳統(tǒng)了以CPU為中心的異構計算帶來的性能瓶頸,從而提升整個計算的帶寬、降低時延,節(jié)點性能得到30%的提升。
計算能力提升,服務器能耗也越來越高,傳統(tǒng)風冷已經無法支撐高散熱,就亟需解決如何能在政策嚴格限制PUE(電力使用效率)的情況下,仍保證服務器散熱能力的問題。
在幾種散熱路線中,液冷被認為是主流的解決方案之一。
液冷方案本就比傳統(tǒng)風冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準供給方式,相比浸沒式(流浪地球中放入海底的方案),可以降低日常運維的成本,也減少冷卻液泄露污染環(huán)境的風險。
“精準供給取決于芯片板卡上都設置傳感器、電控閥門,再加上中央控制,可以實現(xiàn)為不同芯片在不同的負荷下,提供精細化冷量輸送?!比A為計算工作人員向光錐智能介紹。
2021年11月,發(fā)改委等部門發(fā)布的文件明確指出,新建大型、超大型數(shù)據(jù)中心PUE低于1.3,而內蒙古、貴州、甘肅、寧夏節(jié)點的數(shù)據(jù)中心的PUE更是要控制在1.2以下。昇騰的算力集群已經實現(xiàn)低于1.15的PUE。
降低算力門檻,要靠生態(tài)
“電力是即插即用的,基本上不需要教老百姓怎么用。而算力,即便你提供給企業(yè),很多人是不會用的。”中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會咨詢委員會主任鄔賀銓表示,現(xiàn)在算力(使用)門檻太高。
一位業(yè)內人士也向光錐智能表示:“中小企業(yè)很難得到訓練服務器的技術支持,加上國產軟件生態(tài)缺失,中小企業(yè)也很難自己玩轉?!?/p>
即便算力集群怎么強大,需求端打不開,也終將會制約整個算力發(fā)展。而AI算力能否達到像電力一樣的“低門檻”使用標準,生態(tài)尤為重要。
這也是為什么英偉達當年遭受華爾街的“白眼”,也要不計成本投入CUDA軟件系統(tǒng)的原因。正是CUDA,實現(xiàn)讓一個普通學生就可以進行顯卡編程,英偉達進而利用軟硬件協(xié)同,打造生態(tài)系統(tǒng),最大程度擴大了算力供應。
除了英偉達,蘋果在實現(xiàn)良好的用戶體驗方面,更早印證了生態(tài)系統(tǒng)的重要性。
當前,華為昇騰已經搭建了一套自主創(chuàng)新的軟硬件全棧系統(tǒng),包括昇騰AI集群系列硬件、異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能MindX以及一站式開發(fā)平臺ModelArts等。CANN正是對標英偉達的CUDA + CuDNN的核心軟件層。
這些背后,則是華為將上述的軟件開源、硬件開放。
除了已將AI框架昇思MindSpore開源,昇騰還提供了大模型的開發(fā)套件,可以支持十幾行代碼的全流程腳本開發(fā)。用張迪煊的話講,就是“為了讓大模型開發(fā)做到開箱即用”。
微調是大模型具備行業(yè)屬性的關鍵環(huán)節(jié),對應用效果起決定性作用。對此,華為昇騰提供了低參微調模塊,集成了多種微調算法。張迪煊介紹,包括 LoRA、P-Tuning 等僅需 5%的微調參數(shù),可實現(xiàn)全參微調的效果。
此外,針對大模型推理部署難、成本高等一系列的問題,華為昇騰在開發(fā)工具鏈 MindStudio 上集成了自動剪枝、蒸餾、量化工具,“精度損失0.5%的基礎上,做到了20倍的模型壓縮”張迪煊介紹,推理階段支持在線分布推理,能夠使應用快速上線,推理時延小于50毫秒。
“張迪煊介紹,推理階段支持在線分布推理,能夠使應用快速上線,推理時延小于50毫秒。
硬件方面,華為也對外提供主板、SSD、網(wǎng)卡、RAID卡、Atlas模組和板卡,來支持合作對象的AI硬件產品開發(fā)。
基于當前算力供應緊缺的情況,華為昇騰也重點針對“算子和模型”,提出了的遷移、適配的方案。
在初步搭建算力生態(tài)后,能否持續(xù)良性運轉,最終還要回歸到大模型商業(yè)化的問題上。
“不作詩,只做事”,華為剛剛發(fā)布的大模型盤古3.0,與其他國內大模型一樣,落地的重點都放在了“行業(yè)”身上。而且盤古大模型已經在天氣預測、藥物研發(fā)和選煤等諸多行業(yè)、超過1000個項目中“上崗”。
“企業(yè)的需求非常具體,比如‘在這堆垃圾里,識別出有價值的金屬’,這經過訓練的小學生就可以做到,而對于大模型,企業(yè)的這種需求就太重了,而且可能最終的效果也不是很好?!逼髽I(yè)服務商用友的一位工作人員向光錐智能表示,直接調用通用AI能力,無法滿足行業(yè)中廣泛存在的差異化智能需求。
華為把大模型分成三個層級,L0、L1、L2。L0就是基礎通用模型,在基礎模型L0的基礎上,加上行業(yè)數(shù)據(jù),混合訓練得到的行業(yè)大模型是L1,然后再把L1針對具體下游千行百業(yè)的細分場景進行一些部署,得到細分場景的任務模型L2。
現(xiàn)在,無論是對于華為還是其他大模型企業(yè),如何從行業(yè)大模型L1中快速生產L2模型,還有部署L2模型到端側、邊側和云側,成為打通行業(yè)應用最后一公里的問題。
針對這最后一公里,昇騰聯(lián)合科大訊飛、智譜AI、云從等上游的大模型合作對象,提出了“訓推一體化”方案。
通用大模型一般都是基于廣泛的公開文獻與網(wǎng)絡信息來訓練,信息混雜,許多專業(yè)知識與行業(yè)數(shù)據(jù)積累不足,會導致模型的行業(yè)針對性與精準度不夠,數(shù)據(jù)“噪音”過大。同時,又由于行業(yè)數(shù)據(jù)獲取難,技術與行業(yè)結合難,大模型在行業(yè)的落地進展較慢。
訓推一體化,支持中心節(jié)點將模型下發(fā)至企業(yè)的邊緣節(jié)點進行推理,邊緣站點再將數(shù)據(jù)回傳至中心,進行算法更新和增量訓練,實現(xiàn)自主演進能力。也就是,“學生主動向更適應就業(yè)崗位的方向深造”。
這樣一來,就保證訓練到推理的循環(huán)生產流程不再割裂。并且把發(fā)展行業(yè)大模型更大的主動權,交到了行業(yè)和企業(yè)自身,無疑能最大化滿足行業(yè)的AI應用與開發(fā)場景,實現(xiàn)AI基礎設施與行業(yè)需求深度融合。
相較于中心訓練、邊緣推理,訓推一體化對于中小企業(yè)來說,部署成本也會更低,更會加速中小企業(yè)加入行業(yè)、場景大模型的“培養(yǎng)”。
對于整個算力生態(tài)來說,盡快打通這最后一公里,也就意味著被真正激活,才會有可持續(xù)的發(fā)展。
本文來自投稿,不代表增長黑客立場,如若轉載,請注明出處:http://allfloridahomeinspectors.com/quan/101562.html