在如今“智算”屬性不足的大背景下,建設智算中心不單純是一項資金游戲,更是一個思維觀念、企業(yè)架構(gòu)轉(zhuǎn)化的新模型。
作者|思杭
編輯|皮爺
出品|產(chǎn)業(yè)家
過去12個月,英偉達市值飆升了238%。這已經(jīng)算是商業(yè)史上的現(xiàn)象級事件。
成為熱點的不止有英偉達,還有站在英偉達背后的“人物”黃仁勛。就像當年的馬斯克一樣,現(xiàn)在的黃仁勛幾乎每次發(fā)言都是科技界的“頭條”。
“AI工廠”便是黃仁勛近期頻繁提到的詞語。在2月的英偉達2024財年第四季度財報電話會上,黃仁勛將一種專注于AI生成的新型數(shù)據(jù)中心定義為“AI工廠”。其中,為AI工廠輸送“能源”的正是讓英偉達市值上漲萬億美元的GPU芯片。
而黃仁勛口中新型的數(shù)據(jù)中心“AI工廠”也正是國內(nèi)近兩年異?;馃岬闹撬阒行摹?/p>
那么,究竟什么是智算中心?以及,黃仁勛口中的AI工廠到底是什么?
簡單來理解,智算中心就是為如今的AI大模型、AI應用,以及未來所有的人工智能項目提供計算力的新型“發(fā)電廠”。它是專為AI而生的。
與傳統(tǒng)計算中心不同的是,智算中心所需要的算力是由GPU提供,而前者則是由CPU提供。在過去,GPU的用處則更多是在游戲行業(yè),而到了今天的AI時代,GPU芯片則變成了一種“必需品”。
2023年10月前,阿里、騰訊、字節(jié)跳動、百度等國內(nèi)大型科技公司都是從英偉達手里獲取AI芯片。 但伴隨著美國禁止英偉達等本土企業(yè)向中國出售A100/H100等AI芯片,這也一定程度上導致了國內(nèi)的算力短缺。在過去的2023年,“缺卡”也更在成為一眾大模型企業(yè)的普遍現(xiàn)狀。
但實際上,早在之前,國內(nèi)的AI算力軍備競賽早已打響。從國家啟動“東數(shù)西算”工程開始,傳統(tǒng)IT企業(yè)、云廠商和電信運營商就已經(jīng)在緊鑼密鼓地布局智算中心。
早在2022年已有相關(guān)動作。1月,商湯科技智能計算中心在上海市臨港區(qū)啟動運營;8月,阿里云張北超級智算中心在張家口張北縣;9月,百度智能云(鹽城)智算中心在江蘇省鹽城市落地,以及包括華為晟騰系列、昆侖芯、寒武紀等越來越多中國廠商也都在2022年甚至之前已經(jīng)在穩(wěn)步布局。
在過去的一年中,智算中心的建設在中國大地上可謂如火如荼。
縱觀2023年的整個算力產(chǎn)業(yè)發(fā)展上,在智算中心之外,AI芯片、AI服務器、數(shù)據(jù)訓練中臺等等,如今也更在成為云廠商、傳統(tǒng)IT企業(yè)和電信運營商的一塊兵家必爭之地。 而在2024的今年,這些節(jié)奏更在進一步提速。智算中心,飛奔在路上。
一、2024,歡迎來到智算中心「元年」
國家隊的入場無疑是最引人注目的 。
2023年,超30座城市搶建智算中心。這是國家信息中心與相關(guān)部門聯(lián)合發(fā)布的《智能計算中心創(chuàng)新發(fā)展指南》中給出的一組數(shù)據(jù)。
而2024年,智算中心則更是迎來它的“元年”。
在剛剛結(jié)束的兩會,一個產(chǎn)業(yè)界最關(guān)注的話題便是,政府工作報告提出開展“人工智能+”行動。而在這其中,據(jù)《證券日報》的記者了解到,不少企業(yè)界人士都認為,“人工智能+算力基礎(chǔ)”會率先“動起來”。
事實也的確如此。從2024年初開始盤點:1月8日,中國移動智算中心(武漢)在武漢未來科技城開放運營,預計成為華中地區(qū)規(guī)模最大的智算中心;1月22日,上海電信在上海點亮“大規(guī)模算力集群暨人工智能公共算力服務平臺”,預計成為國內(nèi)首個超大規(guī)模國產(chǎn)算力液冷集群;1月30日,中國聯(lián)通人工智能創(chuàng)新中心成立儀式在京舉行。 此外,北電數(shù)智承建的北京數(shù)字經(jīng)濟算力中心達產(chǎn)后將實現(xiàn)1000P智能算力供給。
從中可以看到一個明顯的信號,包括互聯(lián)網(wǎng)廠商、通信廠商、電信運營商在內(nèi)的一眾企業(yè)都正在加大力度建設智算中心。
判定算力資源的最直觀指標便是看服務器規(guī)模。后者規(guī)模越大,前者算力資源就更多。
而在2024年初中國移動發(fā)布的一份供應商信息核查公告中透露,2024年~2025年,中國移動將采購特定場景AI訓練服務器6000臺。如果按照中國移動《2023年至2024年新型智算中心(試驗網(wǎng))招標》中第12個標包——1250臺(包括風冷和液冷)中標價24.7億元粗略估算,這筆投資將超過120億元。
實際上,與電信運營商相比,云廠商和傳統(tǒng)IT企業(yè)的投入其實占比更大。
國際數(shù)據(jù)公司IDC的一位中國分析師對《財經(jīng)》記者表示,從服務器采購量占比來看,互聯(lián)網(wǎng)云廠商等科技公司占比約40%,電信運營商占比超過15%,數(shù)據(jù)中心服務商、地方大數(shù)據(jù)產(chǎn)業(yè)園以及其他IT服務公司占比約10%。
實際上,再往前追溯,在這種強投入的背景下,互聯(lián)網(wǎng)云廠商則在更早之前已經(jīng)便開始投入到智能計算當中。從一組云廠商的動態(tài)中即可窺見出這一趨勢:
2019年,百度智能云提出ABC戰(zhàn)略(AI,Big data,Cloud Computing),致力于智能計算、智能應用、智能生態(tài)的全面發(fā)展;
2021年7月,騰訊在合肥設立的騰訊智慧產(chǎn)業(yè)總部基地正式揭牌;
截至2021年上半年,華為云的“南貴北烏”智算中心已經(jīng)全面建設完成,并于2022年進入年度國家綠色數(shù)據(jù)中心名單;
2023年9月,京東云發(fā)布數(shù)智算力矩陣;
2023年,火山引擎與理想汽車合作,在山西省建設智算中心;
…
這種對于智能計算的強調(diào)對大模型廠商而言也更是自然趨勢。此外,在如今國外GPU芯片困難的背景下,互聯(lián)網(wǎng)廠商和傳統(tǒng)IT企業(yè)也都在加速“追趕”,力爭自研能應用于AI大模型及其他AI應用的芯片。比如華為的昇騰、阿里巴巴的含光和百度的昆侖等等。
而在AI服務器的供應上,這部分的市場份額目前主要還在傳統(tǒng)IT企業(yè)手中。 據(jù)IDC數(shù)據(jù),2022年中國AI服務器市場(按銷售額),浪潮以46.6%份額占據(jù)首位,新華三、寧暢分別以11%和9%占據(jù)第二、第三名。
在如此AI算力軍備競賽打響的背后,實際上隱藏起來的是如今國內(nèi)巨大的算力缺口。
據(jù)不完全統(tǒng)計,過去一年單單是中國大模型創(chuàng)新企業(yè)就超過250家,而中國更是凝聚了1070萬名開發(fā)者,服務23.5萬家企事業(yè)單位。更不用說,伴隨著如今的產(chǎn)業(yè)落地,這種需求更將會加速涌現(xiàn)。
首次提出“智算中心”的浪潮認為,未來人工智能計算需求占比將在80%以上。而且未來對一個大模型訓練所需的算力,可能每3~4個月就翻一番,這意味著一年就要增加10倍。阿里云智能解決方案首席架構(gòu)師鄭海超也曾公開提到,大模型帶來的算力需求為每兩年275倍的增長。
在如此巨大的算力缺口下,智算中心在國內(nèi)的大規(guī)模建設也成為了一種必然。
而對于像“智算中心”這種基礎(chǔ)設施而言,政策的推動則起到了加速的作用。2017年,《新一代人工智能發(fā)展規(guī)劃》提出“建立人工智能超級計算中心”,自此智算中心也被提高到國家戰(zhàn)略的高度。
從2020年開始至今,智算中心更是多次出現(xiàn)在“十四五”報告、新型數(shù)據(jù)中心發(fā)展三年行動計劃、數(shù)字中國建設整體布局規(guī)劃等等白皮書中。戰(zhàn)略地位被一再提高,直到2024年3月的兩會上,“人工智能+”行動被寫入政府工作報告,相關(guān)產(chǎn)業(yè)都將得到高度重視。
根據(jù)IDC圈不完全統(tǒng)計,截至2023年底,全國帶有“智算中心”的項目有128個,其中83個項目有規(guī)模 披露,超過7.7萬P。 這也正是企業(yè)與國家隊共同努力得到的一份成績單。
然而,在傳統(tǒng)IT廠商、云廠商和電信運營商“搶建”智算中心的當下,一些問題也正 在被看見。
二、建一個智算中心,難在哪?
2024年哈爾濱平房區(qū)批復了4.6億元的哈投智算中心;2023年長春公布了4.8億元長春新區(qū)智算中心的建設計劃,青島市公布了17.7億元的元宇宙智慧算力中心建設計劃,南昌市公布了4.5億元的江西人工智能計算中心建設計劃。
地方城市正在市場和政策的驅(qū)動下積極響應,投入建設智算中心。
然而,這種異常高漲的熱情背后,對應的并非是實際的算力需求。一方面,據(jù)《財經(jīng)》了解,一些城市投資智算中心的邏輯是,希望以此擴大基建、招商引資、吸納人才,推 動本地產(chǎn)業(yè)升級。很多地方政府還會為企業(yè)發(fā)放算力券,進行市場補貼。
而在沒有合理規(guī)劃和試驗的情況下,盲目建設智算中心的行為則會導致極大的資源浪費。
全國政協(xié)委員、中科院計算所研究員張云泉也在《算力經(jīng)濟發(fā)展趨勢分析與展望》中分析道,“有些地方只是為了追求排名、追求規(guī)模效應,運營過程不透明、缺乏監(jiān)管,建成之后發(fā)現(xiàn)需求不足,沒有大的應用,出現(xiàn)了很多智算中心直接空轉(zhuǎn)、關(guān)機的現(xiàn)象,造成很大浪費?!?/p>
實際上,建一個智算中心需要更為合理的規(guī)劃和實驗驗證。對此,張云泉給到的第一點建議便是,“對新增建設類算力網(wǎng)工程技術(shù)裝置進行實驗驗證,在驗證的基礎(chǔ)上再放大?!?/strong>
尤其是大型算力網(wǎng)的構(gòu)建則更需要通過原型實驗,進行嚴格論證。一個正常大型項目的邏輯是,在應用場景確定下來的基礎(chǔ)上,再衡量項目建設的投入產(chǎn)出比。但如今在算力的架構(gòu)、調(diào)度、測量、交易、安全技術(shù)等方面都尚不成熟。
嚴格意義上講,目前國內(nèi)的智算中心還并不能稱之為真正的“智算”,在運營模式、服務等方面都還深受傳統(tǒng)IDC行業(yè)影響。
北電數(shù)智首席戰(zhàn)略官楊震告訴產(chǎn)業(yè)家,AI時代,企業(yè)需要的,除了能夠精準匹配需求、極具性價比的智能算力服務,還要有端到端的人工智能全棧服務。
除了算力,企業(yè)應用人工智能還涉及數(shù)據(jù)、模型開發(fā)和調(diào)優(yōu)、AI應用等多個環(huán)節(jié)。每個環(huán)節(jié)對于傳統(tǒng)企業(yè)都存在技術(shù)門檻高、人才缺失、開發(fā)周期長等難題。據(jù)了解,北電數(shù)智的做法是聯(lián)合生態(tài)伙伴提供底座大模型、豐富的行業(yè)垂直大模型、一棧式AI工具鏈,企業(yè)可以靈活調(diào)用各種能力,加工出所需要的AI應用;此外,其也圍繞數(shù)據(jù)要素打造賦能工具,幫助擁有豐富數(shù)據(jù)的企業(yè)挖掘數(shù)據(jù)價值。
楊震告訴產(chǎn)業(yè)家,事實上,具有全智算屬性的AIDC,是在提供從底層算力到頂層應用使能的全棧能力。在他看來,北電數(shù)智承建的北京數(shù)字經(jīng)濟算力中心就是在打造新型的AIDC,也就是黃仁勛說的“AI工廠”。
實際 上,智算中心與傳統(tǒng)數(shù)據(jù)中心的區(qū)別一方面在于能夠幫助AI企業(yè)提供AI算力;另一方面則在于改變運營方式。
而提供AI算力的前提除了需要AI芯片,更重要的則是如何發(fā)揮“平臺”作用,為企業(yè)提供配套的算力服務。尤其是在如今的大模型時代,一個參數(shù)規(guī)模達千億甚至萬億級的大模型, GPU卡的需求就高達數(shù)萬張。
因此,于企業(yè)而言,“算力服務除了提供算力外,還要有底座大模型、豐富的行業(yè)垂直大模型、一棧式AI工具鏈等。而這些都是智算中心應該做到的?!睏钫鸨硎?。
但從目前的智算中心建設情況來看,整體的現(xiàn)狀是只注重“量”,而忽視“質(zhì)”。在智算中心的華麗外殼下,卻裝著傳統(tǒng)數(shù)據(jù)中心的“里子”。
此外,在如今智算中心占領(lǐng)高地的當下,一個更新的問題也在被放到臺面上:傳統(tǒng)IDC將如何轉(zhuǎn)型?
“過去,云廠商和傳統(tǒng)IDC企業(yè)存在競爭關(guān)系,而未來將是互補,甚至是合作的關(guān)系。”在2月末的阿里云戰(zhàn)略發(fā)布會上劉偉光曾公開表示。與此同時,AIDC企業(yè)北電數(shù)智也同樣認為,傳統(tǒng)IDC實現(xiàn)轉(zhuǎn)型則要避免“單打獨斗”,要和生態(tài)合作伙伴共同發(fā)揮各自優(yōu)勢,聯(lián)合創(chuàng)新。
換言之,如果實現(xiàn)智算中心的“AI工廠”的平臺價值,在算力之外,還需要關(guān)于數(shù)據(jù)的訓練、標注以及后期的微調(diào)等等。能夠預測的是,在2024年將會有越來越多圍繞智算中心的生態(tài)出現(xiàn)。這里面不僅包括晟騰、寒武紀等芯片企業(yè),更多的也恰是整個大模型生產(chǎn)鏈上的企業(yè),比如標注企業(yè)、大模型isv開發(fā)者等等。
此外,從ChatGPT到Sora,大模型應用不僅僅帶動了算力需求的爆發(fā),能耗也在急劇增長。比如最近ChatGPT爆出日消耗電力超50萬度,相當于美國家庭每天用電量的1.7萬多倍。而在此背景下,智算中心的綠色節(jié)能也被提上日程。
這也恰是如今越來越多的智算中心開始選擇液冷配置的原因。但相較于傳統(tǒng)的水電模式,液冷需要的硬件配備以及對應的成本都將會更大,對不少算力規(guī)模較小的智算中心而言,這也更是一項難覆蓋的成本。
但在單點上,國內(nèi)企業(yè)也有突破。比如在2023中國算力大會期間,聯(lián)想問天發(fā)布的AI大模型訓練服務器便實現(xiàn)了相比同級別服務器功耗降低約10%,恰是基于液冷對服務器的加持。
不難看出,在種種難題下,不論其算力規(guī)模大小,智算中心的建設實際上都并非容易,一方面是如何實現(xiàn)技術(shù)突破,這些包括和芯片的兼容、適配等等,另一方面是如何打通生 態(tài),開辟新的運營方式。
對智算中心而言,這不單純是一項資金的游戲,更是一個思維觀念、企業(yè)架構(gòu)轉(zhuǎn)化的新模型。
換句話說,這是一個基于AI時代的新IDC企業(yè)模型。如果要做好,在資金和技術(shù)之外,更要有兼容和共創(chuàng)。
三、算力,狂飆在大模型時代
在越發(fā)強烈的市場需求下,行業(yè)本身的問題也更在加速浮現(xiàn)。
過去一年,ChatGPT發(fā)生過多次宕機事件,最長宕機時間甚至達到16小時21分鐘。盡管OpenAI所用到的芯片都來自于全球生產(chǎn)GPU芯片最厲害的企業(yè)英偉達,但算力依然捉襟見肘。
從AI芯片的架構(gòu)來分析,目前最為核心的架構(gòu)是GPU、FPGA、ASIC。其中,GPU通用性較強,適合大規(guī)模并行計算,且設計及制造工藝較成熟,目前占據(jù)AI芯片市場的主要份額。
而FPGA則可以更好地解決當下AI時代所出現(xiàn)的暗硅效應,其中,暗硅效應(Dark Silicon)指由于芯片工藝和尺寸的限制,芯片上只有一小部分區(qū)域可以同時運行,其余的區(qū)域被閑置或關(guān)閉,這些閑置或關(guān)閉的區(qū)域被稱為“暗硅”。
能看到的是,國內(nèi)的大型科技企業(yè)都在嘗試FPGA架構(gòu),如阿里、華為等等。
從全球范圍來看,智算中心的軍備競賽早已拉響。首先是美國,斥資3000億美元重點投資數(shù)據(jù)中心和智算中心;接下來是出資50億歐元支持人工智能研究的德國。而在日本,NTT(日本電報電話公司)2023年宣布,未來5年內(nèi)向人工智能、數(shù)據(jù)中心等領(lǐng)域投資590億美元。另外,Meta甚至叫停部分在建數(shù)據(jù)中心,轉(zhuǎn)而打造智算中心。
張云泉在《算力經(jīng)濟發(fā)展趨勢分析與展望》中寫道,“工業(yè)互聯(lián)網(wǎng)、自動駕駛、全息通信等業(yè)務對網(wǎng)絡時延、帶寬和確定性等條件的要求遠遠高于消費互聯(lián)網(wǎng)。如L3~L5級別的自動駕駛要求端到端的時延不超過3毫秒,而傳統(tǒng)的集中式的云服務時延一般會超過50毫秒。在這樣的情況下,把海量數(shù)據(jù)上傳到云計算中心進行集中處理的模式難以為繼?!?/p>
這些都將是算力狂飆的最直接需求。面對這些更為廣泛的需求,圈內(nèi)更多的觀點是算力分布式理念。即從單一的CPU走向CPU、GPU、NPU、FPGA等多架構(gòu),進而滿足需求。
未來,“算力會像水、電一樣通用”。這是如今大模型時代里一個美好的暢想。
那么,今天距離這樣的暢想還有多遠?
二十年前,“十五計劃”提出了電信網(wǎng)、互聯(lián)網(wǎng)、有線電視網(wǎng)三網(wǎng)融合的概念。此后的八年一直到2008年北京奧運會,中國已經(jīng)完全實現(xiàn)讓居民接入高速寬帶傳輸網(wǎng)絡的愿景。
二十年后的今天,這樣的場景也在重新上演。在如今的算力時代,“算網(wǎng)融合”被提升到重要位置,其主要模式恰是讓居民和企業(yè)使用算力像使用網(wǎng)絡一樣方便、便捷。
想象一下在個人移動端,某天你可以在手機上辦理“算力套餐”,直接購買算力,像現(xiàn)在購買流量一樣;而在企業(yè)端也是如此,比如教育、能源、工業(yè)、交通等等領(lǐng)域都可以更廉價地購買算力。未來,隨著智算中心的規(guī)模擴大、技術(shù)提升,以及算力訂閱式、分布式的普及,有理由相信,這些都將會一一實 現(xiàn)。
按照這樣的速度,“算力像水電一樣通用”這樣的暢想也許不需要第二個“八年”。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/cgo/product/114788.html