2025年,大模型落地的最佳AI infra土壤在哪里?

火山引擎,“快走一步”

 

2025年,大模型落地的最佳AI infra土壤在哪里?

 

在火山引擎AI云原生的支撐下,在上層的應用產品之外,企業(yè)都獲得的是一個當下最適配AI推理落地的IT土壤。

這個土壤是可以看作是目前國內最新、最適配AI推理生長的IT架構體系。這其中有大規(guī)模GPU集群彈性調度管理,也更有國內最適配AI推理場景的存儲計算產品,以及基于AI訓練推理需求的網(wǎng)絡加持、對特殊推理場景數(shù)據(jù)需求滿足環(huán)境,進而幫助企業(yè)以更快、更穩(wěn)、更具性價比的方式進行AI落地。

作者| 皮爺

出品|產業(yè)家

2025年,大模型落地走到哪了?

“現(xiàn)在在具體場景的落地過程中,我們的推理需求規(guī)模幾乎是訓練需求的 5-10 倍,伴隨著AI使用程度的加深甚至都不止。”一位AI企業(yè)相關負責人告訴產業(yè)家。

一個足夠真實的情況是,在“AI大模型”成為熱詞的近兩年時間里,關于大模型的產業(yè)落地正在呈現(xiàn)愈發(fā)向上的趨勢,其中最鮮明的表現(xiàn)恰是推理需求。

根據(jù)IDC報告顯示,未來5年中國市場的訓練、推理算力需求將分別以超50%、190%的年復合增速發(fā)展,在2028年推理算?將全面超過訓練算?。

這也是如今市場上討論的焦點。即伴隨著如智能體等越來越多AI落地形態(tài)的出現(xiàn),企業(yè)對于AI技術的落地,也就是推理需求正在顯著增加。

但旺盛的需求背后,另一個問題也更在被加速擺上臺面:即在中國的AI產業(yè)生態(tài)里,AI落地的土壤到底怎么樣了?從細顆粒度的視角來看,這個問題不單純是關乎數(shù)據(jù)體系和模型發(fā)展的考校,外界更多的聚焦點是AI底層基礎設施,也就是AI Infra層的建設。

一個偏底層的認知是,在過去一眾大型流量活動的背后,提供支撐的是一個個龐大的CPU集群,基于其上的各種被適配驗證過的數(shù)據(jù)庫、存儲、計算中間件和不同PaaS層產品,這些底層一起保證了上層應用活動的開展。

但如今在AI時代,不論是PaaS層的一系列構成,還是底層IaaS側的彈性處理,抑或是網(wǎng)絡,在更復雜的數(shù)據(jù)類型、更大體量的數(shù)據(jù)規(guī)模等新環(huán)境里,都需要重新求解。

這些新解傳導到業(yè)務的最前端對應著的恰是企業(yè)的在AI應用上的直接落地,比如如何高效的發(fā)布和管理應用、如何應對大規(guī)模的在線推理流量等等。

可以說,在顯性的數(shù)據(jù)難題和模型難題之外,如果想要實現(xiàn)AI大模型的大范圍產業(yè)落地,AI infra是一個必須跨過的難題。

那么,如今它到底走到哪了?在AI推理需求即將爆發(fā),甚至也可以說已經(jīng)爆發(fā)的2025年,真正適配AI大模型大規(guī)模落地的底層AI infra應該是什么樣的?

一、大規(guī)模推理場景爆發(fā)前夜:

站上臺前的AI infra

“我們的數(shù)據(jù)也夠用,底層模型也用的是目前業(yè)內排名靠前的模型,但搭出來的AI應用就是不行。”在一個行業(yè)活動上,一位零售企業(yè)負責人告訴產業(yè)家。

更具體的細節(jié)是,這家企業(yè)有較強的IT基礎,在過去多年時間里,其早早就構建了從ERP到CRM,以及數(shù)據(jù)庫等全鏈條的數(shù)字化架構,企業(yè)有很強的數(shù)據(jù)積淀。這也使得企業(yè)負責人在AI大潮到來之前心懷激動,在他們看來,“在數(shù)據(jù)的優(yōu)勢下,這是一個彎道超車的機會?!?/p>

但結果卻不盡如人意。從表現(xiàn)來看,包括推理訓練成本高、AI應用反應速度慢等等問題越發(fā)明顯,最終這個項目在2023年年末被暫時擱置。

實際上,這是最早一批,乃至現(xiàn)在很多企業(yè)嘗試AI落地都在面臨的現(xiàn)狀。即在數(shù)據(jù)和模型之外,越來越多AI infra的問題開始浮現(xiàn),比如GPU卡資源不足、固有的計算存儲產品和前端模型的無法打通,比如數(shù)據(jù)庫的不適配,再比如網(wǎng)絡抖動導致訓練效率低等等,這些因素都在成為企業(yè)落地大模型的難點。

對AI infra一個普遍的定義是,其往往指的是為AI訓練、推理等操作提供支持的一整套系統(tǒng),其中包括硬件(如 GPU 服務器、存儲設備)、軟件(如操作系統(tǒng)、開發(fā)框架)、網(wǎng)絡(如高速網(wǎng)絡連接和安全防護)和數(shù)據(jù)體系。

如果平移到固有的云計算架構,它對應的正是一系列app應用背后的覆蓋基礎設施、平臺、軟件、數(shù)據(jù)以及模型的整個IT架構,通過整個架構的運轉進而完成從客戶需求到具體應用產品表達的整個鏈條。

但這并不是一件容易的事。

“很多都是和之前CPU的模式不一樣的,尤其是推理階段。”火山引擎云基礎產品負責人羅浩告訴產業(yè)家,“比如,要存儲的數(shù)據(jù)類型更豐富了,從以前的文本、圖片小文件為主到現(xiàn)在大規(guī)模的視頻、大文件都需要存儲,存儲的數(shù)量也在指數(shù)級增長,以前CPU架構編排的對象是函數(shù),現(xiàn)在GPU架構里編排的都是大模型,需要重新 優(yōu)化計算、存儲與網(wǎng)絡架構來提高吞吐、降低IO的延遲。”

2025年,大模型落地的最佳AI infra土壤在哪里?

更準確的說法是,在AI大模型時代,伴隨著業(yè)務架構從以CPU為中心轉變?yōu)橐訥PU為中心,整個體系都需要升級,這里面不僅包括資源層的更高難度調度模式,也更包括對新的資源層和新的數(shù)據(jù)模型的處理方式,對應到產品側則是適配AI模型的一系列計算、存儲數(shù)據(jù)庫產品、新的編排等中間件,以及新的網(wǎng)絡穩(wěn)定手段等等。

這些底層IT土壤的優(yōu)先級甚至在數(shù)據(jù)和大模型能力之前。“嚴格意義上說,現(xiàn)在部分場景環(huán)節(jié)的數(shù)據(jù)是夠用的,需要新的AI infra先一步完成AI工程落地,這樣才能保證滿足企業(yè)的大規(guī)模推理落地?!币晃煌顿Y人告訴我們。

實際上,在過去兩年時間里,AI infra的剛需性在過去兩年時間里也在被不斷印證。根據(jù)不完全統(tǒng)計,在2024 年 1 月 1 日至 7 月 31 日期間,包括智算中心方向,向量數(shù)據(jù)庫方向,以及大模型的編排能力等方向的企業(yè)備受資本推崇,融資額度占比在整個大模型領域超過15%。

但熱度和剛需之外,卻仍有問題存在。比如在如今大模型推理需求井噴的當下,不同場景、不同領域對于AI Infra仍有不同,如今國內市面上大部分AI Infra服務商提供的僅僅是其中一個單點的加持,很難為企業(yè)提供從彈性算力服務到數(shù)據(jù)存儲計算,再到模型推理、應用表達的整個完整鏈條服務。

答案在哪?或者說,在中國當下的AI落地浪潮里,這種覆蓋全鏈條的AI Infra服務模型出現(xiàn)了嗎?

二、火山引擎AI云原生,

“快走一步”

美圖,在中國的應用市場上幾乎可以算是骨灰級玩家。在過去的多年時間里,憑借美圖秀秀的產品在市場上引領美顏相機賽道。伴隨著AI時代的到來,轉型成為必選之路。

但也恰如上文所說,這是一個不太容易的命題。具體到美圖秀秀的應用而言則是,其不僅需要保證前端產品AI功能的用戶使用體驗,更要保持成本和投入的可控。

這種推理落地側的需求對應到AI infra側是GPU資源的彈性調度、存儲產品性能、不同地域的網(wǎng)絡穩(wěn)定要求,以及最核心的異構GPU卡調度訓練效率等等。

火山引擎成為了美圖選擇的底層助力者。在一系列從算力資源到存儲網(wǎng)絡等的加持下,美圖構建了一個有彈性、成本可控、健康的AI infra架構,不僅可以做到在不同場景下實現(xiàn)不同GPU卡資源的調度,也更可以做到在流量高峰的資源迅速擴容,滿足其大規(guī)模推理場景的落地。

有同樣經(jīng)歷的還有沐瞳科技和深勢科技。前者是國內最早一批游戲出海的企業(yè),其2016年上線《Mobile Legends: Bang Bang》,目前游戲月活突破 1.1 億,全球累計下載量超 10 億次。在游戲內,對戰(zhàn)雙方存在一定程度的辱罵、宗教歧視等有攻擊性的語言和行 為,需要根據(jù)AI進行識別、隔離。

其采取的方案是,在火山引擎通過Private Link私網(wǎng)訪問調用豆包大模型API,同時在火山機器學習平臺、云搜索、向量數(shù)據(jù)庫等產品的加持下,基于豆包大模型進行調優(yōu)和定制,最終實現(xiàn)推理側的超低時延、低成本的落地,完成相關AI產品的落地。

深勢科技也更是如此,作為如今國內AI for science的頭部企業(yè),其在業(yè)務開展過程中往往會遇到大量不同格式的數(shù)據(jù)處理問題,對非結構化數(shù)據(jù)進行高速讀取,也恰是在火山引擎的加持下,其不僅實現(xiàn)了不同訓練推理場景的資源匹配,也更基于平臺的統(tǒng)一調度能力保證了底層資源的高利用率,保證業(yè)務的高效推進。

2025年,大模型落地的最佳AI infra土壤在哪里?

在剛剛舉辦火山引擎FORCE原動力大會上,這種面向企業(yè)大規(guī)模推理落地側的助力,也更可以理解為AI的先進底層實踐,正式被火山引擎以方案的形態(tài)放到臺前,它就是“AI云原生”方案。

其中,幾個亮點尤為值得一提。

比如算力層面,火山引擎推出彈性預約實例ESI和搶占式實例Spot,全面支持CPU和GPU,依托字節(jié)海量資源內外共池技術,線上可提供百萬核的CPU彈性算力、萬卡級的GPU彈性能力,滿足不同場景客戶的彈性算力需求,兼具性價比。

此外,在存儲層面,為了解決傳統(tǒng)AI架構中核心數(shù)據(jù)流動繞行CPU的問題,火山引擎正式發(fā)布彈性極速緩存EIC。

作為火山引擎的又一自研產品,其通過GPU Direct和RDMA技術完全重寫了KV,可以把顯存中的KV Cache緩存到遠端主機或者本地主機的內存中,相比傳統(tǒng)的緩存技術,延時降低至1/50, 在Prefix Cahce、P/D分離、多輪對話和長文本處理等場景,核心指標TTFT、TPOT最大可有數(shù)倍提升,同時還能整體降低GPU的消耗。

亮點也更在網(wǎng)絡層面。火山引擎的第三代異構GPU和NPU實例,以及第四代CPU實例,全面支持普惠的vRDMA互聯(lián)能力,在VPC網(wǎng)絡中就可以提供最高達320G的帶寬,延時相比傳統(tǒng)VPC網(wǎng)絡平均降低80%,顯著提升訓練和推理效率;同時,AI 網(wǎng)關的智能路由方案支持基于 GPU 利用率指標加載負載均衡,可以幫助用戶以智能化調度應對大規(guī)模推理流量,網(wǎng)絡成本最高優(yōu)化70%。

更值得一提的是,在本次大會上,火山引擎veStack智算版也更升級到2.0階段?!靶乱淮闹撬惆妫粌H在智算基礎設施有了更豐富的支持,在穩(wěn)定性建設、運維能力、訓練框架和模型開發(fā)能力上都有了進一步提升,同時在生態(tài)方面提供了標準化API,針對各行各業(yè)的不同場景都提供了行業(yè)落地能力,可以能夠幫助客戶更好的應對智算時代的各種挑戰(zhàn)?!绷_浩告訴我們。

實際上,這些全部的產品已經(jīng)在字節(jié)內部的AI體系內被全面鋪開。根據(jù)火山引擎總裁譚待表示,自今年5月字節(jié)跳動發(fā)布豆包大模型,7個月內其調用量增長了超過33倍,截至12月日均tokens使用量已突破4萬億。

在其中,有很大一部分都是來自推理側的需求。這些需求在火山引擎AI云原生的支持下,被以更高效、更具性價比、更實用、更安全的方式滿足。

羅浩告訴我們,現(xiàn)在不同的企業(yè)需求都在火山引擎底層AI云原生方案的加持推進。“一類是企業(yè)自己想做一些嘗試,比如企業(yè)自己簡單搭個應用試試水;另一種是想摘取‘低垂果實’,也就是企業(yè)決定了要做AI,并且錨定了具體的方向;最后一種就是企業(yè)有很強的AI戰(zhàn)略需求,比如自己搭建大模型,或者自身有卡資源等等。”

更準確的理解是,不論是對AI應用的初步探索,還是對某些環(huán)節(jié)基于AI的進化,抑或是企業(yè)層面的AI升級迭代,在火山引擎AI云原生的支撐下,在上層的應用產品之外,企業(yè)都獲得的是一個當下最適配AI推理落地的IT土壤。

這個土壤是可以看作是目前國內最新、最適配AI推理生長的IT架構體系。這其中有大規(guī)模GPU集群彈性調度管理,也更有國內最適配AI推理場景的存儲計算產品,以及基于AI訓練推理需求的網(wǎng)絡加持、對特殊推理場景數(shù)據(jù)需求滿足環(huán)境,進而幫助企業(yè)以更快、更穩(wěn)、更具性價比的方式進行AI落地。

三、由內向外:

一個AI推理落地的土壤新范式

實際上,打造這樣一個最適宜AI推理表達的土壤并不是一件容易的事情。對羅浩和火山引擎團隊而言,這也更是一條漫漫“求真”路。

如果把時間線往回看,在2021年12月的云產品發(fā)布會上,火山引擎就發(fā)布了一系列AI產品,這些產品覆蓋從上層的應用到AI開發(fā)平臺,以及面向不同場景的AI落地方案等等。而從場景豐富度和AI開發(fā)效率來看,即使放到現(xiàn)在也是諸多產業(yè)場景的先進AI實踐模型。

這種技術上的先發(fā)性也一定程度上反應著火山引擎,乃至整個字節(jié)在AI上長期積累的技術和產業(yè)深度,伴隨著OpenAI的出現(xiàn),這些在字節(jié)內部的AI底層積累也瞬間引爆整個國內大模型市場。

于是,在2023年,一個口號在市場被廣泛擴散,即“國內70%的大模型都跑在火山引擎上”。但在羅浩和火山引擎團隊的觀察里,在這個口號之后的不久,一個更明顯的趨勢開始增加:它就是上文提到的強勁推理側需求。

與此同時,關于推理場景更明顯的趨勢和挑戰(zhàn)也來自內部。即伴隨著字節(jié)跳動AI動作的推進,不論是豆包大模型,還是一系列上層如豆包助手、剪映、開發(fā)平臺扣子等AI應用,以及諸多在國內、海外市場不同場景布局的產品,對AI infra都提出了強勁的推理需求。

如果從全球視角來看,這幾乎算是全球范圍內最大規(guī)模的AI推理落地需求之一。

對羅浩和火山引擎而言,他們的首要任務恰是服務這些從字節(jié)內部生長起來的的原生AI應用,這其中不論是GPU底層資源的彈性調度,還是更高效率、更低時延的計算存儲產品,以及對不同網(wǎng)絡環(huán)境的優(yōu)化等等,都是必須解決的問題。

可以說,這種即使從世界范圍來看也為數(shù)不多的服務大規(guī)模AI推理場景落地的實戰(zhàn)和“踩坑”經(jīng)歷,也恰構成著如今火山引擎AI云原生方案在國內AI infra服務上的獨特優(yōu)勢——極度適配大規(guī)模推理需求的穩(wěn)定IT架構,最新的以GPU為中心的資源調度和數(shù)據(jù)處理能力,以及對網(wǎng)絡環(huán)境等核心要素的服務保障。

“整體來看,我們不單純可以幫助企業(yè)在單張卡的利用上達到好的效果,也更能在一些細分的場景和落地細節(jié)上,幫助企業(yè)做到更好?!绷_浩表示。

一個被給出的綜合數(shù)據(jù)是,基于火山引擎AI云原生的方案,企業(yè)在訓練場景的有效訓練時長可以超過99%,推理場景可以幫助企業(yè)節(jié)省20%?的GPU資源,性能提升 100%。

“其實 相較于IDC預測的‘2028年推理算?超過訓練算?’的這個時間點,在我們火山引擎上或許會早兩年出現(xiàn)。”羅浩告訴我們。

能真實感受到的是,對火山引擎而言,伴隨著推理需求的強勁爆發(fā),火山引擎AI云原生對企業(yè)推理場景需求的強滿足能力一定程度上會轉化為企業(yè)對火山引擎的更優(yōu)先選擇。

其中的良性傳導線路不難理解,即更好的AI infra底層支撐,可以幫助企業(yè)更快的完成大范圍推理落地,進而構建更好用、更可用、更具性價比的產業(yè)AI應用,讓企業(yè)可以先人一步構建自身的新質競爭力。

實際上,把視角拉大,也更可以說,AI云原生方案也恰對應的是一眾產業(yè)乃至中國在AI時代進化的最新的底層新基建,即只有把底層的IT土壤構建好,才能保證AI技術的真實落地,實現(xiàn)產業(yè)場景中無數(shù)個推理需求的被滿足,進而驅動產業(yè)從數(shù)字化向數(shù)智化升級。

在這個企業(yè)乃至產業(yè)的新AI土壤上,火山引擎已經(jīng)率先邁出第一步。

本文來自投稿,不代表增長黑客立場,如若轉載,請注明出處:http://allfloridahomeinspectors.com/cgo/market/129716.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2025-01-13 22:13
下一篇 2025-01-14 00:31

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復

登錄后才能評論