文|光錐智能 周文斌
2018年以后,Transformer及其衍生變種的大模型開始逐漸替代卷積神經(jīng)網(wǎng)絡(luò),席卷自然語言處理、圖像識別、語音識別等多個AI領(lǐng)域。
2019年,也是在AI DAY上,時任特斯拉AI總負(fù)責(zé)人安德魯·卡帕西(Andrej Karpathy)提出,特斯拉自動駕駛要像人一樣開車,要在2021年取消激光雷達(dá),并引入“大模型”對特斯拉的自動駕駛系統(tǒng)進(jìn)行訓(xùn)練。
之后,特斯拉代表的純視覺自動駕駛方案在行業(yè)里獨領(lǐng)風(fēng)騷,而在安德魯·卡帕西的推動下,Transformer大模型也開始成為解決自動駕駛難題的主流方案。
大模型的特點是結(jié)構(gòu)簡潔、可無限堆疊基本單元得到巨大參數(shù)量,只要擁有足夠規(guī)模的數(shù)據(jù),其可提升的潛力上限就極高。但問題在于,要驅(qū)動大數(shù)據(jù),訓(xùn)練大模型,就必須要有超大算力的支持。所以,特斯拉在2019年同時發(fā)布的還有Dojo超級計算系統(tǒng)。
在國內(nèi),毫末率先引入了Transformer的技術(shù),之后也是最早建立自己超算中心的自動駕駛企業(yè)。就像在大家普遍選擇高精地圖的時候,毫末選擇了重感知方案一樣,雖然當(dāng)時不是主流,但后來卻逐漸成為行業(yè)共識,如今超算中心也大有成為自動駕駛企業(yè)標(biāo)配的趨勢。除了特斯拉之外,2022年蔚來、小鵬、大陸等多家企業(yè)都開始建立自己的超算中心。
走與大多數(shù)人不一樣的路,這不僅是毫末對自動駕駛的深度理解和洞察,也是毫末自身戰(zhàn)略勇氣和戰(zhàn)略定力的表現(xiàn)。而歷史的經(jīng)驗也在一次次說明,毫末的判斷每一次都踩中了自動駕駛發(fā)展的脈搏。
1月5日,毫末再次舉辦AI DAY,這一次,毫末在自動駕駛數(shù)據(jù)智能體系MANA(雪湖)的基礎(chǔ)上,又推出了新的智算中心MANA OASIS(雪湖·綠洲)。
毫末智行董事長張凱在AI DAY上提到:“隨著自動駕駛企業(yè)向3.0時代邁進(jìn),“大模型+大數(shù)據(jù)”的數(shù)據(jù)驅(qū)動模式,成為自動駕駛技術(shù)進(jìn)化的關(guān)鍵,而驅(qū)動大模型和海量數(shù)據(jù)訓(xùn)練的超算中心將成為自動駕駛企業(yè)的入門配置?!?/strong>
毫末智行董事長張凱
當(dāng)拼完大模型,自動駕駛又開始拼大算力,這不僅讓自動駕駛公司在技術(shù)難度上提升了一個臺階,也在“鈔能力”上又提高了要求。
不過,當(dāng)一切準(zhǔn)備就緒,自動駕駛在城市落地的可行性也提升了一大步。
01 生長于雪湖的智算中心
對于自動駕駛來說,算力的重要性不言而喻。
特別是當(dāng)越來越多搭載自動駕駛輔助系統(tǒng)的車輛行駛在城市道路上之后,復(fù)雜的道路環(huán)境、指數(shù)級增長的車輛都讓自動駕駛的數(shù)據(jù)量爆發(fā)式增長。
而數(shù)據(jù)量增加,原來依靠CNN卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練自動駕駛的方式效率就有些低了。所以2018年之后,在特斯拉的帶動下,能夠提高訓(xùn)練效率的Transformer訓(xùn)練模型開始流行。
但問題也隨之而來——要驅(qū)動這樣的大數(shù)據(jù)、大模型就必須要有超強(qiáng)算力作為支撐。
“超算中心將會成為自動駕駛公司的入門配置”,張凱在此次AI DAY上表示,這將是自動駕駛2023年的一大趨勢。
事實上,國內(nèi)外頭部的自動駕駛相關(guān)企業(yè)都在建設(shè)自己的超算中心,比如2022年6月英偉達(dá)披露,蔚來正在利用它們的芯片構(gòu)建數(shù)據(jù)中心,以支持深度學(xué)習(xí)模型的迭代和自動駕駛算法的訓(xùn)練。8月,小鵬也宣布和阿里云在烏蘭察布建成了自動駕駛智算中心“扶搖”。
在國外,除了特斯拉之外,全球頭部的汽車行業(yè)Tier 1大陸集團(tuán)也在構(gòu)建自己的高算力集群,用于加速開發(fā)自動駕駛解決方案,主要應(yīng)用場景包括深度學(xué)習(xí)和仿真測試。
成立僅僅三年,毫末作為一家創(chuàng)業(yè)公司,其在關(guān)鍵領(lǐng)域的布局絲毫不遜于這些巨頭。2021年,毫末在年底的AI DAY上發(fā)布了自己的自動駕駛數(shù)據(jù)智能體系MANA,中文名字叫雪湖。
這是一個源自《三體》的名字,羅輯在這里悟出了“黑暗森林法則”,成為他持有的一把利劍為人類帶來66年的和平。而這次毫末在AI DAY發(fā)布的智算中心綠洲(MANA OASIS),也從雪湖當(dāng)中孕育而出。
火山引擎總裁譚待(左),毫末智行CEO顧維灝(右)
從數(shù)據(jù)上看,MANA OASIS綠洲具有每秒67億億次的浮點運算能力,具有每秒2T的存儲帶寬,和每秒800G的通信帶寬。
首先是浮點運算,AI大模型的訓(xùn)練依靠的不再是傳統(tǒng)CPU的邏輯推理能力,而是以AI加速器為主的浮點運算能力。
其次是存儲帶寬,自動駕駛的訓(xùn)練任務(wù)文件通常比較復(fù)雜,比如毫末用來訓(xùn)練的自動駕駛數(shù)據(jù)被稱為Clip,它是包含圖像、視頻,以及毫米波雷達(dá)、激光雷達(dá)等多種信號的小文件。
無數(shù)這樣的小文件構(gòu)成自動駕駛訓(xùn)練的數(shù)據(jù),自動駕駛在訓(xùn)練過程中需要隨機(jī)調(diào)用這些數(shù)據(jù),為了降低延遲,提高數(shù)據(jù)的訪問和傳輸效率,就需要更大的存儲帶寬作為支撐。
為此,毫末還專門組建了一套以場景庫標(biāo)簽為索引的文件管理系統(tǒng)。有了這套系統(tǒng),在2TB/s存儲帶寬支持下,MANA OASIS針對百億規(guī)模的小文件隨機(jī)讀取延時小于500微秒。
最后則是800G的通信帶寬,這是因為自動駕駛所需要的模型需要更好的并行計算框架才能把硬件資源都利用起來。再加上現(xiàn)在人工智能發(fā)展很快,新的算法層出不窮,需要盡快引入新的技術(shù)和模型,這些都需要高通信帶寬的支持。
在毫末看來,智算中心或許和羅輯的面壁計劃一樣,可以成為解決當(dāng)前自動駕駛瓶頸的一把利劍。
圖源:《三體》動畫
但到這里毫末其實還不滿足,他們想要在智算中心上做一些更極致的優(yōu)化。也是這個原因,這次毫末的智算中心的合作伙伴選擇了火山引擎。
作為字節(jié)旗下的云服務(wù)平臺,火山引擎在支持抖音的過程中積累了對視頻、視覺豐富的理解和經(jīng)驗。毫末CEO顧維灝也特地提到,火山引擎在這一方面為MANA OASIS提供了很大助力。
例如在高性能算子庫方面,火山引擎提供超過500個高性能算子,基本讓當(dāng)前神經(jīng)網(wǎng)絡(luò)所能用到的算子都有了高性能版本,這讓MANA OASIS可以支持包括Transformer在內(nèi)的超過200組網(wǎng)絡(luò)結(jié)構(gòu)。
而在大模型的訓(xùn)練框架上,MANA OASIS能夠?qū)崿F(xiàn)單機(jī)8卡就能訓(xùn)練百億參數(shù)大模型的效果,實現(xiàn)跨機(jī)共享expert(專家)的方法,完成千億參數(shù)規(guī)模大模型的訓(xùn)練,訓(xùn)練成本降低到百卡周級別;同時,MANA OASIS還能同時處理圖片、點云、結(jié)構(gòu)化文本等多種模態(tài)的信息,既保證了模型的稀疏性、又提升了計算效率。
整體上,字節(jié)通過部署Lego高性能算子庫、ByteCCL通信優(yōu)化能力、大模型訓(xùn)練框架等軟硬一體的方式,把算力優(yōu)化到極致。張凱透露,“MANA OASIS的應(yīng)用讓毫末的自動駕駛訓(xùn)練效率提升了100倍?!?/p>
在智算中心的加持下,張凱認(rèn)為,隨著自動駕駛AI大模型在云端的深入應(yīng)用,行泊一體的持續(xù)迭代升級和效率提升。車端智能駕駛系統(tǒng)的綜合成本將大幅度實質(zhì)性降低。以重感知技術(shù)為主,主要依托視覺方案的智駕系統(tǒng)將可以在中低算力的車端平臺上部署。
“2023年,智能駕駛的下半場進(jìn)入加速期,高階輔助駕駛產(chǎn)品的商業(yè)應(yīng)用將迎來大規(guī)模落地?!睆垊P表示:“到2025年中國高階輔助駕駛搭載率將達(dá)到70%。智能駕駛功能成為必選因素,智能駕駛已迎來商業(yè)化的加速發(fā)展?!?/strong>
02 用大模型“降本”“增效”
有了智算中心,自動駕駛公司就能更加高效地訓(xùn)練大模型。
在這次AI DAY上,毫末發(fā)布了五個最新的大模型,分別是視頻自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動態(tài)環(huán)境大模型和人駕自監(jiān)督認(rèn)知大模型。
首先是視頻監(jiān)督大模型,它解決的主要是數(shù)據(jù)化標(biāo)注的問題。
前面提到,為了降低成本,提高訓(xùn)練效果,毫末將原來的離散幀,也就是單幀標(biāo)注數(shù)據(jù)變成了連續(xù)的Clip形式。但問題在于,當(dāng)新技術(shù)應(yīng)用之后,過去積累的數(shù)量龐大的單幀數(shù)據(jù)就無法再使用了。
“真實的視頻每秒至少10幀以上,原來的離散幀一秒鐘只會標(biāo)注一幀,中間還有許多空隙是沒有標(biāo)注的。”毫末技術(shù)副總裁艾銳這樣解釋單幀和Clip的差別。
所以,為了把之前的數(shù)據(jù)用起來,毫末就需要把單幀數(shù)據(jù)的空隙補(bǔ)上,標(biāo)注成Clip的形式。只是這個過程如果用人工標(biāo)注,成本會非常高,所以才有了視頻監(jiān)督大模型,這是一套數(shù)據(jù)自動標(biāo)注的方法。
圖:視頻自監(jiān)督大模型演示
“目前我們基本上達(dá)到了百分之百的自動化,只需要非常少量的,大概2%的人工做一遍抽檢就可以了,整個成本節(jié)省是非常顯著的?!碧岬揭曨l監(jiān)督大模型的效果,艾銳如此說道。
在國外,特斯拉其實也做著類似的事情。去年6月份,特斯拉開啟首輪裁員,首先被裁的就是數(shù)據(jù)標(biāo)注的員工,一個原因就在于自動標(biāo)注系統(tǒng)的應(yīng)用。
然后是3D重建大模型,解決的是低成本數(shù)據(jù)獲取和補(bǔ)充的問題。
自動駕駛發(fā)展到現(xiàn)在,各大企業(yè)已經(jīng)累計了幾千萬,甚至上億公里的路測數(shù)據(jù)。這些數(shù)據(jù)可能解決了自動駕駛99%的corner case,但是剩下的1%因為不太容易遇見,所以需要花費巨大的成本或者時間。
比如同一個環(huán)境,春夏秋冬不同的時間,同一輛車的通行情況也會有所不同。如果按正常的數(shù)據(jù)收集,這個過程就很長。
而3D重建大模型則可以通過幾張照片,或者某個場景的一段視頻就把這個場景主要的靜態(tài)結(jié)構(gòu)以3D的形式重新建立起來。這其中的邏輯和之前流行一時的元宇宙虛擬人捏臉有些相似,即用戶只需要上傳一張照片,平臺就能夠生成一個3D人物模型,讓你看到不同角度的樣子。
圖:左右兩個視頻,你能分清哪個是3D重建的嗎?
有了這樣的技術(shù),自動駕駛訓(xùn)練就可以通過算法得到一些極限路況下的數(shù)據(jù),或者補(bǔ)充一些之前缺失的數(shù)據(jù)。比如我們擁有某個路段春天的行駛數(shù)據(jù),通過算法就可以直接獲得冬天的數(shù)據(jù)。
“我們現(xiàn)在的很多算法研發(fā)在做場景數(shù)據(jù)補(bǔ)充的時候都會使用這個方法,基本上能讓我們感知在這些困難場景下的錯誤率有明顯的下降。”艾銳提到。
而這兩個模型總結(jié)下來,解決的都是數(shù)據(jù)分布、處理效率和成本的問題,這也是智算中心核心要解決的問題。
再然后是多模態(tài)互監(jiān)督大模型,它解決的問題是如何讓車輛識別并通過復(fù)雜路況。
在自動駕駛行駛過程中,毫末發(fā)現(xiàn)對于已知物體,自動駕駛的識別都沒有問題,但如果道路上出現(xiàn)一些奇怪的、無法描述的東西自動駕駛就還存在缺陷。
解決這個問題,最簡單粗暴的方法,是將所有遇到的物體都做上標(biāo)注,但成本也很高。而且更大的問題在于,各種奇怪的物體其實是不可能完全標(biāo)注的。
所以毫末選擇了另外一種方法,就是不去糾結(jié)這個東西具體是什么,我們只需要知道它有多高、多寬、是否會對行駛產(chǎn)生影響。
在去年的AI Day上,特斯拉也發(fā)布過一個名叫占用網(wǎng)絡(luò)(Occupancy Network)的算法。這個算法不去糾結(jié)障礙物具體的語義,而是以3D幾何信息的方式對物體進(jìn)行顯示,其感知結(jié)果就直接可以用來指導(dǎo)自動駕駛路徑規(guī)劃。
而毫末的多模態(tài)監(jiān)督大模型,則是通過讓視覺、激光雷達(dá)、毫米波等不同傳感器相互監(jiān)督,再采用激光雷達(dá)點云對視覺進(jìn)行驗證的方法,達(dá)到與占用網(wǎng)絡(luò)相似的結(jié)果。
之后的動態(tài)環(huán)境大模型,則主要是為了讓自動駕駛車輛擺脫高精地圖的限制。
其原理在于,讓自動駕駛把注意力機(jī)制從常規(guī)的空間注意力轉(zhuǎn)到拓?fù)渥⒁饬Γ靡粋€自回歸的編碼器來實現(xiàn),讓系統(tǒng)能夠像人一樣,根據(jù)現(xiàn)在的情況預(yù)測之后的道路情況。
艾銳稱,“這種方法我們在北京和保定的很多路口都做了嘗試,對于大部分的路型,使用現(xiàn)在的方法都沒有問題,可以達(dá)到95%的準(zhǔn)確率?!?/p>
最后的人駕自監(jiān)督認(rèn)知大模型,則是為了讓自動駕駛開車更像人。
在過往的自動駕駛訓(xùn)練中,企業(yè)通過數(shù)據(jù)驅(qū)動的方式解決駕駛決策的問題。各種數(shù)據(jù)一股腦地喂給AI,AI并不會分辨其中的好與壞,只是單純的將各種數(shù)據(jù)綜合,因此它往往會得到一個平均數(shù),而無法提升到一個好司機(jī)的水平。
所以人駕自監(jiān)督認(rèn)知大模型的目的,就是為了讓自動駕駛系統(tǒng)區(qū)分“什么是好的駕駛方法”。
在傳統(tǒng)的解決方案中,最直接的辦法就是采集許多司機(jī)的行為,讓模型學(xué)習(xí)他們的開車行為?;蛘哂萌斯みM(jìn)行標(biāo)注,告訴AI什么是好的,什么是不好的。但這樣成本又會很高,而且最重要的是,對于自動駕駛來說,這是一種比較黑盒的方法,即自動駕駛只是在單純的模仿,是知其然而不知其所以然。
人駕自監(jiān)督認(rèn)知大模型在做的,是去對比學(xué)習(xí)那些被司機(jī)接管的數(shù)據(jù),畢竟接管往往意味著司機(jī)對AI的駕駛不滿意,而學(xué)習(xí)接管后的駕駛方式,則能夠幫助AI在駕駛能力上越來越向老司機(jī)靠近。
艾銳提到,毫末之所以會選擇這種方案,也是因為受到最近很火的ChatGPT的啟發(fā)。
“在GPT-3之前,谷歌OpenMind已經(jīng)做了好幾年,但并沒有引起特別大的反響,這次ChatGPT突然火了,一個很重要的原因是把一個人類行為的反饋加進(jìn)來,有一個專門用人類行為進(jìn)行反饋的強(qiáng)化學(xué)習(xí)。”艾銳提到:“通過人類的這些反饋行為,AI可以分辨它應(yīng)該在什么時候給出什么質(zhì)量的回答,然后自動把一些低質(zhì)量的回答去掉,所以大家才覺得這個機(jī)器人比較像個正常人?!?/p>
03 輔助駕駛“城市爭奪戰(zhàn)”
從智算中心到五大模型,毫末總是會用更低的成本,更高的效率獲得、處理自動駕駛數(shù)據(jù)。
比如視頻監(jiān)督大模型和3D重建大模型都是為了降低數(shù)據(jù)獲取成本,提高數(shù)據(jù)獲取的效率。而多模態(tài)監(jiān)督大模型是為了減少數(shù)據(jù)處理中人工參與的部分,以此來降低成本。
能做到這一點,是因為毫末對于自動駕駛在場景落地的終極思考足夠深入。
除了特斯拉之外,2022年4月,毫末發(fā)布了中國首個大規(guī)模量產(chǎn)的城市輔助駕駛產(chǎn)品;9月初,小鵬城市輔助駕駛(NGP)開始在廣州推送,之后不久搭載華為自動駕駛的極狐汽車在深圳城區(qū)智能導(dǎo)航輔助(NCA)。而除了這些已經(jīng)發(fā)布、落地的,蔚來、理想、阿維塔,新勢力有一家算一家,都給城市輔助駕駛定下了時間。
可以說,2022年以來,城市輔助駕駛成為各大車企和自動駕駛企業(yè)爭奪最激烈的焦點。
但截至目前,城市輔助駕駛鋪開的速度都遠(yuǎn)沒有想象中的迅速。如今,支持小鵬NGP的城市仍然只有廣州一個,華為NAC也僅限于上海和深圳。
而發(fā)布快,落地慢的一個核心問題就在于,面對復(fù)雜的城市道路環(huán)境,城市輔助駕駛還有太多問題沒有解決。
比如高精地圖的問題,華為、小鵬的城市輔助駕駛之所以被限制在廣州、深圳和上海,很大一個原因在于只有這幾個城市的地圖通過了審核。
圖:行駛中的毫末城市輔助駕駛NOH
為了避免這種限制,毫末首先提出了“重感知”的自動駕駛方案。我們會發(fā)現(xiàn),在這次五大模型中的動態(tài)環(huán)境大模型就是為了讓自動駕駛車輛盡量地減少、甚至擺脫對地圖的依賴。
當(dāng)然,地圖的審核只是一方面,更多的問題還在于面對快速發(fā)展的中國城市,高精地圖的數(shù)據(jù)采集、鮮度保持都面需要高昂的成本和挑戰(zhàn)。
“我們發(fā)現(xiàn),北京每100公里道路的拓?fù)浣Y(jié)構(gòu)平均半年會變化5.06次,為了更好地解決復(fù)雜路口的問題,我們對地圖的依賴還要進(jìn)一步減弱?!卑J說。
除此之外,多模態(tài)互監(jiān)督大模型則是為了增加自動駕駛在城市道路上的通過性,讓自動駕駛能夠適應(yīng)更多的路況。
目前,城市輔助駕駛?cè)匀粚儆贚2的狀態(tài),而L2與L3、L4最大的區(qū)別在于,系統(tǒng)能否解決規(guī)定之外的場景,并保證安全。L2無法識別到運營規(guī)則之外的場景,L3能夠識別到,并保證能及時移交權(quán)限給人類駕駛員。L4則需要自動駕駛不僅能夠識別到運營規(guī)則之外的場景,而且大概率能夠安全通過,即使不能通過,也能安全停下來。
圖森未來首席科學(xué)家王乃巖這樣區(qū)別L2、L3和L4:“L2系統(tǒng)不需要處理失效,L3系統(tǒng)只需要檢測失效,L4系統(tǒng)則要妥善處理失效?!?/p>
本質(zhì)上,毫末和特斯拉的方案,都是為了增加自動駕駛的通過性,并保障安全,在逐步從L2向L3,甚至L4去做過度和準(zhǔn)備。
而這個過程,其實是依賴于重感知選擇??梢哉f,城市導(dǎo)航輔助駕駛進(jìn)入重感知階段,大規(guī)模量產(chǎn)交付的大幕才開始拉開。
而最后的人駕自監(jiān)督認(rèn)知大模型,解決其實是一個體驗的問題。
只有讓自動駕駛和人類的駕駛更像,才能給到用戶更好的乘車體驗,用戶也更愿意買單。
這里面其實存在一個自動駕駛落地的悖論,即車企和自動駕駛企業(yè)期望軟件和車輛盡快量產(chǎn)落地,好收回數(shù)據(jù)來持續(xù)迭代算法。但對于用戶來說,面對一個并不成熟,甚至只能限制使用的產(chǎn)品,額外溢價去進(jìn)行購買的意愿其實并不會很高。
所以,人駕自監(jiān)督認(rèn)知大模型本質(zhì)上是基于真實用戶的數(shù)據(jù)驅(qū)動,讓產(chǎn)品的體驗更好,讓消費者更愿意買單,從而推動整個自動駕駛系統(tǒng)的訓(xùn)練進(jìn)入良性循環(huán)。
而其背后,也預(yù)示著未來自動駕駛系統(tǒng)的比拼,將由具備功能轉(zhuǎn)變?yōu)樘嵘ㄇ谛?,系統(tǒng)迭代更加精準(zhǔn),迭代速度進(jìn)一步加快轉(zhuǎn)移。
顧維灝曾總結(jié)過一個自動駕駛能力發(fā)展曲線:f(x)=Z0+M(x)。
其中F代表產(chǎn)品力,Z0代表第一代產(chǎn)品的能力,M是一個把數(shù)據(jù)轉(zhuǎn)化為知識的函數(shù),包括:數(shù)據(jù)獲取、數(shù)據(jù)表達(dá)、數(shù)據(jù)存儲、數(shù)據(jù)傳輸、數(shù)據(jù)計算,數(shù)據(jù)驗證。
無論是智算中心還是大模型,本質(zhì)上都是在以更低的成本獲得更多M(x)的能力。而隨著一系列大模型的應(yīng)用,算法性能開始提升,訓(xùn)練成本隨之降低,未來自動駕駛可能搭載的車型價格必將進(jìn)一步下降,能夠覆蓋的城市也將進(jìn)一步拓寬,讓更多人能夠享受到自動駕駛的體驗。
截至2022年年底,毫末HPilot(城市輔助駕駛)已在包括魏牌、坦克、歐拉等近20款車型上搭載,用戶輔助駕駛行駛里程突破2500萬公里。2023年,毫末更是計劃陸續(xù)落地到國內(nèi)100個城市。
可以預(yù)見,普通人能夠用上的自動駕駛將會離我們越來越近。
從左至右:毫末智行CIO甄龍豹,毫末智行CEO顧維灝,毫末智行董事長張凱,毫末智行COO侯軍
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/quan/89201.html