避免重復(fù)造輪子，前提是輪子已經(jīng)造得很好。

大模型有多卷？

現(xiàn)在國內(nèi)已經(jīng)有180個(gè)以上生成式大模型，科技大廠、互聯(lián)網(wǎng)大廠紛紛入局，既有百度、浪潮信息、阿里、騰訊等一眾巨頭，也有專攻AI的訊飛、商湯等垂直領(lǐng)域小巨頭，以及“日日新”的創(chuàng)業(yè)企業(yè)。

今天A廠商發(fā)布大模型，各種參數(shù)對(duì)比下來堪稱最強(qiáng)，第二天B廠商發(fā)布下來，又刷新了各種記錄。最強(qiáng)、最大、強(qiáng)快，有可能只保持一天。這說明什么？基礎(chǔ)大模型還有很大的進(jìn)化空間。

11月27日，算力龍頭企業(yè)浪潮信息發(fā)布了完全開源且可免費(fèi)商用的源2.0基礎(chǔ)大模型，包含1026億、518億、21億不同參數(shù)規(guī)模，這也是國內(nèi)首個(gè)千億參數(shù)、全面開源的大模型。

作為一家做算力基礎(chǔ)設(shè)施的公司，為什么如此努力地卷大模型？浪潮信息高級(jí)副總裁、AI&HPC總經(jīng)理劉軍表示：最終用戶感受到的大模型能力是其在應(yīng)用層面能力的表現(xiàn)，這些核心能力的本質(zhì)，是由基礎(chǔ)大模型能力所決定的。在他看來，今天模型基礎(chǔ)能力與客戶預(yù)期之間仍有較大的差距，這也是浪潮信息不斷探索的原因所在。

GPT4不是天花板，百模大戰(zhàn)探索“更優(yōu)解”

GPT3.5的發(fā)布，算得上是AI產(chǎn)業(yè)發(fā)展的一個(gè)重要拐點(diǎn)，很多人將之稱為AI的“蘋果時(shí)刻”。今年3月，OpenAI發(fā)布了GPT4，GPT4的能力比GPT3.5有一個(gè)巨大的提升，GPT4是當(dāng)前業(yè)界最先進(jìn)的技術(shù)大模型。

但是，即便是當(dāng)前公認(rèn)最先進(jìn)的大模型，GPT4其實(shí)也還有很多挑戰(zhàn)沒有解決。

比如算力短缺，一直是OpenAI在其迅速崛起過程中不得不面對(duì)的一個(gè)棘手問題。當(dāng)用戶海量涌入的時(shí)候，OpenAI已經(jīng)出現(xiàn)過幾次崩潰的情況。為此，OpenAI采用了不同級(jí)別的會(huì)員收費(fèi)，對(duì)用戶進(jìn)行分層。并且還一度還采用停止注冊(cè)的方式來限制用戶的使用量，緩解算力壓力。

再比如AI幻覺。今天的GPT4給出的答案并不完全正確，有時(shí)候會(huì)有明顯的事實(shí)錯(cuò)誤，有時(shí)候也會(huì)一本正經(jīng)地胡說八道。這里面也有很多原因，比如數(shù)據(jù)來源的問題，再比如不同法律體系、不同價(jià)值觀下的分歧等等。

GPT4遇到的挑戰(zhàn)還有很多，這些都是整個(gè)行業(yè)正在面臨的挑戰(zhàn)。今天，看上去大模型這個(gè)領(lǐng)域非常卷，但本質(zhì)上還是處于產(chǎn)業(yè)初期。一方面，國產(chǎn)基礎(chǔ)大模型的能力和 Open AI 之間存在較大的差距，另一方面即使是最先進(jìn)的GPT4，現(xiàn)在的能力還處于初級(jí)階段，很多問題依舊在探索開發(fā)。

通用大模型基座作為通用人工智能的核心基礎(chǔ)設(shè)施，被嵌入到智能助手、機(jī)器翻譯、自動(dòng)化客服等場(chǎng)景中，從而實(shí)現(xiàn)更加個(gè)性化、智能化、自適應(yīng)的服務(wù)和應(yīng)用。IDC預(yù)測(cè)，到2026年，全球AI計(jì)算市場(chǎng)規(guī)模將增長到346.6億美元，生成式AI計(jì)算占比從22年4.2%增長到 31.7%。

通用大模型是大模型產(chǎn)業(yè)的地基，地基的深度和強(qiáng)度決定大廈的高度。大模型和應(yīng)用之間的關(guān)系，如果用上學(xué)和工作來比喻：大模型是12年小初高階段，垂直行業(yè)大模型是大學(xué)分專業(yè)學(xué)習(xí)的階段，應(yīng)用則是進(jìn)入到工作崗位開始為企業(yè)、社會(huì)創(chuàng)造價(jià)值的階段。

今年掀起百模大戰(zhàn)之后，業(yè)界有一種觀點(diǎn)認(rèn)為不應(yīng)該浪費(fèi)資源重復(fù)造輪子。但前提是輪子已經(jīng)比較成熟，如果今天的輪子還不好用，就值得更多的企業(yè)投入進(jìn)來，探索各種不同的路徑來把輪子造好。所以，最近業(yè)內(nèi)正在形成新的共識(shí)：在產(chǎn)業(yè)初期，適度的泡沫還是必要的。中國大模型的“百花齊放”是利好的，很大程度它可以激活創(chuàng)新，促進(jìn)產(chǎn)業(yè)生態(tài)的繁榮發(fā)展。

浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華

“確實(shí)在當(dāng)前大模型百花齊放的態(tài)勢(shì)下，必然大家會(huì)有不同的實(shí)現(xiàn)路徑，也會(huì)有理念沖突，這都是特別正常的事情。因?yàn)楫吘勾蠹叶荚谔剿?，都沒有出來一條非常有效的路徑。” 浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華表示。

浪潮信息為什么也要進(jìn)來一起卷大模型？浪潮信息左手有做大模型的伙伴，右手有做垂直行業(yè)應(yīng)用的伙伴，可以說既懂底層技術(shù)又有上層應(yīng)用經(jīng)驗(yàn)。更重要的是作為一家算力基礎(chǔ)設(shè)施公司，在產(chǎn)業(yè)初期，浪潮信息在算力上的探索會(huì)給整個(gè)產(chǎn)業(yè)帶來很大的推動(dòng)力，比如算力資源的高效性、算力集群的可擴(kuò)展性、算力系統(tǒng)的可持續(xù)性，這些都能讓算力更充分地釋放出來，這對(duì)整個(gè)產(chǎn)業(yè)都有極大的價(jià)值。

浪潮信息做大模型主要是兩個(gè)維度的探索：一是探索路徑、方法，比如有什么架構(gòu)可以節(jié)省算力，什么模型可以讓數(shù)據(jù)更精準(zhǔn)等等。二是探索邊界，今天大模型已經(jīng)能做很多事，但隨著算力、算法、數(shù)據(jù)的迭代，新的能力也不斷被挖掘出來，大模型的上限到底在哪里？

看上去已經(jīng)很激烈的百模大戰(zhàn)，只是生成式AI的起點(diǎn)。通用大模型是一項(xiàng)異常復(fù)雜的系統(tǒng)工程，需從系統(tǒng)層面達(dá)以創(chuàng)新，從算力效率、線性擴(kuò)展、長效穩(wěn)定等多個(gè)方面進(jìn)行探索。今天，沒有哪個(gè)企業(yè)有絕對(duì)的優(yōu)勢(shì)，算力、算法、數(shù)據(jù)三要素都有很大的進(jìn)化空間，此外還需要更好的應(yīng)用來落地大模型的價(jià)值。也就是說，大模型還要卷，同時(shí)應(yīng)用也要卷，打通一個(gè)能持續(xù)跑起來的飛輪生態(tài)，百模大戰(zhàn)的效果才真正實(shí)現(xiàn)了。

基因、智商、情商，打造“三高”大模型

作為最早布局大模型的企業(yè)之一，浪潮信息早在2019年就推出了中文AI巨量模型“源1.0”，是當(dāng)時(shí)最大參數(shù)的大模型。“源”大模型的數(shù)據(jù)集和清洗經(jīng)驗(yàn)和幫助國內(nèi)不少AI團(tuán)隊(duì)提升了其大模型的性能表現(xiàn)，比如助力網(wǎng)易伏羲中文預(yù)訓(xùn)練大模型“玉言”登頂中文語言理解權(quán)威測(cè)評(píng)基準(zhǔn)CLUE分類任務(wù)榜單，并在多項(xiàng)任務(wù)上超過人類水平。過去的兩年，源1.0大模型的智能力與To B領(lǐng)域復(fù)雜的服務(wù)場(chǎng)景進(jìn)行深度融合，構(gòu)建專家級(jí)數(shù)據(jù)中心智能客服大腦，榮獲哈佛商業(yè)評(píng)論鼎革獎(jiǎng)。

但是，源1.0開放出來之后，在客戶的應(yīng)用場(chǎng)景中遇到了很多具體的問題。所有這些問題，都是浪潮信息升級(jí)源2.0的發(fā)出點(diǎn)。此外，GPT4是一個(gè)封閉的系統(tǒng)，就是一個(gè)黑盒子，大家不知道它是怎么做的。那么，中國的大模型也需要更多的創(chuàng)新，才有機(jī)會(huì)去超越GPT4。

簡(jiǎn)單來講，浪潮信息源2.0在數(shù)據(jù)、算力、算法三個(gè)維度向前邁進(jìn)了一大步。在懂懂看來，數(shù)據(jù)決定大模型的基因，算力是決定大模型的智商，算法決定大模型的情商，所以這是“更聰明“的大模型的核心三要素，源2.0就是一個(gè)“三高”大模型。

先說說數(shù)據(jù)。

“在有限的算力資源上，訓(xùn)練數(shù)據(jù)的質(zhì)量，直接決定了模型的性能，這個(gè)性能主要是指模型的智能化水平在任務(wù)上的表現(xiàn)?！?吳韶華強(qiáng)調(diào)，數(shù)據(jù)體量很重要，但是數(shù)據(jù)質(zhì)量更重要。在源2.0中，浪潮信息的思路就是進(jìn)一步提純數(shù)據(jù)，讓模型能基于更高水平的數(shù)據(jù)來訓(xùn)練。

具體而言，源2.0通過使用中英文書籍、百科、論文等資料，結(jié)合高效的數(shù)據(jù)清洗流程，為大模型訓(xùn)練提供了高質(zhì)量的學(xué)科專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。除此之外，為了更高效地獲得高質(zhì)量的代碼數(shù)據(jù)集，浪潮信息提出基于主題詞或Q&A問答對(duì)自動(dòng)生成編程題目和答案的數(shù)據(jù)集生成流程，提高了數(shù)據(jù)集問題的多樣性和隨機(jī)性；同時(shí)提出基于單元測(cè)試的數(shù)據(jù)清洗方法，可以更加高效地獲取高質(zhì)量數(shù)據(jù)集，提高訓(xùn)練效率。

“我們這套數(shù)據(jù)構(gòu)建方法，能夠比較有效的解決互聯(lián)網(wǎng)海量數(shù)據(jù)清洗問題。我們后續(xù)的計(jì)劃是用我們的模型產(chǎn)生更高質(zhì)量的數(shù)據(jù)，然后持續(xù)迭代，來提升我們大模型的能力?！眲④姳硎尽?/p>

接下來講一下算法。

傳統(tǒng)Transformer結(jié)構(gòu)被業(yè)界廣泛采用，但是對(duì)中文的識(shí)別并不是最佳模式。源2.0有一個(gè)很大的創(chuàng)新，就是把a(bǔ)ttention（自注意力）這一層，采用了自研的新型LFA（Localized Filtering-based Attention）結(jié)構(gòu)，中文名字是局部注意力過濾增強(qiáng)機(jī)制?？紤]到自然語言輸入的局部依賴性，LFA通過先強(qiáng)化相鄰詞之間的關(guān)聯(lián)性，然后再計(jì)算全局關(guān)聯(lián)性的方法，有效地解決了傳統(tǒng)Transformer結(jié)構(gòu)中對(duì)所有輸入的文字一視同仁，不能考慮自然語言相鄰詞之間的強(qiáng)語義關(guān)聯(lián)的問題，能夠更好地處理自然語言的語序排列問題，對(duì)于中文語境的關(guān)聯(lián)語義理解更準(zhǔn)確、更人性，提升了模型的自然語言表達(dá)能力，進(jìn)而提升了模型精度。

“我們發(fā)現(xiàn)在源2.0這個(gè)階段，依然是處于研究方向的初級(jí)階段，后面還有很多的可能性。圍繞著這個(gè)方向，我們團(tuán)隊(duì)也會(huì)繼續(xù)研究下去，來嘗試進(jìn)一步的得到更好的模型結(jié)構(gòu)?！?吳韶華表示。

最后再來說說計(jì)算。

全球算力緊缺是一個(gè)短期內(nèi)很難緩解的痛點(diǎn)，所以計(jì)算的調(diào)優(yōu)，是整個(gè)產(chǎn)業(yè)都迫切需要突破的瓶頸，而這也恰好正是浪潮信息的優(yōu)勢(shì)所在。

為了在各類計(jì)算設(shè)備上都有一個(gè)非常好的計(jì)算性能表現(xiàn)，源2.0中提出了非均勻流水并行+優(yōu)化器參數(shù)并行（ZeRO）+數(shù)據(jù)并行的策略。相較于經(jīng)典的三維并且方法，創(chuàng)新算法有更好的適用性，顯著降低了經(jīng)典大模型訓(xùn)練過程中對(duì)于AI芯片之間的通訊帶寬需求，同時(shí)還能獲得非常高的性能表現(xiàn)。

大模型算力系統(tǒng)并不是算力的簡(jiǎn)單堆積，其需要解決低時(shí)延海量數(shù)據(jù)交換的挑戰(zhàn)；需要解決多臺(tái)機(jī)器均衡計(jì)算、避免冷熱不均、消弭算力堵點(diǎn)的問題；需要解決在幾個(gè)月漫長的計(jì)算過程中，當(dāng)單一硬件出現(xiàn)故障時(shí)，訓(xùn)練中斷、梯度爆炸、算法重新走一遍等等問題。所以，源2.0也不是浪潮信息的最終“答卷”。盡管源2.0已經(jīng)擁有非常出色的表現(xiàn)，但是在劉軍看來，這只是開了個(gè)頭，未來還有很多值得挖掘的方向，浪潮信息會(huì)不斷創(chuàng)新升級(jí)。

卷大模型還是卷應(yīng)用？都要從開源中找答案

是應(yīng)該卷模型還是卷應(yīng)用？業(yè)界是有不同觀點(diǎn)的。

很多做大模型的企業(yè)，都主張應(yīng)該卷應(yīng)用?，F(xiàn)在百模酣戰(zhàn)，是不是可以向前邁一步，開始卷應(yīng)用了？

百度李彥宏在今年3月份就提出下一步的方向是大模型的應(yīng)用，隨后在10月份的百度大會(huì)上一口氣發(fā)布了幾十個(gè)原生應(yīng)用。從做大模型的企業(yè)來看，一定是在自己的模型上卷應(yīng)用，讓模型不斷進(jìn)化，讓應(yīng)用價(jià)值不斷落地，這是沒有錯(cuò)的。

浪潮信息高級(jí)副總裁、AI&HPC總經(jīng)理劉軍

那為什么還有那么多企業(yè)參與到百模大戰(zhàn)當(dāng)中呢？中國的大模型與GPT4還有或多或少的差距，即使是GPT4也還沒有進(jìn)化到天花板，也依然有很大的提升空間。此外，劉軍認(rèn)為未來的生成式AI是多元化生態(tài)，每個(gè)基礎(chǔ)大模型可能會(huì)有不同的擅長領(lǐng)域。

所以，放到整個(gè)產(chǎn)業(yè)的視角來看，大模型和應(yīng)用都要卷：一方面需要繼續(xù)提升基礎(chǔ)大模型的能力，因?yàn)橹挥谢A(chǔ)大模型做好了才能更好地實(shí)現(xiàn)行業(yè)落地；另一方面，需要在應(yīng)用落地方面繼續(xù)創(chuàng)新。只有大模型側(cè)和應(yīng)用側(cè)同時(shí)發(fā)力，雙輪驅(qū)動(dòng)，生成式AI的發(fā)展甚至是中國的AI產(chǎn)業(yè)才會(huì)有更好的前景。

雙輪驅(qū)動(dòng)，怎么卷才能最高效？答案是：開源。

在移動(dòng)互聯(lián)網(wǎng)時(shí)代，有一個(gè)封閉的iOS系統(tǒng)，還有一個(gè)開源的安卓系統(tǒng)。蘋果很強(qiáng)大，自己就支撐了一個(gè)生態(tài)。但安卓更強(qiáng)大，開放的安卓系統(tǒng)吸引更多的手機(jī)廠商，更多的開發(fā)者，也衍生出一個(gè)更龐大的生態(tài)。

今年上半年，Meta的LLaMA開源，給業(yè)界開了一個(gè)好頭。正是看到開源的能量，國內(nèi)的大模型也紛紛加入開源的陣營，包括阿里云、百川、智譜AI、清華EKG等等。這一次源2.0也徹底開源，并且這是行業(yè)首個(gè)千億開源大模型。

“完全免費(fèi)、完全可商用、不需要授權(quán)、最徹底的開源?！眳巧厝A表示，浪潮信息希望通過開源真正的能夠普惠產(chǎn)業(yè)用戶，個(gè)人開發(fā)者，讓大家能夠通過源2.0構(gòu)建更強(qiáng)的AI系統(tǒng)。

劉軍強(qiáng)調(diào)，開源最本質(zhì)的好處是讓整個(gè)產(chǎn)業(yè)能夠協(xié)同發(fā)展，“回顧過去所有成功的開源項(xiàng)目，都是因?yàn)檎麄€(gè)社區(qū)共同貢獻(xiàn)的結(jié)果?！?/p>

首先，開源可以建立一個(gè)高效的反饋閉環(huán)，通過應(yīng)用反哺大模型，加速大模型的進(jìn)化。

浪潮信息希望通過開源吸引更多的開發(fā)者進(jìn)來，同時(shí)發(fā)起了大模型共訓(xùn)計(jì)劃，開發(fā)者可以在源2.0上自由地開發(fā)，如果遇到問題可以反饋給浪潮信息，盡快地提升模型的能力。

其次，開源可以更廣泛地賦能行業(yè)、賦能企業(yè)，加速大模型價(jià)值的落地。

優(yōu)秀開源模型是吸引開發(fā)者、繁榮生態(tài)的關(guān)鍵因素。以開放的心態(tài)開源，給開發(fā)者更強(qiáng)有力的支持，他們可以直接調(diào)用API、中文數(shù)據(jù)集、模型訓(xùn)練代碼等，大大降低開發(fā)者將大模型能力適配不同場(chǎng)景的難度，加速應(yīng)用的落地，讓企業(yè)盡快吃到AI時(shí)代的紅利。

所以，無論是卷大模型還是卷應(yīng)用，開源都是一條光明大道。

【結(jié)束語】

在諸多大模型中，浪潮信息也卷了進(jìn)來。與其它大模型不同之處，就是其在計(jì)算方面的優(yōu)勢(shì)，通過算力的產(chǎn)品和技術(shù)的創(chuàng)新推動(dòng)數(shù)字化、智能化的發(fā)展。

源從1.0進(jìn)化到2.0，給產(chǎn)業(yè)打個(gè)樣，通過智算的力量去訓(xùn)練生成式AI大模型，浪潮信息的很多探索成果，可以賦能加速AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的進(jìn)步。

本文來自投稿，不代表增長黑客立場(chǎng)，如若轉(zhuǎn)載，請(qǐng)注明出處：http://allfloridahomeinspectors.com/quan/110110.html

做算力的浪潮信息為什么還要再卷大模型？

GPT4不是天花板，百模大戰(zhàn)探索“更優(yōu)解”

基因、智商、情商，打造“三高”大模型

卷大模型還是卷應(yīng)用？都要從開源中找答案

【結(jié)束語】

關(guān)于作者

懂懂筆記創(chuàng)作者

發(fā)表回復(fù)

做算力的浪潮信息為什么還要再卷大模型？

GPT4不是天花板，百模大戰(zhàn)探索“更優(yōu)解”

基因、智商、情商，打造“三高”大模型

卷大模型還是卷應(yīng)用？都要從開源中找答案

【結(jié)束語】

關(guān)于作者

懂懂筆記創(chuàng)作者

增長黑客Growthhk.cn薦讀更多>>

搶占20億消費(fèi)者心智，“本地化”成齋月營銷的制勝關(guān)鍵

這次“疫情”春節(jié)創(chuàng)下諸多首例，抖音快手要取代BAT么？

洪天峰：如何通過績效管理來進(jìn)行人才的“選育用留”？

島主：從0到1制作產(chǎn)品增長戰(zhàn)略期

搞定頭部達(dá)人、種草、品牌故事的一些看法

海底撈扭虧為盈，“餐飲神話”還能吹多久？

發(fā)表回復(fù)

做算力的浪潮信息為什么還要再卷大模型？

GPT4不是天花板，百模大戰(zhàn)探索“更優(yōu)解”

基因、智商、情商，打造“三高”大模型

卷大模型還是卷應(yīng)用？都要從開源中找答案

搶占20億消費(fèi)者心智，“本地化”成齋月營銷的制勝關(guān)鍵

這次“疫情”春節(jié)創(chuàng)下諸多首例，抖音快手要取代BAT么？

搞定頭部達(dá)人、種草、品牌故事的一些看法

海底撈扭虧為盈，“餐飲神話”還能吹多久？