落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海文|郝 ?? 鑫

“AGI是一場(chǎng)馬拉松”面壁智能聯(lián)合創(chuàng)始人、CEO,知乎CTO李大海道。

作為一個(gè)馬拉松的愛(ài)好者,李大海深知在大模型的競(jìng)爭(zhēng)中,一時(shí)的“快”只是暫時(shí)的,更重要的是把賽程中的每一步都跑下來(lái),跑踏實(shí)。

回顧面壁智能的發(fā)展歷程也確實(shí)如此,2018年脫胎于清華NLP實(shí)驗(yàn)室,發(fā)布了全球首個(gè)知識(shí)指導(dǎo)的預(yù)訓(xùn)練模型ERNIE;2020年成為悟道大模型的首發(fā)主力陣容;2022年成立OpenBMB開(kāi)源社區(qū);2022年面壁智能開(kāi)始公司化運(yùn)作;2023年把Agent作為主要發(fā)力方向,相繼發(fā)布了AgentVerse、ChatDev、XAgent等智能企業(yè)框架。

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

從大模型Infra層到Agent應(yīng)用層,從科學(xué)實(shí)驗(yàn)室到商業(yè)化落地,夯實(shí)走的過(guò)程中,逐漸演化為了2023年的沖刺能力。去年,就在國(guó)內(nèi)外還在研究Agent定義的時(shí)間點(diǎn),面壁智能已經(jīng)率先在行業(yè)內(nèi)提出了群體智能的框架和Agent商業(yè)化落地的方案。

2024年,大模型應(yīng)用新篇章即將開(kāi)啟之際,面壁智能又出乎意料地發(fā)布了端側(cè)大模型和面壁MiniCPM。

對(duì)標(biāo)國(guó)外Mistral-7B,核心就是以最小的模型規(guī)模,實(shí)現(xiàn)最強(qiáng)的模型效果,這項(xiàng)能力被李大??偨Y(jié)為“以小搏大”、“以大搏聚”,這也是面壁智能的核心能力之一。

從各項(xiàng)結(jié)果來(lái)看,小鋼炮MiniCPM用2B的規(guī)模、1T的精選數(shù)據(jù),從性能指標(biāo)上打敗了Mistral-7B、微軟明星模型Phi-2、蒸餾GPT-4、13BLLaMA等一眾主流模型。并且將模型部署的成本徹底打了下來(lái),在側(cè)端,1元=1700000tokens,僅是MiniCPM在云端的1%。

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

從大模型到Agent,再到側(cè)端模型,總體來(lái)看面壁智能的布局,可以發(fā)現(xiàn)其已經(jīng)在為大模型應(yīng)用的落地和爆發(fā)做準(zhǔn)備。大模型提供底座能力支撐,Agent做為腳手架打通應(yīng)用的“最后一公里”,最后在側(cè)端進(jìn)行部署和運(yùn)行。

正如李大海所言,“側(cè)端模型能夠?yàn)榇竽P秃虯gent服務(wù),因?yàn)槎烁频膮f(xié)同能夠更好得讓?xiě)?yīng)用落地。端側(cè)模型是大模型技術(shù)的積累,在如何把模型小型化,讓云上的模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果方面,是一脈相承的關(guān)系?!?/p>

2024年已經(jīng)緩緩拉開(kāi)了帷幕,大模型戰(zhàn)事瞬息萬(wàn)變。光錐智能對(duì)話(huà)面壁智能聯(lián)合創(chuàng)始人、CEO,知乎CTO李大海和其團(tuán)隊(duì),深入探究面壁智能核心競(jìng)爭(zhēng)力的修煉秘密,同時(shí)展望2024年的大模型行業(yè)格局。

核心觀(guān)點(diǎn)如下:

1、“以小搏大”、“以大搏聚”,用2B的模型做出了比2B模型更大的模型效果。

2、“沙盒實(shí)驗(yàn)”就是在一個(gè)模擬仿真的環(huán)境里面,用更小的成本和代價(jià)去搞清楚規(guī)律。

3、端側(cè)大模型不能只看端側(cè),未來(lái)一定是云端協(xié)同。

4、Agent私有化部署成本有兩塊,一是模型廠(chǎng)商對(duì)模型使用收費(fèi),一是客戶(hù)部署完以后的推理成本。

5、面壁智能的差異化競(jìng)爭(zhēng)策略可以總結(jié)為,高效和一體化,即高效推理和模型+Agent一體化。

6、CV是一個(gè)單點(diǎn)技術(shù)的突破,而大模型是在各個(gè)技術(shù)點(diǎn)上探索和升級(jí),還遠(yuǎn)遠(yuǎn)未達(dá)到技術(shù)成熟階段。

以下為對(duì)話(huà)實(shí)錄:

Q:為什么選擇在2024年開(kāi)端時(shí)候,發(fā)布MiniCPM側(cè)端大模型?出于怎樣的考慮?

A:在MiniCPM的背后,是做了上千次的沙盒實(shí)驗(yàn),在這過(guò)程中我們掌握了“以小搏大”、“以大搏聚”的能力。正如大家所見(jiàn),我們用2B的模型做出了比2B模型更大的模型效果。這個(gè)核心能力,我們本來(lái)打算運(yùn)用到未來(lái)新的模型研發(fā)上。但我們發(fā)現(xiàn),現(xiàn)階段,“以小搏大”、“以大搏聚”的能力,運(yùn)用到端側(cè)上能夠產(chǎn)生突破性的進(jìn)展,所以這才促使我們把模型趕緊做出來(lái)。真正做出MiniCPM時(shí)間不到一周,根本上得益于過(guò)去上千次的實(shí)驗(yàn)積累,而這些工作面壁智能在2023年就已經(jīng)完成,所以MiniCPM可以看作一個(gè)厚積薄發(fā)的結(jié)果。

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

Q:您剛才提到“沙盒實(shí)驗(yàn)”在面壁智能模型訓(xùn)練中起到了重要的作用,可以展開(kāi)闡釋一下嗎?

A:用形象的比喻來(lái)解釋?zhuān)澈袑?shí)驗(yàn)就像就像航空里面的“風(fēng)洞實(shí)驗(yàn)”。

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

“沙盒實(shí)驗(yàn)”就是在一個(gè)模擬仿真的環(huán)境里面,用更小的成本和代價(jià)去搞清楚規(guī)律。我們希望通過(guò)這種方式,來(lái)搞清楚用什么訓(xùn)練方式能夠得到何種表現(xiàn)規(guī)模的模型,這就是“沙盒實(shí)驗(yàn)”整體的目的和方法論。

我們發(fā)布MiniCPM之前做了上千次的模型沙盒實(shí)驗(yàn),探索出了最優(yōu)的配制,所有尺寸的模型可以通過(guò)最優(yōu)的超參數(shù)的配制,保證訓(xùn)練任意大小的模型取得最好的效果。

通過(guò)上千次實(shí)驗(yàn),最終可以幫助我們?nèi)W(xué)習(xí),從特別小的模型,遠(yuǎn)比MiniCPM還小的模型到千億甚至比千億還大的模型的訓(xùn)練控制方法,以便最后得到更好的模型訓(xùn)練效果,從這個(gè)角度來(lái)看,不管是端側(cè)模型還是千億級(jí)模型,甚至更大的模型,面壁智能的“沙盒實(shí)驗(yàn)”過(guò)程都能被覆蓋。

Q:MiniCPM僅用了1T的數(shù)據(jù)量就完成了模型訓(xùn)練效果,聯(lián)系到您知乎CTO的身份,數(shù)據(jù)的來(lái)源與知乎有多大的關(guān)系?

A:我們精選了1T的數(shù)據(jù),篩選的一個(gè)重要標(biāo)準(zhǔn)就是要展現(xiàn)數(shù)據(jù)的多樣性。知乎的高質(zhì)量數(shù)據(jù)在模型訓(xùn)練過(guò)程中起到十分重要的作用,具體的方法就是,以非常細(xì)的顆粒度去把數(shù)據(jù)打散后,做算法的自動(dòng)選取。

Q:此次面壁開(kāi)源了MiniCPM全家桶,作為創(chuàng)業(yè)公司,面壁智能如何看待開(kāi)源這件事?這回為什么選擇開(kāi)源側(cè)端大模型?

A:面壁智能在2022年就成立了開(kāi)源社區(qū)。面壁智能一直是開(kāi)源的受益者,這也是團(tuán)隊(duì)能在A(yíng)I領(lǐng)域走得比較快的原因。所以從我們團(tuán)隊(duì)成立之初,就秉承開(kāi)源、開(kāi)放的特點(diǎn),人人為我,我為人人,能為整個(gè)行業(yè)做貢獻(xiàn),我覺(jué)得還是非常重要的。

另一方面,開(kāi)源對(duì)建立影響力非常重要,有了影響力隨之能帶來(lái)資本的注意力、人才的注意力以及2B的客戶(hù)注意力,這些其實(shí)都是建立商業(yè)邏輯的基礎(chǔ)。

談到側(cè)端大模型的開(kāi)發(fā),雖然相對(duì)云端的大模型來(lái)說(shuō),是一個(gè)小模型,但實(shí)際上開(kāi)發(fā)仍是一個(gè)特別復(fù)雜和龐大的任務(wù)。這里面涉及的技術(shù)難點(diǎn)有兩個(gè),一個(gè)是除了要能做出更小的模型,還得能釋放出更大的性能;此外,模型推理、硬件推理性能、各層面的適配等等,都存在很多技術(shù)難點(diǎn)。面壁智能選擇開(kāi)源,也是希望能和手機(jī)廠(chǎng)商、APP開(kāi)發(fā)者和領(lǐng)域?qū)<液献?,促成技術(shù)創(chuàng)新,達(dá)成更高效的解決方案,推動(dòng)整個(gè)生態(tài)系統(tǒng)的繁榮。

Q:市場(chǎng)上很多手機(jī)廠(chǎng)商相繼推出了各自的大模型,那未來(lái)面壁智能和這些手機(jī)廠(chǎng)商的關(guān)系是怎樣的?大模型公司又如何切入到手機(jī)端側(cè)市場(chǎng)中去呢?

A:端側(cè)大模型不能只看端側(cè),未來(lái)一定是云端協(xié)同。云上的模型跟端側(cè)的模型需要聯(lián)動(dòng),這就意味著由同一廠(chǎng)商來(lái)做聯(lián)動(dòng)會(huì)更高效。以這個(gè)邏輯去推演,最終云側(cè)和端側(cè)的模型最好都是由專(zhuān)業(yè)的模型開(kāi)發(fā)者去做。整體來(lái)看,這個(gè)事持續(xù)投入的門(mén)檻其實(shí)還蠻高的,所以我們不是特別建議手機(jī)廠(chǎng)商去持續(xù)的做這個(gè)事情,我覺(jué)得每個(gè)公司都有自己的商業(yè)考量。

Q:Agent在落地的過(guò)程中會(huì)遇到很多敏感的隱私數(shù)據(jù),面壁智能在與企業(yè)合作中是如何解決數(shù)據(jù)痛點(diǎn)的?成本規(guī)模大概是多少?

A:在A(yíng)gent落地方面,我們其實(shí)也在考慮這個(gè)問(wèn)題,對(duì)于數(shù)據(jù)敏感型的客戶(hù),我們會(huì)做私有化部署方案來(lái)解決他們的需求。

私有化部署層面的成本主要分為兩方面。一個(gè)是模型廠(chǎng)商對(duì)模型使用收費(fèi),另一個(gè)是客戶(hù)真正部署完以后的推理成本。正是基于此,當(dāng)特別大的模型完成私有化部署后,對(duì)客戶(hù)來(lái)說(shuō),其推理成本就會(huì)變成一個(gè)比較大的成本障礙。在我們看來(lái),不同的模型尺寸,有它所具備的能力和適配的場(chǎng)景,比如7B的模型大小,對(duì)標(biāo)GPT-4的效果。

Q:在整個(gè)大模型市場(chǎng)中,跟頭部大模型公司相比,面壁智能差異化競(jìng)爭(zhēng)策略是什么?

面壁智能角色定位為商業(yè)公司,NLP實(shí)驗(yàn)室定位為科研,由于我們?cè)诋a(chǎn)學(xué)研結(jié)合上有非常深厚的優(yōu)勢(shì),所以面壁智能在模型Infra和Agent層面都有相應(yīng)的積累,未來(lái)還是會(huì)繼續(xù)擴(kuò)大我們?cè)诩夹g(shù)上的優(yōu)勢(shì)。同時(shí),也通過(guò)開(kāi)源去團(tuán)結(jié)更多的伙伴,一言以蔽之,面壁智能的差異化競(jìng)爭(zhēng)策略可以總結(jié)為,高效和一體化,即高效推理和模型+Agent一體化。

Q:目前,面壁智能的主要目標(biāo)客戶(hù)是什么?主要收入來(lái)源有哪些?是如何思考商業(yè)化的?

A:因?yàn)槲覀僀端產(chǎn)品才剛剛上線(xiàn),所以目前商業(yè)收入來(lái)源主要來(lái)自B端客戶(hù)?,F(xiàn)在標(biāo)桿客戶(hù)有招商銀行、西門(mén)子、中國(guó)易車(chē)網(wǎng)等一些比較知名的客戶(hù),集中在金融和營(yíng)銷(xiāo)等領(lǐng)域。我們跟易車(chē)剛剛達(dá)成了深度的戰(zhàn)略合作,跟義烏小商品市場(chǎng)集團(tuán)也達(dá)成了很重要的戰(zhàn)略化合作態(tài),這些都是在營(yíng)銷(xiāo)領(lǐng)域的一些重要成果。目前,端側(cè)大模型的商業(yè)化模式還尚在探索之中。

Q:新的一年,面壁智能的戰(zhàn)略規(guī)劃是什么?2B和2C方向是如何選擇的?作為公司的CEO,你的關(guān)注點(diǎn)有哪些?

A:整個(gè)2024年,面壁智能依然會(huì)堅(jiān)持大模型+Agent的雙引擎戰(zhàn)略。

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

一方面,要繼續(xù)推進(jìn)提升我們的模型能力,在端側(cè)已經(jīng)發(fā)布了端側(cè)模型,同時(shí)今年仍然會(huì)去繼續(xù)提升基座模型能力,挑戰(zhàn)GPT-4的能力;另一方面,要用Agent來(lái)解決大模型落地最后一公里的問(wèn)題,提升落地效率,在此方向上,我們甚至制定了一個(gè)比較激進(jìn)的收入目標(biāo)。因?yàn)槲覀兿嘈?,大模型真的能夠去給客戶(hù)帶來(lái)效率和效益的提升,也比較看好整個(gè)大模型市場(chǎng)。

在2B和2C方向選擇上,其實(shí)并沒(méi)有明確的劃分,因?yàn)樵谖覀兛磥?lái)都是大模型+Agent的上層應(yīng)用,所以我們并沒(méi)有把重點(diǎn)放在具體的哪個(gè)應(yīng)用方向上。在現(xiàn)階段,前端的應(yīng)用落地比較聚焦,在C端方向,我們會(huì)特別關(guān)注情感陪伴這個(gè)方向,也就是給用戶(hù)提供情緒價(jià)值。

落地端側(cè),2B模型如何以小搏大?|對(duì)話(huà)面壁CEO李大海

比如,我們開(kāi)發(fā)的“心間”應(yīng)用上線(xiàn)了測(cè)試版本,里面有個(gè)特色功能叫做磕CP,內(nèi)置了李白杜甫和清華北大的CP,用戶(hù)也可以制造自己的CP,背后是用大模型做的推理。

從我自己關(guān)心的事情上來(lái)說(shuō),因?yàn)槊姹谥悄茉谀P陀?xùn)練方面的積累已經(jīng)非常深厚了,所以對(duì)我們模型能力提升還是蠻有信心的。對(duì)我們而言,這個(gè)方向的確定性比較高。未來(lái),我個(gè)人其實(shí)會(huì)更關(guān)心模型落地,也就是應(yīng)用的問(wèn)題。

Q:行業(yè)內(nèi)都在談?wù)?024年是模型轉(zhuǎn)應(yīng)用的一年,您如何看待這一趨勢(shì)?以您的角度來(lái)看,未來(lái)市場(chǎng)競(jìng)爭(zhēng)中是否還需要這么多的大模型廠(chǎng)商?最終什么樣的模型廠(chǎng)商能夠跑出來(lái)呢?

A:整個(gè)24年,行業(yè)都會(huì)更重視應(yīng)用的落地,這是個(gè)大趨勢(shì)。目前模型已經(jīng)達(dá)到基本可用的狀態(tài),在這樣的基礎(chǔ)上去發(fā)展應(yīng)用,我覺(jué)得是一個(gè)順理成章的趨勢(shì)。我們發(fā)布的“心間”,就是面壁智能在應(yīng)用層積極布局的表現(xiàn)。

但我們認(rèn)為,AGI就像馬拉松比賽一樣,是需要長(zhǎng)期努力的目標(biāo),需要各個(gè)公司在技術(shù)上持續(xù)的積累。

從廠(chǎng)商分布來(lái)看,從2024年開(kāi)始,大模型廠(chǎng)商會(huì)開(kāi)始出現(xiàn)分層。我自己判斷,分層出現(xiàn)的原因不是市場(chǎng)所導(dǎo)致的,更多還是因?yàn)榧夹g(shù),隨著大模型的發(fā)展,技術(shù)的門(mén)檻會(huì)越來(lái)越高。

在市場(chǎng)層面,我認(rèn)為大模型是一個(gè)行業(yè)級(jí)別的機(jī)會(huì)。我們看到,無(wú)論是做大模型基座,還是做應(yīng)用,都有非常大的空間。因?yàn)槭袌?chǎng)足夠大,所以很多公司可能都有機(jī)會(huì)能生存下來(lái),最終能活下來(lái)的公司,一定是技術(shù)、產(chǎn)品和市場(chǎng)能力都很強(qiáng)的選手。

Q:就像您所說(shuō)“AGI是一場(chǎng)馬拉松”,這樣的發(fā)展特性,對(duì)未來(lái)的行業(yè)格局變化有怎樣的影響?

A:這回給行業(yè)格局洗牌帶來(lái)許多不確定性,以我的觀(guān)察,我覺(jué)得這不是2024年、2025年,甚至2026年能夠分出勝負(fù)的事情。

回首過(guò)去CV發(fā)展的情況,會(huì)發(fā)現(xiàn)AI 1.0的競(jìng)爭(zhēng)格局也不是在頭兩年確定的,即使到了第三個(gè)年頭還是在發(fā)生非常大的變化,所以這啟示我們要以長(zhǎng)遠(yuǎn)的眼光看待行業(yè)的變化。當(dāng)然,跟AI 1.0時(shí)代相比,2.0智能時(shí)代最大的差別在于,CV是一個(gè)單點(diǎn)技術(shù)的突破,而大模型是在各個(gè)技術(shù)點(diǎn)上探索和升級(jí),還遠(yuǎn)遠(yuǎn)未達(dá)到技術(shù)成熟階段。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/113458.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-02-06 16:27
下一篇 2024-02-06 18:16

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論
特別提示:登陸使用搜索/分類(lèi)/最新內(nèi)容推送等功能?>>