視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

尋找“美學(xué)先鋒”

 

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

 

比較貼切的表述是,豆包的視頻模型這次的升級(jí),已然將國(guó)內(nèi)AI視頻的美學(xué)境界拔高了一個(gè)檔次,讓AI視頻也開(kāi)始變得更加實(shí)用了。

作者|斗斗

出品|產(chǎn)業(yè)家

國(guó)內(nèi)的文生視頻領(lǐng)域,也是吃上“細(xì)糠”了。

最近,火山引擎宣布豆包大模型正式發(fā)布視頻生成模型。至此,兩大短視頻平臺(tái)在文生視頻領(lǐng)域的較量正式開(kāi)啟。

產(chǎn)業(yè)家也是在第一時(shí)間提前感受了一把。先來(lái)幾個(gè)demo,給你們一個(gè)小小的震撼。

很明顯,這生成效果并不亞于Sora。

要知道,Sora在初期的宣傳和報(bào)道中被賦予了很高的期望。然而,至今為止,Sora尚未真正面向普通人群應(yīng)用,可以說(shuō)是實(shí)實(shí)在在的期貨。

為了更加客觀的展示豆包文生視頻模型的真實(shí)能力,產(chǎn)業(yè)家申請(qǐng)到即夢(mèng)AI內(nèi)測(cè)版的豆包視頻生成-Seaweed模型測(cè)試機(jī)會(huì),將其與國(guó)內(nèi)幾家主流文生視頻模型,進(jìn)行了同一提示詞下的生成效果對(duì)比,意外看到了豆包文生視頻模型的一些新亮點(diǎn)。

一、復(fù)雜指令下,足夠聽(tīng)話

眾所周知,拍攝電影時(shí),導(dǎo)演會(huì)指導(dǎo)演員進(jìn)行多個(gè)鏡頭的拍攝,然后剪輯成連貫的故事。如果一場(chǎng)戲的角色比較多,導(dǎo)演則需要統(tǒng)籌演員的站位、進(jìn)場(chǎng)時(shí)間以及他們之間的對(duì)話、動(dòng)作等。

只有這樣,拍攝出來(lái)的畫(huà)面,才會(huì)更加流暢。然而,對(duì)于當(dāng)下的文生視頻模型而言,大部分只能完成簡(jiǎn)單指令單一動(dòng)作。比如只能生成單一的鏡頭,無(wú)法切換,人物動(dòng)作也較為單一。

這樣生成出來(lái)的效果,其實(shí)和照片差不多。但是在豆包視頻生成模型的平臺(tái)上,有了新的突破。

提示詞:一群朋友在餐廳里聚餐,然后其中一人突然提出一個(gè)驚喜的計(jì)劃。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

豆包-Seaweed生成的視頻中,涉及諸多人物的動(dòng)作處理??梢园l(fā)現(xiàn)每個(gè)人物的動(dòng)作表達(dá)、面部表情都較為和諧,雖然一些細(xì)節(jié)有待優(yōu)化,但整體上已經(jīng)十分優(yōu)異??梢詫?shí)現(xiàn)多主體多動(dòng)作的畫(huà)面生成。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

海螺AI在整體畫(huà)面構(gòu)圖、和光的運(yùn)用方面一如既往的出色。不過(guò)畫(huà)面中的人物幾乎都出現(xiàn)了或多或少的畸變。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

可靈AI生成視頻,總體來(lái)看人的動(dòng)作較為簡(jiǎn)單,畫(huà)面也缺乏一些真實(shí)性。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

能看到,通義萬(wàn)相人物動(dòng)作較為簡(jiǎn)單,真實(shí)性、自然流暢性相對(duì)較弱。

總體來(lái)看,豆包視頻生成模型還是十分“聽(tīng)話”的,可以遵從復(fù)雜的復(fù)雜prompt,解鎖時(shí)序性多拍動(dòng)作指令與多個(gè)主體間的交互能力,指哪兒打哪兒,打開(kāi)想象力的大門(mén)。

二、推拉搖移跟

畫(huà)面依舊穩(wěn)定、一致

豆包文生視頻模型,還有一個(gè)比較特殊的點(diǎn),即它生成的視頻畫(huà)面整體的故事性很強(qiáng)。

提示詞:男子從明亮的室外走進(jìn)昏暗的室內(nèi),鏡頭切換要自然,光線變化要平滑。

可以發(fā)現(xiàn),在提示詞描述的文本之外,其對(duì)于周?chē)h(huán)境以及畫(huà)面的細(xì)節(jié)銜接和過(guò)渡很自然。這本身對(duì)應(yīng)的是模型強(qiáng)力的泛化能力。

例如從下面這組提示詞生成的畫(huà)面來(lái)看,豆包生成的視頻相對(duì)更有畫(huà)面感、更連貫。

提示詞:一名女子奔跑在陰暗潮濕的街道上

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

畫(huà)面中地面的石板路,路邊的房屋,以及奔跑的女人,在運(yùn)動(dòng)邏輯、燈光、流暢度上,都表現(xiàn)的十分優(yōu)異。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

可靈生成畫(huà)面中的女子的肢體發(fā)生了不規(guī)則的扭曲。

通義萬(wàn)相生成的視頻,整體很不錯(cuò),但在像地面這種細(xì)節(jié)的效果處理上,還需要進(jìn)一步強(qiáng)化。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

海螺AI有著通義萬(wàn)相一樣的問(wèn)題,仔細(xì)發(fā)現(xiàn)人物在奔跑時(shí),路面的生成效果并不穩(wěn)定,且人物和畫(huà)面之間的銜接度并不自然。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

從幾組生成的視頻不難看出,豆包文生視頻模型,在運(yùn)用鏡頭語(yǔ)言時(shí),畫(huà)面較為穩(wěn)定,可以保證人物、氛圍、環(huán)境的一致性,以及鏡頭的自然切換和運(yùn)鏡的自然。

比如基于豆包-Seaweed,我們可以身臨其境的感受肌肉男選美現(xiàn)場(chǎng)。

還可以穿越森林,看到遠(yuǎn)處壯觀的雪山。

可以發(fā)現(xiàn),無(wú)論鏡頭怎么推進(jìn)和切換,視頻中的畫(huà)面風(fēng)格、人物、燈光、服飾等都依舊有著一致性。

另外一個(gè)更加炸裂的點(diǎn),在于豆包視頻生成模型還能實(shí)現(xiàn)主體動(dòng)作和鏡頭的切換。這么說(shuō)可能有點(diǎn)難懂,簡(jiǎn)而言之就是當(dāng)畫(huà)面中的人物在運(yùn)動(dòng)過(guò)程中,可以實(shí)現(xiàn)鏡頭自然切換。

正如下方豆包文生視頻模型生成的視頻,先是出現(xiàn)一個(gè)跟鏡頭,繼而切換到以人為畫(huà)面主體的跟鏡頭。

提示詞:生成一段視頻,要求鏡頭跟隨主角在森林中探險(xiǎn),包括跳躍過(guò)溪流和攀爬巖石。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

具體來(lái)看,生成的視頻中,一個(gè)空境交代背景環(huán)境,切換到另一個(gè)以人物為畫(huà)面主體的推鏡頭。這種鏡頭切換手法,也叫“鏡頭匹配剪輯”。利用了兩個(gè)鏡頭中相似的動(dòng)作或運(yùn)動(dòng)方向來(lái)平滑地過(guò)渡,從而減少視覺(jué)上的跳躍感。

這種技巧需要精心的拍攝和編輯,以確保動(dòng)作的匹配和視覺(jué)的連貫性。

但是豆包的視頻生成模型,做到了。

對(duì)比可靈AI的生成結(jié)果來(lái)看,畫(huà)面中并未出現(xiàn)運(yùn)鏡和鏡頭切換的痕跡。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

海螺AI基于這個(gè)提示詞的生成效果其實(shí)各方面效果著實(shí)不錯(cuò),但是在場(chǎng)景切換時(shí),可以發(fā)現(xiàn),其第一個(gè)鏡頭切換的同時(shí),畫(huà)面左方出現(xiàn)了一個(gè)分身,走出了畫(huà)面,可見(jiàn)場(chǎng)景切換上還需要優(yōu)化。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

通義萬(wàn)相生成的效果,其實(shí)較為充分展現(xiàn)了其在語(yǔ)意理解上的優(yōu)勢(shì),尤其是“跳躍過(guò)溪流和攀爬巖石”實(shí)現(xiàn)了語(yǔ)義一致性,但未實(shí)現(xiàn)多個(gè)場(chǎng)景、鏡頭上的切換,且人物流暢度和自然度也有可以優(yōu)化的空間。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

不得不承認(rèn)的是,豆包視頻生成模型確實(shí)是有兩把刷子。

據(jù)官方介紹,這是因?yàn)槎拱曨l生成模型基于 DiT 架構(gòu),通過(guò)高效的DiT融合計(jì)算單元,讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力。其全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法攻克了多鏡頭切換的一致性難題,在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性。

這是豆包視頻生成模型獨(dú)樹(shù)一幟的技術(shù)創(chuàng)新。

三、大場(chǎng)景描繪

光影、鏡頭、構(gòu)圖美學(xué)拉滿

在文生視頻領(lǐng)域,大場(chǎng)景的生成,由于涉及的元素過(guò)度,往往是最容易出現(xiàn)問(wèn)題的。而經(jīng)過(guò)我們測(cè)試,豆包的文生視頻模型,也非常不錯(cuò)。

從下面豆包、可靈AI、通義萬(wàn)相以及海螺AI(MiniMax文生視頻平臺(tái))生成效果對(duì)比來(lái)看。豆包生成的視頻,不僅畫(huà)面構(gòu)圖、色調(diào)十分優(yōu)異,甚至把清晨湖面的霧氣也刻畫(huà)了出來(lái)。

不知道的,還以為是在看《動(dòng)物世界》。

提示詞:清晨,第一縷陽(yáng)光穿透薄霧,照亮了寧?kù)o的森林。一只小鹿在溪邊飲水,水波蕩漾,反射出金色的光輝。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

可靈AI在色調(diào)和構(gòu)圖上也可圈可點(diǎn),但細(xì)看鹿的動(dòng)作連貫性和真實(shí)性,就顯得有些不足。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

通義萬(wàn)相整體觀感也不錯(cuò),語(yǔ)義理解能力較強(qiáng),例如“反射出金色的光輝”這細(xì)節(jié),通義萬(wàn)相刻畫(huà)的最好,但有點(diǎn)缺乏真實(shí)性,更像是動(dòng)畫(huà)。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

海螺AI的畫(huà)面,在寫(xiě)實(shí)能力上較強(qiáng)。但由于角度和構(gòu)圖的問(wèn)題,整體來(lái)看,主體的靈活性較差,對(duì)文本的理解力不足,此外也缺乏一些美感。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

其實(shí),豆包視頻生成模型,經(jīng)過(guò)剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景打磨和持續(xù)迭代,在專(zhuān)業(yè)級(jí)光影布局和色彩調(diào)和積累了大量的數(shù)據(jù)和技術(shù)經(jīng)驗(yàn),畫(huà)面視覺(jué)呈現(xiàn)上面,可謂是實(shí)現(xiàn)了延續(xù),使得豆包處理這種大場(chǎng)景時(shí),既能刻畫(huà)細(xì)節(jié),又極具美感和真實(shí)感。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

圖示:各家視頻生成效果表現(xiàn)匯總

四、各種風(fēng)格、尺寸,都Hold的住

根據(jù)介紹能看到,豆包視頻生成模型采用的是Transformer深度學(xué)習(xí)模型的架構(gòu),并且進(jìn)行了優(yōu)化。這種架構(gòu),可以使模型更加強(qiáng)大,泛化能力也會(huì)更強(qiáng)。從風(fēng)格來(lái)看,其可以生成3D動(dòng)畫(huà)、2D動(dòng)畫(huà)、國(guó)畫(huà)、黑白、厚涂等多種不同的藝術(shù)風(fēng)格的視頻。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

此外,生成的視頻可以適應(yīng)不同設(shè)備的屏幕尺寸,包含1:1,3:4,4:3,16:9,9:16,21:9五個(gè)比例。無(wú)論是電影大屏幕、電視、電腦還是手機(jī),都能觀看。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

這些視頻目前可以被用于電商營(yíng)銷(xiāo)(如產(chǎn)品展示視頻)、動(dòng)畫(huà)教育(如教學(xué)動(dòng)畫(huà))、城市文旅(如旅游宣傳視頻)、微劇本(如短視頻故事)等多種商業(yè)用途。

視頻生成模型哪家強(qiáng)?豆包可靈通義海螺全面評(píng)測(cè)【AI評(píng)測(cè)】

除了商業(yè)用途,豆包還能幫助專(zhuān)業(yè)的視頻創(chuàng)作者和藝術(shù)家們?cè)趧?chuàng)作過(guò)程中節(jié)省時(shí)間,提供靈感,或者完成一些復(fù)雜的視頻制作任務(wù)。

寫(xiě)在最后?

最后對(duì)豆包的文生視頻進(jìn)行一個(gè)總結(jié)。

首先它是一個(gè)語(yǔ)義大師。它不僅聽(tīng)得懂你的指令,還能理解背后的深層含義,讓視頻里的每個(gè)動(dòng)作都恰到好處。

還是一個(gè)鏡頭切換高手。在切換鏡頭時(shí),它能保證故事的流暢和一致性,就像一個(gè)無(wú)縫連接的敘事大師。

更是一個(gè)動(dòng)態(tài)捕捉專(zhuān)家。無(wú)論是快速的動(dòng)作還是炫酷的鏡頭移動(dòng),它都能捕捉得生動(dòng)活潑,讓你仿佛置身于真實(shí)世界。

也可以是一個(gè)視覺(jué)藝術(shù)家:它創(chuàng)造的視頻不僅清晰逼真,還具有專(zhuān)業(yè)的色彩和光影,支持多種風(fēng)格和尺寸,讓你的視覺(jué)體驗(yàn)豐富多彩。

比較貼切的表述是,豆包的視頻模型這次的升級(jí),已然將國(guó)內(nèi)AI視頻的美學(xué)境界拔高了一個(gè)檔次,讓AI視頻也開(kāi)始變得更加實(shí)用了。

在文章的最后,想要強(qiáng)調(diào)的一點(diǎn)是,文中所提到的生成的視頻都是基于豆包視頻生成模型S 2.0的非會(huì)員版本。目前,具備更強(qiáng)多主體互動(dòng)、多鏡頭切換一致性能力的豆包視頻生成模型-PixelDance,正在緊鑼密鼓的內(nèi)測(cè)上線中,或許能給大家?guī)?lái)更多驚喜。

豆包,多少是有點(diǎn)不露鋒芒,悶聲干大事了。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/coo/124457.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-09-27 15:52
下一篇 2024-09-27 17:09

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論