“AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力?!?/p>

周鴻祎:Sora意味著AGI的實(shí)現(xiàn)將從10年縮短到一兩年

2024-02-17 10:51:24發(fā)布     來(lái)源:多知網(wǎng)    作者:哆啦  

  多知網(wǎng)2月17日消息,日前OpenAI發(fā)布文生視頻模型Sora的消息引發(fā)廣泛關(guān)注,Sora可以根據(jù)文本指令快速創(chuàng)建逼真的60秒視頻,同時(shí)保持視覺(jué)質(zhì)量并遵守用戶(hù)的提示。

屏幕快照 2024-02-17 上午10.19.15.png

  (此為OpenAI官網(wǎng)展示的Sora根據(jù)提示詞生成的視頻,提示詞為:一個(gè)時(shí)尚的姑娘走在東京的街道上,背后街道霓虹閃爍。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,戴著太陽(yáng)鏡,涂著口紅,手上拿著一個(gè)黑色的包。走起路來(lái)的她渾身散發(fā)出一種自信。這條街道是濕潤(rùn)的,因而也創(chuàng)造出一種彩色燈光的鏡像效果。周?chē)€有諸多行人。)

  對(duì)此,360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎在社交媒體表示,Sora的誕生意味著AGI(通用人工智能)的實(shí)現(xiàn)可能從10年縮短至一兩年。“Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,而是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來(lái)新的成果和突破。”“有強(qiáng)勁的大模型做底子,基于對(duì)人類(lèi)語(yǔ)言的理解,對(duì)人類(lèi)知識(shí)和世界模型的了解,再疊加很多其他的技術(shù),就可以創(chuàng)造各個(gè)領(lǐng)域的超級(jí)工具。”

  以下為周鴻祎的觀點(diǎn)原文:

  年前我在風(fēng)馬牛演講上分享了大模型十大趨勢(shì)預(yù)測(cè),沒(méi)想到年還沒(méi)過(guò)完,就驗(yàn)證了好幾個(gè),從Gemini、英偉達(dá)的Chat With RTX到OpenAl發(fā)布Sora,大家都覺(jué)得很炸裂。朋友問(wèn)我怎么看 Sora,我談幾個(gè)觀點(diǎn),總體來(lái)說(shuō)就是我認(rèn)為 AGI 很快會(huì)實(shí)現(xiàn),就這幾年的事兒了:

  第一,科技競(jìng)爭(zhēng)最終比拼的是讓人才密度和深厚積累。很多人說(shuō)Sora的效果吊打 Pika和 Runway。這很正常,和創(chuàng)業(yè)者團(tuán)隊(duì)比,OpenAl 這種有核心技術(shù)的公司實(shí)力還是非常強(qiáng)勁的。有人認(rèn)為有了AI以后創(chuàng)業(yè)公司只需要做個(gè)體戶(hù)就行,實(shí)際今天再次證明這種想法是非??尚Φ?。

  第二,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。今天很多人談到Sora對(duì)影視工業(yè)的打擊,我倒不覺(jué)得是這樣,因?yàn)闄C(jī)器能生產(chǎn)一個(gè)好視頻,但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合,都需要人的創(chuàng)意,至少需要人給提示詞。一個(gè)視頻或者電影是由無(wú)數(shù)個(gè)60秒組成的。今天Sora可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來(lái)巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為T(mén)ikTok的創(chuàng)作工具。

  第三,我一直說(shuō)國(guó)內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5了,但實(shí)際上跟4.0比還有一年半的差距。而且我相信OpenAI手里應(yīng)該還藏著一些秘密武器,無(wú)論是GPT-5,還是機(jī)器自我學(xué)習(xí)自動(dòng)產(chǎn)生內(nèi)容,包括AIGC。奧特曼是個(gè)營(yíng)銷(xiāo)大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒(méi)有全拿出來(lái)。這樣看來(lái)中國(guó)跟美國(guó)的AI差距可能還在加大。

  第四,大語(yǔ)言模型最牛的是,它不是填空機(jī),而是能完整地理解這個(gè)世界的知識(shí)。這次很多人從技術(shù)上、從產(chǎn)品體驗(yàn)上分析Sora,強(qiáng)調(diào)它能輸出 60 秒視頻,保持多鏡頭的一致性,模擬自然世界和物理規(guī)律,實(shí)際這些都比較表象,最重要的是 Sora 的技術(shù)思路完全不一樣。因?yàn)檫@之前我們做視頻做圖用的都是Diffusion,你可以把視頻看成是多個(gè)真實(shí)圖片的組合,它并沒(méi)有真正掌握這個(gè)世界的知識(shí)?,F(xiàn)在所有的文生圖、文生視頻都是在2D 平面上對(duì)圖形元素進(jìn)行操作,并沒(méi)有適用物理定律。但 Sora 產(chǎn)生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車(chē),而不會(huì)出現(xiàn)汽車(chē)撞毀坦克這樣的情況。所以我理解這次OpenAI利用它的大語(yǔ)言模型優(yōu)勢(shì),把LLM和Diffusion結(jié)合起來(lái)訓(xùn)練,讓Sora實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實(shí)的,才能跳出2D的范圍模擬真實(shí)的物理世界。這都是大模型的功勞。

  這也代表未來(lái)的方向。有強(qiáng)勁的大模型做底子,基于對(duì)人類(lèi)語(yǔ)言的理解,對(duì)人類(lèi)知識(shí)和世界模型的了解,再疊加很多其他的技術(shù),就可以創(chuàng)造各個(gè)領(lǐng)域的超級(jí)工具,比如生物醫(yī)學(xué)、蛋白質(zhì)和基因研究,包括物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上,大模型都會(huì)發(fā)揮作用。這次Sora對(duì)物理世界的模擬,至少將會(huì)對(duì)機(jī)器人具身智能和自動(dòng)駕駛帶來(lái)巨大的影響。原來(lái)的自動(dòng)駕駛技術(shù)過(guò)度強(qiáng)調(diào)感知層面,而沒(méi)有工作在認(rèn)知層面。其實(shí)人在駕駛汽車(chē)的時(shí)候,很多判斷是基于對(duì)這個(gè)世界的理解。比如對(duì)方的速度怎么樣,能否發(fā)生碰撞,碰撞嚴(yán)重性如何,如果沒(méi)有對(duì)世界的理解就很難做出一個(gè)真正的無(wú)人駕駛。

  所以這次Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,它展現(xiàn)的是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來(lái)新的成果和突破。

  第五,OpenAl訓(xùn)練這個(gè)模型應(yīng)該會(huì)閱讀大量視頻。大模型加上Diffusion 技術(shù)需要對(duì)這個(gè)世界進(jìn)行進(jìn)一步了解,學(xué)習(xí)樣本就會(huì)以視頻和攝像頭捕捉到的畫(huà)面為主。一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和 TikTok的視頻都看一遍,對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過(guò)文字學(xué)習(xí),一幅圖勝過(guò)千言萬(wàn)語(yǔ),而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過(guò)一幅圖,這就離AGI真的不遠(yuǎn)了,不是10年20年的問(wèn)題,可能一兩年很快就可以實(shí)現(xiàn)。