周鴻祎：Sora意味著AGI的實(shí)現(xiàn)將從10年縮短到一兩年

2024-02-17 10:51:24發(fā)布來源：多知網(wǎng) 作者：哆啦

　　多知網(wǎng)2月17日消息，日前OpenAI發(fā)布文生視頻模型Sora的消息引發(fā)廣泛關(guān)注，Sora可以根據(jù)文本指令快速創(chuàng)建逼真的60秒視頻，同時(shí)保持視覺質(zhì)量并遵守用戶的提示。

屏幕快照 2024-02-17 上午10.19.15.png

　　(此為OpenAI官網(wǎng)展示的Sora根據(jù)提示詞生成的視頻，提示詞為：一個(gè)時(shí)尚的姑娘走在東京的街道上，背后街道霓虹閃爍。她穿著黑色皮夾克、紅色長裙和黑色靴子，戴著太陽鏡，涂著口紅，手上拿著一個(gè)黑色的包。走起路來的她渾身散發(fā)出一種自信。這條街道是濕潤的，因而也創(chuàng)造出一種彩色燈光的鏡像效果。周圍還有諸多行人。)

　　對(duì)此，360集團(tuán)創(chuàng)始人、董事長周鴻祎在社交媒體表示，Sora的誕生意味著AGI(通用人工智能)的實(shí)現(xiàn)可能從10年縮短至一兩年。“Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力，而是大模型對(duì)真實(shí)世界有了理解和模擬之后，會(huì)帶來新的成果和突破。”“有強(qiáng)勁的大模型做底子，基于對(duì)人類語言的理解，對(duì)人類知識(shí)和世界模型的了解，再疊加很多其他的技術(shù)，就可以創(chuàng)造各個(gè)領(lǐng)域的超級(jí)工具。”

　　以下為周鴻祎的觀點(diǎn)原文：

　　年前我在風(fēng)馬牛演講上分享了大模型十大趨勢預(yù)測，沒想到年還沒過完，就驗(yàn)證了好幾個(gè)，從Gemini、英偉達(dá)的Chat With RTX到OpenAl發(fā)布Sora，大家都覺得很炸裂。朋友問我怎么看 Sora，我談幾個(gè)觀點(diǎn)，總體來說就是我認(rèn)為 AGI 很快會(huì)實(shí)現(xiàn)，就這幾年的事兒了:

　　第一，科技競爭最終比拼的是讓人才密度和深厚積累。很多人說Sora的效果吊打 Pika和 Runway。這很正常，和創(chuàng)業(yè)者團(tuán)隊(duì)比，OpenAl 這種有核心技術(shù)的公司實(shí)力還是非常強(qiáng)勁的。有人認(rèn)為有了AI以后創(chuàng)業(yè)公司只需要做個(gè)體戶就行，實(shí)際今天再次證明這種想法是非?？尚Φ?。

　　第二，AI不一定那么快顛覆所有行業(yè)，但它能激發(fā)更多人的創(chuàng)作力。今天很多人談到Sora對(duì)影視工業(yè)的打擊，我倒不覺得是這樣，因?yàn)闄C(jī)器能生產(chǎn)一個(gè)好視頻，但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合，都需要人的創(chuàng)意，至少需要人給提示詞。一個(gè)視頻或者電影是由無數(shù)個(gè)60秒組成的。今天Sora可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆，但它不一定那么快擊敗TikTok，更可能成為TikTok的創(chuàng)作工具。

　　第三，我一直說國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5了，但實(shí)際上跟4.0比還有一年半的差距。而且我相信OpenAI手里應(yīng)該還藏著一些秘密武器，無論是GPT-5，還是機(jī)器自我學(xué)習(xí)自動(dòng)產(chǎn)生內(nèi)容，包括AIGC。奧特曼是個(gè)營銷大師，知道怎樣掌握節(jié)奏，他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大。

　　第四，大語言模型最牛的是，它不是填空機(jī)，而是能完整地理解這個(gè)世界的知識(shí)。這次很多人從技術(shù)上、從產(chǎn)品體驗(yàn)上分析Sora，強(qiáng)調(diào)它能輸出 60 秒視頻，保持多鏡頭的一致性，模擬自然世界和物理規(guī)律，實(shí)際這些都比較表象，最重要的是 Sora 的技術(shù)思路完全不一樣。因?yàn)檫@之前我們做視頻做圖用的都是Diffusion，你可以把視頻看成是多個(gè)真實(shí)圖片的組合，它并沒有真正掌握這個(gè)世界的知識(shí)。現(xiàn)在所有的文生圖、文生視頻都是在2D 平面上對(duì)圖形元素進(jìn)行操作，并沒有適用物理定律。但 Sora 產(chǎn)生的視頻里，它能像人一樣理解坦克是有巨大沖擊力的，坦克能撞毀汽車，而不會(huì)出現(xiàn)汽車撞毀坦克這樣的情況。所以我理解這次OpenAI利用它的大語言模型優(yōu)勢，把LLM和Diffusion結(jié)合起來訓(xùn)練，讓Sora實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力，這樣產(chǎn)生的視頻才是真實(shí)的，才能跳出2D的范圍模擬真實(shí)的物理世界。這都是大模型的功勞。

　　這也代表未來的方向。有強(qiáng)勁的大模型做底子，基于對(duì)人類語言的理解，對(duì)人類知識(shí)和世界模型的了解，再疊加很多其他的技術(shù)，就可以創(chuàng)造各個(gè)領(lǐng)域的超級(jí)工具，比如生物醫(yī)學(xué)、蛋白質(zhì)和基因研究，包括物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上，大模型都會(huì)發(fā)揮作用。這次Sora對(duì)物理世界的模擬，至少將會(huì)對(duì)機(jī)器人具身智能和自動(dòng)駕駛帶來巨大的影響。原來的自動(dòng)駕駛技術(shù)過度強(qiáng)調(diào)感知層面，而沒有工作在認(rèn)知層面。其實(shí)人在駕駛汽車的時(shí)候，很多判斷是基于對(duì)這個(gè)世界的理解。比如對(duì)方的速度怎么樣，能否發(fā)生碰撞，碰撞嚴(yán)重性如何，如果沒有對(duì)世界的理解就很難做出一個(gè)真正的無人駕駛。

　　所以這次Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力，它展現(xiàn)的是大模型對(duì)真實(shí)世界有了理解和模擬之后，會(huì)帶來新的成果和突破。

　　第五，OpenAl訓(xùn)練這個(gè)模型應(yīng)該會(huì)閱讀大量視頻。大模型加上Diffusion 技術(shù)需要對(duì)這個(gè)世界進(jìn)行進(jìn)一步了解，學(xué)習(xí)樣本就會(huì)以視頻和攝像頭捕捉到的畫面為主。一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和 TikTok的視頻都看一遍，對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí)，一幅圖勝過千言萬語，而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過一幅圖，這就離AGI真的不遠(yuǎn)了，不是10年20年的問題，可能一兩年很快就可以實(shí)現(xiàn)。

商學(xué)院

Open Talk

周鴻祎：Sora意味著AGI的實(shí)現(xiàn)將從10年縮短到一兩年

相關(guān)閱讀