- +1
李飛飛長(zhǎng)文拆解世界模型實(shí)現(xiàn)路徑
世界模型是自去年以來(lái)人工智能領(lǐng)域的熱詞,不僅備受追捧,且存在多種技術(shù)路線。作為世界模型的領(lǐng)軍人物之一,AI科學(xué)家李飛飛6月4日與其創(chuàng)辦的World Labs團(tuán)隊(duì)在美國(guó)內(nèi)容發(fā)布與訂閱平臺(tái)substack上發(fā)表題為《世界模型的功能分類:渲染器、模擬器、規(guī)劃器,以及連接它們的循環(huán)》的長(zhǎng)文,試圖厘清2025年以來(lái)“世界模型”這個(gè)概念在使用上的混亂。

李飛飛發(fā)表在Substack平臺(tái)上的內(nèi)容。來(lái)源:Substack
李飛飛表示,大語(yǔ)言模型讓機(jī)器學(xué)會(huì)了遣詞造句和邏輯推理,但物理世界運(yùn)行的底層邏輯完全不同。語(yǔ)言模型學(xué)的是文本的統(tǒng)計(jì)規(guī)律,而世界模型學(xué)的是時(shí)空的統(tǒng)計(jì)規(guī)律,比如光怎么照在物體上、東西受力后怎么運(yùn)動(dòng)。
正因?yàn)樯婕拔锢硎澜?,?jì)算機(jī)視覺(jué)、機(jī)器人、強(qiáng)化學(xué)習(xí)、生成式AI等領(lǐng)域都在用“世界模型”這個(gè)詞。一個(gè)能生成火焰視頻的模型、一個(gè)能憑空生成可玩游戲的語(yǔ)言模型、一個(gè)能精確模擬燃燒過(guò)程的物理引擎,現(xiàn)在都被叫作世界模型,但它們實(shí)際在做三件完全不同的事:渲染、模擬和規(guī)劃。其中,模擬器得到的公眾關(guān)注最少,卻可能是讓AI真正理解物理世界的基礎(chǔ)。
以下內(nèi)容來(lái)自李飛飛及World Labs團(tuán)隊(duì)(略有刪減)
世界模型的三種功能
第一種世界模型是渲染器。渲染器的任務(wù)是把信息轉(zhuǎn)成人眼能看的像素,唯一標(biāo)準(zhǔn)是視覺(jué)上夠不夠逼真。不管是輸入一句話就能生成航拍鏡頭的視頻模型,還是谷歌的Genie 3、World Labs自研的RTFM這種能根據(jù)用戶操作實(shí)時(shí)生成畫面的交互式系統(tǒng),都屬于渲染器。這也是目前商業(yè)化跑得最快的方向,谷歌的相關(guān)模型已經(jīng)通過(guò)手機(jī)應(yīng)用送到了數(shù)億用戶手里。
但它只管“看起來(lái)像”,不管“實(shí)際上對(duì)不對(duì)”。例如AI生成的航拍鏡頭,從天上看城市建筑群完美無(wú)瑕;但如果想開(kāi)車在街道里穿行,建筑物的結(jié)構(gòu)就會(huì)暴露出各種錯(cuò)誤,瞬間崩塌。
因?yàn)檫@類模型根本不掌握三維空間結(jié)構(gòu),只還原觀看者會(huì)看到的畫面,而非事物本身的真實(shí)構(gòu)造。這種輸出再精美,也沒(méi)法拿來(lái)做建筑設(shè)計(jì),或者訓(xùn)練一個(gè)需要在真實(shí)環(huán)境里精準(zhǔn)操作的工業(yè)機(jī)器人。
第二種是模擬器,負(fù)責(zé)輸出精確的物理數(shù)據(jù)。模擬器輸出的不是畫面,而是幾何數(shù)據(jù)、材質(zhì)參數(shù)、碰撞網(wǎng)格這類信息。它追求的不是“看起來(lái)像”,而是結(jié)構(gòu)上的正確。因?yàn)閹缀我?jīng)得起測(cè)量,運(yùn)動(dòng)要遵守牛頓定律,動(dòng)力學(xué)行為要符合物理法則。
這類模型同時(shí)服務(wù)兩類用戶:一是建筑師、設(shè)計(jì)師、影視和游戲開(kāi)發(fā)者,他們需要的是超越視覺(jué)效果的精確數(shù)據(jù);二是強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器、自動(dòng)駕駛算法這類程序,它們需要在一個(gè)安全的環(huán)境里大規(guī)模訓(xùn)練,復(fù)現(xiàn)那些現(xiàn)實(shí)中太危險(xiǎn)、太貴或者根本沒(méi)法實(shí)測(cè)的場(chǎng)景。
模擬器的市場(chǎng)很大,僅英偉達(dá)的Omniverse仿真平臺(tái),瞄準(zhǔn)的工廠、倉(cāng)庫(kù)、數(shù)字孿生、供應(yīng)鏈等市場(chǎng),潛在規(guī)模就超過(guò)萬(wàn)億美元。機(jī)器人訓(xùn)練、自動(dòng)駕駛測(cè)試、建筑可視化、工程設(shè)計(jì)、藥物發(fā)現(xiàn),這些領(lǐng)域都需要某種形態(tài)的模擬技術(shù)。
但模擬器也最難做,挑戰(zhàn)來(lái)自好幾個(gè)方面。首先是數(shù)據(jù)。訓(xùn)練模擬器需要帶有精確幾何和物理標(biāo)注的三維數(shù)據(jù),這種數(shù)據(jù)比訓(xùn)練渲染器用的互聯(lián)網(wǎng)視頻稀缺好幾個(gè)數(shù)量級(jí)。
其次是偏差。仿真環(huán)境里物體的運(yùn)動(dòng)規(guī)律跟真實(shí)世界之間一直存在差距,這就是業(yè)內(nèi)常說(shuō)的“仿真到現(xiàn)實(shí)的鴻溝”。生成式AI還給模擬帶來(lái)了新問(wèn)題,AI生成的幾何體可能看起來(lái)沒(méi)問(wèn)題,但暗藏著面重疊、尺寸不對(duì)等缺陷,一旦送進(jìn)物理引擎計(jì)算,結(jié)果就會(huì)變得荒謬。
此外還有計(jì)算成本的問(wèn)題。同時(shí)模擬剛體、柔體、流體和織物相互作用,計(jì)算成本比單一領(lǐng)域的模擬高出好幾個(gè)數(shù)量級(jí)。
World Labs的Marble是這個(gè)方向的第一步產(chǎn)品。它接受文字、圖片或草圖輸入,生成可以自由漫游的3D環(huán)境,同時(shí)輸出兩套數(shù)據(jù):用于視覺(jué)呈現(xiàn)的高斯?jié)姙R數(shù)據(jù)和用于物理計(jì)算的碰撞網(wǎng)格。
第三種是規(guī)劃器,決定下一步要做什么。規(guī)劃器要解決的問(wèn)題很具體,即給定當(dāng)前的觀測(cè)和一個(gè)目標(biāo),下一步該做什么動(dòng)作。那些機(jī)器人演示視頻,比如機(jī)械手抓取物品、機(jī)器狗越障,背后用的就是視覺(jué)-語(yǔ)言-動(dòng)作模型等規(guī)劃器技術(shù)。
幾乎所有演示都局限于嚴(yán)格受控的實(shí)驗(yàn)室環(huán)境,物體種類有限,任務(wù)周期很短。還沒(méi)有一個(gè)在真實(shí)部署所要求的復(fù)雜度、多樣性和長(zhǎng)周期中被驗(yàn)證過(guò)。從一段精彩的演示視頻,到能在廚房連續(xù)工作幾小時(shí)、在倉(cāng)庫(kù)處理幾萬(wàn)種不同貨品、在手術(shù)室穩(wěn)定配合醫(yī)生的機(jī)器人,中間還有很長(zhǎng)的路要走。
不過(guò),資本已經(jīng)在大量投入。一大波資金充裕的初創(chuàng)團(tuán)隊(duì)在競(jìng)相研發(fā)通用規(guī)劃系統(tǒng),頭部科技公司也在把規(guī)劃能力架設(shè)在仿真底座上。邏輯便是能自主規(guī)劃動(dòng)作的機(jī)器人,才是真正能落地干活的機(jī)器人。
三種技術(shù)正在走向融合
從功能邏輯上來(lái)看,渲染器與規(guī)劃器互為逆運(yùn)算。渲染器輸入動(dòng)作、輸出觀測(cè)畫面,規(guī)劃器輸入觀測(cè)、輸出動(dòng)作,補(bǔ)齊感知與行動(dòng)的閉環(huán)。而渲染器、模擬器和規(guī)劃器之間的關(guān)系,可以從一只杯子放在桌上的場(chǎng)景出發(fā)去理解。
一個(gè)模型如果真正理解了杯子的幾何形狀、材質(zhì)、受力之后會(huì)怎么滑動(dòng)或翻倒,那么從道理上講,它就應(yīng)該能從任何角度渲染這只杯子,能模擬杯子被推倒的完整物理過(guò)程,也能規(guī)劃一只機(jī)械手去拿起來(lái)。三種能力共享的是同一套對(duì)物理世界的底層理解。
反過(guò)來(lái)則不成立:一個(gè)只會(huì)渲染畫面的模型,未必能推斷杯子被推倒后的運(yùn)動(dòng)軌跡;一個(gè)只會(huì)規(guī)劃動(dòng)作的模型,也未必能還原杯子表面的光影變化。而模擬器所處理的幾何、物理和動(dòng)力學(xué)這層,恰好就是三者共享的那個(gè)底層。
正因如此,模擬器被認(rèn)為是連接渲染和規(guī)劃的樞紐。掌握了模擬,往上可以生成給人看的像素,往下可以生成給機(jī)器人執(zhí)行的動(dòng)作。
眼下這三條線已經(jīng)開(kāi)始合流。渲染器不再只是被動(dòng)輸出畫面,開(kāi)始能接收動(dòng)作指令并做出實(shí)時(shí)反饋;模擬器生成的世界變得更可控、可編輯;規(guī)劃器也在從簡(jiǎn)單的應(yīng)激反應(yīng),轉(zhuǎn)向能夠?qū)徤魍评淼闹鲃?dòng)決策。
這三條路線各自已經(jīng)撐起百億美元級(jí)別的產(chǎn)業(yè),現(xiàn)在正從獨(dú)立發(fā)展走向融合。邏輯上的終點(diǎn)是一個(gè)統(tǒng)一的世界基礎(chǔ)模型,能在“生成逼真畫面、產(chǎn)出物理上準(zhǔn)確的場(chǎng)景、規(guī)劃行動(dòng)序列”這三種模式之間靈活切換。
這背后是一個(gè)范式上的轉(zhuǎn)變。過(guò)去近十年,AI的核心敘事是預(yù)測(cè)下一個(gè)詞。但語(yǔ)言的邊界不是世界的邊界??臻g智能學(xué)習(xí)的是光如何落在物體表面、物體如何遵守物理定律,這是完全不同的底層邏輯。
三者之間的邊界一旦消融,將共同重塑一個(gè)更宏大的命題:機(jī)器智能與它所棲居的物理世界之間的關(guān)系,這正是空間智能的漫長(zhǎng)征程。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




