李飛飛長(zhǎng)文拆解世界模型實(shí)現(xiàn)路徑

澎湃新聞?dòng)浾?賈利略

2026-06-04 21:34

來(lái)源：澎湃新聞

聽(tīng)全文

世界模型是自去年以來(lái)人工智能領(lǐng)域的熱詞，不僅備受追捧，且存在多種技術(shù)路線。作為世界模型的領(lǐng)軍人物之一，AI科學(xué)家李飛飛6月4日與其創(chuàng)辦的World Labs團(tuán)隊(duì)在美國(guó)內(nèi)容發(fā)布與訂閱平臺(tái)substack上發(fā)表題為《世界模型的功能分類：渲染器、模擬器、規(guī)劃器，以及連接它們的循環(huán)》的長(zhǎng)文，試圖厘清2025年以來(lái)“世界模型”這個(gè)概念在使用上的混亂。

李飛飛發(fā)表在Substack平臺(tái)上的內(nèi)容。來(lái)源：Substack

李飛飛表示，大語(yǔ)言模型讓機(jī)器學(xué)會(huì)了遣詞造句和邏輯推理，但物理世界運(yùn)行的底層邏輯完全不同。語(yǔ)言模型學(xué)的是文本的統(tǒng)計(jì)規(guī)律，而世界模型學(xué)的是時(shí)空的統(tǒng)計(jì)規(guī)律，比如光怎么照在物體上、東西受力后怎么運(yùn)動(dòng)。

正因?yàn)樯婕拔锢硎澜?，?jì)算機(jī)視覺(jué)、機(jī)器人、強(qiáng)化學(xué)習(xí)、生成式AI等領(lǐng)域都在用“世界模型”這個(gè)詞。一個(gè)能生成火焰視頻的模型、一個(gè)能憑空生成可玩游戲的語(yǔ)言模型、一個(gè)能精確模擬燃燒過(guò)程的物理引擎，現(xiàn)在都被叫作世界模型，但它們實(shí)際在做三件完全不同的事：渲染、模擬和規(guī)劃。其中，模擬器得到的公眾關(guān)注最少，卻可能是讓AI真正理解物理世界的基礎(chǔ)。

以下內(nèi)容來(lái)自李飛飛及World Labs團(tuán)隊(duì)（略有刪減）

世界模型的三種功能

第一種世界模型是渲染器。渲染器的任務(wù)是把信息轉(zhuǎn)成人眼能看的像素，唯一標(biāo)準(zhǔn)是視覺(jué)上夠不夠逼真。不管是輸入一句話就能生成航拍鏡頭的視頻模型，還是谷歌的Genie 3、World Labs自研的RTFM這種能根據(jù)用戶操作實(shí)時(shí)生成畫面的交互式系統(tǒng)，都屬于渲染器。這也是目前商業(yè)化跑得最快的方向，谷歌的相關(guān)模型已經(jīng)通過(guò)手機(jī)應(yīng)用送到了數(shù)億用戶手里。

但它只管“看起來(lái)像”，不管“實(shí)際上對(duì)不對(duì)”。例如AI生成的航拍鏡頭，從天上看城市建筑群完美無(wú)瑕；但如果想開(kāi)車在街道里穿行，建筑物的結(jié)構(gòu)就會(huì)暴露出各種錯(cuò)誤，瞬間崩塌。

因?yàn)檫@類模型根本不掌握三維空間結(jié)構(gòu)，只還原觀看者會(huì)看到的畫面，而非事物本身的真實(shí)構(gòu)造。這種輸出再精美，也沒(méi)法拿來(lái)做建筑設(shè)計(jì)，或者訓(xùn)練一個(gè)需要在真實(shí)環(huán)境里精準(zhǔn)操作的工業(yè)機(jī)器人。

第二種是模擬器，負(fù)責(zé)輸出精確的物理數(shù)據(jù)。模擬器輸出的不是畫面，而是幾何數(shù)據(jù)、材質(zhì)參數(shù)、碰撞網(wǎng)格這類信息。它追求的不是“看起來(lái)像”，而是結(jié)構(gòu)上的正確。因?yàn)閹缀我?jīng)得起測(cè)量，運(yùn)動(dòng)要遵守牛頓定律，動(dòng)力學(xué)行為要符合物理法則。

這類模型同時(shí)服務(wù)兩類用戶：一是建筑師、設(shè)計(jì)師、影視和游戲開(kāi)發(fā)者，他們需要的是超越視覺(jué)效果的精確數(shù)據(jù)；二是強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器、自動(dòng)駕駛算法這類程序，它們需要在一個(gè)安全的環(huán)境里大規(guī)模訓(xùn)練，復(fù)現(xiàn)那些現(xiàn)實(shí)中太危險(xiǎn)、太貴或者根本沒(méi)法實(shí)測(cè)的場(chǎng)景。

模擬器的市場(chǎng)很大，僅英偉達(dá)的Omniverse仿真平臺(tái)，瞄準(zhǔn)的工廠、倉(cāng)庫(kù)、數(shù)字孿生、供應(yīng)鏈等市場(chǎng)，潛在規(guī)模就超過(guò)萬(wàn)億美元。機(jī)器人訓(xùn)練、自動(dòng)駕駛測(cè)試、建筑可視化、工程設(shè)計(jì)、藥物發(fā)現(xiàn)，這些領(lǐng)域都需要某種形態(tài)的模擬技術(shù)。

但模擬器也最難做，挑戰(zhàn)來(lái)自好幾個(gè)方面。首先是數(shù)據(jù)。訓(xùn)練模擬器需要帶有精確幾何和物理標(biāo)注的三維數(shù)據(jù)，這種數(shù)據(jù)比訓(xùn)練渲染器用的互聯(lián)網(wǎng)視頻稀缺好幾個(gè)數(shù)量級(jí)。

其次是偏差。仿真環(huán)境里物體的運(yùn)動(dòng)規(guī)律跟真實(shí)世界之間一直存在差距，這就是業(yè)內(nèi)常說(shuō)的“仿真到現(xiàn)實(shí)的鴻溝”。生成式AI還給模擬帶來(lái)了新問(wèn)題，AI生成的幾何體可能看起來(lái)沒(méi)問(wèn)題，但暗藏著面重疊、尺寸不對(duì)等缺陷，一旦送進(jìn)物理引擎計(jì)算，結(jié)果就會(huì)變得荒謬。

此外還有計(jì)算成本的問(wèn)題。同時(shí)模擬剛體、柔體、流體和織物相互作用，計(jì)算成本比單一領(lǐng)域的模擬高出好幾個(gè)數(shù)量級(jí)。

World Labs的Marble是這個(gè)方向的第一步產(chǎn)品。它接受文字、圖片或草圖輸入，生成可以自由漫游的3D環(huán)境，同時(shí)輸出兩套數(shù)據(jù)：用于視覺(jué)呈現(xiàn)的高斯?jié)姙R數(shù)據(jù)和用于物理計(jì)算的碰撞網(wǎng)格。

第三種是規(guī)劃器，決定下一步要做什么。規(guī)劃器要解決的問(wèn)題很具體，即給定當(dāng)前的觀測(cè)和一個(gè)目標(biāo)，下一步該做什么動(dòng)作。那些機(jī)器人演示視頻，比如機(jī)械手抓取物品、機(jī)器狗越障，背后用的就是視覺(jué)－語(yǔ)言－動(dòng)作模型等規(guī)劃器技術(shù)。

幾乎所有演示都局限于嚴(yán)格受控的實(shí)驗(yàn)室環(huán)境，物體種類有限，任務(wù)周期很短。還沒(méi)有一個(gè)在真實(shí)部署所要求的復(fù)雜度、多樣性和長(zhǎng)周期中被驗(yàn)證過(guò)。從一段精彩的演示視頻，到能在廚房連續(xù)工作幾小時(shí)、在倉(cāng)庫(kù)處理幾萬(wàn)種不同貨品、在手術(shù)室穩(wěn)定配合醫(yī)生的機(jī)器人，中間還有很長(zhǎng)的路要走。

不過(guò)，資本已經(jīng)在大量投入。一大波資金充裕的初創(chuàng)團(tuán)隊(duì)在競(jìng)相研發(fā)通用規(guī)劃系統(tǒng)，頭部科技公司也在把規(guī)劃能力架設(shè)在仿真底座上。邏輯便是能自主規(guī)劃動(dòng)作的機(jī)器人，才是真正能落地干活的機(jī)器人。

三種技術(shù)正在走向融合

從功能邏輯上來(lái)看，渲染器與規(guī)劃器互為逆運(yùn)算。渲染器輸入動(dòng)作、輸出觀測(cè)畫面，規(guī)劃器輸入觀測(cè)、輸出動(dòng)作，補(bǔ)齊感知與行動(dòng)的閉環(huán)。而渲染器、模擬器和規(guī)劃器之間的關(guān)系，可以從一只杯子放在桌上的場(chǎng)景出發(fā)去理解。

一個(gè)模型如果真正理解了杯子的幾何形狀、材質(zhì)、受力之后會(huì)怎么滑動(dòng)或翻倒，那么從道理上講，它就應(yīng)該能從任何角度渲染這只杯子，能模擬杯子被推倒的完整物理過(guò)程，也能規(guī)劃一只機(jī)械手去拿起來(lái)。三種能力共享的是同一套對(duì)物理世界的底層理解。

反過(guò)來(lái)則不成立：一個(gè)只會(huì)渲染畫面的模型，未必能推斷杯子被推倒后的運(yùn)動(dòng)軌跡；一個(gè)只會(huì)規(guī)劃動(dòng)作的模型，也未必能還原杯子表面的光影變化。而模擬器所處理的幾何、物理和動(dòng)力學(xué)這層，恰好就是三者共享的那個(gè)底層。

正因如此，模擬器被認(rèn)為是連接渲染和規(guī)劃的樞紐。掌握了模擬，往上可以生成給人看的像素，往下可以生成給機(jī)器人執(zhí)行的動(dòng)作。

眼下這三條線已經(jīng)開(kāi)始合流。渲染器不再只是被動(dòng)輸出畫面，開(kāi)始能接收動(dòng)作指令并做出實(shí)時(shí)反饋；模擬器生成的世界變得更可控、可編輯；規(guī)劃器也在從簡(jiǎn)單的應(yīng)激反應(yīng)，轉(zhuǎn)向能夠?qū)徤魍评淼闹鲃?dòng)決策。

這三條路線各自已經(jīng)撐起百億美元級(jí)別的產(chǎn)業(yè)，現(xiàn)在正從獨(dú)立發(fā)展走向融合。邏輯上的終點(diǎn)是一個(gè)統(tǒng)一的世界基礎(chǔ)模型，能在“生成逼真畫面、產(chǎn)出物理上準(zhǔn)確的場(chǎng)景、規(guī)劃行動(dòng)序列”這三種模式之間靈活切換。

這背后是一個(gè)范式上的轉(zhuǎn)變。過(guò)去近十年，AI的核心敘事是預(yù)測(cè)下一個(gè)詞。但語(yǔ)言的邊界不是世界的邊界?？臻g智能學(xué)習(xí)的是光如何落在物體表面、物體如何遵守物理定律，這是完全不同的底層邏輯。

三者之間的邊界一旦消融，將共同重塑一個(gè)更宏大的命題：機(jī)器智能與它所棲居的物理世界之間的關(guān)系，這正是空間智能的漫長(zhǎng)征程。

責(zé)任編輯：喻琰

圖片編輯：朱偉輝

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#世界模型 #李飛飛