• <p id="sefxy"><li id="sefxy"><sup id="sefxy"></sup></li></p>
    <legend id="sefxy"></legend>
    <cite id="sefxy"></cite>
    <nobr id="sefxy"></nobr>
    <pre id="sefxy"><samp id="sefxy"></samp></pre>

        <cite id="sefxy"><track id="sefxy"></track></cite>
        动漫精品无码h在线观看,免费一级成人毛片,国产日产韩国精品视频,,中文字幕AⅤ人妻一区二区
        關于ZAKER Skills 合作
        鈦媒體 1小時前

        李飛飛的世界模型宣言

        文 | 硅基星芒

        " 世界即所發生的一切。"

        1921 年,路德維希 · 維特根斯坦在《邏輯哲學論》中寫下了這句名言。一個世紀后,這句話被 AI 領軍人物之一李飛飛引用,成為了最新一篇技術博客的開篇。

        在深度學習的版圖里,人們近三年已經習慣了 AI 對語言的降維打擊,始于 ChatGPT 賦予了機器遠超人類的表達、編程和推理能力。

        然而,數字奇跡的背后,一個盲區往往會被忽視:機器能談論世界,卻對世界的物理本質一無所知。李飛飛發布的這篇博客,像是一次冷靜的降溫。

        在生成式 AI 已經成為全球必不可少的工具的今天,行業內部對 " 世界模型 " 的定義正在變得越來越混亂。無論是視頻生成還是具身智能,各家公司都在爭奪這一概念的解釋權。

        在李飛飛發布這篇博客之后,不少人都認為她在試圖重新搶回 " 世界模型 " 的定義權。但恰恰相反,我想,李飛飛真正想要做的,是借此向人們發出一次宣言:世界并非由語言構成,而是由嚴密的物理空間和時間規律構成。

        機器要想真正踏入人類的物理世界,就必須擺脫文本統計的舒適區,轉而理解光影的折射、物體的慣性和碰撞的邏輯。這不僅是技術上的范式轉移,也是 AI 邁向具身智能的必經之路。

        人們需要一套分類法

        必須承認的是,在 AI 的詞典里," 世界模型 " 已經淪為一個萬能代詞,任何涉及到生成圖像和模擬環境的項目似乎都能與它聯系起來。而這種模糊性,正是源自于人們對 " 世界 " 定義的多維需求。

        在一項技術剛剛起步時,自然不會有統一的法條來將它束縛在一個明確的界限之內。" 世界模型 " 定義的這種混亂,在歷史上也并不罕見。古希臘哲學家在爭論世界的本質是水、火亦或是不可分割的原子時,其實他們就是在為自己的推理找基石。

        AI 領域現在遇到的也是同樣的問題:當一個視頻生成模型產出的效果在視覺上極其逼真,但在物理法則上完全不可能存在時,人們該如何定義它?李飛飛的博客中提及了一個古老而穩健的定義基礎:部分可觀測馬爾可夫決策過程(POMDP)。

        這也是強化學習機制的核心公理,它揭示了一個智能體與物理世界交互的永恒閉環:智能體采取行動(Action),導致世界狀態(State)發生改變。然而,智能體沒有上帝視角,只能通過觀測(Observation)來構建對現實的局部感知。

        所謂世界模型,本質上就是機器為了在這個閉環中生存,而在其 " 大腦 " 中構建的關于世界的抽象模型。如果這個閉環的某一環沒有被明確定義,那么所謂的世界模型就仍然是像素的盲目堆疊。

        構建智能的三大支柱

        這個閉環聽起來很簡單,每一環的功能都易于理解。然而,若是仔細分析,內部都有無數個定義模糊不清的細節。為了解釋其中的混亂,李飛飛拆解出了世界模型的三個核心組件,它們既是技術上的分類,也是 AI 通往具身智能的三大支柱。

        1. 渲染器(Renderer)

        渲染器的核心邏輯就是視覺上的合理性。它的輸出即為像素,致力于讓畫面在人類眼中顯得自然、連貫、美觀。

        這也是目前商業化最成熟的領域。像是我們熟知的視頻生成模型 OpenAI 的 Sora 和字節跳動的 Seedance 2.0、圖像生成模型 OpenAI 的 GPT-image-2 和 Google 的 Nano Banana 2,本質上都是目前最精密的視覺概率機器。它們通過學習數以億計的互聯網圖片和視頻,最終掌握了光影和形態的分布規律。

        看似美好的現實,李飛飛卻指出,這是有代價的。這些頂級模型雖然能生成華麗的建筑,但如果試圖在其生成的物理結構中進行交互,建筑大概率會因為缺乏支撐結構而瞬間坍塌。換句話說,它們并不理解何為 " 支撐 ",生成的也只是觀眾 " 看到 " 的樣子,而不是世界 " 存在 " 的樣子。

        2. 模擬器(Simulator)

        模擬器追求的,正是渲染器缺乏的結構忠誠度。它對視頻好不好看完全不關心,唯一在乎的只有世界是否遵循物理規律。當一個模擬器輸出一個再常見不過的杯子時,也必須包含杯子的質量分布、材質摩擦系數、重力響應以及碰撞時的物理邊界。

        有了模擬器,視頻中的內容才有真實性可言。然而,模擬器在如今的 AI 浪潮中不僅被嚴重低估,還經常被無視。

        從上面這個杯子的案例來看,模擬器的存在讓 " 討論藝術 " 變成了 " 研究物理 "。要構造一個嚴格符合物理規律的模擬器,需要的計算資源和標注成本都是難以想象的。但對于機器人來說,視覺美觀幾乎是一個無用屬性,物理精度才能決定一切。

        模擬器不夠精確,在其中訓練的機器人就永遠無法進入現實世界。Sim-to-Real 挑戰是客觀存在的,實驗室里 100% 通過的測試動作,到了現實世界,微小的摩擦力就能讓機器人徹底癱瘓,這就是我們常說的 " 莫拉維克悖論 "。

        3. 規劃器(Planner)

        規劃器負責的是行動輸出。作為感知和反饋的連接點,它需要解決 " 下一步該做什么 " 這個永遠沒有標準答案的核心問題。在李飛飛的框架中,這也是整個 " 感知 - 行動 " 閉環的最后一個環節,同時也是最具前沿挑戰的領域。

        目前所有的視覺 - 語言 - 動作(VLA)模型,都在嘗試讓系統在非結構化的復雜世界中做出決策。規劃器不僅僅是預測未來,更是在無數種可能性中選擇出一條最能達成目標的路徑。它是機器從 " 觀察者 " 進化為 " 實踐者 " 的關鍵。

        千億美金的樞紐

        在李飛飛給出的三個分類中,渲染器和規劃器對應的模型已經比較常見;剩下的模擬器,理所當然地成為了最難實現的環節。李飛飛也給出了一個極具洞察力的判斷:模擬器是連接渲染與規劃的紐帶,也是整個體系的核心樞紐。

        在模擬器這一領域上做的最出色的,不是 OpenAI、Anthropic 和 Google,而是黃仁勛的 NVIDIA。

        英偉達的 Omniverse 宣稱能夠支撐起萬億級的數字孿生夢想,原因就是它掌握了模擬器的本質。在英偉達的平臺上,工廠、供應鏈和倉庫的運作都已經變成完整的數字鏡像。對于工業界而言,這就不再是視覺上的 demo 演示,而是生產力的核心基礎設施。

        這并非夸大其詞,而是擺在所有人眼前的萬億市場的機會。

        從建筑工程的虛擬可視化,到制藥行業的分子動力學模擬,再到自動駕駛的場景測試。這些行業缺乏的不是栩栩如生的生圖生視頻模型,而是一個極高保真的模擬器。不夸張地說,掌握了物理世界的模擬能力,就等于掌握了 AI 工業化的優先入場券。

        但現實中的困難使得這個領域幾乎沒有技術樂觀主義者。李飛飛也坦言,巨大的鴻溝始終存在。

        首先就是我們此前反復提及過的具身智能數據問題。互聯網上的視頻數據數不勝數,但帶有明確幾何結構、材料屬性和物理反饋標注的 3D 數據卻極度稀缺。

        其次,生成式 AI 的應用永遠會伴隨著隱形風險。AI 生成的幾何模型最多只能做到視覺上的完美,但在物理結構上往往是不合理的,比如杯子與桌面的相交、物體碰撞失去體積感。在人類口中,短短兩個字 " 穿模 " 就可以概括這些詭異的現象,但在真實的工業應用中,這就意味著災難。

        通向統一世界模型

        縱使困難重重,李飛飛還是給出了對行業趨勢的積極預判:渲染、模擬與規劃之間的界限正在變得模糊不清。

        這不是美好的遠景,而是已經在發生的現實。李飛飛的 World Labs 團隊經過探索,認為人類已經在邁向一個統一的基礎模型。在這個架構中,想象力和邏輯能夠合二為一。

        未來的模型不再是單一功能的疊加和拼湊,而是一個統一的神經網絡基礎。它能一邊通過高斯濺射渲染出逼真的場景,一邊實時生成物理引擎所需的碰撞網格。簡單來說,統一基礎模型將會在人類所需的視覺模式和物理引擎所需的狀態模式之間實現無縫切換。

        從另一個角度來看,傳統的模型都是靜態的,而未來的世界模型將具備更強大的可交互性。渲染器將不再是被動的視頻生成器,逐漸開始接受行動指令;模擬器變得更加可編輯和可控;規劃器也能進行邏輯思考,根據環境變化自動調整策略。

        空間智能的漫長弧線

        最后,回到宏觀層面來看,有關 " 世界模型 " 的這一切為什么重要?

        在李飛飛看來,人類過去幾十年的 AI 研究,都一直在尋找那一把能讓機器走入物理世界的鑰匙。如今,我們已經擁有善于處理邏輯的語言模型,接下來需要的就是處理空間的模型。空間智能的核心,就在于機器如何與其所處的物理世界進行交互。

        這場仗,比的不是誰擁有更多的算力,而是誰能定義物理世界的數字標準。

        世界模型絕不是一場簡單的算法優化,而是一次 AI 進化的壯舉。

        " 語言賦予了機器談論這個世界的能力,而世界模型則是機器最終理解、想象、推理并與物理世界交互的方式。"

        這個時代的每一個人,都在從談論世界的階段,走向真正理解并重構世界的新紀元。

        盡管如此,世界模型也只是通往 AGI 道路上的一個中間節點,而人類創造出的 AI 離真正意義上的 " 世界模型 " 也還有很長的距離。在這里,另一位世界模型的領軍人物楊立昆略顯偏激的觀點值得分享:

        樂觀來看,至少還要五到十年,機器的智能才能勉強接近一只小狗。

        相關標簽

        覺得文章不錯,微信掃描分享好友

        掃碼分享

        熱門推薦

        查看更多內容

        企業資訊

        查看更多內容
        主站蜘蛛池模板: 日韩不卡无码精品一区高清视频| av在线一区二区三区| 床震无遮挡| 久久久99久久久国产精品| 色天天综合网| 欧美国产成人精品一区二区三区| 99国产精品欧美一区二区三区| 色狠狠AV一区二区三区| 伊人成伊人成综合网222| 91视频99re| 丁香五月激情图片| 无码人妻三区| 成人无码精品一区二区三区| 玩弄放荡人妇系列av在线网站| 区二区三区玖玖玖| 曰韩三级无码久久探| 中国极品少妇xxxxx| 91干逼网| 手机在线中文字幕国产| 免费看成人aa片无码视频吃奶| 玩弄人妻少妇精品视频| 日韩精品人妻中文字幕有码| 日韩人妻网站| 国产主播一区二区三区| 日韩精品a片一区二区三区妖精| 色噜噜噜亚洲男人的天堂| 日本一区二区三区中文字幕| 国产女同疯狂作爱系列| 一区二区三区无码视频| 亚洲欧洲精品成人久久曰不卡| 性大毛片视频| 亚洲无人区码一二三区别| av不卡中文| 草草影院发布页| 亚洲一级欧美一级日韩一级 | 丰满的少妇一区二区三区| 熟女av在线| 国产午夜福利在线机视频| 精品无码人妻一区二区| 亚洲一区二区欧美色妞影院| 在线 | 一区二区三区|