李飛飛創業之後首個專訪 :視覺空間智能與語言一樣根本
不久之前,李飛飛教授的空間智能創業公司 World Labs 以及全明星的創業陣容正式亮相。
隨後,李飛飛與另一位聯合創始人 Justin Johnson 接受了 a16z 的專訪。
在這次訪談播客中,李飛飛重點分享了 AI 領域新的研究前沿:空間智能。她說:「視覺空間智能非常根本,與語言一樣根本」。
節目中,她首先介紹了自己的早期貢獻 ImageNet 對計算機視覺發展的影響。之後介紹了計算和數據在 AI 發展中的作用。
然後,她定義了 AI 的終極目標以及空間智能在這其中所扮演的重要角色。最後,她介紹了自己的 World Labs 團隊以及度量空間智能發展進展的方式。
在本文中,機器之心對此次專訪的核心內容進行了整理。感興趣的讀者也可以查看下面的完整視頻。
視頻鏈接:https://mp.weixin.qq.com/s/N5iKQAEHm0V1MQqioQgR5g
主持人:過去兩年出現了很多消費級 AI 公司。但您其實已經在這個領域深耕了幾十年,您是一路看著 AI 發展到如今的並且做出過非常關鍵的貢獻。現在正是激動人心的時刻,對嗎?
李飛飛:回望過去,AI 確實正處在一個激動人心的時刻。我個人已經在這個領域 20 多年了,而現在我們已經走出了最後一個 AI 寒冬。我們已經見證了現代 AI 的誕生,看到了深度學習的爆發,向我們展示了下棋等可能性,但隨後我們開始看到技術的深化以及産業界開始采用 AI(如語言模型)。我認爲我們實際上現在正處于寒武紀大爆發過程中,因爲現在不只是文本,像素、視頻、音頻方面都在出現可能的 AI 應用和模型。所以這是一個非常激動人心的時刻。
主持人:請介紹一下你們自己。
Johnson:我最早是在研究生階段開始研究 AI。我在加州理工大學讀了數學和計算機科學。但在快畢業時,有一篇當時非常著名的論文問世,是當時谷歌大腦的 Quoc V. Le 和吳恩達等人的論文。那是我首次接觸到深度學習這個概念,然後它就決定了我未來十幾年的生活:使用強大的算法,輔以大量算力和海量數據,就能得到一些神奇的結果。那是在 2011 或 2012 年,當時我就決定這是我以後要做的事情。而當時在斯坦福的李飛飛是少數正在研究 AI 的人。那是深度學習和計算機視覺發展的一個特殊時期 —— 那時候,新興的技術才剛剛開始有效果並獲得應用,比如判別式計算機視覺開始可以分辨圖像中的內容,早期的生成式 AI 也開始出現了。
實際上,在我博士階段那段時間,學術界搞清楚了很多現在常用的核心算法。每天早上起床看新論文就好像在聖誕節打開禮物一樣。每天都會有一些驚人的新發現、驚人的新應用或算法。而過去一兩年世界上的所有人都有了這種感覺,但對于我們這些有很長經驗的人來說,這種感覺已經持續了很長時間了。
李飛飛:很明顯,我比 Justin 大很多。我是從另一個角度進入 AI 的,即物理學,因爲我的本科背景是物理學。物理學是一門教你大膽思考問題,探求世界上剩余未知的學科。當然,物理學關注的是原子世界、宇宙之類的,但這卻以某種方式讓我進入了一個真正抓住了我的想象力的領域:智能。我在加州理工大學完成了人工智能和計算神經科學的博士學位。所以 Justin 和我實際上並沒有重疊,但我們的母校都是加州理工大學並且有同一位導師。是的,同一位導師,你的本科導師和我的博士導師都是 Pietro Perona。
我在讀博士時,是 AI 在公衆眼中還處于冬天的時候,但在我的眼中不是冬天,是春季前的冬眠。實際上生機勃勃。機器學習和統計建模的能力切實地越來越強大。我認爲我們是機器學習和 AI 世代,而現在是深度學習世代。機器學習是深度學習的先驅。
在我博士結束開始助理教授生涯的那段時間,有一個之前常被人忽視的因素開始生效了,那就是數據。我實驗室的學生可能比大多數人更早意識到了這個基本點:如果讓數據驅動模型,就可以釋放出前所未見的力量。這就是基于 ImageNet 的研究瘋狂發展的原因。
那時候,計算機視覺和 NLP 社區都有各自的數據集,都很小。但只要能獲得互聯網規模的數據集,就必定大有作爲。幸運的是,那時候,互聯網時代也正在到來。在那股浪潮中,我來到了斯坦福。
主持人:這就是時代的轉變!圖像處理是一個時代。Transformer 和 Stable Diffusion 都是不同的時代。這些技術解鎖了我們的發展潛力,可以這樣說嗎?還是說有其它東西解鎖了我們的發展潛力?
Johnson:我認爲真正解鎖發展潛力的最大因素是計算。盡管人們也常提及這一點,但我認爲人們還是低估了它。過去十年中,計算能力的增長令人震驚。第一篇真正被認爲是深度學習計算機視覺突破時刻的論文是 AlexNet,這是 2012 年的一篇論文。
其中一個深度神經網絡在 ImageNet 挑戰中表現非常出色,並且超越了飛飛研究的所有其他算法。AlexNet 神經網絡有 6000 萬參數,在 2 台 GTX580 上訓練了 6 天,那是當時的頂級消費級顯卡,于 2010 年推出。而現在最強大的應該是英偉達 GB200。猜猜看 GTX580 和 GB200 的計算能力差多少倍?數千倍。也就是說,如果在單台 GB200 上訓練 AlexNet,所需時間不超過 5 分鍾。
李飛飛:2012 年 AlexNet 在 ImageNet 上取得的突破彰顯了一個非常經典的模式。要知道,卷積神經網絡發表于 1980 年代。我記得我在讀研究生時還學習過它,大概有 6、7 層。AlexNet 和早期卷積神經網絡的唯一區別就是有更強大的 GPU 和更多數據。
主持人:是的,我相信大家都知道那個著名的「苦澀的教訓」。也就是對于一個算法,不要吝惜計算,要盡可能地使用所有可用的計算。另一個方面是數據,你們怎麽看
Johnson:是的,數據很重要。在我看來,數據方面也分爲兩個時代。第一個時代是 ImageNet 爲代表的監督學習世代。這時候,我們空有大量數據,卻不知道如何使用它們 —— 我們能獲得大量圖像數據,但需要人們去標注它們。而在新的時代,我們不再需要人類標注就能進行訓練。
主持人:我沒有 AI 背景,但聽起來你似乎還是要使用人類標注的數據進行訓練,只是這些標注是隱式的。
李飛飛:從哲學角度看,這是一個非常重要的問題。但實際上這個說法更適用于語言,而不是像素。
主持人:是的,所以說視頻片段還是有人類標注的。注意力就是人類已經搞清楚了事物之間的關系,然後讓 AI 學習它們。只是這些標注是隱式的。
Johnson:可以這麽說。但區別在于,在監督學習時代,學習任務會受到更多限制。因爲當時對數據的標注必須非常准確,飛飛當時就要和她的學生們花很多時間去想該把哪些分類放入 ImageNet 挑戰之中。
主持人:過去都是預測建模,大概四年前,我們開始進入生成式 AI 時代。在我看來,它們非常不一樣。但你們認爲這些是連續發展的過程嗎?
李飛飛:這個問題很有趣。實際上在我讀研究生時,生成式模型就已經存在了。我們當時嘗試過做生成式模型,生成字母和數字之類的,但沒人記得了。但我們確實嘗試過,Geoffrey Hinton 寫過這方面的論文。實際上,如果你從概率分布的角度來思考,那麽就可以從數學上進行生成。只是這樣的生成結果不會給人留下深刻印象。所以生成的概念在數學和理論上早已存在,但沒有任何作用。這裏就要說到 Justin 的博士生涯了。他的博士生涯就反映了這個領域的故事。他的第一個項目是一個數據項目,我強迫他做的,他不喜歡。
Johnson:回想起來,我學到了很多非常有用的東西。
李飛飛:我很高興你現在這麽說。所以我讓 Justin 轉向了深度學習,他研究的是基于圖像生成文本。
Johnson:實際上這個故事分爲三個階段。第一個階段是圖像 - 文本匹配。實際上我博士階段的第一篇論文和第一份學術出版物就是關于使用 Scene Graph 進行圖像檢索。
李飛飛:之後我們開始研究基于像素生成文本,但這仍然是一種非常有損的方式,無法將像素世界的信息有效地轉移到文本世界。而 Justin 在此做了一項非常著名的研究,成功地讓這個過程做到了實時實現。
Johnson:2015 年時有一篇論文,是 Leon Gatys 等人提出的一種實現藝術風格的神經算法。該算法可以將真實照片轉換成梵高風格。現在我們已經習慣了這樣的應用,但在 2015 年,這很有開創性。那天這篇論文出現在 arXiv 裏面,讓我腦洞大開。我當時想,我一定要理解這個算法。我想玩這個算法,我想把我自己的形象制作成梵高風格。然後我仔細研讀了這篇論文,並在一個周末裏重新實現了它,理解了它的工作方式。
這實際上是一個非常簡單的算法,大概就 300 行 Lua 代碼。雖然簡單,但速度很慢。這就是一個優化過程。如果想要生成一張圖像,就需要運行這個優化循環。生成的圖像很漂亮,但我想讓這個過程更快一點。當時我和其他一些人想出了多種不同的方法來加速這一過程。但我想出的那個吸引了很多關注。
李飛飛:我爲 Justin 感到自豪。我也爲他在博士階段做的最後一個工作感到自豪。那就是生成式 AI 領域方面的研究:基于輸入的語言生成畫面。這是最早期的生成式 AI 研究之一。那時候用的模型是生成對抗網絡(GAN)。這很難用,並且使用的語言也不是自然語言,而是必須輸入一個 scene graph 語言結構。所以可以看到,從匹配到風格遷移再到生成,這是一個連續演進的過程;但在外部世界看來,這些就像是突然發生的一樣。
主持人:現在你們創立的 World Labs 研究的是空間智能。你們爲什麽決定這麽做?
李飛飛:我在我的書也寫到了,我的整個學術之旅實際上就是尋找北極星的激情,我也相信這些北極星對我們領域的發展至關重要。在我研究生畢業後,我的北極星是講述圖像故事,這是非常重要的視覺智能。而視覺智能是 AI 和 AGI 的重要組成部分。所以當 Andrej 和 Justin 做到這一點時,我想的是:天啦,那是我的人生夢想!我接下來做什麽?它來得比我預想的快,我以爲還要再過 100 年呢。
視覺智能是我的熱情所在。因爲我相信對于每個智能體,比如人、機器人或其他形式)而言,知道如何看世界、推理世界、在其中互動是非常重要的 —— 無論是導航、操縱還是制造東西,甚至建立文明。視覺空間智能非常根本,與語言一樣根本。所以很自然,我們 World Labs 要做的就是解鎖空間智能,這就是我們的北極星。現在就是做這件事的時候。就像 Justin 說的,我們現在已經有了計算,對數據有了更深度的理解,在算法方面也有一些進步。我們還有 Christoph Lassner 和 Ben Mildenhall 這兩位站在研究前沿的聯合創始人。因此,我們正處于正確的時刻。
主持人:可以更清晰地描述一下什麽是空間智能嗎?
Johnson:空間智能是機器在三維空間和時間中以三維方式感知、推理和行動的能力,這能幫助它理解事物在三維空間和時間(4D)中的位置,事物的交互方式。這是將 AI 從大型數據中心帶出來,放入 3D/4D 世界中,使其理解這個世界的豐富性。
主持人:你們四位現在出來創立公司,爲什麽說現在是正確的時刻?
Johnson:過去十年的重點是理解已經存在的數據,但接下來的十年將是關于理解新的數據。我們已經有足夠的硬件設備和傳感器來幫助我們理解這個世界。
在 2014 年,我和 Andrej Karpathy 做過一些早期的語言建模工作,比如 LSTM(長短期記憶網絡)、RNN(循環神經網絡)和 GRU(門控循環單元),那是在 Transformer 之前的時代。但大約在 GPT-2 出現時,這類模型已經無法在學術界繼續進行研究了,因爲它們需要的算力太多了。
不過,Ben 提出的 Nerf 方法非常有趣,因爲你可以在一兩個小時內在單個 GPU 上訓練這些模型。那時許多研究者開始關注這些問題,因爲核心的算法問題還沒有解決,並且你實際上可以在不需要大量計算資源的情況下取得成果。因爲只需要一個 GPU 就能達到 SOTA,所以很多學術界的研究者開始轉向思考如何在 Nerf 推動核心算法的進步。
實際上,我在博士期間與飛飛交流時,發現我們不約而同地達成了相似的結論。
主持人:她非常有說服力。
Johnson:是的(笑)。當時我們都在思考如何從導師那裏找到自己的獨立研究方向,結果我們最後找到的是相似的研究路徑。
李飛飛:對我來說,能與最聰明的人討論問題,我首先想到的就是 Justin。這毫無疑問(笑)。
主持人:語言模型的方法現在很流行。這兩者是互補的嗎?還是完全獨立的?比如大家都知道 OpenAI、GPT 以及多模態模型,那麽它們是不是已經達到了我們想要的空間推理能力呢?
Johnson:要回答這個問題,我們得稍微解開一下這些系統背後的「黑箱」。對于語言模型和如今的多模態語言模型,它們的底層表示形式是以一維的方式存在的。
我們談論上下文長度、談論 Transformer 和序列以及注意力機制。它們的基礎是對世界的一維表示。這在處理語言時是非常自然的,因爲書寫的文本本質上是一維的、由離散字符組成的序列。這種底層表示形式是促成大型語言模型發展的原因。現在的多模態語言模型則把其他模態的數據硬塞進這個一維的序列表示中。
而當我們談到空間智能時,方向就完全不同了。我們認爲本質上,三維應該成爲表示的核心。從算法的角度來看,這爲我們提供了以不同方式處理數據的機會,並從中獲得不同類型的輸出,解決不同的問題。從一個粗略的層面上看,多模態的大型語言模型(LLMs)也能處理圖像。沒錯,它們確實能做到。但我認爲,這些方法並沒有將三維表示作爲其核心方法的基礎。
李飛飛:我完全認同 Justin 的觀點。1D 和 3D 表征是最核心的區別之一。另一件事有點哲學意味,但至少對我來說,語言從根本上來說是一種純粹生成的信號。世界上本沒有語言 —— 天上沒有文字。對于語言,無論你輸入什麽數據,都是在同樣的數據上進行泛化,輸出同樣的數據。這就是語言到語言。
但在 3D 世界不一樣,3D 世界遵循著物理定律。由于材料和許多其他原因,它自己的結構。並且從根本上支持這些信息並能夠表示和生成它,這從根本上來說是一個完全不同的問題。
主持人:所以語言是一維的,可能不是物理世界的最佳表示形式,它可能損失了很多信息含量。
另一類生成式 AI 模型是基于像素的,它們處理的是 2D 圖像和 2D 視頻。你可以說,當你看一個視頻時,它看起來像是三維的,因爲你可以平移相機或進行其他操作。那麽,空間智能與 2D 視頻有什麽不同呢?
Johnson:思考這個問題時,需要拆解兩件事。第一是底層的表示形式,第二是面向用戶的可操作性。這裏比較容易讓人感到困惑,因爲從根本上講,我們看到的世界是二維的,對吧?
就像我們有兩只眼睛,我們的視網膜是二維結構。因此,我們的視覺系統實際上是在感知二維圖像。但問題在于,根據你使用的表示形式,不同的模型會提供更自然或不那麽自然的操作方式。即便最終你看到的可能是一個二維圖像或視頻,背後的表示方式決定了它的可操作性。
你的大腦將其感知爲三維世界的投影。比如你想移動物體,移動相機,理論上,你可以使用純 2D 表示和模型來實現,但它並不適合你要求模型解決的問題。可以對動態三維世界進行二維投影的建模,但如果將三維表示放在模型的核心位置,問題與表示方式之間會更加匹配。所以我們把賭注押在在底層結構中引入更多的三維表示,這將能夠爲用戶提供更好的可操作性。
李飛飛:完全同意。這也回到了我所追尋的北極星 —— 爲什麽選擇「空間智能」,而不是「平面像素智能」?我認爲智能的進化路徑必然像 Justin 所說的那樣,轉向「可操作性」。
回顧生物進化的曆程,動物和人類,這些獲得了智慧的智能生物擁有了在世界中互動、創造文明、甚至隨心所欲地完成各種任務的能力。將這些能力轉化爲原生的三維技術,是釋放潛在 AI 應用洪流的關鍵。即便有些應用場景看似是二維的,其核心依然是三維的。
主持人:這確實是一個極其關鍵的觀點。可以通過一些實際用例,具體談談你們正在創建這個具備空間智能的模型有什麽應用場景嗎?
Johnson:這要分幾類講。隨著時間推移,模型將逐步具備更多的功能。其中最讓我興奮的一項是「世界生成」。我們已經習慣了使用文生圖工具,最近也看到了不少文生視頻的應用。但是,試想一下,如果將其提升到生成完整的三維世界,你得到的不再僅僅是一張圖片或一個短片,而是一個充滿活力且可交互的三維世界。無論是用于遊戲,還是 VR 等應用場景。
李飛飛:也可以用于教育。
Johnson:是啊,這項技術一旦實現,其應用前景將無窮無盡。這將開啓一種全新的媒體形式。我們現在已經能夠創建虛擬的互動世界,但這需要數億美元和大量開發時間。這種技術在經濟上唯一可行的模式就是以每件 70 美元的價格賣給數百萬玩家,以收回投資。
如果我們能降低創建這些成本,更多的應用場景將會不斷湧現。試想,你可以擁有一個個性化的 3D 體驗,其豐富性和細節程度絲毫不遜色于一款頂級的 3A 大作,但卻是爲一個非常小衆的需求量身定制的。雖然這可能不是我們當前産品路線圖上的內容,但這正是空間智能所能帶來的一種全新媒體形式的願景。
主持人:在生成一個世界時,不僅包括場景生成,還需要生成運動和物理現象。那麽在技術發展到極致時,這些功能是否也包括在內?
其次,如果我與之互動,會包含語義嗎?比如,我打開一本書,裏面的文字是否有意義?這將是一個完整的、可以深度體驗的世界,還是一個靜態場景?
Johnson:這項技術將逐步發展,想要實現你所描述的這些功能非常困難。因此,我們會先從靜態問題入手,因爲它相對更容易解決。但最終,我們的目標是實現完全動態、完全可交互的體驗,涵蓋你提到的所有內容。
李飛飛:這就是空間智能的定義。雖然我們會從更靜態的東西開始,但你提到的所有功能,都是我們空間智能發展路線圖中的內容。
Johnson:這也是我們的公司名「World Labs」的來源。我們的目標是構建並理解世界。這有點像內部人才懂的梗,我發現給別人說這個名字時,他們總是沒 get 到。
因爲在計算機視覺和生成領域,我們通常會對事物進行劃分。第一級通常是物體,對吧?比如一個麥克風、一杯水或者一把椅子。這些是世界中的離散物體。很多 ImageNet 項目都是識別這些物體。
接下來是場景,場景是多個物體的組合。比如,現在這個錄音室裏有桌子、麥克風、幾個人、椅子,這些都是物體的組合。
但是我們的目標是超越場景的世界。場景可能是單個的,但我們想打破邊界,走出房間,穿過門,走上街頭,看到汽車駛過,樹葉隨風搖擺,能夠與萬事萬物互動。
李飛飛:另一個令人興奮的點是 Justin 提到的「新媒體」。這項技術將使得現實世界、虛擬世界、想象中的世界和增強現實之間的界限變得模糊。
由于現實世界是三維的,因此在數字世界中,必須使用三維表示才能與現實世界無縫融合。你無法通過二維或一維的方式有效地與三維現實世界互動,解鎖這種能力將帶來無限的應用場景。
主持人:剛才 Justin 提到的第一個例子可能更像 AR,對吧?
李飛飛:是的。就在 World Labs 成立的同時,蘋果發布了 Vision Pro,並提出了「空間計算」的概念,好像是偷走了我們的想法(笑)。
但我們做的是「空間智能」。空間計算必然需要空間智能。我們還不確定最終的硬件形態會是什麽,可能是護目鏡、眼鏡甚至隱形眼鏡。但在真實世界和增強現實之間的那個界面,比如你不是專業技工,但它可以指引如何修車,或者它只是爲了玩 Pokémon Go,這最終將成爲 AR 和 VR 領域的操作系統。
Johnson:在技術發展到極致時,AR 設備將有什麽用途?它需要一直運行,陪伴在你身邊,觀察你所看到的世界。因此,它需要理解你所看到的事物,可能還要幫助你完成日常任務。
但我也對虛擬和物理世界的融合感到非常興奮。如果你能夠實時、完美地理解周圍的三維環境,那麽這實際上也會淘汰我們現在很多對物理世界的依賴。比如說,現在我們有手機、iPad、電腦顯示器、電視,甚至還有手表。這些屏幕是爲了在不同的環境和位置下向你展示信息。
但如果你能無縫地將虛擬內容與物理世界融合,那麽實際上這些不同尺寸的屏幕可能就不再必要了。理想情況下,「空間智能」技術將以最適合當下情境的方式,將你所需要的信息呈現給你。
李飛飛:還有一個巨大的應用場景,就是幫助 AI 智能體在現實世界中執行任務。比如你不是專業技工,但能通 AR 設備完成修理汽車這樣的任務,那麽 AI 智能體同樣也能夠做到。比如機器人,它們的交互界面天然就是三維世界。它們的大腦是數字化的,要將它們學習到的數據轉化到現實世界中的執行,必將依賴于空間智能。
主持人:對于任何公司來說,這些都是非常廣泛的業務領域,尤其是要同時涉足每一個領域。那麽,你如何看待前沿、深度點技術和這些具體應用領域之間的關系呢?
李飛飛:我們把自己定位爲一家深度技術公司,專注于提供可以服務不同應用場景的模型平台。
主持人:在你們提到的這三類應用中,有沒有哪一類是更適合早期發展的,你們的公司會優先傾向哪個領域?
李飛飛:現在硬件設備還沒完全成熟。
Johnson:我在讀研的時候就買了我的第一台 VR 頭顯,那是一次改變生活的技術體驗。戴上它的那一刻,我的反應是「天啊,這太棒了」。我想。很多人在第一次使用 VR 時都會有類似的感受。
所以,我對這個領域已經期待了很久,我也非常喜歡 Vision Pro。Vision Pro 發布時,我熬夜訂購了第一批。但是現實情況是,作爲一個面向大衆市場的平台,它還沒有准備好。
李飛飛:因此,作爲一家公司,我們很可能會先進入一個更爲成熟的市場。
Johnson:不過有時候,簡單也能體現出廣泛的適用性。我們相信,有些根本性的問題如果能夠很好地解決,便可以應用于許多不同的領域。我們將公司的長期願景定位爲構建並實現「空間智能」的夢想。
主持人:聽起來你們有很多技術要開發。
Johnson:是的,我認爲這是一個非常難的問題。對于那些不直接從事 AI 領域的人來說,他們可能會覺得 AI 是一項不分領域的大型技術。然而,對于那些在這個領域耕耘已久的人來說,我們深知要構建任何 AI 項目,需要多種不同類型的專業人才。
而針對空間智能方面的研究,我們需要高質量、大規模的工程能力,還需要對三維世界有深刻的理解,另外還要與計算機圖形學領域緊密聯系。因此,在組建團隊時,我們將考慮如何找到每個領域中世界頂尖的專家,彙聚他們的力量,來共同攻克這一艱難的課題。
李飛飛:當我思考如何爲 World Labs 組建最好的創始團隊時,我意識到必須從一群非凡的多學科創始人開始。
當然,這對我來說是很自然的。Justin Johnson 是我最優秀的學生、最聰明的技術專家之一。其他人一直名聲很大,其中一人是曾與 Justin 一通合作過的人,Ben Mildenhall,我們談論了他在 Nerf 方面的開創性工作。另一個人是 Christopher Lassner,他在計算機圖形學領域很有名。
此人很有先見之明,在 Gaussian splat 出現前五年就開始研究這種方法並用于 3D 建模了。當我們聽說有與 Christopher Lassner 合作的潛在可能性時,Justin 直接跳了起來。
主持人:Ben 與 Christopher 是我們的傳奇。當然這只是我們團隊的一小部分。必須再次強調一下,這裏有很多要構建和工作的地方,不僅僅是在 AI 或圖形方面,還有系統等等。
李飛飛:到目前爲止,我個人最自豪的是這支強大的團隊。在我的整個職業生涯中,我有幸與最聰明的年輕人一起工作。從斯坦福大學當教授開始。不過我們在 World Labs 聚集的人才更真是驚人,我從未見過這種專注度。
我認爲這裏最重要的區別在于 —— 我們相信空間智能。所有的多學科人才,無論是系統工程、機器學習、基礎設施、生成式模型、數據、圖形,我們所有人,無論是在探求研究之旅、技術之旅,甚至個人愛好,我們相信空間智能即將發生,並共同努力。這就是我們構建創始團隊的方式。這種專注、動力與才華讓我感到謙卑。我太喜歡這種感覺了。
主持人:你說過你就像在被北極星指引著。這可能就像,你實際上無法觸及它們,但它指引了方向。那麽,你如何知道什麽時候目標完成了?還是說這是一件終身的事,會無限地持續下去?
李飛飛:這個世界上存在真正的北極星和概念上的北極星。有些目標是可以達到的。
主持人:比如世界模型裏的北極星?
李飛飛:是的。你知道在我看來,解決了這個問題我們就可以找到方向。但我認爲對我來說,當很多人、企業使用我們的模型來釋放他們對空間智能的需求時,那一刻,我們就算達到了一個重要的裏程碑。
Johnson:這就是你們工作的影響所在。我認爲這是一件非常具有奠基意義的事情,就像宇宙是一個巨大的四維結構,空間智能的主要作用就是理解它的所有深度,並找出其中的所有應用。雖然我們今天心中已有一組特定的想法,但我認爲這次旅程會將我們帶到現在無法想象的地方。
李飛飛:技術的魔力在于不斷打開更多的可能性。所以我們會持續推進,這些可能性將會不斷擴大。---[ 機器之心報導*機器之心編輯部/來源 : 機器之心Pro ]
參考鏈接:https://x.com/a16z/status/1837234492630569198