01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

頂尖AI科學家李飛飛演講:機器人進化離不開空間智能

2024060419:05



智東西6月4日消息,今年4月,著名計算機科學家、斯坦福教授,有「AI教母」之稱的李飛飛在溫哥華舉行的2024年TED大會上,發表了以《有了空間智能,AI將會理解現實世界》為題的15分鐘演講,分享了她關於空間智能及其改變世界的力量的看法。

值得一提的是,李飛飛在斯坦福大學的個人資料顯示,她從2024年初到2025年底處於部分休假狀態。據路透社報道,目前她正在創辦一家初創公司,創業的方向正是空間智能。

李飛飛在演講中提到,隨著神經網絡算法的出現、GPU能力的提升,加上大數據的助力,計算機視覺領域實現了快速的發展。

目前,研究者們已經不滿足於僅僅讓計算機看見世界,而是追求讓計算機理解世界,在觀察世界這個三維空間的過程中學習知識並做出行動。這便是所謂的「空間智能」(Spatial Intelligence)。

李飛飛指出,行動的沖動是所有具有空間智能的生物的天性。如果想讓目前的AI實現能力上的突破,完全發揮出當下這場數字寒武紀大爆發的潛力,空間智能是必不可少的。

同時,她也提醒道,要實現空間智能並不容易。開發者需要深思熟慮,確保AI技術始終以人為本。但如果我們真的能開發出造福人類的空間智能計算機與機器人,我們定能創造出一個更為美好的世界。

以下是李飛飛四月份TED演講的完整編譯:

一、看見世界理解世界,是智能的催化劑

我要向大家展示一些東西。確切地說,我要展示的是一片虛無。這就是5.4億年前的世界:純粹的、無盡的黑暗。世界一片漆黑並不是因為缺乏光線,而是因為缺乏能看見這個世界的眼睛。



在這個世界裏,陽光能穿透到一公裏深的海底,海底熱液噴口也正散發著光芒,生命在這裏蓬勃發展。但在這些古老的水域中,卻沒有一只眼睛能夠看到這些景象。沒有視網膜,沒有角膜,沒有晶狀體。所有這些光芒,所有這些生命都無人見證。

在過去,「看」這一概念並不存在,沒有生物真的看到過世界。直到這個時刻的到來。



三葉蟲出現了,這是地球上第一種能夠感知光的生物。它們出現的原因我們目前也才略知一二。但它們是我們現在習以為常的生活環境中的第一批棲息者,也是第一批發現除了自己外還有其他事物存在的生物。它們意識到,世界是由許多其它「自我」組成的。

視覺被認為是寒武紀生命大爆發背後的推手。這是一個動物物種大量進入化石記錄的時期。最初,這些動物只是被動地接受光線,逐漸演變成更為主動的行為。神經系統開始進化。視力轉化為洞察力,理解轉化為行動,這一切催生了智能。

二、三股力量推動AI時代到來,不可能已成為可能

現在,我們不再滿足於僅僅依靠自然賦予我們的視覺智能。好奇心驅使我們創造出和我們一樣甚至更聰明的機器。

九年前,在這個舞臺上,我匯報了計算機視覺這一AI分支領域的早期進展。當時,有三股強大的力量首次匯聚在一起:第一股力量是一種被稱為神經網絡的算法家族;第二股力量是快速的專用計算硬件,也就是GPU;第三股力量是大數據,比如我的實驗室當時花了數年時間構建出來的ImageNet圖片數據庫。這三股力量一同推動了AI時代的到來。



我們現在已經有了長足進步。當時,單單是給圖片打上標簽就是一個重大的突破。但這些算法的速度和準確度迅速提高。由我的實驗室主導的年度ImageNet挑戰賽評估了這一進展。在這個圖表上,你可以看到每年的改進和具有裏程碑意義的模型。



我們更進一步,創建了能夠分割對象或預測它們之間動態關系的算法,這一算法是我的學生和合作者們的工作成果。

不僅如此,還記得上次我展示的第一個能用自然語言描述照片的計算機視覺算法嗎?那是我和我傑出的學生Andrej Karpathy合作的成果。當時,我碰運氣般地問他:「Andrej,我們能讓計算機做相反的操作嗎?」Andrej笑著說:「哈哈,那是不可能的。」

但正如這篇推文中所說的,不久前,不可能的事情變成了可能。



這要歸功於一系列擴散模型,它們推動了如今生成式AI算法的發展。這些算法可以根據人類提示的句子生成全新的照片和視頻。許多人已經看到了OpenAI的Sora最近令人印象深刻的成果。

但即便沒有大量的GPU,我的學生和我們的合作者也開發出了一個叫做Walt的生成視頻模型。我們模型的發布時間領先Sora數月。你現在看到的是其中一些生成結果。



這些結果還有改進的空間。看看那只貓的眼睛,還有貓雖然在水下但卻沒有打濕自己。這真是一場災難(cat-astrophe)。

三、看見世界遠遠不夠,空間智能讓看見變為行動

過去僅僅是序章,我們將從這些錯誤中學習,創造我們想象中的未來。在這個未來中,我們希望AI能幫我們完成一切事情,或者擁有幫助我們完成一切事情的能力。

數年來我一直在強調,拍下一張照片並不等於看見和理解所拍的內容。而今天我還想補充一點,僅僅是看見還遠遠不夠。



看是為了做和學。

當我們在三維空間和時間中對這個世界采取行動時,我們也在學習。我們在學習如何更好地看和做。自然創造了這個由「空間智能」(Spatial Intelligence)驅動的良性循環。為了展示「空間智能」有什麽用處,我要向大家展示這張圖片。如果你看到它之後,有想要做點什麽事情的沖動,請舉手。



在剛才短短的一秒鐘裏,你的大腦看到了這個玻璃的幾何形狀,看到了它在三維空間中的位置,與桌子、貓等一切事物的關系。你可以預測接下來會發生什麽。

行動的沖動是所有具有空間智能的生物的天性,它將感知與行動聯系在一起。如果我們想要推動AI超越當前的能力水平,我們需要的不僅是能看和說的AI。我們需要能做出行動的AI。



四、空間智能已取得初步進展,機器人可以給你做飯了

實際上,我們正在取得令人興奮的進展。最近在空間智能方面的裏程碑時間是教會計算機觀察、學習、做出行動以及更好地學習和做出行動。這並不容易。

自然界花費了數百萬年時間才進化出了空間智能。這種智能需要依靠眼睛接收光線,將二維圖像投射到視網膜上,然後讓大腦將這些數據轉換為三維信息。

直到最近,谷歌的一組研究人員才開發出一種算法,可以將一組照片轉化為三維空間(如下圖所示)。



我的學生和我們的合作者更進一步,創建了一種算法,可以將一張輸入圖像轉換為三維形狀(如下圖所示)。



還記得我們談過的能夠將人類的語句轉換為視頻的計算機程序嗎?密歇根大學的一組研究人員找到了將這句話轉換為三維房間布局的方法(如下圖所示)。



而我在斯坦福的同事和他們的學生們開發出了一種算法,可以從一張圖片生成無限可能的空間供觀眾探索(如下圖所示)。



這些都是未來種種可能性的萌芽。一個可以將我們整個世界轉化為數字形式,並通過建模展現出這個世界的豐富與參差的未來。

自然在我們各自的心智中隱秘地完成了這些事情。而空間智能技術有望能為我們的集體意識實現這點。隨著空間智能的進展加速,一個新的良性循環正在我們眼前展開。

這種相互作用正在催化機器人學習。這是任何需要理解和與三維世界互動的具身智能系統的關鍵組成部分。

十年前,我的實驗室的ImageNet數據庫幫助訓練計算機,讓它們有了看的能力。現在,我們正在用行為和動作來訓練計算機和機器人,讓它們具備在三維世界裏行動的能力。

但我們並不收集靜態圖像,而是開發了由三維空間模型驅動的模擬環境,使計算機能夠在無限多樣的可能性中學習行動。你現在看到的是一個由我的實驗室領導的Behavior項目中的機器人學習示例。



我們還在機器人的語言智能方面取得了令人興奮的進展。我的學生和合作者們是第一批在這方面取得進展的團隊。利用基於大型語言模型的輸入,他們研發的機械臂現在能夠根據口頭指令執行各種任務。



例如,打開抽屜或拔出充電的手機,或者用面包、生菜、西紅柿做個三明治,甚至為用戶放上餐巾紙。通常,我會想要在三明治裏多放點料,但這是個好的開始。

五、空間智能未來可期,能在醫療等領域發揮重要作用

在遠古時代,在那片原始的海洋中,看見和感知環境的能力開啟了寒武紀大爆發的序幕,不同的生命形式開始互動。如今,那束光芒正在觸及數字大腦。

空間智能不僅讓機器能夠與其它機器互動,還能讓它們與人類以及真實或虛擬的三維世界互動。隨著這種未來逐漸變為現實,它將對許多人的生活產生深遠的影響。

讓我們以醫療為例。在過去的十年裏,我的實驗室一直在應用AI,解決患者預後效果不佳和醫務人員過勞的問題。

我們與斯坦福醫學院和合作醫院的工作人員展開合作,正在試點使用智能傳感器。這些傳感器可以檢測醫務人員進入病房時是否正確洗手,還能跟蹤手術器械,或者在患者處於危險(如跌倒)時提醒護理團隊。



我們將這些技術視為一種環境智能,就像一雙額外的眼睛。它們確實能起到一些作用。但我希望對我們的患者、醫務人員和護理人員提供更多互動式的幫助,他們正迫切地需要一個能真正做點事情的幫手。

想象一下,如果有了能運送醫療用品的自主機器人,護理人員就只需專註於患者。利用增強現實技術,我們也能引導外科醫生進行更安全、更快和創傷更小的手術。

想象一下,嚴重癱瘓的患者通過腦電波控製機器人,完成我們司空見慣的日常任務。是的,通過腦電波就可以。大家可以在我實驗室最近的一項試點研究中,看到這一未來的雛形。



在這個例子中,機械臂的控製是通過非侵入性的腦電帽收集的腦電波信號實現的。這個機械臂現在正在烹飪一頓壽喜燒。

六、數字生命寒武紀大爆發即將到來,但必須確保技術始終以人為本

五億年前,視覺的出現徹底顛覆了原本那一片漆黑的世界。它開啟了一場影響最深遠的進化過程:動物世界中智能的發展。

過去十年中,AI的驚人進步同樣令人震撼。但我相信,如果我們想要完全發揮這場數字寒武紀大爆發的潛力,我們就必須為計算機和機器人提供空間智能。這也正是自然界為我們提供的東西。

這是一個激動人心的時刻,我們可以教我們的數字夥伴學會推理,教會他們與我們稱之為家園的三維空間互動,並創造更多我們可以探索的新世界。

實現這一未來並不容易。我們需要大家在采取行動時深思熟慮,開發始終以人為本的技術。

但如果我們能以正確的方式推進技術的發展,這些具備空間智能的計算機和機器人將不僅僅只是實用的工具,還將成為可信賴的夥伴,提升和增強我們的生產力,促進人類社會的發展。它們也將尊重人類個體的尊嚴,促進人類的共同繁榮。



最令我興奮的,是這樣的一個未來:AI將擁有更強的理解能力、洞察能力和空間感知能力,並與我們一起不斷努力,以更好的方式創造出一個更美好的世界。謝謝。

結語:空間智能開啟AI發展新篇章,或成下一代AI的「原爆點」

在九年前的TED演講中,李飛飛介紹了ImageNet這一深度學習爆發的起點,這也為當代AI奠定了基礎。如今,她再次站在TED的舞臺上,闡釋了「空間智能」這一全新概念,指引AI朝著更高境界邁進。

李飛飛本人曾在多個場合指出,AI學術界能獲得的資源實在是太有限了。她呼籲政府能為學術界提供必要的支持,以促進AI研究的發展。現在,李飛飛已暫離象牙塔,下場創業,並拿到了矽谷知名風投公司a16z的投資。我們也期待她能在學界之外,給AI領域帶來新的驚喜。---[來源:TED/智東西/編譯: 陳駿達*編輯: Panken]