特斯拉"擎天柱"發布新進展，AI機器人的ChatGPT時刻到了嗎？-(3)

2023060213:38

05 最新AI熱潮能帶來進展

記得我們團隊在跟幾位從事機器人和AI工作的科學家吃飯的時候，我問了這個問題：現在這麼熱的AI大模型，能幫助AI機器人什麼呢？其中一個AI專家說了兩個字：信心。然後我們一桌人都笑翻了，雖然這是個段子，但也得到了在座專家一致的認同。

與最近爆火的生成式AI不同，機器人似乎還沒有到所謂的ChatGPT時刻，很多機器人產品里都沒有或者只有很少量的AI，更多是通過computer vision建立視覺，而更底層的動態規劃和機械控制仍使用傳統機械控制論的思路去解決，並不能算是真正有學習能力的機器人。

比如，從嚴格定義上來看，大名鼎鼎的波士頓機器人公司似乎就不是一個AI驅動的公司，更像是個傳統機器人公司，特別是，他們的AI研究院在2022年才成立。

但一個積極的現象是：各家機器人公司對AI的整合都越來越多，搭載了更多AI的機器人也更受到資本的青睞。比如我們在《OpenAI黑手黨》那期節目提到的Covariant公司，他們工業機器人的主打賣點，就加載了預訓練的AI模型，可以在沒有特別訓練的情況下就執行貨物分揀任務，分揀的東西變化了之後也可以自主的適應。

如今，現階段大模型對機器人的應用大多停留在科研階段，還非常早期。其中，AI大模型無法在根本上幫助具身智能的一個原因在於，大模型提高的是通用性，而AI機器人需要解決的問題是準確性，這個鑰匙和鎖對不上。很簡單的一個例子：如今像ChatGPT這樣的大模型的準確度，在一些領域上，有時候還沒有經過了充分訓練的小模型的準確度高。ChatGPT能通用地回答各種問題，但它的回答不免出現常識錯誤，我們可以對這些錯誤一笑而過；但如果同樣的事情發生在機器人上，帶來的可能就是停工停產，經濟損失，甚至更嚴重的事故。

但是，儘管如此，從未來前景來看，大模型還是能給機器人領域帶來一些的正面推動的：

首先，在自然語言交流上，我們再回到機器人軟件的三層模型來看，谷歌發布的擁有5620億個參數的多模態視覺語言模型Palm-e主要解決的是第一層及第二層的部分問題，因為這一部分之前要靠編程來告訴機器人怎麼做，而現在機器人可以聽懂自然語言，並將自然語言任務直接拆解成可執行的部分。

同時，在2023年4月初，Meta發布了名為Segment Anything的通用AI大模型，簡稱SAM。我們《硅谷101》音頻的嘉賓Jim Fan在聊SAM的這一期節目中稱「SAM是圖像識別領域的『GPT時刻」，因為SAM使得計算機視覺可以分割一個從未見過的物體。而這會在第一層軟件上為視覺識別帶來非常大的幫助。

其次，像谷歌的RT-1主要解決的是三層模型中的第二層問題，也就是如何將任務和環境信息轉化成動作規劃。研究人員發現，在Transformer大模型的加持下，機器人執行從未做過的任務的成功率明顯上升，對不同環境甚至有干擾情況下的成功率也有上升。這是邁向通用機器人的重要一步。也就是說，機器人可以執行之前從未執行過的任務了。

再者，在數據上得到提升。在RT-1中，研究人員使用了不同型號的機器人的數據來訓練模型，結果發現自己機器人執行任務的準確率提升了。雖然這方面的研究還比較早期，但如果未來有大模型能使用不同機器人的數據進行預訓練，可能會進一步提高準確度，那麼這意味着，機器人AI的通用訓練集也能實現了。

這幾個進展是目前的大模型熱潮除了給AI機器人賽道帶來「信心」之外，還切實帶來的進步，但即使如此，我們現在還在非常非常早期的階段。也有業內人士告訴《硅谷101》，雖然這四個模型的發布振奮了AI機器人市場的熱情，但Palm-e和和RT-1的技術對於行業來說都不是全新的消息，因此，這四個模型能如何賦能AI機器人，還需要我們進一步去驗證。

另外，雖然特斯拉最新發布的視頻沒有對Optimus做任何技術上的解析，但馬斯克透露，特斯拉已經打通了FSD和機器人的底層模塊，實現了一定程度的算法復用。我們知道，FSD算法指的是特斯拉全自動駕駛，是Full Self-Driving系統的縮寫。FSD的這個算法讓車輛可以實現自主導航和自動駕駛功能，包括讓車輛能夠在各種交通環境下進行感知、決策和控制。如果，這一套基於神經網絡和計算機視覺的技術算法也可以移到AI機器人上，相信會對軟件方面幫助不少。

但是同時，我們還想強調一點，在AI機器人流派中，還有很多其它的嘗試正在進行，不一定大模型神經網絡能夠成為具身智能的解藥，大模型也不一定是我們能達到通用人工智能的解藥。我們今天講述的具身智能發展派的做法是在人工智能上將軟件和硬件分開各自迭代，然後將兩者融合的方式去做AI機器人。但目前學術界，也有一些新的流派在產生，認為人類現在訓練具身智能的方式還只是單純的輸入的輸出，但是，具身智能也許需要更加多通道的全面的跨模態交互，因為這樣的行為交互才最能體現機器對環境的認知試探和反饋，才能在和環境的互動過程中學習和成長。

06 其他發展軌跡：Unimal

比如說，斯坦福人工智能實驗室前主任李飛飛博士在2021年提出了DERL的概念，是Deep Evolutionary Reinforcement Learning 深度進化強化學習的縮寫，這是一種非常新的發展具身智能的思路。

與其人們設計出具身智能的最終形態身軀再強加上AI軟件來驅動，李飛飛博士提出，智能生物的智能化程度，和它的身體結構之間，存在很強的正相關性，不如讓AI自己選擇具身的進化。而這樣的具身不一定是人形機器人。也就是說，對於智能生物來說，身體不是一部等待加載「智能算法」的機器，而是身體本身就參與了算法的進化。

李飛飛博士說她通過回溯5.3億年前的寒武紀生命大爆發找到了靈感，當時，許多物種首次出現。如今共識的科學理論認為，當時新物種的爆發部分原因，是由眼睛的出現所驅動的，視覺讓生物們第一次看清楚周圍的世界，而通過視覺，物種的身體「需要在快速變化的環境中移動、導航、生存、操縱和改變」，從而自行進化。

也就是說，地球上所有的智力活動，都是生物通過自己的身體，真真切切地與環境產生交互之後，通過自身的學習和進化所遺留下來的「智力遺產」。那麼，具身智能，也就是AI機器人，為什麼會是一個例外呢？為什麼不是自己進化，還是讓人類設定最終形態呢？

所以，李飛飛博士在這個DERL，也就是深度進化強化學習的論文中，提到了生物進化論與智能體進化的關係，並且借鑑了進化論的理論，製造了一個假設的智能體，名為「Unimal」。

就是圖中身上長滿了小棍的這個東西，是universal和animal拼起來的一個詞，然後規定了模擬環境的虛擬宇宙中的三條規則：

第一條規則：這個宇宙中存在大量的虛擬生命agents，這些agents的具身，就是這些像小棍一樣的肢體和頭部拼接起來的虛擬生命。這些具身代表着不同的基因代碼，模擬出不同環境下進化出的不同具身。大家可以看到，平地，崎嶇不平的山路，和前面有障礙物的環境下，具身會進化出不同的結構，有的像八爪章魚一樣，有的像小狗一樣的四足結構，反正就是非常不一樣。

第二條規則是：這些形態各異的虛擬具身，都需要在自己的一生中，通過使用機器學習算法來適應不同的環境，比如平坦的地面、充滿障礙的沙丘，在這些環境中完成不同的任務，像是巡邏、導航、躲避障礙物、搬運箱子等等。

第三條規則是：通過一段時間的學習訓練之後，虛擬具身之間要相互比賽，只有表現最突出的一部分能夠被保留下來。然後，它們的基因代碼經過相互組合之後，產生大量新的身體結構，再重複第一和第二條規則中學習適應各類環境和任務的過程。

要注意的是，上一代虛擬生命遺留給下一代的，只有它們的身體結構，而不包括它們在一生中學習到的經驗和算法。

通過搭建這樣一個虛擬宇宙，研究人員在裡面使用各種條件，對上千個具身形態進行了嚴酷的篩選。最終發現：一個物種在前幾代通過長期和艱苦的深度學習獲得的行為，在後幾代中會變成一種類似本能的習慣。

如說，某個具身的祖輩花了很長時間才學會跑步，但是在經過幾代進化之後，它們的後代生下來沒多久就自己會跑了。

李飛飛團隊的研究人員說，在學習和進化的雙重壓力下，最終只有那些在結構上有優勢的身體結構，才能夠被保留下來，進行進化。這些結構由於可以更容易學習到更先進的算法，於是在每一代的競爭中就積累下了大量的優勢。研究人員把這種身體結構上的優勢叫做「形態智能」。在算力相同的情況下，具備形態智能優勢的生物可以更快獲得學習上的優勢，從而贏得殘酷的生存競爭。這其實是驗證了19世紀末著名的「鮑德溫效應」。

所以，這篇論文得到的結論是，DERL深度進化強化學習使得大規模模擬成為現實，通過學習形態智能的進化過程可以加速強化學習。而李飛飛博士也表示：「具身的含義不是身體本身，而是與環境交互以及在環境中做事的整體需求和功能」。也就是說，將進化論放進人工智能領域，用「具身智能」而非純粹的「算法智能」，來加快人工智能機器人的進化速度，也許是能更快推進具身智能前進的方式。

目前，研究依然還是非常早期的階段，所有訓練也還只在的模擬器中，但這已經讓之後的具身智能發展充滿了各種懸念：最終出現在我們面前的具身智能，可能不是我們想象中的機器人形態，更有可能是一種渾身插滿各種木棍兒的小人也說不定。

所以，我們這個視頻在結尾得到的結論就是：AI機器人，也就是具身智能的發展，沒那麼容易。這個賽道還沒有等到自己的ChatGPT時刻，我們開頭描述的那些場景距離實現還早着呢，所以大家既不用擔心終結者很快到來、也不用興奮很快會有AI機器人能幫我們去遛狗排隊買咖啡。

但是，具身智能的出現，是「機器人」Robot這個詞最開始發明的時候，就在人類的想象中的。

大家猜猜英文Robot是怎麼來的？

這個詞最早其實出現在1920年捷克文學家卡雷爾·恰佩克的三幕劇《羅素姆萬能機器人》（Rossum's Universal Robots），而Robot這個詞源於捷克語的「robota」，意思是「苦力」和「奴隸」的意思，之後成為了機器人的專有名詞。

而這個三幕劇講的什麼故事呢？

這個故事講述的是，羅素姆這個工廠大規模製造和生產機器人，本來初衷是完成所有人類不願做的工作和苦差事，從而解放人類投身於更美好、更高的事物。但後來，機器人發覺人類十分自私和不公正，終於造反了，因此消滅了人類。但是，機器人不知道如何製造自己，認為自己很快就會滅絕，所以它們開始尋找人類的倖存者，但一直沒有找到。最後，一對感知能力優於其它機器人的男女機器人相愛了。這時機器人進化為人類，世界又起死回生了。

100多年前，機器人Robot這個詞誕生的時候，小說家卡雷爾·恰佩克似乎就覺得終有一天，具身智能會來到人類世界，並且和人類的關係變得撲朔迷離，機器人可以消滅人類，也可以進化為人類。我不知道是否有一天，這個幻想的故事會真實抵達我們的世界，但稍微能安撫大家的是，至少在現在，我們依然距離這個故事還很遙遠。

-[文:Jeremy Bao、Junwu Zhang、陳茜*編輯:陳茜/鈦媒體]

我要留言

特斯拉"擎天柱"發布新進展，AI機器人的ChatGPT時刻到了嗎？-(3)

特斯拉"擎天柱"發布新進展，AI機器人的ChatGPT時刻到了嗎？-(2)

馬斯克這次訪華太值了！使得他重回世界首富寶座

特斯拉"擎天柱"發布新進展，AI機器人的ChatGPT時刻到了嗎？-(2)

馬斯克這次訪華太值了！使得他重回世界首富寶座