01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

特斯拉"擎天柱"發布新進展,AI機器人的ChatGPT時刻到了嗎?-(2)

2023060213:35

03 軟件難點

我們再來分拆一下機器人的軟件部分:當我們給機器人一個任務的時候,比如,從一堆娃娃的袋子裡去揀起其中一個特定的娃娃,機器人的軟件系統一般要經歷以下的三層:

第一層:理解任何需求和環境(perception)

機器人會通過傳感器了解周圍環境,搞明白,裝娃娃的袋子在哪裡?袋子在桌上還是地上,整個房間長什麼樣?我要去挑的娃娃長什麼樣子?

第二層:拆解成任務(behavior planning)和路徑規劃(motion planning)

明白任務之後,機器人需要將任務拆解成:先去走過去,舉起手臂,識別娃娃,撿起來,再把娃娃放在桌上。同時,基於拆分好的步驟,計劃好,我應該用輪子跑多遠,機械臂該怎麼動,怎麼拿取物體,使多大勁兒等等。

第三層:驅動硬件執行任務(execution)

把運動規劃轉變成機械指令發到機器人的驅動系統上,確定能量、動量、速度等合適後,開始執行任務。

我們來說說這三層軟件在AI上的難點。

第一層的難點在於視覺等環境識別和理解,包括識別未知物體以及識別物體的未知姿態。

比如說,機器人在識別娃娃的時候,有可能橫着的時候可以識別,但豎着放、反着放就難以識別了,更別提當一個籃子裡有上百個娃娃的時候,每個娃娃都有不同姿態,那就更難識別了。

第二層的難點在於AI輸出的不穩定性。AI拆解任務的時候,每一次的解法可能不同,導致任務拆解不一致,這會產生意想不到的結果。這個的根本原因還是AI的黑匣子問題,我們用激勵去追求輸出的結果,但AI選擇實現這個結果的路徑可能出現不穩定性,這一點我們在《OpenAI黑手黨》那個視頻中也有講。比如說,機器人從籃子的一百個娃娃中挑選出其中一個,然後放在桌上這個任務。人的路徑規劃是穩穩的夾起來,然後平穩的移動,然後釋放在桌上,但機器人可能就甩一個胳膊直接甩到桌上去。

第三層對發展AI的悖論在於,硬件執行任務的驅動需要精準控制,而數學公式這樣的100%準確率為基礎、並且實現更高頻運作的「控制論」更適合執行這一層任務,但目前AI做不到100%準確,速度也更慢,耗時耗力,因此,這一層對AI的需求目前並不強烈,業界還是採用的傳統控制論方式。

除了這三層的AI難點之外,軟件還有一大難點就是數據難以收集。而數據收集正是AI自我學習的必要條件。我們在《OpenAI黑手黨》那一集中講過,OpenAI曾經有機器人部門,但後來放棄了這條線就是因為機器人學習的數據太難收集了。

所以事實證明,只要我們能夠獲取數據,我們就能夠取得巨大的進步。實際上,有許多領域都擁有非常非常豐富的數據。而最終,正是這一點在機器人技術方面束縛了我們。



所以,數據是人工智能的根基,就算是世界最頂級的AI公司,也會為機器人領域沒有數據發愁。不管是文字、圖片、視頻、還是編程的大語言模型,都有全互聯網海量的數據用來訓練,才能在今天實現技術的突破。但是機器人用什麼數據訓練呢?那需要在真實世界中親自採集數據,並且目前不同機器人公司、不同機器人的訓練數據還不能通用,採集成本也非常高。

比如你要訓練機器人擦桌子,人類要遠程操控這台機器人給它演示,配上這個動作的文字描述,成為一個個數據點。你以為一個任務演示一遍就行了嗎?當然不是,你運行的時候得從各個角度、各個不同的傳感器採集數據,甚至不同的光影效果的數據也都得採集,不然你的機器人就只能白天擦桌子,晚上擦不了,左邊能擦,右邊擦不了。

再比如說,訓練谷歌的RT-1模型用的數據集有700個任務的13萬個數據點,13台機器人花了17個月才採集完,時間花了這麼多,但採集的效率非常的低下。

做個對比,ChatGPT的訓練數據估計有3000億個單詞,13萬和3000億,這個對比是不是太明顯了。也難怪當年OpenAI放棄機器人,去All in語言大模型了,因為明顯後者的數據參數更好採集。

人的交互過程中有55%的信息通過視覺傳達,如儀表、姿態、肢體語言等;有38%的信息通過聽覺傳達,如 說話的語氣、情感、語調、語速等;剩下只有7%來自純粹的語義,所以ChatGPT這樣的人工智能聊天助手能輸入的部分僅占人類交互中的7%。而要讓人工智能達到具身智能,那麼剩下的信息,視覺,肢體,聽覺,觸摸等方式的數據採集,是需要給到機器人去學習的。



有沒有什麼低成本的數據採集方法呢?現在的做法是:在虛擬世界中訓練機器人,也就是模擬,Simulation。

目前,大多機器人公司的路徑都是先在模擬器中訓練機器人,跑通了再拿到真實事件中訓練。比如說谷歌之前的EveryDay Robots就大量運用了模擬技術,在他們的模擬器中有2.4億台機器人在接受訓練,在模擬的加持下,訓練機器人拿東西這個任務,原來需要50萬個數據,在模擬的幫助下現在只需要5000個數據了。各個角度、不同光影的數據也可以被自動化,不用一個一個採集了。

但是,Simulation也不是萬能的解決方案,首先它本身的成本也不低,需要大量的算力支持;其次虛擬世界和真實世界依舊存在着巨大的差距,在虛擬世界跑通的事兒,到了真實世界可能會遇到無數的新問題,所以,數據收集的挑戰依然是巨大的。

所以講到這裡,我們總結一下,數據採集難,三層任務AI化難,再加上對硬件的控制和整合,其中的統一性和準確性都是非常嚴峻的難題。在過去十年,AI機器人的發展並沒有人們一度想象中那麼樂觀。並且,在實驗室中看似已經解決的問題,到了實驗室外的商用探索中,又出現了各種新的問題。

講到這裡,我們就不得不說說谷歌十年押注AI機器人但最終沒能成功的故事,其實也反映了AI機器人上的發展困境。

04 AI谷歌十年「整合」AI機器人的失利

在2012年前後,深度學習、3D視覺、自主規劃和柔順控制等技術的發展,讓機械臂有了更好的「眼睛和大腦」,同時增加了環境感知和複雜規劃能力,可以去處理更靈活的任務。

也就是我們剛才說到的第一和第二層任務上,AI在軟件上的應用出現了進步。

所以在2012年,如果大家還有記憶的話(這就是一個暴露年齡的話題),一些科技巨頭當時開始瘋狂的收購智能機器人。比如說,谷歌在2012到2013年間,一口氣收購了包括波士頓動力在內的11家機器人公司。

當時,谷歌內部管機器人這條件線的人叫安迪-魯賓,是不是聽着耳熟?沒錯,他正是安卓系統的創始人。

但同時很多人不知道的是,他還是個機器人迷,大家看安卓的英文Android這個詞,英文原意就是「人型機器人」,而且安卓的標誌也是個綠色的小機器人。

魯賓從2013年就開始秘密在谷歌組建機器人部門,大家看當時他收購的這些公司,除了波士頓動力之外,還有研究雙足機器人的Schaft公司,研究人形機器人的Meka Robotics,研究機械手臂的Redwood Robotics,計算機視覺人工智能公司Industrial Perception,製造基於機械臂的機器人攝影攝像系統Bot&Dolly,生產小型及全向滾輪和移動裝置的Holomni公司,大家看看這些公司,谷歌顯然意識到了AI在機器人中的重要性,希望結合AI推進機器人的發展。



谷歌這樣的科技巨頭開啟收購熱潮背後的邏輯可能在於:谷歌這樣以軟件見長的公司,在比較不擅長的硬件 以及軟硬件結合的部分,是發展智能機器人難以逾越的技術壁壘。所以,我們推測,谷歌可能一度認為,在AI機器人的軟件方面,因為第一層和第二層技術的進步,買來各種硬件公司整合在一起,再把軟件蓋在上面,AI機器人說不定就能邁出重大的進展。

經過十年的發展,當年的機器人明星公司們發現,在實際市場用途中,還遠不能保證準確率和統一度。

比如說倉庫分揀這個活兒,一個訓練有素的工人可以達到95%的準確度,如果機器人低於這個準確率,那就意味着還需要有人來監督輔助機器人的運行,工廠老闆們一算賬,既要買機器人又得僱傭人類,還不如全僱人類做呢。所以機器人的準確度一般要達到95%以上甚至99%才能真正有商業價值,但現實是:如今AI機器人可以做到90%,但從90%到100%的最後10%,現在無法突破。而在這一天到來之前,機器人就很難替代人工,並且有時候還會宕機導致整個生產線癱瘓,因此客戶也不願意買單,所以準確率達不到、那麼投入商用就遙遙無期,而這又意味着谷歌不斷燒錢但看不到回報 。

安迪·魯賓在2014年爆出性醜聞離開了谷歌,之後收購的這11家公司經過各種重組,有的被再出售,比如說波士頓動力被賣給了軟銀,然後又被賣給了韓國現代,賣給現代的時候估值只有谷歌收購時候的三分之一,還有的團隊被解散,比如說Schaft公司,之後谷歌內部孵化出了兩條線,致力於工業機器人軟件和操作系統研發的Intrinsic以及通用機器人Everyday Robots。可惜,這兩個團隊都在最近的谷歌大裁員中,相當一部分人被裁掉,其中Every Robots部門不再被列為單獨項目,很多員工被併入了Google Research或其它團隊。我們開頭舉例的那個夾娃娃公司Vicarious,也因為融資不理想被谷歌收購,而很快成為了谷歌裁員的重點目標,連Vicarious的創始人都離開了谷歌。

講谷歌失敗的的機器人發展線並不僅僅是因為谷歌的辦公室政治和性醜聞,而是想說明AI機器人行業發展的一個縮影:AI機器人在軟件和硬件上還都需要解決的問題太多、挑戰太大。

而現在,重要的問題來了,ChatGPT的出現,能否打破這個僵局呢?