01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

90 後北大博導造人形機器人,不學特斯拉

2024081714:21



美國不是中國模版。

今年 5 月,一批身高 1.72 米的新工人來到美國得州工廠上班,他們負責把一粒粒圓柱形的 4680 電芯從傳輸臺上碼放到面前的紅色盒子裏。他們不算熟練,甚至動作遲緩、笨手笨腳。但這批工人是 Optimus,特斯拉 2022 年發布的人形機器人,一切不一樣了。

「完美的使用場景」「進步神速」「失業警告」,在特斯拉釋放的機器人工作視頻下,人們的評論有驚嘆,有擔憂。

王鶴卻不這麽想,他覺得 Optimus 目前階段 「還是個 reserch(研究)」。

1992 年出生的王鶴,現任北京大學前沿計算研究中心助理教授和博士生導師,他本科畢業於清華大學電子系,博士畢業於斯坦福大學,在計算機視覺、機器人學和人工智能的頂級會議 CVPR ICCV 等上發表數十篇論文。

去年 5 月之後,王鶴被更多人關註到的身份是智能機器人公司 「銀河通用」 的掌舵人。今年 6 月,銀河通用以 7 億元融資打破 2024 天使輪融資記錄。

大部分公司做完整的人形機器人,王鶴認為,雙腿現階段不是最優解,徒增成本。「不是人形機器人的操作能力足夠強,就差腿了。而是現在還有大量的活,傳統機械臂操作不了。」 王鶴判斷雙手在場景落地上更有價值,而大量場景其實不需要雙足運動能力,比如巡檢、巡邏,機器狗和車一樣能做。



銀河通用的 Galbot 在撿垃圾,它沒有雙腿,而是可折疊的單腿 + 輪式底盤。

獲取足夠多的數據是具身智能發展的難點,特斯拉、Google 都選擇用 「遙操」 采集數據,即讓真人戴上一些采集設備來完成機器人要學的動作。王鶴覺得這樣算不過賬:「Google 做十幾萬條數據,就用了十多個月、花了上千萬美元。」 銀河通用選擇 all in 「Sim2Real(從仿真到真機的遷移)」,即主要依靠合成仿真數據。

美國的人形機器人公司錢多、膽大,王鶴的一個觀察是,這讓他們沒有嚴格地尋找 PMF(Product Market Fit,產品和市場的匹配),「在美國,既然有錢,就一口氣把它全做了」。但缺乏真實數據、硬件不穩定等行業難題,必須要落在場景才能解決,所以他認為,要從第一天起就考慮商業化。

「我們不要把特斯拉做的東西奉為圭臬。」 王鶴說,中國的創業公司 「在沒有美國資本充裕的情況下,還講人家的故事,那只能是死路一條」。

王鶴不認同特斯拉,行業裏不少人也不認同銀河通用。以王鶴看中的 Sim2Real 為例,不少從業者認為仿真合成數據與真實世界天然存在差異,這會影響訓練效果。銀河通用的第一款機器人蓋博特面世後,有對手說感覺 「松了口氣」:「Demo 和實際的應用差距很大」,「寫了很多抓取的論文,最後一只手是吸盤。」

更大的質疑是,現在不是創業做人形機器人的時機。一些投資人認為,現在這批公司會成為先烈,因為硬件、材料、能源等很多技術還不成熟。李開復講具身智能,說 「我們肯定不能現在去投一個 10 年後才發生的事」;真格合夥人戴雨森說,具身還是黑莓時期,投不出 iPhone。

人形機器人和具身智能仍處於極早期階段,而且這是一個鏈條長、技術棧復雜的行業,AI、材料、能源、機械控製;開發、製造、供應鏈管理、客戶拓展,最終活下來的公司不能有短板。

判斷贏家還太早,這篇訪談記錄了一位年輕科學家出發一年後看到了什麽。他現在相信:大公司雖然掌握更多資源,但不一定正確,這是他的機會。

具身智能和人類社會的最大公約數

《晚點》:你從 2016 年開始研究如今的具身智能——把視覺模型、自然語言模型和機器人操作模型結合。從這些年的研發中你看到了什麽?

王鶴:我在讀博時就在做具身智能,當時還不叫 「具身智能」,最初是把這三個分立的小模型結合在一起,實現類別級物體位姿估計(位姿:一個物體在三維空間中的位置和姿態;位資估計:找到一個物體的位姿),其實就是雙手通用性操作。

回國之後、創立這兒之前,我在宇樹機器狗的後背裝了一根臂,嘗試讓它做一系列操作。但發現計算、資源甚至整套系統,很多地方不能滿足我們的需求。

當時覺得,如果不做硬件,就只能完全仰賴別人,系統研發叠代也會受限。機器人本體產業不存在時,很難只做智能。

《晚點》:後來發生了什麽變化?為什麽在 2023 年決定創業?

王鶴:具身智能創業 2022 年時就在中國發酵了,比美國要早,主要原因是硬件和本體的成熟度。

美國的製造業不允許快速做出具身智能的完整 demo,美國零部件供應不全,很多東西都得進口,而且硬件工程師也很匱乏。而中國做硬件,能做到成本最低、可靠性最高,像宇樹做人形機器人,幾個人半年就做出來了。

但本體只是個大號玩具,下一步是智能上要怎麽競爭。到 2023 年時,全球出現了 PaLM-E 等具身多模態大模型,多模感知與具身操作之間的火花被點燃。我決定在這個時間創業。

《晚點》:為什麽你創業選擇做人形機器人?具身智能的載體不一定是人形。

王鶴:確實存在各種形態,狗、飛機、車都是。但所有形態裏,具身智能跟人類社會最大的公約數只能是 「人形」。

因為整個生產、生活環境都是為人設計的,人形能做的操作是最多的,未來數量也會最大,經濟產值也最大。從願景上說,具身智能和人形機器人可以劃等號。

《晚點》:不少人認為具身智能的創業窗口還沒到,現在這批公司會成為先烈,硬件、材料、能源等很多技術還不成熟。比如李開復講具身智能,說 「我們肯定不能現在去投一個 10 年後才發生的事」;真格合夥人戴雨森說,具身還是黑莓時期,投不出 iPhone。

王鶴:我與李開復老師 2019 年見面時,他說還要 50 年,現在他已經從 50 年加速到 10 年了。

我們也不能用手機類比具身智能,從功能機到智能機,技術發生了很大變化,而現在具身智能的技術方向已經明確了:本體與大模型融合,成為通用機器人。

這時,下場越早,技術和數據積累就越多,會在後期拉開差距。機器人進入場景後,真實場景的數據會補足智能。後入局者極難超越一家已經有上萬臺機器人、不斷有真實數據回流,並且已經在場景裏踩過坑的公司。

這和自動駕駛類似,只有賣出足夠量的車,才會有足夠多數據,才能用數據更快完善算法。Google 和特斯拉之爭,特斯拉就贏在車足夠多。

具身智能有可能長成與車媲美的市場。它擁有與歷次技術變革的特點:初期慢,逐步替代專用機器人;而一旦達到萬臺級規模,會加速替換傳統產業。

《晚點》:一個事實是,具身智能創業熱發生在 ChatGPT 和大模型熱潮之後。但實際上大模型只能解決具身智能的小部分問題,所以會有人覺得現在還太早。

王鶴:具身智能是軟件、硬件和算法融合的產物。現階段它與大模型的結合點,一是通用感知和語言交流,這是在解決交互問題。比如有人來藥店裏問機器人,哪裏不舒服應該吃什麽藥?熟悉藥品名目和位置的機器人才能和人對話。

另一個結合是,現在在抓、放物體等具體操作時,機器人也實現了基於大模型的端到端(輸入感知信息後直接輸出機器人軌跡),未來在整個全局規劃上,大模型會發揮作用。

總體看,大模型現在是輔助,但大模型和小模型結合,有可能通向通用機器人。

《晚點》:銀河的路線就是三維視覺小模型 + 基礎大模型,怎麽理解?

王鶴:就像我們人有系統一、系統二,有快思考、有慢思考,前者是小腦的能力,在機器人裏就是交互控製、靈巧操作等技能,這可以靠小模型處理;後者是大腦的能力,就是認知、理解、規劃,用大模型解決。

這是一個三層系統:底層是硬件,中間層是能執行各種技能的小模型,上層是負責任務規劃的基礎大模型。機器人接到指令後,大模型負責調用中間層的小模型,小模型執行完後,大模型根據結果再研究下一步。

雙足沒那麽重要,手才是關鍵

《晚點》:都是做人形,行業裏多數公司的機器人有雙腿,你們的第一款機器人蓋博特(Galbot)是輪式底盤 + 雙手。

王鶴:最本質的問題是,你的產品到底能給場景帶來什麽價值?雙足只解決了通行問題,沒有操作能力,這樣就只能做巡邏、巡檢等場景,這和過去用車和狗沒有質的變化。

但雙手能做傳統機器人做不了的柔性生產,它們多是人力密集型產業裏的糙活,比較容易泛化,想象空間和場景非常多,所以上半身的重要性高於下半身。

《晚點》:手的操作能力和雙足的復雜運動能力哪個更難?大家設想的最終形態都是完整的人形,先做手的公司,會不會到時想補足運動能力時卻跟不上?

王鶴:現在大部分操作都是雙手實現的,所以我們先用 「手」 進入場景,腿的部分用可替代的、低成本通用輪式底盤,先有商業化,獲得真實數據。

雙腿的問題是無法在真實場景落地,所以做雙腿的公司要拼持續融資能力,未來三年會大浪淘沙。當然隨著雙腿性能變好,價格合適,我們也會換上腿。

《晚點》:一起做為什麽不是一個選擇?

王鶴:因為不是人形機器人的操作能力足夠強,就差腿了。現在還有大量的活,傳統機械臂操作不了。

從實際使用去考慮,輪式機器人的成本和穩定性都遠勝於雙足。同等身高下,兩條腿的 BOM(原材料成本)比一個輪式底盤貴十倍。而且雙足還容易摔,機器人摔了就徹底壞了。

雙腿現在的技術難題還有待突破,比雙手場景落後很多。比如東西從貨架掉到地上,現在全世界任何一個腿式人形機器人都做不到彎腰撿起來

《晚點》:下蹲對人挺簡單的,為什麽機器人做不到?

王鶴:最難的是全程維持身體平衡。腿的平衡能力有幾個階段:第一步是走路,第二步是上臺階,這就已經難倒了一批公司。第三步是彎腰,難點是重心會出來,再就是蹲和分腿蹲,目前實驗室裏都做不到。

雙腿是遲滯於雙手發展的,對人也是這樣,嬰兒只會爬的時候,手就可以到處探索,但能站起來並穩定行走卻要很久,很多人到六七歲還會摔跤。

其實雙足走路二十年前就有 demo 了,今天真能在地上走個十分鐘都沒事的,屈指可數。很多雙足機器人的穩定性根本達不到大家的期待。在具身智能領域,大腦的發展領先於雙臂雙手,雙臂雙手又領先於雙腿。

《晚點》:特斯拉的人形機器人 Optimus 就是同時做雙手和雙足,現在都能在工廠工作了。

王鶴:Optimus 現在的工作場景跟腿沒有任何關系,在工廠抓電池以及在車場裏來回巡檢,不需要雙腿能力的提升。

而且很難算賬:機器人成本是十幾萬、二十萬美元,但幹的活是把完全一模一樣的電池放到五乘六共三十個格的盒子裏,也就是把標準的電池放在標準的筐裏,筐的位置都是定死的。這樣的事情為什麽需要具身智能?為什麽不是用傳統的工業自動化?

《晚點》:銀河通用蓋博特(Galbot)在美團的藥房分揀藥品,這用機械臂也可以做,但你們也用了人形的上半身。

王鶴:我們做這個場景是要展示具身的能力,太難的東西目前技術還沒發展到這一步,就先找能做的。特斯拉的場景本來就是用機械臂實現的,甚至不是在替代人。在藥房中完成的是由人類完成的工作,難度本身就比特斯拉更高,其次只用工業自動化是沒法實現的,因為不同的藥品並不是標準品,不同的訂單也不是標準需求。

不把特斯拉奉為圭臬,遙操解決不了數據問題

《晚點》:數據較少是現在具身智能的一個的難點:文本的數據現在有 15T,圖片是 6B,視頻是 2.6B,但機器人的數據只有 2.4M。特斯拉和 Google 都是通過 「遙操」 采集數據,即讓真人穿戴采集設備完成機器人要學的動作,而銀河通用是 「all in Sim2Real」,即仿真合成數據。為什麽你們和他們不一樣 ?

王鶴:遙操不是創業公司玩得起的。遙操要先雇很多人去重復做各種操作。得到一條有效數據,需要一臺機器人和一個人一起花 30 秒或一分鐘。

這是人形機器人和自動駕駛很不一樣的地方。特斯拉做自動駕駛,可以讓一百萬車主花錢買車,總共開上億小時,不需要額外花錢搞數據。而且開車就是一件事,工廠裏的工種卻種類繁多——打膠的、放電池的、擰螺絲的……不同任務間關聯可強可弱。

特斯拉找了數十人在放電池的場景遙操,但之後繞線、組裝等更多操作場景,就不止這些了。特斯拉有很多錢,有自己的工廠可以買自己的機器人,它能這麽幹,創業公司不行。

就像無人駕駛現在會有遠程監控員一樣,遙操可以發揮遠程接管的價值。機器人在場景裏幹活出問題了,現場沒人,這個時候就可以遙操介入。

《晚點》:所以遙操是大廠的遊戲?

王鶴:這是馬斯克在講的故事。我們不要把特斯拉做的東西奉為圭臬,實話實說,這就是個 reserch(研究)。

Google 做 RT(robot transformer,一種機器人控製算法) 時,有十幾個人的 「Every day Robots」 團隊,做完 RT-1 後,這個部門就被裁撤了,就是因為商業模式不存在。

現在中國的具身智能公司,只有沒有自己路線的才學美國的特斯拉和 Google。沒有美國公司資本充裕,還講人家的故事,那只能是死路一條。

《晚點》:這是不是也取決於做出通用機器人所需的數據的量,小於一個量級時,特別有錢的大公司或特別能融錢的創業公司也許也能跑通遙操路線?

王鶴:我們自己的實驗發現,比如在抓取這個任務上,當有十億次抓取數據時,機器人的成功率能到 87%,如果數據量縮到萬分之一,也就是 1 萬次抓取時,成功率就只有 58%。這說明具身智能也有清晰的 scaling laws,它對數據有更大渴求。

而在真實世界裏很難獲得十億量級的數據。Google 做十幾萬條數據,就用了十多個月、花了上千萬美元。

《晚點》:仿真能讓成本降低多少?

王鶴:通過仿真合成,一秒鐘就可以把六十張圖全部渲染完。相比采集真實世界的數據,合成數據幾乎約等於不要錢。我們的第二曲線才是從真實世界裏獲得數據。

在仿真器中,我們將每個物體的運動,合成 200 條視頻,再從單一物體仿真合成為一類物體。這會生成大量數據,我們以此訓練機器人的抓取能力。

《晚點》:不少人認為用仿真器(提供一個仿真虛擬環境的系統)得到的合成數據與真實世界的數據天然有差異,會影響訓練效果。你們怎麽解決?

王鶴:仿真器永遠不可能完全真實,但 Sim2Real 路線也不需要仿真器完全仿真,它是硬件、算法和仿真聯合優化的過程。

現階段,仿真器是一個驗證工具,用算法表達的數學物理模型才是獲得抓取位資的核心。

仿真器仿確實有一些限製,比如我們的手去摸礦泉水水瓶,即柔性的、能形變的手去接觸看似剛性、其實也能形變的物體,這個過程不是點接觸,而是摩擦,這在物理上都沒有被完美建模。

這時就需要我們的算法有極強的自適應能力,比如加觸覺、加力控,學 「形」,抓了再控製,這樣就能把仿真裏最難的這部分問題規避掉。還有一個前提是,硬件要充分的魯棒(Robust,指異常情況下系統也能相對穩定地運行)。

《晚點》:仿真器和數學物理模型等算法具體怎麽配合?

王鶴:我們提出一套數學物理模型,高效搜索怎麽抓,再用仿真器驗證,這麽抓是否可行。

這裏還涉及強化學習和監督學習的差異。如果是強化學習,就是跟仿真器多次交互、試錯,摸索出一條方案,這對仿真器的真實性會有不小的要求,足式行走就是完全靠仿真器強化學習 Sim2Real 的。但這是試出來的,效率比較低。

如果你能夠告訴機器人怎麽抓,就可以轉化成監督性學習,那麽學習效率會更高。我們就是用監督學習來習得二指和五指的抓取。

從第一天就考慮商業化

《晚點》:中國做人形的公司大多也在做別的產品,比如智元有商用清潔機器人,逐際和宇樹都同時在做機器狗,而美國更多是直接推出人形機器人。為什麽有這個差別?

王鶴:中美資本的充裕度不一樣。在美國,既然有錢,就一口氣把它全做了。像 Figure AI、特斯拉,這些公司都是走全人形的。但 Figure AI 現在 25 億美金的估值,在 demo 裏展示的操作,跟運動能力沒有任何關系。美國的泡沫,讓他們不需要按非常嚴格的 PMF(product market fit) 去思考問題。



今年 8 月,FigureAI 發布新機器人 Figure 02,它已能在寶馬汽車工廠裏做一些組裝 demo。

《晚點》:你覺得更正確的路是一開始就要思考產品落地,這在人形機器人這樣的前沿領域會不會太著急了?

王鶴:一方面還是數據問題。具身智能跟硬件綁定,所以如果機器人不到場景中鋪開,很難獲得大量數據。但又不能免費、大量鋪出去,因為造本體的成本太高了。大模型不需要通過商業化去獲取數據,是因為它普及的成本還是遠低於機器人。

同時機器人也欠打磨。如果不在場景中對機器人長期觀察,也無法將機器人叠代到能穩定工作的狀態。這也是機器人賽道裏沒有 PPT 公司的原因。

《晚點》:你看到的產品落地方式是什麽?

王鶴:第一步是在單一環境裏,對多種物體做單一操作,比如在同一個廠房、同一條產線裏,搬不同的東西。這是 Google RT-1 和特斯拉 Optimus 現在幹的事,但 Optimus 處理的物體更少。這兩個都還不是真正泛化,也就是通用化,還不能真正掙錢。

下一步,是機器人能在同行業裏的不同場景,對不同物體做相同操作。比如在工業製造業,從能在車廠中拿零件擴展到在任意工廠能拿所有零件;在零售行業,從能在小超市裏上貨,擴展到也能在沃爾瑪裏上貨。一次訓練,擊穿同行業不同場景,這就有很大價值了。

再下一步,才是更多任務、更多場景,跨行業全都 handle,不斷走向通用。

《晚點》:整個行業現在都在第一步,這時怎麽選第一個或第一批場景?

王鶴:任何一個行業裏,只要是柔性生產但又沒完全自動化的場景,具身智能機器人都有可能落地。尤其是製造業裏有一些不顯眼的操作,需求可能很強,需要的技術可能也不復雜。

我們要從易到難,從人力成本高到人力成本低,從需求量大到需求量小,逐個去做。

《晚點》:在藥房裏拿藥符合你說的這個邏輯嗎?還是因為美團投了你們,所以你們做了這個場景?

王鶴:我們想率先搶占高利潤、高價值,並且能向更強的通用性轉化的場景,未來的目標是進入家庭。

B to C 就比純 to B 更適合進家,所以我們在零售布了一個 B to C 的場景,跟人打交道。

《晚點》:你們的第一款機器人什麽時候發售?

王鶴:今年 Q4 會接受小批量定單,定價在 50 萬。

《晚點》:這在藥房取藥是不是太貴了?

王鶴:我們現在有兩個主要銷售方向,科研場景和類似美團這樣的商業化的場景。這些場景的價格和配置是不同的。

我們賣給科研場景的是自帶充分算力的可開發版本。而我們賣給商業場景的就不支持開發,會增加一些功能,削減另一些不必要的功能和算力,比如現在機器人上放的都是 OrinX 的卡,但在商業場景,計算可以放到雲端。

現在科研場景的預定已經有幾十臺了。而在商業場景,從機器到服務,我們團隊會全程負責。

《晚點》:你曾說過,銀河有望把一套機器人的成本控製在 5 萬元,那會是在什麽時候?

王鶴:今年做不到,但當達到千臺、萬臺時,我們會向這個目標不斷接近。

《晚點》:有一個玩笑是,中國人形機器人的銷量是靠創業公司、高校實驗室等同行撐起來的。

王鶴:科研天花板肯定低,但科研是第一步。不可能一家成立一年的公司就能賣一千臺機器人,除非是玩具。

《晚點》:我們聊了很多具身智能行業現在的非共識,你覺得現在的共識是什麽?

王鶴:目前為止,尚未出現哪個具身智能的場景能產生規模化經濟效益。怎麽能掙錢沒有共識,所以倒推的產品形態是什麽,技術是什麽,產業是什麽,場景是什麽,都沒有共識。

沒有共識是很好的事情。就是說如果大家都形成共識了,那麽最後拼的就是成本、資源、人脈。這些要素都不是創業者擅長的,對創業是不利的。

但是要暢想未來,技術的終局,進家 + 全人形 + 大模型,這個恐怕大家都能認同。

《晚點》:你會怎麽形容現在一大批新企業追求 Embodied AGI 的歷程?

王鶴:這是人類再次扮演造物主的過程。汽車產業也是完全被人創造出來的產業,通用機器人未來也是這樣。我們當中也會出現像特斯拉一樣的領軍車企。---[文: 王與桐*編輯: 程曼祺/來源: 晚點LatePost]