人形機器人:通用之戰和未解之題
不論你接受與否,人工智能技術已經開始對於現實世界的重重改造。
消費電子領域,手機和電腦廠商們正在將不同種類的AI大模型,植入到各種終端產品中。這些公司普遍認為,AI能極大程度地改善困於創新瓶頸中的行業現狀,重新激發用戶的購買需求。汽車行業,特斯拉4月初向全美國的170萬車主推送了FSD(完全自動駕駛)正式版本,端到端的神經網絡AI系統讓駕駛決策更像人類司機,比如連續跨越4車道轉向。更為重要的是,目前為止特斯拉FSD還沒有被曝出發生任何重大事故。
AI的下一站會在哪?習慣於捕捉趨勢的風險投資人,開始在人形機器人行業集結共識。
在中國的一級市場,2023年10月,人形機器人初創公司逐際動力完成近2億元的天使和Pre-A輪融資;同年12月,成立不到一年的智元機器人拿到6億元的融資資金;2024年1月,成立不足半年的星動紀元宣布完成過億元天使輪融資;2024年2月,宇樹科技完成B2輪融資,金額達到10億元。
「中國機器人行業的發展經歷了好幾輪起伏。2013-2014年,工業機器人的投資開始起步;2016-2017年,協作式機器人領域又掀起了一輪投資熱潮。從2022年開始,通用人形機器人成為了行業關註的焦點。」
峰瑞資本副總裁顏黔杭對鈦媒體APP表示,中國國產工業機器人的市場滲透率已經達到了1/3左右,整個機器人行業正在逐步成熟。而 AI 大模型產生的質變,讓大家意識到機器人的智能化程度會越來越高,並逐步通用化。
至於通用人形機器人何時能夠真正走上產線、走進家門,行業內的創業公司則有著不同的判斷。逐際動力方面認為,通用人形機器人要代替產線上人類的精細操作,還需要5-8年;真正走向家用市場,則需要8到10年。宇樹科技的創始人王興興則對鈦媒體APP表示,「2025年底前,更加通用化的人形機器人會出現,我感覺已經看到了方向。」
馬斯克,一呼百應
是什麼點燃了人形機器人的「這把火」?幾乎所有的受訪者都給出了一致的答案,那就是特斯拉的創始人——埃隆·馬斯克。
2022年2月,特斯拉完成了Optimus開發平臺製造;7個月後的特斯拉人工智能日2.0上,馬斯克帶著Optimus平臺研發的擎天柱機器人原型亮相,該款機器人已能夠獨立行走和搬運物品。2023年年底,第二代Optimus正式亮相,重量減輕10千克、行走速度提高30%,並擁有更靈巧的手和自由度更高的脖子。
馬斯克入局之後,人形機器人的創業潮被徹底引爆。
特斯拉人形機器人 Optimus
2023年以來,包括宇樹H1、智元遠征A1、傅利葉GR—1、星動紀元「小星」、逐際動力CL—1、小鵬PX5在內的一批國內人形機器人產品被推出。二級市場,被稱為國內「人形機器人第一股」的優必選,盤中股價一度上漲超過88%,盡管這家公司目前的主要收入來源並非人形機器人產品。
海外市場,2023年5月,挪威人形機器人初創公司1X宣布完成由OpenAI領投的2350萬美元A2輪融資。幾乎同時,美國人形機器人公司Figure拿到了7000萬美元A輪融資。2024年1月,1X再次完成1億美元B輪融資,投資方包括EQT Ventures和三星NEXT等。一個月之後,Figure宣布完成6.75億美元B輪融資,投資方包括微軟、OpenAI、英偉達等。
「2022年,OpenAI還沒有發布ChatGPT,但馬斯克可能先於行業看到了GPT的能力。」
王興興對鈦媒體APP表示,馬斯克之前不論是在汽車行業還是商業航天領域,都證明了他的成功。因此,當馬斯克開始做人形機器人之後,政府、市場、資本機構都認為必須加快入場,不能等特斯拉真正做出來了大家再去追。當然,人形機器人受到關註的更本質原因是,AI大模型的出現。
據王興興介紹,此前宇樹科技並未有涉足人形機器人賽道的想法,因為人形機器人太復雜,用傳統算法根本沒辦法駕馭這種復雜機器。但是,目前AI技術的發展已經遠超其預期。比如,以前一到兩年才能讓人形機器人學會走路,現在利用AI算法訓練一個月就可以實現。
「傳統人形機器人的訓練算法,相當於是靠一些聰明的人類大腦去寫一些數學方程式,然後去求解這個方程,製定機器人的運動軌跡。但這些方程式有很大的局限性,一旦環境出現變化,可能就沒法用了,需要重新設計新的方程式。」
王興興進一步解釋稱,這樣的訓練方式會導致代碼量非常大,而且當系統復雜到一定程度,單純靠人力是無法維護這個系統的。但是對於AI來說,只要模型搭建得足夠好,然後不斷給AI投餵數據和算力,AI就可以不斷地試錯。利用強化學習算法中的獎勵機製,AI就能自動把好的訓練結果留下來,壞的扔掉,訓練效率得到質的提升。
靠著AI帶來的效率提升,宇樹科技僅花了半年的時間,就推出了旗下的第一款人形機器人產品。在2024年GTC大會「壓軸」環節,英偉達CEO黃仁勛與九個人形機器人一起登場。其中,左起第二個人形機器人就是是宇樹科技旗下的Unitree H1。
圖片來源:英偉達官網
需要註意的是,人形機器人的這波熱潮,甚至倒逼了該領域的鼻祖——波士頓動力,做出改變。
波士頓動力是一家美國的工程與機器人設計公司,成立於1992年。 2013年,波士頓動力在美國國防部競賽中公布了人形機器人Atlas 。多次疊代之後,Atlas可以實現完成各種復雜動作,比如快速奔跑、360 度旋轉跳躍、翻越障礙物等。運動控製方面,Atlas采用的正是「大量方程式求解」的傳統算法,並由液壓裝置提供動力。
「Atlas之前披露過的成本是200萬美元左右一臺。而目前市面上在售的人形機器人,宇樹科技的產品售價約為60萬元,傅利葉則為100萬元左右。」星動紀元聯合創始人席悅對鈦媒體APP表示,這就是波士頓動力和新一代人形機器人在成本上的巨大差距。
2024年4月16日,波士頓動力宣布液壓版Atlas正式「退役」。之後,波士頓動力推出了新款全電動Atlas,和目前所有的人形機器人產品一樣,利用電池提供動力來源。接下來的控製算法,波士頓動力大概率也會引用效率更高的AI模型。
三大未解之題:大腦、小腦和本體
「人形機器人現在的熱度,相當於是一個小火苗,才剛剛開始燃燒起來。如果AI和硬件每年都持續疊代,這個行業對於現實世界的顛覆將會非常強。」
王興興表示,到明年年底前,全球至少有一家公司可以把比較通用的機器人大模型開發出來。這個基礎大模型就像是一個完整的積木,大語言模型只是其中一塊,其他組成部分還包括視覺感知、力覺感知、決策和交互等。
不過,這樣的判斷在人形機器人行業中還未達成共識。更主流的觀點認為,人形機器人想要實現更大程度的通用化,需要在大腦、小腦和本體上同時取得突破,這在短時間內幾乎是無法完成的。
所謂大腦,指的是機器人的理解能力,也就是機器人對於人類指令的理解以及環境感知。小腦,是指機器人的精細化運動控製能力;本體,則是構成人形機器人原型的各類零部件,比如關節、四肢、頭等。
「大模型的出現,主要提升了機器人的大腦能力。」峰瑞資本執行董事劉鵬琦對鈦媒體APP表示。
顏黔杭則對鈦媒體APP稱,但就像「缸中之腦」一樣,現在大模型只是一個向外輸入和輸出語言類或者多模態信息的大腦,獨立於機器或本體存在。未來大模型到底應該接入什麼樣的身體,才能完全發揮通用化功能?目前,不管是投資人還是創業者,大家都在探索的一個過程中。
而在小腦方面,目前的人形機器人已經在直立行走方面取得了長足的進展,不論是平地還還是崎嶇的山路。在細分場景中,Figure 01成為了第一個「拿起蘋果」的人形機器人;斯坦福團隊的Mobile ALOHA,則展現了不錯的炒菜、收拾物品等能力。
圖片來源:Figure官方
但是,人形機器人想要實現完全通用化,這些進展還遠遠不夠。無論是拿蘋果還是炒菜,體現的都是機器人的模仿學習能力,也就是通過一遍遍模仿人類動作,學習單一技能。
「機器人跟物理世界交互的高質量數據其實難獲得,所以模仿學習有其用武之地——通過用人去教他,去積累一些數。不過當下的模仿學習只是單純地教機器人復製人的動作,但它並不能理解每一個動作的驅動要素是什麼。或者說,機器人不明白為什麼動作要這麼做。」顏黔杭表示,如果讓機器人完成「端杯水然後加點糖」這類復雜的人類操作,模仿學習可能就無法實現。
「視覺傳感器的引入,可能讓機器人不再瞎了。但還有更多其他維度的感知能力,今天的機器人都是欠缺的。」顏黔杭稱,比如觸覺、力覺的傳感器市面上雖然有,但現在目前並沒有在機器人領域普及,主要原因是這些傳感器集成度低、價格貴,體積相對與人形機器人來說也太大。
「強化學習就是不斷試錯的過程,相比於模仿學習有更強的泛化性。」
星動紀元聯合創始人席悅對鈦媒體APP表示,類似於自動駕駛的訓練方式一樣,強化學習可以通過構建仿真環境,讓機器人在真實場景的模擬環境中進行訓練,在不斷地試錯中優化自己的行為。「強化學習訓練出來以後,機器人不僅能走樓梯,它也能走雪地,也能走草地,實現更好的泛化性。」
但需要註意的是,仿真環境與真實世界無法做到完全相同,現實世界的交互環境以及交互對象相比於仿真環境會更復雜。這就會導致,仿真訓練結果遷移到真實世界會出現偏差,這也是目前整個行業面臨的挑戰。
鈦媒體APP曾獨家獲悉,星動紀元已經將Humanoid-Gym訓練框架進行開源。Humanoid-Gym開源後,用戶可以借助該框架通過sim-to-sim轉換接口,在更高精度的仿真環境Mujoco中進行機器人訓練驗證,繼而提升sim-to-real(仿真到現實)轉換的效率和成功率。
而除去大腦和小腦的訓練之外,人形機器人能否走向通用的最後一道門檻,則是本體是否可以完全承接軟件算法傳遞的動作指令。
「人形機器人的硬件技術產品主要圍繞傳感器、執行器和驅動器、能源管理及新型材料等開展工作。」
IDC中國研究經理李君蘭對鈦媒體APP表示,目前,盡管已有多種傳感器被應用於人形機器人,但在精度、響應速度和集成度方面仍有提升空間。同時,人形機器人的能量消耗較大,高能效的能源動力管理和儲能技術也是一個重要挑戰。
「視覺傳感器的引入,可能讓機器人不再瞎了。但還有更多其他維度的感知能力,今天的機器人都是欠缺的。」顏黔杭稱,比如觸覺、力覺的傳感器有很多,但現在目前並沒有在機器人領域普及,主要原因是這些傳感器集成度低、價格很貴,體積相對與人形機器人來說也太大。
也正是因為種種方面的掣肘,人形機器人的通用之路變得更加漫長。
更現實的當下,有可能的未來
當人形機器人的「通用時刻」還未到來時,如何活下去,成為了創業公司最真實的現實處境。
「我們公司商業化上的策略就是四個字——沿途下蛋。」
逐際動力方面稱,具身智能(包括人形機器人、四足機器人等多種產品形態)的應用場景非常廣泛,相比人形機器人,四足機器人的商業化落地能力會更強。而後者,則是逐際動力需要下的蛋——依靠四足機器人成熟的移動能力,去實現產品商業化落地。
目前,逐際動力產品包括人形機器人CL1,雙點足機器人P1以及四(輪)足機器人W1。其中,雙點足機器人P1以及四(輪)足機器人W1落地應用聚焦在工業巡檢、物流配送、特種作業等領域。
圖片來源:逐際動力官方
同樣的,成立更早的宇樹科技的主要營收也來自於四足機器人。這也是宇樹科技創立之初發力的業務方向,目前已經有Go2、B2、Aliengo等多個產品。公開數據顯示,目前宇樹科技的四足機器人產品占全球出貨量的60%以上,處於全球歷年銷量領先的位置。
星動紀元方面則表示,汽車和消費電子的細分場景,比如,工廠巡檢、汽車總裝產線的物流部分,是公司目前探索的商業化方向。同時,類似於商場迎賓等服務性質的工作,也存在商業化的可能。
「當然,對於人形機器人的創業公司而言,融資肯定是必須的。」星動紀元聯合創始人席悅對鈦媒體APP表示,因為人形機器人這個行業還太早期,技術門檻更高、研發周期相對來說也更長,早期肯定需要融資才能活下去。
事實上,人形機器人行業出現的此刻,也是國內自動駕駛行業經歷的過去。
2017-2018年間,國內開始湧現大批的自動駕駛創業公司,並吸引了大量的風險投資機構進場。與人形機器人類似,自動駕駛領域也需要長周期的技術開發,所以在早期對於投資機構的依賴度很強。但很快,隨著投資熱潮的褪去,自動駕駛公司的商業化能力開始受到質疑。再之後,就是大批的自動駕駛團隊解散、裁員,甚至是對簿公堂。
「從技術門檻、創始團隊和行業影響力等方面來看,人形機器人和自動駕駛的確非常像。但是,這一輪人形機器人公司的估值普遍沒有上一輪自動駕駛公司的估值高。」
一位同時在自動駕駛和人形機器人領域工作過的業內人士表示,這是一件好事,大家不用一味只去追求公司估值,而忽略了商業化。「人形機器人這一波的創業者,部分已經看到了上一波自動駕駛發展中的問題和風險,所以會對產品商業化的認知程度更高。」
除此之外,該人士還表示自動駕駛的創業潮中,大家習慣於單打獨鬥。但在人形機器人產業中,更強調的是合作。比如,目前北京、上海、深圳都由政府相關部門牽頭,成立了人形機器人的創新中心。由政府部門出面去拉通產業鏈的上下遊,有做技術的,做機器人關節的,做商業化落地的。「大家形成一個實體,上下遊公司均是股東單位,可以整個鏈條打通。」
通用人形機器人母平臺「天工」 圖片來源:官方
以北京為例,4月27日,北京人形機器人創新中心在北京經開區發布全球首個純電驅擬人奔跑的全尺寸人形機器人「天工」,能以6公裏/小時的速度穩定奔跑。「天工」身高163cm,輕量化體重達43kg,機器人配備多個視覺感知傳感器,搭載了每秒550萬億次操作算力、高精度的慣性測量單元(IMU)和3D視覺傳感器。
發布會上,創新中心總經理熊友軍表示,為解決人形機器人行業通用問題,推動產業整體發展,北京人形機器人創新中心致力於行業關鍵共性核心技術研發,打造軟、硬兩個通用母平臺。目前,已成功研發出通用人形機器人母平臺「天工」。
北京經濟技術開發區相關負責人介紹,作為北京市重要的機器人產業集聚地,北京亦莊目前匯集機器人生態企業110家,形成覆蓋核心零部件、整機到應用的機器人全產業鏈體系。在人形機器人領域,不僅有小米、優必選等人形機器人頭部企業落地發展,還有高精密減速器、伺服系統等人形機器人零部件產品。
而在機器學習的軟件算法層面,特斯拉FSD(完全自動駕駛)的成功,也讓人形機器人行業看到了有可能的未來。
在特斯拉最新的FSD V12版本中,FSD Beta更名為FSD (Supervised)。根據特斯拉官方的說法,在車主的監督下,最新版FSD Supervised幾乎可以在任何地方駕駛特斯拉。
在FSD V12之前,特斯拉的自動駕駛方案一直依賴於規則判斷,任何駕駛行為的背後都有代碼作為支撐,FSD V11 C++代碼多達30多萬行。而在FSD V12版本版本中,依賴於手動編碼規則的方案被徹底拋棄,轉而全面采用端到端的神經網絡AI系統,代碼行業縮減到只有3000行。
特斯拉FSD的端到端方案,本質上是完全基於數據驅動。通過將上千萬個甚至上億個人類駕駛視頻的高質量數據,壓縮到了大模型中,特斯拉FSD就可以AI的方式去思考——遇到場景直接輸入傳感器數據,輸出轉向、製動和加速信號,而且這個過程中沒有任何編碼。
據特斯拉2022年10月公布的信息顯示,Optimus人形機器人使用與特斯拉汽車相同的完全自動駕駛(FSD)電腦,以及Autopilot相關神經網絡技術。
這也就意味著,人形機器人完全可以利用FSD同樣的訓練方式,走向通用之路。據王興興介紹,目前宇樹科技人形機器人,從行走奔跑到舞蹈空翻等,已經完全采用類似端到端的解決方案,從視覺感知到腿部執行,一個模型就可以實現,沒有任何中間過程和編碼。
「人形機器人硬件部分的成熟,只是時間問題。最重要的,還是通用人形機器人的AI基礎大模型。」王興興稱,樂觀的估計,基礎大模型的突破可能會在明年年底前發生。但是,也有可能不會發生。「有時候技術的突破,需要看全球人類的運氣。就像當年如果沒有愛因斯坦,他的理論大概率也會有人發現,只不過會晚個幾年到幾十年。」 ---(鈦媒體/作者:饒翔宇*編輯:鐘毅/鈦媒體深度)