中國國內規模高達200億,AI 新浪潮真的是「具身智能」嗎?
英偉達CEO黃仁勛(Jensen Huang)曾預言:「AI 的下一個浪潮將是具身智能(Embodied AI)。」
繼AI聊天機器人、大語言模型之後,具身智能作為AI領域的一個新的發展方向正受到越來越多的關註。
「具身智能是一種知行合一的AI,也就是在『知』的層面上,智能體要具有感知、推理、決策的能力。在『行』的層面,智能體可以通過身體的動作和表情,與環境以及其他智能體進行交互。
這是一種既要有大腦,還要有軀體的智能體。」上海人形機器人製造業創新中心首席科學家江磊表示。
江磊強調,「具身智能的最佳物理形態就是人形機器人。」
近期舉行的2024全球開發者先鋒大會多場分論壇上,數位專家、學者和先鋒開發者分享了對具身智能以及人形機器人產業創新的思考。
人形機器人是「具身智能」的承載形態
所謂「具身智能」,就是指機器人或智能系統能夠通過感知器和執行器與其所處的環境進行實時互動,通常具備感知、認知、決策和行動的能力,能夠根據環境的變化做出相應的調整。
與傳統機器人相比,具身智能對環境的感知和響應能力相對更出色。而且,具身智能不僅能接收外部信息,還能理解這些信息,並作出適當的反應。
在此之前,華人計算機科學家、斯坦福大學教授李飛飛,上海交通大學教授盧策吾等人都曾提出「具身智能」這一概念技術。
隨著2022年底發布的ChatGPT風靡全球,在 ITF World 2023 半導體大會上,黃仁勛表示,AI 的下一個浪潮將是「具身智能」,即能理解、推理、並與物理世界互動的智能系統,引發全球關註。
在全球科技競賽的新賽道上,人形機器人正成為各國競相布局的焦點。借助政策驅動和資本助力,這一領域的創新和突破正在加速。
2024年以來,人形機器人的商用化應用示範也正成為行業發展重點,然而商用化進程中仍面臨挑戰,這既是考驗,也是激發創新潛能的契機。
「人形機器人是具身智能最完美、最佳的承載形態,可能也是通用機器人的終極形態。」清華大學交叉信息研究院助理教授、星動紀元創始人兼CEO陳建宇表示。
陳建宇稱,「不管是工業場景還是我們的生活場景,目前大部分的事情還是由人來做。所以我們急需這樣一個更通用的機器人來幫助我們完成很多的任務。」
在陳建宇看來,人形機器人有三大優勢:
一是能最大限度地適配人類環境。整個人類的基礎設施、外界環境就是完全為人類建造的,這是不能改變的,因為人始終要生活在這個環境裏。「如果我們要做一個機器人,它要通用的在人類的生活環境裏面生活,那它一定只有以人的形態才能去最大限度地適應。」陳建宇說。
第二,從技術的角度來講,未來人形機器人這樣的具身智能肯定是以數據驅動,數據是很重要的一個環節。對於人形機器人來說它的數據可得性更高,因為它有跟人類更接近的形態,可以更加方便地從人的行為中來獲取數據。
第三,人形機器人也更能滿足人類情感與審美的要求,因為它有跟人更相似的形態。
江磊也同樣認為,人形機器人就是具身智能的最佳物理形態。
據公開數據顯示,目前國內人形機器人的產業規模已經達到200億,遠遠超過所有人的預想。
2023年以來,很多原本做人形機器人的公司也在增加具身智能的新概念。「我們給了它一個新的名詞叫通用人形機器人。目前在中國通用人形機器人整機的商業公司已經超過了25家。這個數字每天還在增長,可以說我國已經成為全球人形機器人產業的一個熱門聚集地。」江磊表示。
為何具身智能在AI領域越來越受到關註?上海人工智能實驗室研究員龐江渺表示,之前大家更關註計算機視覺、自然語言處理,現在具身智能突然受到了很大關註,是因為它的底層每一個模塊的技術都已經趨近成熟了。
「 在這樣的情況下,我們能夠基於強化學習的方式去解決一些傳統NPC解決不了的控製問題。智能機器人是一個系統工程,那當這個系統工程的每個子模塊的技術都有了躍進,那它本身就會成為下一個時代的目標。」龐江渺說。
復旦大學計算機科學技術學院研究員葉廣楠指出,目前大模型的發展是機器人領域發展的一個核心原動力。因為大模型有大量的數據,有強大的並行計算的能力,大模型實際上給機器人的核心內部註入了真實需要的「靈魂」。大模型會對機器人各個階段的發展起到很大的促進的作用。
人形機器人進化要素在於數據、算法和本體
談及未來人形機器人創新發展的技術關鍵,陳建宇指出,對於大語言模型發展主要的進化要素是數據、算法,而對於機器人來說有一些不同,除了數據和算法都需要從機器人的角度有一定的改進以外,還要加上本體。
本體和數據、算法的關系非常緊密。陳建宇認為,對於機器人的數據來說,它一定是需要從本體上面產生的,不管是現實世界的本體還是虛擬世界的本體。同時,算法在目前也跟本體有一定的耦合性,現在還不能說完全能解耦開去做這件事情,所以是三位一體聯合去叠代的過程。
「人形機器人本體部分的關鍵技術點在於關節和靈巧手,比如腿部的關節和需求怎麽做,靈巧手要有多少自由度,觸覺怎麽做,怎麽樣平衡精度等等。
此外還有一個很有意思的問題,就是人形機器人的手腿協同。我們發現如果還沿用原來的四足架構的話,當我們想讓(機器人的)手做一些訓練集沒有做過的事情,就會非常影響腿部的穩定性。
所以我們提出了『去中心化』的訓練架構,使得手和腿在必要的時候進行一定程度的解耦,但是需要的時候它又可以做到比較好的耦合。」陳建宇說。
江磊則從硬件、智能和場景三個方面來分析人形機器人在未來如何落地。
江磊坦言,「首先是硬件,硬件還是集中在一定要打造一款低成本的硬件,才能指望它進入千家萬戶,思路和以往也不同,這一輪低成本硬件我們更希望通過新製造、新傳感、新材料,使得機器人所有的復雜基建系統,尤其減速器、驅動器、電機、傳感器和芯片真正進入智能階段;
其次是如何實現智能,『具身智能』給了我們一個答案,具身智能+核心零部件會成為這個新賽道的新方向,比如特斯拉擎天柱Optimus人形機器人,僅使用視覺和關鍵位置編碼器,就可以在空間精準定位自己的肢體,這可以減少對高性能傳感器和減速器的依賴,有利於降本。
(人形機器人)通過臂、手、眼的協同實現操作,從而降低成本。這也是我們希望核心零部件廠商關註的一個方向;最後是場景,未來具身智能應該是通過場景去打造一個規模化的數據集,然後把這個規模化數據集整理以後發給具身大模型。」
在江磊看來,具身智能未來可大致分為三種實現路徑:一是非端到端的路徑,采用語言大模型、視覺大模型,加載機器人就可以實現控製;二是半端到端,類似谷歌DeepMind發布的機器人大模型RT-2;三是完全端到端,江磊更看好完全端到端的路徑,
「(因為)這是一種理想的技術途徑,而且只有完全端到端能把軟件和硬件進行解耦,讓穩定應用成為可能。」江磊稱。
終極階段的具身智能將擁有自主意識
未來「具身智能」的終極目標是什麽?
上海人工智能實驗室研究員龐江渺認為,最終目標還是它能為人服務,以人為中心,實實在在的提高一些生產力。「其實落到實際的產品叠代,作為一個科研從業人員,我們總是在研發各種各樣的前沿技術,但是對於產品來說,我覺得還是應該以產品設計為導向,就是什麽事是真正有用的,然後我們再想辦法怎麽去解決這些技術。」
陳建宇則從人形機器人的本體和智能性上作出展望。
「第一個階段是達到具身智能的ChatGPT時刻。它有相對應的很好的硬件本體,人形機器人的觸覺和身體關節都做的非常好非常成熟,成本也能接受。而在智能性層面,達到一個類似ChatGPT的狀態,你教它幹一個什麽事,它對物理世界會有嘗試,並且它有通用的決策、行動還有控製的能力,然後能做各種各樣的事情。並且也具備比較強的學習的能力。
而第二個階段就是具有自主意識。像現在,ChatGPT是沒有靈魂的,你不會認為它真的有自己的思想,能幫助你回答比較難的一些問題。
但如果它真的有了自主意識,它就是一個新的物種了,那麽我們就需要考慮該怎麽處理它與人類的相處,它需不需要有一個身份,是不是要跟我們人同等的去合作、競爭等。總的來講,我覺得還是要非常謹慎地去看AGI。」
美國伊利諾伊大學香檳分校碩士,帕西尼感知科技聯合創始人、COO聶相如認為,當機器人實現了具身智能的終極能力時,樂觀主義者可能會覺得這不僅是一個效率的極致提升,還意味著人類與機器人可以有靈魂交往了。
但從技術層面來看,這確實會在倫理道德上產生非常多需要把控的問題。像之前下圍棋的機器人AlphaGo,它自我叠代的速度非常強悍,在極短時間內就擁有了非常強大的能力,把人類圍棋這個領域拿下,完虐世界超一流的選手。
「總之,我們當然希望這一步會到來,但機器人實現這一步需要什麽樣的技術路線、布局,一些前沿技術在論文階段、實驗室階段怎麽沈澱下來,這個是需要我們大家一起努力的地方。」聶相如表示。
---(鈦媒體/作者:任穎文*編輯:林誌佳|鈦媒體AGI)