01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

“80%的投資人看不懂具身智能”,人形機器人開始降溫 ?.....

2024110515:10

*“80%的投資人看不懂具身智能”,人形機器人開始降溫 ?*

·如果無法獲得大公司的戰略投資,初創公司的生存將面臨困難。未來能持續發展的具身智能機器人公司可能不到10家。

從去年以來,具身智能(Embodied Intelligence)是繼大模型之後人工智能行業內討論熱度較高的議題,在投資圈也是趨之若鹜。

大家對具身智能的前景充滿期待,但深入産業觀察,理想和現實仍有相當大的差距。

一位參與了具身智能機器人項目的科技投資人日前在接受澎湃科技采訪時直言,80%的投資人其實看不懂什麽是具身智能,但行業發展趨勢倒逼投資人理解“具身智能”這一概念。

透過行業火爆的現象,可以看到很多硬核問題尚未得到解決,譬如硬件同質化嚴重,具備真正的“可用性”的具身智能非常少。

  

特斯拉Optimus機器人演示。

近期,總部位于倫敦的人工智能投資公司 Air Street Capital 發布了最新的人工智能狀況報告“The State of AI 2024”,報告對2025年做出十大預測,其中指出,由于難以實現産品市場契合,市場對人形機器人的投資水平將下降。

投資人的熱情與糾結

什麽是具身智能 ?北京具身智能機器人創新中心總經理熊友軍用一個形象的比喻來描述具身智能與機器人之間的關聯。

他說,“具身智能是人工智能與機器人技術深度結合的産物,它是‘長了身體的智能’,標志著技術發展的一個巨大進步。”他認爲,具身智能能夠直接與物理世界進行交互,將帶來生産力的巨大提升和生活方式的改變。

目前業內普遍認爲,人形機器人是具身智能落地的最佳硬件載體,持有類似觀點的不乏頂級技術專家和科技巨頭,包括斯坦福大學教授李飛飛、美國知名企業家埃隆·馬斯克、英偉達CEO黃仁勳等。

國內資本市場敏銳地捕捉到了具身智能機器人的潛在價值,在今年上半年,大量資金湧入這一賽道。

譬如成立僅一年的北京銀河通用機器人公司(以下簡稱“銀河通用”)今年獲得美團、商湯等知名互聯網企業7億元人民幣的天使輪投資後,又獲得港投公司的天使+輪次投資。

由華爲天才少年“稚晖君”創立的智元機器人,在過去一年時間完成七輪融資,估值已達到70億元。事實上,很多機器人還在用PPT講融資故事的時候就已經估值過億。



Figure AI機器人

前述科技投資人指出,目前對于投資人來說,最大的障礙在于很多人其實也看不懂這個賽道,“可能80%的投資人並不理解。”

讓投資人很糾結的問題是,目前市場上的具身智能人形機器人硬件同質化嚴重,很多機器人公司使用的本體和其他組件都來自同一家上遊供應商,如諧波減速器和電機等關鍵零部件,能快速實現組裝。“

在硬件相差不大的情況下,機器人的抓取能力和動作靈活性完全依賴于“大腦”的智能化程度。

最終決定機器人能力高低的是依托于軟件的智能泛化能力。

只有擁有強大的泛化能力,人形機器人才能適應各種任務場景,具備真正的“可用性”。然而,在這位投資人看來,就泛化能力而言,目前還沒有哪家機器人公司的具身智能産品可以真正通過商業化的概念驗證。

上海市人工智能社會治理協同創新中心、上海交通大學清源研究院研究員劉志毅告訴澎湃科技,即便投資市場表面上火熱,人形機器人公司如雨後春筍般出現,仔細觀察會發現,行業內大多數還停留在“Demo”階段,能真正落地商用的非常少。

“未來持續發展的具身智能公司或不到10家”

理想畫面中的具身智能機器人搭載大模型,能夠完成端到端的自主學習,掌握工作技能。在工廠的倉庫中,機器人可以自由穿梭,精准地挑選、分類和放置物品,高效而准確。但現實與理想還有差距。

劉志毅表示,“現在大部分所謂的具身智能機器人,對外展示看上去更像一間樣板房。”他指出,目前市面上確實能看到特斯拉、Agility、Figure AI等公司在人形機器人領域的頻繁動作,投資界和媒體的討論也非常多。

機器人的動作控制、基礎抓取能力以及倒紅酒、煎雞蛋等細分場景的展示,讓人眼前一亮。

但仔細觀察可以發現,這些機器人所做的事情差別不大,缺乏新意。機器人進入工廠工作,在性價比、穩定性和適應複雜環境的能力等方面仍有諸多難題待解。

即便當前許多機器人企業比如智元機器人、特斯拉等在融資後宣布進入小批量量産階段,但實際來看,大部分量産主要集中在面向科研、高校等研究機構,距離真正的規模化應用仍然遙遠。

EX機器人總裁、中國機器人協會副會長李博陽曾表示,機器人公司需要考慮在什麽樣的場景下能做出可批量生産的産品。首先要考慮市場是否真的有需求,如果做的是一個僞需求的項目,無論怎麽做,都不可能實現批量化生産。

“現在很多機器人企業的産品,在需求場景下還沒有達到可用的狀態,這意味著它們還沒有達到量産的階段。”李博陽稱,無論現在是否真的“百花齊放”,現階段應先考慮機器人是否可用、能否賣出去,再考慮降成本、批量化生産。

劉志毅向澎湃科技表示,距離理想中的大規模生産、廣泛應用階段還很遙遠,保守估計需要5-20年分階段過渡。“目前這些機器人,無論是輪式、雙足還是帶有靈巧手的,想要實現大規模生産都非常困難。”他指出,要建立大規模生産的供應鏈體系,所需資金投入巨大。

劉志毅估計2024年上半年公開表示在做具身智能機器人的公司可能已超過70家,但未來能持續發展的可能不到10家。

如果無法獲得大公司的戰略投資,初創公司的生存將面臨困難。

前述投資人預計,在理想狀態下,具身智能機器人在産線實現批量生産大約需要五年,進入家庭市場可能需要十年左右。不過,現實難以預估。

“說實話,這個賽道更像是一種信仰投資,你相信即可。”---來源 :  澎湃新聞-

* 清華趙明國 :智能人形機器人≠智能+人形 | 智者訪談 *

人工智能的卓越發展, 源于對技術與産業本質的洞察; 機器之心視頻欄目「智者訪談」---

邀請領域專家,洞悉核心趨勢; 深化行業認知,激發創新思考, 與智者同行,共創 AI 未來 !

                  

2024 年,人形機器人領域迎來爆發式增長。特斯拉 Optimus 的持續叠代、OpenAI 對 1X 的戰略投資,衆多初創公司異軍突起,以及包括 Mobile ALOHA 在內學術界的不斷創新,共同描繪出一幅激動人心的未來圖景。

技術進步的浪潮固然令人振奮,但保持清醒和冷靜,在開放探索的基礎上,審慎選擇最符合時代需求和技術發展規律的路徑,才是引領人形機器人走向成熟的關鍵。

本期機器之心《智者訪談》邀請到清華大學自動化系研究員、機器人控制實驗室主任趙明國教授,從運動控制的視角看人形機器人發展。趙明國教授在機器人控制領域有二十多年的研究與實踐,他認爲當前人形機器人領域呈現出如春秋戰國般多元化的發展態勢,這既是蓬勃發展的象征,也潛藏著方向迷失的風險。

趙明國教授強調,「智能人形機器人」不能只是「智能」和「人形機器人」的簡單疊加,而應當是一個全新的研究主題和技術範疇,需要機器人學和人工智能兩個領域更深層次的融合,制造能夠在複雜環境中自主適應和學習的智能體。

對大模型技術在機器人控制領域的應用,趙教授認爲單純依賴「大腦」解決運動控制問題並不合理。人類的運動控制是一個複雜的多層次系統,涉及本體反射、中樞控制和大腦控制等多個層面。

我們需要更深入地研究生物系統的運動控制機理,重新思考機器人控制系統的架構,並探索更有效的學習和優化方法。

趙教授主張技術的先進性並不等同于實用性,只有與時代需求和經濟發展相匹配的技術,才能真正落地生根,開花結果。例如,維納控制論中的很多思想因爲過于超前而未能對早期的計算機和人工智能起到重大的推動作用。

那麽,究竟什麽樣的技術路線才能最終勝出?人形機器人的未來又將如何演變?點擊觀看視頻,讓我們一同探索。

訪談鏈接 :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941398&idx=1&sn=df7c01e0ecac1cca3dcca11df7166a48&chksm=84e7e3a8b3906abeb08e93ae9eec4c1aacae8c0a5b82d508c2c85668ab6aac561440a634e47f&token=1043832113&lang=zh_CN#rd

訪談文字整理 : 

機器之心 :趙明國教授好,非常高興您做客機器之心的《智者訪談》。近年來,隨著具身智能和大語言模型的迅速發展,公衆對于如何實現智能機器人的討論熱度空前。今天我們很高興能與您從運動控制的視角探討人形機器人的發展前景。

談及人形機器人,人們往往會聯想到幾家著名企業,比如專注于機器人運動控制和硬件設計的波士頓動力,以及憑借在人工智能和大數據方面的優勢進軍人形機器人領域的特斯拉。

趙明國 :事實上,在波士頓動力之前,日本本田公司就已經在人形機器人領域做出了開創性的貢獻。波士頓動力主要專注于提升機器人的運動控制能力,而特斯拉則依托其在自動駕駛技術和先進器件方面的優勢,更多從制造業和供應鏈的角度切入,爲人形機器人的發展帶來了全新的思路。

這種方法讓許多人認爲,如果未來機器人要實現大規模應用,特斯拉的路線可能更符合當前技術發展的趨勢,因此也有不少企業選擇追隨特斯拉的發展路徑。

然而,這並不意味著波士頓動力或本田的技術路線就失去了重要性。我認爲這些不同路線都有其價值,因爲技術的進步是一個漸進的過程,需要一代又一代的積累和發展。

除了企業的努力,學術界也在不斷提出新的理論和方法。目前,許多公司,包括一些創業團隊,正在嘗試將學術界的研究成果與本田、波士頓動力和特斯拉等公司的技術應用相結合,探索新的發展方向。

當前人形機器人領域的發展狀況,可以比作春秋戰國時期,雖然存在幾個主流的技術路線,但更多呈現出百花齊放的局面。

01、白馬非馬:智能人形機器人不只是---智能與人形機器人的簡單疊加

機器之心:衆所周知,運動控制是建立在明確的運動學和力學原理基礎之上,在數學和工程方面具有嚴謹性。相比之下,人工智能具備自適應和自學習能力,尤其在處理複雜問題時,AI 常能發現人類難以想到的解決方案。然而,這種特性也帶來了可解釋性的挑戰。

波士頓動力的機器人在運動控制方面表現卓越,同時也展現了高度的智能。例如,配備機械臂的 Spot 機器人在物體識別和抓取方面表現出色。

另一方面,以 AI 技術見長的特斯拉在硬件領域也投入了大量資源。您一直強調將運動控制與人工智能相結合的重要性,在發展人形機器人方面,我們可以從這些公司的實踐中獲得哪些啓示?

趙明國 :人形機器人與人工智能的結合可以采取多種方式。其中一種是兩個領域各自發展,然後將各自的優勢整合。但除此之外,還存在其他途徑。

以波士頓動力爲例,他們曾強調專注于運動控制而不涉足人工智能,但實際上他們也運用了一些智能的方法。

不過,他們的核心在于解決運動控制問題,如行走、奔跑和跳躍等,只不過在解決這些問題時,他們采用的方法可以是傳統的運動控制技術,也可以是智能的方法。

同樣,專注于人工智能的公司在解決智能問題時,也會使用機器人作爲載體。例如,進行對話交互時,可以選擇人形機器人,也可以選擇智能音箱,這對智能本身的影響並不顯著,核心問題在于能否實現順暢的人機交互。

然而,要將人工智能與人形機器人真正深度融合,就像「白馬非馬」這個哲學命題一樣,需要創造出一個全新的事物。智能人形機器人必然不同于傳統意義上的智能系統,也不同于常規的人形機器人,而是一個更深層次融合後的獨立存在。

我認爲「具身智能」這個概念較爲貼合這種場景。在這種情況下,我們期望機器人能展現出行爲層面的智能,不僅能夠在各種複雜地形上行走,還能在面對幹擾時完成任務,表現出智能化的行爲。

例如,機器人應該能夠避開障礙物,在動態環境中規劃路徑,比如開門這個典型案例,包括應對不同形狀、不同類型的門,同時能制定策略繞過中間的障礙物,或者在有其他人同時開門時做出規避或讓步等行爲。在手部操作方面,這樣的例子更爲豐富,因爲人類大部分操作都是通過手來完成的。

這是一個全新的研究主題——如何讓機器人展現智能。這需要機器人學和人工智能兩個領域進行更深層次的融合,而不僅僅是一個領域借用另一個領域的技術來提升自身。我們需要將兩者有機結合,創造出一個全新的技術範疇。

機器之心:您的觀點非常具有啓發性,但似乎目前很少有人從這個角度來探討這個問題。

趙明國:這實際上取決于不同的視角,我只是試圖將問題闡述得更加清晰。無論采用何種方法,要開發出這種新型機器人,我們需要考慮幾個關鍵。

首先是腿部的智能;其次是手部的智能,包括手指和手臂的智能,手臂負責運動,手指負責實際的抓取和操作。在進行手部操作時,腿部通常也在運動,這需要手足協調。

除此之外,還有一些全身性的智能,如騎自行車、攀岩,以及前面提到的開門,這些活動強調全身的協調。從運動能力的角度來看,有些智能機器人可能更側重于腿部功能,有些更注重手部功能,還有一些可能側重全身運動,也可能是這三個領域的不同組合。

在早期階段,我認爲可以爲這三個領域分別選取一些典型案例作爲代表,用它們來推動技術發展,並作爲標准測試平台。

如果一個機器人能夠完成特定任務,就意味著相關技術已經取得突破,能夠實現某些功能了。我們可以從一個領域開始,逐步擴展到兩個,最終實現三個領域的突破,然後再考慮實際應用。

當然,也有團隊選擇直接從應用需求出發,通過反向推導來進行開發。目前業界還沒有形成共識,各種方法都有人在嘗試。但從最基本的邏輯看,無非就是這三個領域的不同組合。

02、雙足運動控制難點 :學習與優化的結合

機器之心:您在仿人機器人雙足步態控制領域擁有 20 余年的研究實踐和經驗,見證了技術的幾代變遷。雙足控制一直是機器人研究中的一個難點,您認爲目前該領域面臨的主要技術瓶頸是什麽?

趙明國:這個領域確實經曆了一個漫長的發展過程。傳統上,研究者傾向于從仿生角度來解決這個問題,但由于仿生機理尚未完全掌握,最初出現的是一些簡化模型。

這些模型雖與人體某些運動相關,但並不完全相同,它們借鑒了人體生理學的某些特征,如倒立擺模型。這些簡化模型雖然維度較低,但在當時的計算機水平下能夠實時完成計算,因此在那個時期是較爲有效的選擇。

我們現在使用的許多方法,如模型預測控制(Model-Predictive Control,MPC)和全身控制(Whole-Body Control,WBC),都源自上世紀。我認爲真正的突破在于 MPC,它引入了對未來進行預測這一非常重要的概念。這一點在人工智能領域也很重要,即基于某些知識對未來進行預測,兩個領域在這一點上是共通的。

近期,由于強化學習的突破,我們能夠在仿真環境中進行強化學習,然後將獲得的策略遷移到實體機器人上。這一路徑已被證明是可行的,我認爲這是一個相當重要的貢獻。

現在通過強化學習方法,大多數初創團隊能在幾個月內讓機器人完成多種複雜任務,比如運動恢複和粗糙地面行走,這些任務在過去需要大量時間和資源才能攻克。

目前的仿真技術能夠支持大部分運動學和動力學的仿真。然而,對于視覺和其他多種傳感器的仿真,還無法達到與人類感知相媲美的真實程度。

對環境的仿真,尤其是彈性物體的仿真,仍有待改進。如果這些方面能夠得到顯著提升,這些工具將大大加速整個研發過程。

就人形機器人而言,如果僅關注運動能力,數據獲取可能不是特別困難,或者說運動類數據具有其特殊性。

我個人認爲,小規模數據集可能已經足夠。但現在面臨的挑戰是,究竟需要什麽樣的小規模數據集?這個問題每個研究者的看法都不盡相同,我認爲這在很大程度上取決于具體的任務需求。

2024 年初引發廣泛關注的 Mobile ALOHA 項目,沒有使用仿真,而是通過遙操作來獲取真實場景數據,直接解決了對齊和許多中間環節的技術問題。

在這個方向上,研究者會開發出多種方法來快速有效地獲取數據,這是一個非常明確的發展趨勢。

另一種可能的方向是利用積累的大量視頻資源。

如果能直接從視頻中獲得機器人運動控制所需的數據,將會是非常有價值的。舉例來說,中學生學習打籃球時,很多人會模仿喬丹或科比,他們通過觀看視頻來學習,盡管喬丹和科比並未親自指導他們,他們也沒有這些球星的任何詳細數據。

然而,由于機器的能力水平還無法像人類那樣從視頻中學習,我們不得不通過仿真或遙操作來獲取數據。不過,對于完成人形機器人的某些複雜運動來說,遙操作方法可能與完成簡單任務(如刷盤子)還有所不同,需要綜合考慮視覺等多個方面。

機器之心:您提到機器的能力還無法像人類那樣從視頻中學習,具體是指哪些能力呢?

趙明國:我主要指的是處理數據的能力。目前,機器的視覺分析能力還不足以從單目相機拍攝的普通視頻中直接分析出人的准確三維坐標,或者將其轉換爲所需的數據格式。

在人形機器人領域,目前的重點依然是從仿真中獲取數據。在仿真的潛力沒有被完全挖掘或達到瓶頸之前,研究者肯定會集中精力在仿真方面深入探索。

但是,當任務發生變化時,仿真的局限性就會顯現出來,而目前又無法直接從視頻中獲取所需的數據。在這種情況下,像 Mobile ALOHA 使用的方法就非常巧妙,因爲它解決了數據獲取的難題。

然而,如果要讓機器人完成諸如踢足球、打籃球或攀岩等複雜運動,遙操作的方法可能就不太適用了。隨著研究的不斷深入,我相信還會出現許多新的技術手段,最終很可能會發展到能夠直接利用視頻數據。

體育院校積累了大量運動數據,如何有效利用這些數據也是一個值得探討的問題。我認爲這在很大程度上受到數據采集和分析手段以及算法的影響。

但最終的核心問題仍然是如何獲得高質量的數據,以及如何有效利用這些數據。

這兩個問題都在不斷發展,但核心邏輯仍然是進行學習和訓練,獲取數據,然後利用數據進行訓練,這兩個基本步驟沒有改變,但在具體實施細節上會發生許多技術上的變革。目前,技術發展速度非常快,甚至在一周之內就可能産生一些新的突破性結果。

機器之心:您曾提到過工程師在面對數據問題時的思維方式——數據不足就增加傳感器,成本受限就減少傳感器,這與傳統 AI 研究人員的思考方式有很大不同。

趙明國:傳統上,運動控制主要依賴于確定性的控制方法,與人工智能的關聯並不緊密。然而,當機器人被置于動態環境中時,單純的控制方法往往難以應對複雜情況。

例如,在線的傳統控制方法可能不符合生物系統的某些特性。在這種情況下,一個可能的解決方案是引入人工智能,或將人工智能與控制方法相結合。盡管如此,具體的融合方式仍有待探索。

傳統上,我們習慣將系統劃分爲規劃、感知和控制等幾個模塊。近來,端到端網絡逐漸流行,這種方法可能實現我們所需的效果。

然而,端到端方法下,系統的內部結構可能與我們常規認知中的模塊劃分不同。盡管它可能依舊包含類似規劃、感知、控制的功能,但其劃分方式可能與傳統方法大相徑庭。

我認爲不應強求 AI 系統的內部結構必須符合傳統認知或經驗,關鍵在于它能否有效地解決問題。

我們正處于一個關鍵的技術變革時期,衆多新的技術和方法正在誕生。這些新事物的最終形態以及哪些會得到廣泛認可和普及,目前尚難定論。

但可以肯定,一些新的關于機器人控制系統的結構必將出現。這可能需要一個交互式的學習過程:一方面,機器在不斷學習和進化;另一方面,人類也在觀察和學習機器如何解決問題。

我們需要學習總結機器的這些方法,並將其提升到方法論的層面,這很可能是一個反複叠代的過程。

然而,有一點是比較明確的:如果要在傳統方法的基礎上實現突破,你會發現傳統方法已經充分利用了可獲得的信息。

許多現有的解決方案已被證明是最優的,如果不引入更多的傳感器,本質上很難超越原有方法的效果,因爲這些方法已經達到了極致,並無明顯缺陷。

除非你改變了問題的定義,在這種情況下,你並非是將原問題解決得更好,而是改變了問題本身。

機器之心:這意味著評判標准都發生了變化。

趙明國:確實如此。許多頂級期刊也在討論優化控制與學習方法産生的效果之間的差異。

結論表明,在某一個確定的問題上,學習的方法並不會比優化方法更好,因爲優化是針對一個它可以解決的目標,它一定是做得最好或者最好的之一,但是學習可以構建一個比它更好的優化問題。

對于優化方法而言,你必須明確定義成本函數和約束條件,而且這些條件必須滿足特定要求才能求解,因此優化方法的適用範圍相對有限。相比之下,學習方法所能學到的策略範圍更爲廣泛。

我認爲硬件本身應該引入更多的傳感器。我常舉的一個典型例子是按開關。在整個過程的前期階段,這個動作主要依賴視覺,視覺在相當長的一段時間內占據重要地位。

但當接近開關時,即使視覺精確到 0.1 毫米也無濟于事,此時主要依賴的是觸覺。

當觸覺將開關按到一定程度後,觸覺的重要性也隨之降低。

最終判斷開關是否啓動,可能需要依靠聽覺(聽到開關的聲響),同時還需要視覺確認燈光的變化。需要指出,這裏所需的視覺能力是對光線瞬間變化的感知,與之前在軌迹規劃過程中使用的視覺能力有所不同。

因此,對于按開關這樣一個看似簡單的任務,在整個過程中,涉及各種不同的感官信號,而且其權重是動態變化的。

開始階段主要依賴運動和視覺,中間階段更多依賴觸覺,最後階段則可能綜合運用聽覺和另一種形式的視覺感知。這種動態權重分配的機制與人工智能領域的注意力機制有一定相似之處。

目前的控制方法難以處理如此複雜的邏輯。雖然 Transformer 等模型在某種程度上實現了類似的機制,但它們能否在機器人控制領域同樣發揮這種作用仍存疑問,這是因爲人類的實際操作與機器人的操作之間存在本質差異。

目前大多數機器人系統實現的動作都只是對人類一些基本動作的模擬,而且模擬的範圍還比較有限。

像 ALOHA 這樣的系統很可能是在視覺層面模仿了人類動作的前半部分,在最後階段還難以做到精確控制。

這也是爲什麽某些看似簡單的任務,比如疊衣服,實際上非常具有挑戰性,因爲它不僅需要視覺信息,還需要觸覺和其他感官輸入。

此外,還需要對「什麽狀態下衣服算是疊好了」有准確的認知。僅僅依靠手上的攝像頭是無法獲取所有這些必要信息的。

當前的技術發展主要聚焦于初級階段,因爲仍有 90% 的廣闊領域和衆多新興領域尚待開發。但隨著研究深入和産業發展,最後那 5% 的難點會變得至關重要。

我相信這些硬骨頭問題終將浮出水面,而研究人員將逐一解決。

不過,諸如刺繡等精細操作,或者將金屬加工到極致精密的程度,需要投入更多的精力和成本,但在實際應用中不會立即産生顯著回報。因此,短期內這些問題不會特別受關注。

然而,一旦主流技術領域發展遇到瓶頸,這些精細化的問題可能迅速成爲研究熱點,並有可能引發新一輪的技術突破。

03、用「大腦」解決運動控制並不合理

機器之心:大模型的出現引發了人工智能界的極大熱情,特別是使用 Transformer 架構統一表示文本、音頻和圖像等不同模態的數據。

這種統一框架的思路是否也適用于人形機器人?例如,是否有可能將疊衣服、洗碗、切菜、炒菜等日常任務,以及跑步、踢足球、跨欄、跑酷等運動技能,都整合到一個統一的框架中進行訓練?

趙明國:人工智能,尤其是大語言模型和視覺模型,更多是在解決類似于大腦中的思考問題,在邏輯分析和認知規劃方面表現出色。

雖然將這種邏輯應用于運動控制確實可以解決一些問題,但根據我們對生物學和控制理論的理解,這種方法並不完全適用,也無法全面覆蓋。

舉例來說,大語言模型基于預先規劃所有步驟然後執行的邏輯,這實際上是控制領域上一代的思路。早期的仿生學將仿生系統劃分爲感知、反饋、規劃和決策幾個部分。

然而,現代生理學研究表明,生物的神經系統在運動控制上具有複雜的層次結構,而目前的大語言模型並未充分反映這一點。

我認爲,運動控制可能需要一套獨有的結構:從硬件層面看,控制頻率極高,需要信號處理和控制領域的專業知識支持;中間層次,如小腦,其頻率處于中等水平;而大腦的多模態認知部分頻率相對較慢。

如何有效地結合這三個層次是一個複雜的問題。簡單地將它們拼接在一起是不恰當的。有人提出使用一個大模型模擬大腦,再用另一個大模型模擬小腦,我認爲這種方法過于簡單化。

人類的神經系統及其他靈長類動物的神經系統都不是這樣構建的。如果只通過大腦來控制,效率必然低下。人類的運動控制包括本體反射、中樞控制和大腦控制,而且大部分運動更多依賴于本體和中樞。

盡管我們對這方面的認知仍然有限,但基于現有知識,很難認爲僅靠大腦模型就能很好地完成所有任務。因此,在神經系統的仿生領域或控制系統架構方面,未來可能會出現更先進的理論或模型,這是非常值得期待的。

作爲一名機器人研究者,我特別不希望看到機器人技術被完全否定,而將所有工作都轉移到人工智能領域。這樣做不僅無法促進機器人技術本身的發展,最終結果也不會令人滿意。

如果人工智能技術僅僅是滲透到機器人領域,推動機器人産業發展,但機器人行業本身的模式不發生變化,這對機器人領域來說並非好消息。從産業角度來看,這實際上是一種降級。

要實現真正的升級,機器人領域應該結合人工智能的發展,將其作爲一種新的模式,同時提高自身的技術水平,進行升級換代,使其與人工智能的發展相匹配。

只有這樣,才能産生理想的效果,機器人領域的專家才能爲人形機器人的發展做出真正的貢獻。

04、智能機器人控制系統發展方向

機器之心:在構建智能機器人時,我們需要同時考慮底層的運動控制和上層的規劃與決策。您認爲應如何權衡這兩者?

趙明國:現有的技術往往機械地將運動控制和認知決策劃分爲底層和上層兩部分。從機器人研究的角度來看,我們知道人體的神經系統分爲大腦、小腦和脊髓三個主要部分,這三部分具有截然不同的功能,並且有明確的功能分區。

大腦不僅包含運動神經系統,還有負責整個神經系統訓練的學習功能區。例如,像走路這樣的日常動作,實際上並不需要大腦的直接參與。

人體在脊髓中有一個稱爲中樞神經的部分,構成了中樞神經系統。這個系統通過各個關節之間的震蕩和相互激勵,完成走路等節律性運動。

這些節律性運動甚至不需要小腦的大量參與,在脊髓層面就可以完成,而且控制效果相當出色。然而,當遇到路面障礙物時,視覺系統就需要介入。

視覺信號會激發控制系統,引導身體繞開障礙物。生物體能夠很好地解決這種既能産生節律性運動,又能産生非節律性受控運動的複雜任務,而現有的機器人系統尚未具備這種能力。

我們要麽是針對節律性運動進行訓練,要麽針對非節律性運動進行訓練,而且通常以大腦的參與爲主,對真實生物系統中的整合過程是完全缺失的。

例如本體反射,當你被火燙到時,感覺系統會立即感知到高溫,這種感覺通過脊髓迅速傳遞給相應的肌肉,導致肌肉立即收縮。肌肉收縮的信號又刺激到相應的關節,使手臂迅速縮回。

這種反射不需要經過大腦,動作非常迅速且協調。換言之,在大腦意識到之前,你的手就已經本能地做出了反應。當然,最初的反應可能是朝火源靠近,但經過生物進化,最終形成了遠離危險源的反應。

隨後,這個信號會繼續傳遞到小腦和大腦。大腦意識到燙傷後,如果附近有水源,會指揮手部進行有目的的運動,比如將手浸入水中。這種動作既不屬于本體反射,也不是節律性運動,而是大腦發出的有意識決策。

人體經過漫長的進化,形成了自己獨特的機制。

目前我們對人體生物系統的模擬還很片面,往往是分別模擬各個部分的功能,然後試圖將它們整合在一起,這就導致了整體效果顯得生硬且難以協調。

我認爲,如果能更多地向仿生方向靠攏,依據生理學原理來設計控制系統,可能會有所突破。

然而,這需要生理學專家能夠更清晰地闡釋這些機制,然後我們按照這些原理去實現,這本身就是一個極具挑戰性的任務。即便機制被完全闡明,實現起來也並非易事。

機器之心:包括機器人的傳感器設計也是一個重大挑戰。

趙明國:確實如此,傳感器的設計也不一定能完全按照人體的方式來實現。我個人傾向于認爲,工程師應該把握最基本的機理。

首先,有一條上行的信號通道,信號從末梢傳感器向上傳遞到脊髓、小腦和大腦,這個過程需要一定的時間延遲,形成一個動態系統。

其次,有一條下行的信號通道,信號在神經系統做出決策後向下傳遞,這同樣是一個動力學系統,兩條信號通道都存在一定的時間延遲。

同時,相鄰的神經系統需要形成局部的回路,包括脊髓回路、小腦回路和大腦回路。這三個回路的特征在目前的控制系統中很少得到完整體現。

不過,隨著人工智能和神經網絡技術的進步,以及硬件設備的發展,有可能出現更符合仿生特點的系統。目前有許多研究,如類腦控制、類腦 SLAM 等,都在嘗試這一方向。

雖然這些方法並沒有完全按照生物系統的原貌去實現,但它們把握了核心機理,可以利用現有的電子和機電器件,按照信號處理的方式重新構建整個系統,實現全新的架構。

我認爲在仿生這個方向上還有很大的創新空間,從長遠來看,在仿生領域繼續深入研究是很有價值的。

機器之心:這個方向與具身智能結合起來,應該能夠開拓出廣闊的研究空間。

趙明國:沒錯,這可以作爲具身智能研究的一個分支,因爲智能本身就包含仿生的方向。

我們可以按照現有的技術路線繼續深入研究,將細節做得更加深入和透徹。

但是,單純依靠堆積數據和算力是否就足夠了?只要能夠取得很好的結果,這種方法也並非不可行。我認爲研究人員可以從不同角度展開研究,而不是片面否定或過度依賴某一種方法。這就像從不同角度登山,最終都有可能到達山頂。

05、關于人形機器人應用 :除了替代人,還可以有第二種思路

機器之心:關于人形機器人,目前還沒有明確的應用場景。您認爲哪些領域或者行業可能率先看到人形機器人走向實際應用?

趙明國:人形機器人應用場景的話題其實已經討論多年了。不過,我們要區分願景和現實。就像手機電池,理想情況下大家當然希望不需要充電,但實際購買時還是要考慮成本等多種因素。現在討論人形機器人的時候,很多人沒有明確區分願景和現實。

就應用場景而言,我認爲可能包括工廠、養老、家庭服務、餐飲、接待、危險作業等。

但目前還沒有哪個場景能夠保證立即實現。

大家普遍的思路是用機器人替代人類完成現有工作,這自然是必要的。

但除此之外,如果人形機器人能夠創造新的應用場景,包括那些原本不被重視或並非剛需的場景,因爲人形機器人的出現而成爲可能,我認爲這對人形機器人的發展可能會起到關鍵作用。

實際上,這個問題可以分爲科學問題、技術問題、産品問題和商品問題。

人形機器人可能還處于技術問題甚至科學問題階段,很多基礎的問題仍未解決,比如我們前面談過的智能控制系統架構究竟如何實現,技術還在不停演變和發展,有些問題的解決方案相對明顯,但大多數還不明朗,大家都在嘗試的過程中。

這時候討論技術路線該如何實現,是使用 A 路線 B 路線還是 C 路線,或者很多人已經做到商品化,要大規模賣。我覺得我們還處于混沌的狀況。

機器之心:在機器人的發展曆程中,您能舉例說明技術和應用場景是如何相互影響的嗎?

趙明國:電機就是一個很好的例子。早期機器人使用的電機與現在有很大不同,例如在 ASIMO 那個時代,典型的電機是空心杯,火星車也用的是空心杯電機,它形狀細長,效率很高,占用空間小。

隨著機器人技術向更高精度、更複雜控制和更高性能的發展,空心杯電機逐漸被無刷直流電機等類型所取代。

電機的設計也在不斷變化。例如永磁力矩電機,以前是內轉子的,現在用外轉子,因爲後者氣息更大,力钜密度更大,對人形機器人這種移動體來說更實用,而且它還可以把關節做到扁平。

這種電機最近幾年很多人在做,但其實這些種類早就有,只是應用領域不一樣。外轉子電機最早用于四旋翼飛行器,後來被應用到人形機器人上,大家突然發現,這其實是明擺著的道理,就應該這樣。

這就是技術和産業相匹配的結果,大家會找到一個平衡點。傳感器和驅動器也在朝著高度集成的方向發展。這背後有經濟規律支持,産業需求和技術在特定時間點一定是匹配的,誰匹配得好,誰就能獲得發展,匹配不上的就得不到發展。

這一點在計算機領域的體現更爲明顯。馮諾依曼架構之所以長期主導,很大程度上是因爲它作爲一種線性結構,最容易大規模生産,尤其在當時生産制造水平較低的情況下。雖然現在也有很多新的架構出現,但要完全取代馮諾依曼架構依舊困難。

機器人領域目前也處于百花齊放的階段,要實現大一統,讓大家公認某一條路線還很難,但可以肯定的是 :誰迎合了社會的需求、生産力的需求,誰就能勝出,而非基于主觀願望,比如「我認爲未來人形機器人能進工廠,能進家庭」,但並不是大家都認可現在做就一定能夠成功。

我覺得這取決于市場,國家政策也可能起到推動作用,但技術的突破存在不確定性,科學家也無法保證只要給我多少條件,就一定能把技術突破。

有的認知,可能是在形成的過程中,先把戰術做起來,最後才會形成戰略,並不是說先把所有戰略都想清楚了。但是,這背後一定是有規律的。

我個人覺得一方面要勇于實幹,在市場上積極嘗試,另一方面,如果明顯在邏輯上有漏洞的東西,可能就少做,或者重要性別放那麽高,優先做的一定是你認爲更符合邏輯,或者是更容易實現的。

這跟時間點也有關,比如說現在大數據、大算力,如今市場環境這些更容易獲得,在這上面投入自然更容易出成果。

但這時候如果你非要從事仿生,可能最終仿生就是正確的,但仿生學在 20 年以後勝利,並不意味著現在做仿生就能取得成功,現在從事仿生學研究可能連經費都拿不到,更不用說做出典型案例了。

歷史上有一個很好的例子,維納在 MIT 找了兩個年輕人,由于計算機最終采用了馮諾依曼架構而非他們的方案,這兩個年輕人都郁郁而終,三十幾歲就去世了,對此維納也無能爲力。

這並非他們的想法有問題,回過頭看,你會發現如今很多概念,比如具身智能、存算一體,智能控制等,維納在《控制論》中都有提及,除了控制論,他的思想還啓發了信息論、系統論。

機器之心:我在《維納傳》裏有讀到,確實令人惋惜,時代沒有准備好。

趙明國:沒錯,關鍵在于時間點不對,太過超前了,當時的技術無法支撐,或者說社會還沒有相應的需要,因此無法産生經濟效益。

並不是說這些想法從科學角度看存在問題,而是從應用角度看,它們還不適合當時的環境。我認爲可以從不同視角來看。

以維納爲例,在科學方面,他毫無疑問是頂級大師,但在産業方面,維納對産業有啓發和引領作用,但他並非實踐者。相比之下,馮諾依曼在這兩方面都有極高造詣,他未必沒有認識到維納的這些想法,只是他選擇了更能産生實際應用的方案。

機器之心:現在仿生學的時代沒有到,您認爲其中的關鍵原因是什麽?

趙明國:我覺得主要有兩方面,一是對生物機理的認知尚不充分,二是相關器件的水平尚未達到要求。仿生學高度依賴物理器件和傳感器的水平。

當前,我們可以進行仿生學研究,但不應拘泥于完全仿生。

現階段的工程實踐可以沿用堆積算力、數據等資源的思路,這是可行的,我也不質疑。

不過,我們也可以適度融入一些仿生學的思想,因爲生物經過長期自然進化,其結構和功能必然有其合理性和優勢。我們要持續深化對這些特性的認知。

就現有的技術手段而言,我認爲應該循序漸進。人形機器人是一個長遠目標。

不能否認,這是人類的終極目標之一。

無論是具體的工作還是智能本身,都是我們最終需要解決的問題。

但當前能做什麽,這是一個技術問題。從現實出發,我的建議是 :大型企業和國家隊需要攻克這些難題,朝著最終目標邁進。

要進入工業應用場景,就需要組建合適的團隊。這種大型團隊能夠在長期內持續進行複雜的規模化的系統性研究。

對于較小的團隊,很難在整個系統層面開展複雜的研究。他們可以選擇純學術,或者鑽研具體的問題。例如,可以聚焦某個科學問題或工程問題,比如改進電機、優化傳感器,或者革新算法。

一旦取得突破,大型團隊就可以將這些成果整合到他們的系統中發揮重要作用。我認爲小型團隊沒有必要執著于解決工廠機器人或家庭機器人這些宏大課題,甚至說立即將産品推向市場,這可能不符合邏輯。

技術的發展不能脫離社會經濟的發展。

技術先進並不意味著一定要立即應用,只要技術符合當前需求,就可以投入使用。

至于哪種技術能夠得到更廣泛的應用,取決于總體效益,這與經濟規律有關,也可能與人的認知水平有關。

歷史上,由于某個時期人類認知的局限,可能會犯一些局部性錯誤,這種情況並不罕見。但從長遠看,更先進的技術終將勝出,這符合歷史進步的規律。

嘉賓簡介 :  趙明國,清華大學自動化系研究員、機器人控制實驗室主任、清華大學無人系統中心類腦機器人中心主任。發表百余篇論文,授權國家發明專利 10 余項。

在人形機器人領域,提出了虛擬斜坡行走方法、廣義模型預測控制、全身控制等方法,研究成果獲得 RoboCup 人形組亞軍等多項國際獎項。

在類腦計算領域,利用神經形態技術創建了高性能、高能效的機器人控制系統,成果發表于 Nature 封面,獲得 2019 年度中國科學十大進展及「科技創新 2030」計劃的資助。---[來源 :  機器之心Pro  | 智者訪談]