01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

特斯拉"擎天柱"發布新進展,AI機器人的ChatGPT時刻到了嗎?-(1)

2023060213:28



5月中旬,特斯拉在股東大會上發布了人形機器人Optimus「擎天柱」的新進展。

在Demo裡面,這個人形機器人已經可以很流暢地做一系列動作了,包括走路,並且利用視覺學習周圍的環境;手臂力道控制很精確,可以不打碎雞蛋;整個手掌看上去也很柔性,可以拿捏不同物品。



可以看出來,特斯拉的機器人發展還是挺快的,要知道,就在幾個月前,2022年9月的特斯拉人工智能日上,馬斯克首次亮相Optimus的時候,在舞台上整個機器人看着還挺笨拙的,能做的動作非常有限,連走路都做不到,還是好幾個人給抬上舞台的,整個受到外界的一陣嘲諷。

現在進展如果真的這麼快,或許真如馬斯克所說,在不到十年的時間中,人們就可以給父母買一個機器人作為生日禮物了。ChatGPT加上AI機器人,感覺我都不用工作了,直接可以收拾行李環遊世界去了。

然而,往壞了想,又感覺終結者里的機器人就要破殼而出了,很可怕。所以,我也非常矛盾,就像輿論上支持和反對AI機器人的兩派在不停互相掐架一樣,我到底期不期待AI機器人的到來呢?

但是,在《硅谷101》團隊做完AI機器人的調研之後發現:AI機器人的ChatGPT時刻還遠未到來。

所以,這篇文章我們來聊聊,為什麼AI機器人這麼難做?現在進展到哪兒了?特斯拉的機器人有什麼優勢?為什麼歷史上谷歌收購了十多家機器人公司但最終面臨階段性失利?為什麼OpenAI放棄機器人研發?還有如今AI大模型對機器人能帶來什麼進展?

01 AI機器人定義

首先,要來定義一下什麼叫做「AI機器人」。

這個概念其實在學術界有一個很fancy酷炫的名字,叫做具身智能,Embodied Intelligence,顧名思義,就是具有身體的人工智能,是AI進入我們物理世界進行交互的載體。但是「具身智能」這個詞太學術了可能很多人不熟悉,所以在這個視頻中,我們就把具身智能定義為AI機器人。

AI機器人和機器人有什麼不同呢?或者換個問法,AI機器人和AI有什麼不同呢?

這幅圖就能簡單解答這兩個問題:機器人可以分別兩類,一類是非智能機器人,一類是有智能機器人,AI機器人。同時人工智能也有兩類,一個是虛擬世界中的,比如說ChatGPT,還有一個就是有手有腳能在真實世界中交互的。這幅圖就是機器人和人工智能交接的這個賽道,就是有智能的AI機器人,也就是:具身智能。

關於非智能機器人和AI機器人我們來舉幾個例子,幫大家辨別一下。

目前為止,基本上所有工業機器人只能被編程為執行重複的一系列的運動,這就是前者,非智能機器人,更多是像個機器。

這幾年蠻流量的咖啡機器人就是一個很好的例子,比如說美國這邊有個公司叫Cafe X,就是一個機械手臂來給顧客做咖啡。雖然看上去有點smart,但它是完全沒有智能的。所有的運動軌跡,杯子的位置,握杯的力度,反轉搖晃杯子的方式和力度都是提前編程好的。



那怎麼才算具有智能的AI機器人呢?我們還是拿咖啡機器人舉例,如果我們將機器人加上「感知」功能,比如說加上相機等視覺識別的AI算法,讓這個咖啡機器人的手臂可以和外界交互,根據杯子的不同高低遠近的位置,不同杯子的顏色大小,不同咖啡的品類,通過對外界「感知」而做出不同的決定,這就是AI機器人了。

再舉一個非智能機器人和AI機器人的例子,也是我們《硅谷101》的AI研究小組其中一個成員之前工作過的機器人公司,那家公司研究的一個項目就是夾娃娃。不是遊戲廳的那種夾娃娃機,而是讓機械手臂去分揀玩具等商品。

如果100次任務每次周圍環境、障礙物都相同,而且都是把同一個娃娃從固定位置A拿起來放到固定位置B結束,那就是非智能機器人,現在已經可以做得很好了。但如果同樣的100次任務,娃娃的起始位置都不同,比如說你給機械手臂一個大袋子,裡面有各種不同娃娃,還得讓機器人從口袋裡面把特定的娃娃給識別挑出來,這就是智能機器人的範疇了。簡而言之,AI算法能幫助機器人去執行更複雜的任務,讓機器人從「機器」進化成「機器人」,重音在最後一個字。

從這兩個分類來看,非智能機器人已經開始了大規模的應用,包括在最新巴菲特股東年會中芒格說「現在汽車工廠裡面已經有很多機器人」都是這種用來組裝汽車,給車噴漆這樣的非智能機器人。但對於AI機器人來說,如今還在非常早的階段、困難非常多,連一些簡單AI的機器人投入市場都接連遭遇失敗。

為什麼我們一定要發展具身呢?為什麼AI機器人一定要有一個實體呢?這也很簡單,現在無論生成式AI多麼先進,都只能在電腦中幫人類完成虛擬任務,寫寫文件,編編程,畫畫圖,聊聊天,就算之後有了各種API接口、AI可以進行各種軟件調用,可以幫你定下機票,回下郵件,完成各種文件工作,但在現實環境中,很多問題AI還是無法幫助人類完成的。

所以,當ChatGPT引發生成式人工智能熱潮之際,AI機器人賽道也迎來了非常大的關注。

包括:2022年12月13日,谷歌發布多任務模型Robotics Transformer 1,簡稱RT-1,用以大幅推進機器人總結歸納推理的能力;2023年3月,谷歌和德國柏林工業大學共同發布可以用於機器人的通用大語言模型PaLM-E,它和谷歌母公司Alphabet的機器人公司Everyday Robots結合,可以指導機器人完成複雜的任務;就在同月,OpenAI旗下的風險投資基金領投挪威人形機器人公司1X,總融資額2350萬美元,似乎預示着OpenAI在大模型機器人應用的新布局;還有就是我們開頭說到的,特斯拉也在快速發展人形機器人Optimus;同時,在硅谷,各種AI機器人創業公司也是如火如荼。

但是,雖然有了這些進展,AI機器人的研發還是非常難。除了硬件的挑戰之外,還有軟件和數據上的挑戰。所以接下來,我們試圖來解釋一下,為什麼AI機器人這麼難。

首先來說說硬件。

02 硬件難點

科技媒體TechCrunch硬件領域的編輯Brian Heater曾經說過「如果硬件發展很困難,那麼機器人技術幾乎是不可能的。」

要理解這一層,我們首先要理解一個機器人的大致組成:

根據科技內容網站ReHack的解釋,常見的機器人由5個部分組成:



1.感知系統,也就是傳感器,比如攝像頭、麥克風、距離感應器等等,相當於人的眼睛、鼻子和耳朵,這是機器人的【五官】

2.驅動系統,比如驅動輪子的馬達、機械臂上的液壓動力系統或者氣動系統,相當於人的【肌肉】

3.末端執行系統,相當於人的手,它可以是機械手,也可能是機械臂上的一把螺絲刀或者噴槍,用以和外界環境進行物理交互,是【四肢】

4.能源供應,比如電源或者電池,這是【能量】

5.運算系統及其軟件,將所有上面的系統整合起來,完成任務,相當於機器人的【大腦】。

前四點都是硬件的難點,第五點是軟件我們下個章節來講。

首先,機器人感知系統需要把機器人各種「內部狀態信息」和「環境信息」從「信號」轉變為機器人自身或者機器人之間能夠理解和應用的「數據」還有「信息」。也就是說,我們要讓機器人理解周圍的環境。怎麼做呢?

我們就在機器人身上安各種的傳感器,包括光,聲音,溫度,距離,壓力,定位,接觸等等,讓機器人能通過五官來收集接近人類感知外界的信息。目前,多種傳感器都得到迅速地發展,但傳感器的精度和可靠性依然是需要解決的難題。比如說,相機進水,進沙塵之後,或者顛簸之後相機的校準就容易失效,長期使用之後像素點就會壞死啦等等硬件問題都會直接導致機器識別的不準確。

其次,機器人的肌肉,也就是驅動系統。我們人類一共有78個關節,我們依靠這些關節來進行精準的動作,包括我們的肩、肘、腕、指。

如果要重現在機器人上,每一個關節的技術門檻和成本都很高,並且一邊要求體積小、精度高、重量輕,但另外一邊又要求抗摔耐撞。比如說,當機器人快速運動的時候,驅動力輸出功率很高,要保證不會因為發熱問題而燒壞,同時又要就具備緩衝能力,來保護「機器人關節」不怕撞擊。所以,要協同這麼多關節部位,還要考慮這麼多因素,確實很挑戰。

還有就是末端執行系統,就是「手」,這個也是非常難的,比如說機器人手指的柔軟度,抓握的力度怎麼協同非常重要。比如說機器人握雞蛋這個任務,勁兒使大了吧,雞蛋就碎了,如果勁兒小了吧,雞蛋握不住就摔地上也碎了。

比如說波士頓動力開發的Atlas機器人,雖然可以靈活的各種跑酷,但它的手掌呢,之前的版本直接就是個球,之後變成了夾子的形狀。

但特斯拉發布的「擎天柱」倒是展示出和人手非常相似的機械手,官方說,擎天柱擁有11個精細的自由度,結合控制軟件,能完成像人手一樣複雜靈巧的操作,並能承擔大約9公斤的負重,所以在最新的demo視頻中,我們也能看到特斯拉機器人在硬件上的一定優勢,包括能控制力度的抓握很多物品,並且不會打碎雞蛋。



再來說說能源供應。剛才我們說波士頓動力的Atlas機器人,雖然各種炫技動作很酷,但必須配置功率很大的液壓驅動,

波士頓動力官網描述說,Atlas配置了28個液壓驅動器才能讓機器人完成各種爆發力超強的動作,而這樣的代價是,製造成本居高不下,難以走出實驗室完成商業化,所以我們看到,目標將售價降到2萬美元的特斯拉「擎天柱」人形機器人後來選用了穩定性、性價比更高的電機驅動方案,也是成本考慮。

好,除了這四大塊,大家是不是已經覺得機器人硬件太難了:這麼複雜的系統,這麼多不同的硬件,將他們整合在一起、協同工作、而且還要讓合適的部位有合適的力量、速度和準確性來做需要的工作,更是難上加難。然而,機器人的身體還不是最難的。接下來,我們說說機器人的軟件部分,也就是機器人的腦子。