造一個真正能燒飯的機器人堪比“登月”,GPT能破解這一難題嗎 ?
日前,OpenAI爲其重金押注的人形機器人Figure 01裝上了GPT"大腦"。能識別周圍環境看清"眼"前的物品,能推理和決策下一步行動,還能通過記憶反思對行爲作出評價——通過自我學習做到這一切,Figure 01的表現令人驚呼它已"無限接近人類"。
一直以來,無法應對未知情況是機器人亟需提升的能力短板,以至于看似簡單的燒飯被業界視爲"登月式的目標",至今沒有一個機器人能做到。GPT的出現,則爲機器人再造一個精明而實用的"大腦"提供了可能。比起文本生成、文生視頻,能做出一個幫你燒飯洗碗打掃屋子的智能機器人或將是大模型更具意義的一個應用方向。——編者
如今,從上海到紐約,世界各地的餐館裏,都有機器人烹制美食。它們制作漢堡、印度薄餅、披薩,還會炒菜。其烹饪方式與過去50年間機器人制造其他物品的方式大致相同:精確地遵循指令,一遍又一遍地以相同的方式執行相同的步驟。
美國南加州大學計算機科學博士伊沙卡·辛格卻想造一個真正能做飯的機器人:這個機器人能走進廚房,在冰箱和櫥櫃裏翻找食材,並將其巧妙結合,燒出一兩道美味的菜,然後擺好餐具。
這種連一些孩子都能做到的簡單事情,截至目前,沒有一個機器人能做到。要做到這件小事,需要機器人對某個廚房有充分的了解,還需要掌握很多常識,並且得足夠靈活多變、足智多謀,以至于機器編程無法實現。
辛格表示,最大的問題在于機器人研制者使用了經典的規劃管線。"他們在形式上定義了每個動作及其前提條件,並預測其效果。"她說,這種規劃管線規定了環境中所有可能或不可能的事情。即使經過多輪實驗,即使編寫成千上萬行代碼,但由此創造的機器人還是無法應對其程序未曾預知的情況。
辛格的導師、美國南加州大學計算機科學教授傑西·托馬森表示,這個燒飯的場景"始終是一個登月式的目標"。如果機器人能勝任人類的任何日常瑣事,許多行業將發生巨變,人們的日常生活將變得輕松。
要實現這一目標,機器人需要"換腦"。長期以來,人們都希望在機器人體內植入一個精明而實用的大腦,但過去幾十年一直找不到這樣的大腦。不過,ChatGPT的橫空出世,爲機器人"換腦"燃起了新的希望。
這個計算機程序以及越來越多的其他大語言模型,能夠根據用戶的需求生成文本,模仿人類的口頭和書面語言。ChatGPT目前已經接受了大量有關晚餐、廚房、食譜的信息訓練,幾乎可以回答機器人提出的關于在特定廚房中將特定食材燒成一頓飯的任何問題。
大語言模型具備機器人所缺乏的東西——人類筆下關于幾乎一切事物的知識,從量子物理到韓流音樂,再到三文魚片的解凍。同樣,機器人也具備大語言模型所缺乏的東西——能夠與周圍環境互動,將語言連接到現實行動中。
將無意識的機器人和無身體的大語言模型拼合起來,似乎是唯一合乎邏輯的做法。正如一篇論文所述,"機器人可以充當語言模型的‘手和眼睛’,而語言模型則提供關于任務的高級語義知識。"
ChatGPT讓機器人"頓悟"
2022年末,ChatGPT的發布對Levatas公司的工程師來說"像是一個頓悟時刻"。
這是一家專門設計巡視檢查工業場所所需軟件的公司。借助ChatGPT和波士頓動力公司的技術,該公司拼出了一個機器狗原型。這只機器狗可以說話、回答問題,並能夠遵循以一般英語口語給出的指令。此外,機器狗似乎不僅能理解單詞的含義,還能掌握背後的意圖。比如A說"後退",B說"退後",它"知道"他們表達的是相同含義。有了機器狗,工人們便不再需要仔細查看上一次巡檢時的機器數據表,他們只需簡單地詢問:"你上次去的時候,有哪些讀數超出了正常範圍?"
Levatas借助ChatGPT和波士頓動力公司的技術,打造出一個機器狗原型,可以遵循口語指令,完成對工業設備的巡檢。(圖片來源:Levatas官網視頻截圖)
Levatas利用自主開發的軟件將系統組合在一起,而其中很多關鍵組件——語音轉文本系統、ChatGPT、機器狗本身,以及文本轉語音系統——現在都已實現商業化。不過,這並不意味著家家戶戶很快就能擁有會說話的機器狗。Levatas的機器狗之所以能穩定運行,是因爲它的使用局限于特定的工業環境。沒有人會讓機器狗去玩接球遊戲,或者讓它想辦法處理冰箱裏的茴香。
在日常生活中,機器人能做的事情仍然有限。對于任何傳統機器人來說,無論其行爲多麽複雜,它們都只有數量有限的傳感器來獲取有關環境的信息,如攝像頭、雷達、激光雷達、麥克風、一氧化碳檢測器等。這些傳感器與數量有限的機械臂、機械腿、夾持器、輪子或其他機械部位相連接,機器人內部的計算機將其感知和行動聯系在一起,它負責處理傳感器數據和程序員發出的任何指令。計算機將信息轉換成0和1的編碼,代表電流通過電路的"關"(0)和"開"(1)。通過軟件,機器人可審查其可以執行的有限行動,並選擇最符合指令的行動。然後,它向其機械部件發送使之行動的電信號。此後,機器人通過傳感器掌握其行動對環境的影響,並再次做出響應。
機器學習令機器人的智能程度上了一個台階。它的運行基于一種"神經網絡",計算機電路的0和1被類比爲層層排列的細胞,每個細胞通過數百個連接點發送、接收信息。機器"大腦"爲每份輸入的信息分配權重,"細胞"將所有這些權重累加,以決定保持靜默還是"觸發",即發送自己的信號給其他細胞。
正如像素越多照片細節越豐富,模型擁有的連接點越多,其結果就越精確。在機器學習中,所謂學習就是模型調整權重,不斷接近人們想要的答案。過去15年,當機器學習經過訓練來執行專門化的任務,例如尋找蛋白質折疊,或在面試中遴選求職者,它表現出了驚人的能力。
大語言模型是一種不限于專門任務的機器學習形式,這些模型可以談論任何事情。由于這些模型的回答只是對單詞組合的預測,所以程序實際上並不懂自己在說什麽,但使用者懂。而且,大語言模型以簡單的對話運行,使用者無需特殊培訓或工程知識,任何人都可以用英語、漢語、西班牙語、法語或其他語言與它交流。
當你給大語言模型輸入提示(可以是問題、請求或指示),模型將你的話語轉換爲語彙相互關系的數學符號表達。然後,這些數學符號被用來進行預測:在所有數據中,如果對這個提示的回答已經存在,那麽它可能是什麽?最後,模型再將結果所示的數字轉換回文本。大語言模型中所謂的"大",是指可供其調整的輸入信息權重數量。2018年,OpenAI推出首個大語言模型GPT-1,據稱有約1.2億參數,其中大部分是權重,但也包括模型的諸多可調整方面,而GPT-4則擁有超過一萬億參數。
正是因爲大語言模型有這麽多參數需要微調,並且在它們的訓練集中有如此多的語言數據,所以這些模型通常能夠作出恰當的預測。"大模型的(理解力)飛躍體現在我們不需要再給出很多背景信息,比如廚房是什麽樣子的。"托馬森解釋,"這個系統已經一遍又一遍地掌握食譜,所以當我說‘做土豆餅’時,系統知道步驟應該是‘找到土豆、找到刀、刨土豆’等等。"
* 驚人語言理解力如何化爲行動
然而,與大語言模型連接的機器人是一個失衡的系統:無限的語言能力接入一個只能完成少部分人類任務的機器人軀體。如果機器人只有一個兩指夾持器,那麽它不可能精巧地給魚剔骨。如果被問及怎麽燒晚飯,那麽大語言模型將從數十億個詞語中獲取答案,但它提出的答案機器人無法執行。
除了這些內在的限制,辛格、托馬森等人還指出,真實世界引入了隨機性,即使機器人再"聰明"可能還是難以應對。比如,改變窗簾懸挂的位置會改變光線從物體反射的方向,因此房間裏的機器人無法用攝像頭看得那麽清楚;再比如,一個適用于圓形橙子的夾持器可能無法穩穩拿住形狀不那麽規則的蘋果。
美國布朗大學機器人學家斯特凡妮·泰萊克斯認爲,現在的情況是,語言理解力驚人,但機器人很糟糕。致力于研究機器人語言理解的她指出,機器人必須變得更好,才能跟上理解力的前進腳步。
辛格認爲,有一個辦法也許能解決這個問題,這種方式已被證明可使大語言模型避免數學和邏輯錯誤,即在提示中同時包含問題和解決辦法的示例。因爲大語言模型並非爲推理而設計,于是研究人員發現,當提示的問題後緊跟解決類似問題的示例,包括對每個步驟的解釋,結果會有很大改善。
Figure 01正將廚房中洗幹淨的碟子放上架子。 (圖片來源:Figure官網視頻截圖)
辛格推測,這種方法可以讓大語言模型的答案控制在實驗室機器人能夠完成的事情範圍內。她所指的示例,就是機器人可以執行的簡單步驟——動作和物體的組合,比如"去冰箱"或"拿鲑魚"。得益于大語言模型對事物運行數據的了解,簡單的動作將能以人類熟悉的方式組合起來,與機器人對環境的感知進行互動。辛格意識到,她可以讓ChatGPT編寫機器人能夠遵循的代碼。ChatGPT不再使用日常語言,而將使用編程語言Python。
辛格和托馬森已針對一個實體機械臂和一個虛擬機器人測試了這種方法,稱爲ProgPrompt。在虛擬環境中,對于ProgPrompt提出的計劃,機器人基本都可執行,而且這些計劃的成功率要比以往任何訓練系統高得多。與此同時,給實體機器人分配較簡單的分類任務,它也基本總能完成。
在谷歌,卡羅爾·豪斯曼、布萊恩·伊克特等人也試圖將大語言模型的輸出轉化爲機器人行爲,他們嘗試了另一種策略。在他們創建的SayCan系統中,谷歌的PaLM大語言模型先收到機器人可以執行的簡單行爲列表。PaLM被告知,它生成的答案必須包含該列表中的項目。在人類用對話語言提出請求後,大語言模型會從列表中選擇一些最有可能成功的行爲。
在項目的一次演示中,一位研究人員鍵入:"我剛剛健完身,你能給我拿一杯飲料和一些零食來幫助我放松嗎?"在大語言模型的評估中,"找到一瓶水"比"找到一個蘋果"更有可能滿足請求。機器人是一個單臂、帶輪子的裝置,看上去像一台起重機和一盞落地燈的混合體。它駛入實驗室裏的廚房,找到一瓶水,帶給研究人員,然後返回。由于水已經送到,大語言模型此時將"找到一個蘋果"的權重提高,于是機器人就拿起蘋果。由于大語言模型了解人們對健身的說法,系統"明白"不能給用戶拿含糖汽水或垃圾食品。
"你可以告訴機器人,‘給我拿一杯咖啡’,機器人就會給你拿一杯咖啡。"SayCan的一名設計師說,"但我們希望實現更高層次的理解。比如你可以說,‘我昨晚沒睡好,你能幫我一下嗎?’機器人應該知道要給你一杯咖啡。"
* 大語言模型驅動機器人是否安全
在大語言模型中尋求更高層次理解會産生一個疑問:這些語言程序只是機械地操縱詞語,還是說它們對這些詞語代表的事物建構起了某種聯系?美國普林斯頓大學工程學教授、機器人學家阿尼魯達·馬朱姆達指出,當大語言模型提出燒飯的現實計劃時,"似乎有一種推理在其中"。程序中沒有任何部分"知道"鲑魚是魚,它也"不知道"很多魚可食用以及魚會遊泳。但是,程序産生的這些詞語中隱含了所有這些知識。
在最近一次實驗中,馬朱姆達和普林斯頓大學計算機科學系教授卡爾希克·納拉西曼等人利用大語言模型暗含的"世界地圖"來解決他們所謂的機器人學一大挑戰:使機器人能夠操縱它未曾接觸或尚無程序指引的工具。
他們的系統展示出"元學習"的苗頭,即把早期習得的知識應用于新的情境中。研究人員對GPT-3輸入"詳細、科學地描述錘子的用途",並收集答案。他們重複這個提示,並將關鍵詞換成另外26種工具,從塗刷器到斧頭不等。然後,他們將大語言模型的答案輸入一個虛擬機械臂,並對其訓練。在面對撬棍這一陌生物體時,接受傳統訓練的機器人試圖通過其彎曲的一端來拿起撬棍,而接受GPT-3訓練的機器人則准確拿起了棍子的長柄。連上GPT"大腦"的機器人系統就像人一樣,能夠"概括總結",因爲它見過其他帶柄的工具,所以會去拿撬棍的長柄。
機器人Figure 01正在將物品放入容器。(圖片來源:Figure官網視頻截圖)
不過,機器無論是進行自主推理,還是按部就班行事,許多人都非常擔憂它在現實世界中的能力。與傳統編程相比,大語言模型本質上更不可靠、更不可知,這讓許多專業人士感到憂心。托馬森說:"有些機器人專家認爲,要告訴機器人做某件事卻不約束該事物的含義,這並不好。"
心理學家、科技企業家加裏·馬庫斯雖稱贊谷歌的PaLM-SayCan項目"令人難以置信",但他實際上對大語言模型持懷疑態度,去年夏天他就對該項目提出了反對意見。馬庫斯認爲,如果大語言模型誤解了人類的需求,或未能充分理解需求的含義,那麽它們在機器人內部可能會變得危險。當人類提出的需求本身有惡意時,大語言模型理解了人類的意願,也可能造成傷害。
除了不能完全理解語義,大語言模型還有一個問題——偏見。大語言模型依賴人類産生的數據,但它並不是所有知識的存儲庫。互聯網上存在感較低的語言、文化、民族,其實並沒有納入其中。例如,根據最新估計,非洲約有2000門語言,僅有約30門納入了幾個主要大語言模型的訓練數據中。因此,去年11月在arXiv上發布的一篇研究預印本發現,GPT-4和另外兩個熱門大語言模型在使用非洲語言時的表現比使用英語時差得多。
此外,模型訓練所依賴的數據——取自數字資源的數十億單詞——包含了大量有關人的偏見和刻板印象。美國卡內基梅隆大學的人工智能和機器人研究員安德魯·亨特說,大語言模型如果在其訓練數據中注意到了刻板印象,可能會在其回答中刻意模仿,且使用頻率高于數據集中的數據。亨特認爲,大語言模型的制造者可以攔截包含這些刻板印象的惡意提示,但這還不夠,"在大語言模型可以應用于機器人之前,需要進行廣泛研究,采取一系列安全措施"。
但目前還不必擔心一件事,那就是大語言模型驅動的機器人會産生危險。機器就像人類一樣,說永遠比做容易。谷歌公司的豪斯曼說:"我們在很多小事情上就遇到了瓶頸,比如打開抽屜、移動物體,這些事情也是至少到目前爲止,語言幫不上大忙的技能。"
目前,大語言模型帶來的最大挑戰不是它們的機器人身體,而是它們以神秘的方式模仿了人類的許多好事和壞事。泰萊克斯說,大語言模型是"一種互聯網格式塔"——互聯網的所有精華都在其中,而所有糟粕也都在其中。她說,與大語言模型生成的釣魚郵件、垃圾郵件或其炮制的假新聞相比,將模型放入機器人也許是可以用它來做的最安全的事情之一。
"燒飯機器人"制定策略有多難
1、了解特定的飲食文化,比如"辛辣"到底有多辣。
2、熟悉所在廚房的布局和裝備,比如櫥櫃上是否有電飯煲。
3、考慮特定用餐者的食欲和偏好,比如某人是不是特別餓,或者剛健身完畢。
4、掌控特定日子的特殊情況,比如來吃飯的客人是否對麸質或乳制品過敏。
5、應對突發事件和意外情況,比如黃油正好過期,能用什麽來替代。
[作者:孫欣祺 : 編譯*文:本報記者 孫欣祺/編譯圖:除注明外均視覺中國*編輯:許琦敏*責任編輯:任荃/來源: 文彙報]