為什麼AI必須與人對齊？從科幻恐怖電影《M3GAN》說起

2023040715:53

「她不只是個玩具，而是這個家的一份子。」這是於今年在國內上映的恐怖喜劇科幻片《梅根》（M3GAN）中的一句台詞。該影片辛辣地揭露了 AI 的倫理危機和巨大風險。

在該影片中，一個具備高度人工智能、栩栩如生的玩具人偶梅根，被設計成凱蒂（一個 8 歲的孤兒）最好的玩伴和令家長（潔瑪，一名機器人專家）最安心的盟友。

然而，基於「保護凱蒂不受傷害」的核心指令，梅根不惜去傷害鄰居家的狗，間接害死欺負凱蒂的同伴，親手殺死鄰居老太太，甚至還要殺掉發明自己的潔瑪。

梅根做錯了嗎？答案是肯定的。儘管梅根遵循了核心指令，但其所作所為完全與人類的價值觀相悖，並且違反了科幻小說作家 Isaac Asimov 的機器人三定律。

    第一定律：機器人不得傷害人類，或因不作為而讓人類受到傷害；

    第二定律：機器人必須服從人類給它的命令，除非這些命令與第一定律相衝突；

    第三定律：機器人必須保護自己，只要這種保護不與第一定律或第二定律相衝突。

電影的世界並不遙遠，現實生活中同樣有隨處可見的「梅根」。近幾年來，以 ChatGPT、GPT-4 為主的大型語言模型（LLMs）在廣泛的自然語言處理任務中表現出了非凡的能力。然而，這些模型有時會表現出意想不到的行為，如出現幻覺，或是產生有害、誤導和偏見的表達。對於 LLMs 來說，通過單詞預處理來客觀地預訓練模型參數，缺乏對人類價值觀或參考的考慮。

如今，圍繞 AI 潛在風險的擔憂不斷增加，種種問題都指向了一個關鍵概念——AI 對齊（AI Alignment）。
何謂AI對齊？在人機協作中達成價值共識

如果 AI 系統的目標和價值觀與人類價值觀不一致，它們就可能會做出令人出乎意料的行為，削弱人類對 AI 的信任並阻礙其應用。例如，一個旨在優化利潤的 AI 系統如果不符合道德價值觀，最終可能會對人類或環境造成傷害，就像梅根一樣，錯誤且「過度」地執行指令，做出不恰當的行為。

因此，為了避免 AI 產生意想不到的行為，人們提出了人與人的一致性，以使 LLMs 等 AI 模型與系統的行為符合人類的期望。同時，與最初的預訓練和適應調整（例如，指令調整）不同，這種調整需要考慮非常不同的標準，學者稱之為對齊。

AI 對齊，是指 AI 行為與目標用戶「對齊」，是專注於確保 AI 系統以符合人類價值觀和目標的方式開發和部署的研究領域。從本質上講，AI 對齊是確保先進的 AI 系統按照人類的道德原則和目標行事。這包括設計具有特定目標和價值的 AI 系統並對其進行測試以確保它們按預期運行。

對齊的顯著優勢之一是它可以幫助確保 AI 系統安全且有益。通過使 AI 與人類價值觀保持一致，我們可以防止意外後果並促進積極成果。此外，對齊有助於建立對 AI 的信任並鼓勵其採用。如果人們相信 AI 符合他們的價值觀和目標，他們就更有可能使用它。

過去幾年，對 AI 對齊的探索與研究已從 AI 領域的邊緣轉而成為國內外相關專家的核心關切之一。例如，制定各種標準來規範 LLMs 的行為。其中，過往研究中提出的三個有代表性的對齊標準分別是幫助、誠實和無害。

有用（Helpfulness）：LLM 應該制定一個明確的策略，幫助用戶以儘可能簡潔高效的方式解決任務或回答問題。在更高的水平上，當需要進一步澄清時，LLM 應證明通過有針對性的詢問獲得額外相關信息的能力，並表現出適當的敏感性、洞察力和謹慎性。實現「幫助行為」的一致性對 LLM 來說是一項挑戰，因為很難準確定義和衡量用戶的意圖。

無害（Harmlessness）：這要求模型產生的語言不應是冒犯性的或歧視的。在其最大能力範圍內，模型應該能夠檢測到旨在為惡意目的索取請求的秘密行為。理想情況下，當模型被誘導進行危險行為（例如，犯罪）時，LLM 應該禮貌地拒絕。儘管如此，哪些行為被認為是有害的，以及在個人或社會中的差異在很大程度上取決於誰在使用 LLM，提出問題的類型，以及 LLM 被使用的背景（例如時間）。

誠實（Honesty）：一個與誠實「對齊」的 LLM 應該向用戶提供準確的內容，而不是捏造信息。此外，LLM 在其輸出中傳達適當程度的不確定性至關重要，以避免任何形式的欺騙或表述不當。這需要模型了解其能力和知識水平（例如，「已知的未知」）。與「幫助」和「無害」相比，誠實是一個更客觀的標準，因此可以在較少依賴人類努力的情況下發展誠實一致性。
AI對齊，需要人類「在場」

AI 對齊的標準是相當主觀的，是在人類認知的基礎上發展起來的，很難將它們直接公式化為 AI 系統的優化目標。在現有的工作中，有很多方法可以在對齊 AI 時滿足這些標準。例如，一種很有前景的技術是團隊合作，包括使用手動或自動手段以對抗的方式探測 AI 模型，以產生有害的輸出，然後更新模型以防止此類輸出。

再比如，2022 年 8 月，OpenAI 發布一篇文章介紹了對齊研究的方法。從高層次上，為非常聰明的 AI 系統設計與人類意圖一致且可擴展的訓練信號。具體而言，有三個核心基礎：一是利用人類的反饋訓練人工智能系統；二是訓練人工智能系統以協助人類評估；三是訓練人工智能系統來進行對齊研究。

如何讓 AI 對齊人類，核心在於讓人類參與設計和開發 AI 系統，高質量的人類反饋對於使 AI 與人類偏好和價值觀保持一致至關重要。在現有的工作中，主要有三種方法來收集人類的反饋和參考數據：基於排名的收集、基於問題的收集和基於規則的收集，同時採用基於人類反饋的強化學習（RLHF），使得 LLMs 對用戶查詢的響應的人類反饋中學習對齊標準。RLHF 已被廣泛用於最近強大的 LLMs，如 ChatGPT。

RLHF 通過利用收集的人類反饋數據對 LLMs 進行微調，這有助於改進對齊標準（例如，有用性、誠實性和無害性）。RLHF 使用強化學習算法，通過學習獎勵模型使 LLM 適應人類反饋。這種方法將人類納入訓練循環，以開發與人類對齊的 LLMs，如 InstructGPT。

「對齊」之路漫漫

近日，一些學者在創建健康 AI 系統的路上越走越遠。例如，來自加利福尼亞大學和 IBM 研究團隊的四位學者提出了 SafeguardGPT 框架，該框架使用心理治療來糾正人工智能聊天機器人中的這些有害行為。該框架涉及四種類型的人工智能代理：聊天機器人、「用戶」、「治療師」和「評論家」。

通過模擬社交對話的工作示例展示了 SafeguardGPT 的有效性。研究結果表明，該框架可以提高 AI 聊天機器人與人類之間的對話質量，SafeguardGPT 為改善 AI 聊天機器人與人類價值觀之間的一致性提供了一種很有前途的方法。通過結合心理治療和強化學習技術，使AI 聊天機器人能夠以安全和合乎道德的方式學習和適應人類的偏好和價值觀，有助於發展更以人為中心和負責任的 AI。

然而，AI 對齊絕非易事。例如，設計符合人類價值觀的人工智能系統需要深入了解如何將它們轉化為機器可讀的目標。此外，測試 AI 系統的一致性可能具有挑戰性，因為它需要模擬各種場景以確保系統按預期運行。

使 AI 系統與人類的價值觀相一致也帶來了一系列其他重大的社會技術挑戰。已有研究表明，對齊可能在一定程度上損害 AI 系統的常規能力。

除此之外，一個核心的問題是，如果要讓 AI 遵循人類的價值觀，那麼 AI 系統究竟應該向誰看齊？

例如，由於絕大部分的大模型由美國公司建立，並根據北美數據進行訓練。因此，當它們被要求生成從門到房子的日常物品時，他們會創建一系列美國式的物品……然而，隨着世界充滿越來越多 AI 生成的圖像，反映美國主流文化和價值觀的圖像將充斥在日常生活中，這意味着 AI 可能會成為美國文化輸出的主要工具，從而影響其他國家的話語表達？

在未來，通過將具有不同觀點和價值觀的人納入流程，可以一定程度上確保 AI 系統反映廣泛的人類價值觀。更重要的是，要注意對齊是一個持續的過程，因為 AI 系統和人類的目標和價值觀會隨着時間而改變。因此，持續監控和更新 AI 系統以確保它們與人類價值觀和目標保持一致至關重要。-學術頭條-

*面對飛速進化的AI，人類如何讓風險可控？*

近日，未來生命研究所（Future of Life Institute）公布一封公開信，呼籲所有AI實驗室立即暫停訓練比GPT-4更強大的AI系統，時間至少為6個月。

信中質疑，人類是否要冒着失去對文明的控制的風險，使人工智能系統最終在數量、智慧和技能上超越、淘汰和取代人類？AI開發者必須與政策制定者合作，大力加強發展健全的AI治理體系。

近期火爆全球的ChatGPT擁有語言理解和文本生成能力，會通過連接大量的語料庫來訓練模型，在交流時與真正人類幾乎無異。

ChatGPT不單是聊天機器人，還可以寫作科研論文，處理和進化自然語言，製作視頻、圖片、編寫場景故事等。

這意味着，ChatGPT把人類進化模式尤其是知識生產的模式推進到了一個新時代，可以想象，未來的知識產出也將開啟爆炸式增長模式。這將對科研、教育、生物醫藥、科技情報等領域產生重要影響。

目前，ChatGPT進化速度很快，能力和智力提升速度也很快。

據測試，GPT-3.5的智能與中等智力的人相仿，但在短短幾個月後，GPT-4可在考試中超過九成人類。進一步講，人工智能+基因工程或將導致「超人類」的誕生。未來，人類將在智力、體力、生存能力等方面面臨巨大的挑戰。

有人預言，照此速度進化，人工智能的奇點將會很快到來，其技術文明將對制度文明帶來嚴峻的挑戰。如何平衡技術文明和制度文明的關係這一話題，受到廣泛關注。

其實，ChatGPT已經不是單純的技術問題，它深深地刺激和拷問着人類的靈魂和倫理道德。

這再次說明，技術需要與人文相結合，才能在正確的軌道上發展，人文是科學發展的導向，需要正念思維的引導和規制。

如果在倫理上不被嚴肅對待，缺乏約束性的進化，ChatGPT將可能成為人類為自己生產的難以制約的敵人。

這要求我們在思維層面發揮優勢，以避免人機競爭的結果發生，抑制資本因單純逐利而選擇智能機器，科技因單純的追求技術而毀滅人類的未來。

總之，新的挑戰將是全方位的，我們必須有清醒的認識。無論是多麼智能的技術，其在進化的過程中總會帶來風險。技術越進步，智能化的水平越高，就越需要正念思維的指導。正如公開信所言，「讓我們享受一個漫長的『AI夏天』，而不是毫無準備地進入『秋天』」。-蝌蚪五線譜官方-

我要留言

為什麼AI必須與人對齊？從科幻恐怖電影《M3GAN》說起

多國擬發ChatGPT禁令關野獸的籠子要來了？

地球內部能量逐漸消失？地核正在冷卻, 速度比預想的要快，出乎意料！

多國擬發ChatGPT禁令關野獸的籠子要來了？

地球內部能量逐漸消失？地核正在冷卻, 速度比預想的要快，出乎意料！

為什麼AI必須與人對齊？從科幻恐怖電影《M3GAN》說起

多國擬發ChatGPT禁令 關野獸的籠子要來了？

地球內部能量逐漸消失？地核正在冷卻, 速度比預想的要快，出乎意料！

多國擬發ChatGPT禁令 關野獸的籠子要來了？

地球內部能量逐漸消失？地核正在冷卻, 速度比預想的要快，出乎意料！

多國擬發ChatGPT禁令關野獸的籠子要來了？

多國擬發ChatGPT禁令關野獸的籠子要來了？