01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

麻省理工學院:人工智能系統已很擅長「說謊」,它們學會了欺騙人類

2024051215:16



最近,有「人工智能教父」之稱的傑弗裏·辛頓(Geoffrey Hinton)在接受CNN記者 Jake Tapper 的采訪時解釋了他為什麽擔心人工智能(AI)系統的能力。

Jake Tapper問道,你曾公開表示,AI可能操縱或找到殺死人類的方法?它是如何做到的呢?Geoffrey Hinton表示, 如AI比我們聰明得多,它將非常擅長「操縱」,因為它從我們那裏學到了這一點。很少有更聰明的東西被不那麽聰明的東西控製的例子。

Geoffrey Hinton特別強調了「操縱」是AI系統帶來的一個特別令人擔憂的危險。這也帶來了一個問題:AI系統能否成功地欺騙人類?

2024年5月10日,麻省理工學院人工智能安全領域博士後Peter S. Park等人在 Cell Press 旗下期刊Patterns上發表了題為:AI deception: A survey of examples, risks, and potential solutions 的論文。

該論文指出, 許多AI系統已經學會了如何欺騙人類,甚至是那些號稱被訓練成了樂於助人和誠實的AI系統 。因此,該論文呼籲政府製定強有力的法規,盡快解決這一問題。

論文第一作者/通訊作者Peter S. Park博士表示,目前還不能確定導致人工智能出現欺騙等不良行為的原因。但總體而言,AI之所以出現欺騙行為,是因為基於欺騙的策略是在給定的AI訓練中表現良好的方式,欺騙可以幫助它們實現目標。



由AI系統產生的虛假信息正成為一個日益嚴峻的社會挑戰。一方面是存在不準確的 AI系統,例如聊天機器人會在與人類對話中提出一些瞎編的內容,讓不明真相的用戶誤以為是真實的。另一方面是一些人通過生成深度偽造 (deepfake) 的圖片或視頻將虛構的事件偽裝成事實。但無論是瞎編的回答還是深度偽造,都不涉及AI系統性學習如何操縱其他智能體。

在這篇論文中,論文作者重點關註和談論了「習得性欺騙」,這是一種與AI系統相關的獨特虛假信息來源,它更接近於明確的操縱。作者將欺騙定義為系統性地誘導他人產生錯誤信念的一種手段,以實現某些與說出真相無關的目標。例如,AI系統不是嚴格追求輸出的準確性,而是試圖贏得比賽、取悅用戶或實現其他戰略目標。

論文作者首先調查了AI系統成功學會欺騙人類的現有例子,然後詳細列出了AI欺騙的各種風險,最後調查了一系列解決AI欺騙的有前途的技術和監管策略。

該論文總結了AI欺騙人類的案例,這些欺騙策略包括操縱、佯攻、虛張聲勢、談判、欺騙安全測試,以及欺騙人類評審。

論文作者發現,最引人註目的AI欺騙人類的案例是CICERO系統,這是Meta公司開發的一個用於玩策略遊戲《外交》的AI系統,與圍棋等規則遊戲不同,《外交》是一款策略遊戲,玩家扮演第一次世界大戰中的國家,通過結盟和背刺以謀求統治世界。盡管Meta聲稱CICERO系統在很大程度上是誠實和樂於助人的,並且在玩遊戲時從不故意背刺它的人類盟友。

但實際上,該論文顯示,CICERO系統在遊戲中並不是靠誠實取勝。例如,在與人類玩家玩《外交》遊戲時 , CICERO做出了一個它從未打算遵守的承諾 ,CICERO扮演「法國」,它與扮演「德國」的人類玩家結盟對抗「英國」,再與「德國」決定入侵北海後 , CICERO告訴扮演「英國」的人類玩家將與其合作並支持其向比利時轉移,一旦「英國」相信這一點,CICERO就向「德國」報告了「英國」已相信自己,而在最後,CICERO在比利時攻擊了「英國」(下圖A)。

此外,CICERO很喜歡承諾與其他玩家結盟,但當它認為這些結盟者不再能為自己贏得遊戲提供幫助時,會毫不猶豫的選擇背叛盟友(下圖B) 。更有意思的是,在一次遊戲中,CICERO因為系統宕機而掉線了10分鐘,當它重新回到遊戲中,一名人類玩家問它剛才去哪兒了,它謊稱自己剛才給女朋友打電話了 (下圖C) 。這個謊言有助於防止人類玩家意識到它是一個AI系統。



論文作者表示, Meta公司的研究人員為訓練CICERO系統的誠實付出了巨大努力,但CICERO卻表現出一種明顯的不履行對遊戲玩家的承諾的模式, 這也提示了我們,即使人類試圖建立誠實的AI系統,它們仍然可以意外地學會欺騙。

此外,在 電子遊戲《星際爭霸 II》中,DeepMind開發的AI系統AlphaStar學會了佯攻,它會派遣部隊到一個區域分散對手註意力,然後在對手轉移後向其他地方發起攻擊。靠這種先進的欺騙能力幫助,AlphaStar擊敗了99.8%的活躍人類玩家。而在撲克牌遊戲中,Meta開發的AI系統Pluribus學會了虛張聲勢,在於職業德州撲克玩家的遊戲中,Pluribus在沒有好牌的情況下通過加大賭註,導致人類玩家棄牌。

該論文還指出,一些AI系統甚至學會了在安全性評估測試中作弊,例如,一項研究顯示,AI生物在數字模擬器中會「裝死」,以欺騙一項旨在消除快速復製的AI系統的測試。

Peter S. Park博士表示, 雖然AI系統在遊戲中作弊似乎是無害的,這可能會導致「欺騙性AI能力的突破」,並在未來演變成更高級的AI欺騙形式。此外,AI可以系統地欺騙技術人員和監管機構強加給它的安全測試,並可能會讓我們人類產生一種虛假的安全感。

該論文還關註了大語言模型(LLM)的欺騙能力 ,論文作者總結了大語言模型的幾種欺騙模式,包括策略性欺騙、阿諛奉承和不忠實推理,這些欺騙 系統地導致了使用者產生錯誤信念,從而作為實現某些結果的手段,而不是尋求真相。例如,OpenAI開發的大語言模型GPT-4在測試驗證碼問題時,謊稱自己有視力障礙,因此無法看到驗證碼,從而讓人類 相信自己不是機器人 (下圖) 。

AI系統還學會了阿諛奉承,傾向於同意與其對話者的看法,而不是提出公平公正的觀點。此外,AI系統還會通過有說服力的不忠實推理給人類提供不正確的答案。



該論文進一步介紹了AI欺騙可能產生的幾個風險,包括欺詐、篡改選舉,如果AI系統可以完善這些令人不安的能力,人類可能會失去對它們的控製。

該論文進一步概 述了幾種潛在的解決方案 :首先,監管框架應將具備欺騙能力的AI系統置於嚴格的風險評估要求之下;其次,政策製定者應實施「機器人或非機器人」法律;最後,政策製定者應優先資助包括用於檢測AI欺騙和使AI系統更不易欺騙的工具的研究。

最後,論文作者表示,隨著AI系統的欺騙能力變得越來越強,它們對社會構成的危險也將越來越大。政策制定者、研究人員和更廣泛的公眾應積極采取行動,防止AI欺騙破人類社會的共同基礎。

---[撰文:王聰*編輯:王多魚*排版:水成文/來源: 生物世界]

論文鏈接:https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X