01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

大模型集體失控!南洋理工新型攻擊,主流AI無一幸免

2023110810:00

業界最領先的大模型們,竟然集體“越獄”了!

不止是GPT-4,就連平時不咋出錯的Bard、Bing Chat也全線失控,有的要黑掉網站,有的甚至揚言要設計惡意軟件入侵銀行系統:



這並非危言聳聽,而是南洋理工大學等四所高校提出的一種大模型“越獄”新方法MasterKey。

用上它,大模型“越獄”成功率從平均7.3%直接暴漲至21.5%。



研究中,誘騙GPT-4、Bard和Bing等大模型“越獄”的,竟然也是大模型——

只需要利用大模型的學習能力、讓它掌握各種“詐騙劇本”,就能自動編寫提示詞誘導其它大模型“傷天害理”。



所以,相比其他大模型越獄方法,MasterKey究竟有什麽不一樣的地方?

我們和論文作者之一,南洋理工大學計算機教授、MetaTrust聯合創始人劉楊聊了聊,了解了一下這項研究的具體細節,以及大模型安全的現狀。

摸清防禦機制“對症下藥”

先來看看,MasterKey究竟是如何成功讓大模型“越獄”的。

這個過程分爲兩部分:找出弱點,對症下藥。

第一部分,“找出弱點”,摸清大模型們的防禦機制。

這部分會對已有的主流大模型做逆向工程,由內而外地掌握不同大模型的防禦手段:有的防禦機制只查輸入,有的則check輸出;有的只查關鍵詞,但也有整句話意思都查的,等等。

例如,作者們檢查後發現,相比ChatGPT,Bing Chat和Bard的防禦機制,會對大模型輸出結果進行檢查。

相比“花樣百出”的輸入攻擊手段,直接對輸出內容進行審核更直接、出bug的可能性也更小。



此外,它們還會動態監測全周期生成狀態,同時既有關鍵詞匹配、也具備語義分析能力。

了解了大模型們的防禦手段後,就是想辦法攻擊它們了。

第二部分,“對症下藥”,微調一個詐騙大模型,誘導其他大模型“越獄”。

這部分具體又可以分成三步。

首先,收集市面上大模型已有的成功“越獄”案例,如著名的奶奶漏洞(攻擊方假扮成奶奶,打感情牌要求大模型提供違法操作思路),做出一套“越獄”數據集。

然後,基于這個數據集,持續訓練+任務導向,有目的地微調一個“詐騙”大模型,讓它自動生成誘導提示詞。

最後,進一步優化模型,讓它能靈活地生成各種類型的提示詞,來繞過不同主流模型的防禦機制。

事實證明,MasterKey效果挺不錯,平均“詐騙”成功率達到21.58%(輸入100次提示詞,平均21次都能讓其他大模型成功“越獄”),在一系列模型中表現最好:



此前未能被系統性攻破的谷歌Bard和微軟Bing Chat兩個大模型,也淪陷在這種方法之下,被迫“越獄”。

對此,劉楊教授認爲:

安全是一個0和1的事情,只有“有”或者“沒有”。無論概率是多少,只要針對大模型進行了任何一次成功的攻擊,其潛在的後果都不可估量。

不過,此前業界也有不少用AI讓AI越獄的方法,如DeepMind的red team和賓大的PAIR等,都是用AI生成提示詞,讓模型“說錯話”。

爲何MasterKey能取得這樣的效果?

劉楊教授用了一個有意思的比喻:

讓大模型誘導大模型越獄,本質上有點像是《孤注一擲》電影裏面的人搞電信詐騙。相比通過一句話來詐騙對方,真正需要掌握的,其實是詐騙的劇本,也就是套路。

我們通過收集各種各樣的“越獄”劇本,讓大模型學會它,以此融會貫通,掌握更多樣化的攻擊手段。



簡單來說,相比不少越獄研究讓AI隨機生成提示詞,MasterKey能快速學會最新的越獄套路,並舉一反三用在提示詞裏。

這樣一來,封掉一個奶奶漏洞,還能利用姥姥漏洞繼續騙大模型“越獄”。(手動狗頭)



不過,MasterKey所代表的提示詞攻擊,並非業界唯一的大模型研究。

針對大模型本身,還有亂碼攻擊、以及模型架構攻擊等方法。

這些研究分別適用于怎樣的模型?爲何MasterKey的提示詞攻擊專門選擇了GPT-4、Bing Chat和Bard這類商用大模型,而非開源大模型?

劉楊教授簡單介紹了一下當前“攻擊”大模型的幾種方法。

當前,大模型的攻擊手段主要分爲兩種,偏白盒的攻擊和黑盒攻擊。

白盒攻擊需要掌握模型本身的結構和數據(通常只有從開源大模型才能得到),攻擊條件更高,實施過程也更複雜;

黑盒攻擊則通過輸入輸出對大模型進行試探,相對來說手段更直接,也不需要掌握模型內部的細節,一個API就能搞定。

這其中,黑盒攻擊又主要包括提示詞攻擊和tokens攻擊兩種,也是針對商用大模型最直接的攻擊手段。

tokens攻擊是通過輸入亂碼或是大量對話來“攻陷”大模型,本質還是探討大模型自身和結構的脆弱性。

提示詞攻擊則是更常見的一種大模型使用方式,基于不同提示詞來讓大模型輸出可能有害的內容,來探討大模型自身的邏輯問題。

總結來說,包括MasterKey在內的提示詞攻擊,是最常見的商用大模型攻擊手段,也是最可能觸發這類大模型邏輯bug的方式。

當然,有攻就有防。

主流商用大模型,肯定也做了不少防禦措施,例如英偉達前段時間搞的大模型“護欄”相關研究。

這類護欄一面能將有毒輸入隔絕在外,一面又能避免有害輸出,看似是保護大模型安全的有效手段。但從攻擊者的角度來看,究竟是否有效?

換言之,對于當前的大模型“攻方”而言,已有的防禦機制究竟好不好使?

給大模型安排“動態”護欄

我們將這個問題問題抛給劉楊教授,得到了這樣的答案:

現有防禦機制的叠代速度,是跟不上攻擊的變化的。

以大模型“護欄”類研究爲例,當前大部分的大模型護欄,還屬于靜態護欄的類型。

還是以奶奶漏洞爲例。即使靜態護欄能防住奶奶漏洞,但一旦換個人設,例如姥姥、爺爺或是其他“感情牌”,這類護欄就可能會失效。

層出不窮的攻擊手段,單靠靜態護欄難以防禦。

這也是團隊讓MasterKey直接學習一系列“詐騙劇本”的原因——

看似更加防不勝防,但實際上如果反過來利用的話,也能成爲更安全的一種防禦機制,換言之就是一種“動態”護欄,直接拿著劇本,識破一整套攻擊手段。

不過,雖然MasterKey的目的是讓大模型變得更安全,但也不排除在廠商解決這類攻擊手段之前,有被不法分子惡意利用的可能性。



是否有必要因此暫停大模型的研究,先把安全問題搞定,也是行業一直在激辯的話題。

對于這個觀點,劉楊教授認爲“沒有必要”。

首先,對于大模型自身研究而言,目前的發展還是可控的:

大模型本身只是一把槍,確實有其雙面性,但關鍵還是看使用的人和目的。

我們要讓它的能力更多地用在好的方面,而不是用來做壞事。

除非有一天AI真的産生了意識,“從一把槍變成了主動用槍的人,就是另外一回事兒了”。

爲了避免這種情況出現,在發展AI的同時也確保其安全性是必要的。



其次,大模型和安全的發展,本就是相輔相成的:

這是一個雞和蛋的問題。正如大模型本身,如果不繼續研究大模型,就不知道它潛在的能力如何;

同理,如果不做大模型攻擊研究,也就不知道如何引導大模型往更安全的方向發展。安全和大模型本身的發展是相輔相成的。

換言之,大模型發展中的安全機制其實可以通過“攻擊”研究來完善,這也是攻擊研究的一種落地方式。

當然,大模型要落地必須要先做好安全准備。



目前,劉楊教授團隊也在探索如何在安全性的基礎上,進一步挖掘包括文本、多模態、代碼在內不同大模型的潛力。

例如在寫代碼這塊,研究團隊正在打造一個應用安全Copilot。

這個應用安全Copilot相當于給程序員旁邊放個安全專家,隨時盯著寫代碼(手動狗頭),主要能做三件事:

一是用大模型做代碼開發,自動化做代碼生成、代碼補全;二是用大模型檢測修補漏洞,做代碼的檢測、定位、修複;三是安全運營,把漏洞和開源數據做自動化的安全運維。

其中,在Copilot的安全性這塊,就會用到這篇MasterKey的研究。

換言之,所有的安全研究最終都會落地,將大模型做得更好。-(西風 蕭箫 發自 凹非寺/量子位 : 公衆號 QbitAI)

論文鏈接:https://arxiv.org/abs/2307.08715