深度合成安全風險下,技術怎麼規制技術?
人工智能(AI)技術的進步,讓一切的合成變得簡單和輕易。近年來,利用深度學習、虛擬現實等生成合成類算法製作圖像、音頻、視頻、虛擬場景等信息的深度合成技術,已在多個領域大量應用,伴隨着不斷湧現的使用需求,深度合成內容數量和關注度呈現快速增長態勢。
在深度合成快速發展的同時,挑戰也隨之而來。深度合成技術的日益精湛,導致合成的音頻、視頻等偽造內容越來越能以假亂真,並由此帶來一系列關於安全的風險。在這樣的背景下,除了立法進行監管,以技術規制技術成為深度合成的必然。問題是,技術該怎麼規制技術?深度合成和檢測的「貓鼠遊戲」的下一步又會是什麼?
深度合成和新的風險
深度合成技術是人工智能發展到一定階段的產物,源於人工智能系統生成對抗網絡(GAN)的進步。
GAN由生成器和識別器兩個相互競爭的系統組成。建立GAN的第一步是識別所需的輸出,並為生成器創建一個培訓數據集。一旦生成器開始創建可接受的輸出內容,就可以將視頻剪輯提供給識別器進行鑑別;如果鑑別出視頻是假的,就會告訴生成器在創建下一個視頻時需要修正的地方。
根據每次的「對抗」結果,生成器會調整其製作時使用到的參數,直到鑑別器無法辨別生成作品和真跡,以此將現有圖像和視頻組合併疊加到源圖像上,終於生成合成視頻。典型的「深度合成」主要包括人臉替換、人臉再現、人臉合成以及語音合成四種形式。
深度合成真正走紅其實是一場意外。2017年,美國新聞網站 Reddit的一個名為「deepfakes」的用戶上傳了經過數字化篡改的色情視頻,即這些視頻中的成人演員的臉被替換成了電影明星的臉。此後,Reddit網站就成為了分享虛假色情視頻的一個陣地。儘管後來 Reddit網站上的 deepfake 論壇因為充斥着大量合成的色情視頻而被關閉,但deepfake背後的人工智能技術卻引起了技術社區的廣泛興趣,開源方法和工具性的應用不斷湧現,比如,FakeAPP、face2face等。
今天, 隨着技術進步,深度合成在影視製作、廣告營銷、社交娛樂等領域應用不斷豐富,包括AI合成主播、虛擬偶像、修復歷史老照片等。與此同時,越來越多的企業機構利用深度合成技術提供面向公眾的產品和服務:支持風格定製的特效視頻製作軟件;語音方向衍生出語音導航、有聲讀物等應用;文本合成在新聞報道、聊天問答等方面使用廣泛。
可以預見,未來,隨着自動數據生成、全身合成、3D塑型等技術的逐漸成型,一個新的人類生存場景將以深度合成技術為基石展開。不過,深度合成在激發了新內容創造力的同時,也帶來了新的威脅。
一方面,隨着深度合成內容的製作門檻大大降低,不法分子就可輕易偽造音頻、視頻,實施詐騙、勒索等違法行為。這從這兩年的社會新聞就可見一斑。
近兩年來,在浙江、安徽、江蘇等地,多名盜取個人信息的犯罪嫌疑人被公安部門抓獲。犯罪嫌疑人作案流程極為雷同:先是非法獲取他人照片或有償收購他人聲音等「物料」,然後利用人工智能技術將照片「活化」、合成動態視頻,之後或直接騙過社交平台、支付寶賬戶的人臉核驗機制,進行非法獲利。
另一方面,深度合成內容模糊了真實和虛假的邊界,將對社會信任、媒體信任產生巨大的影響。虛假內容的高難度甄別影響了事實核查的有效性,在社會重大事件或政治事件節點上,深度合成技術可能被用於操作輿論意見,藉助社交媒體,使虛假信息短時間內引發產生病毒式擴散,激化社會矛盾。
深度合成的泛濫進一步增加侵犯肖像權和隱私權的可能,沒人願意自己的臉龐出現在莫名其妙的視頻當中。深度偽造技術的最初就是被應用於色情行業,如今,這一應用對肖像權和隱私的侵害隨着深度偽造向着廉價造假轉化仍然在放大。於是,藉助一些低價乃至免費的軟件,消費者無需專業知識和技術能力,即可通過終端實現調整速度、攝像頭效果、更換背景、實現換臉等操作。
技術怎麼規制技術?
深度合成帶來的負面風險不斷加劇,如何有效甄別深度合成內容就成了關鍵。
過去,生物特徵測試被認為是深度合成內容的重要技術,但實際上,眨眼測試等根據生物特徵進行鑑別的方式,是非常低效、不可靠的,只能階段性地起作用,而且隨着深度合成技術的發展進化,生物特徵測試越來越難以發揮作用。相反,深度合成內容的檢測識別,需要基於AI的鑑別技術,來實現對深度合成內容的自動化檢測。
但是,學術和商業界的防偽開發項目多針對特定產品而非通用的音頻或視頻,即需要針對每一種新興的視頻內容篡改技術都訓練一個對應的鑑別網絡,還沒有通用性的視頻鑑別網絡。簡單來說,隨着深度合成技術的進化,雖然學界和業界已在大量投入和支持鑑別技術的開發,但目前的鑑別網絡多針對特定的深度合成方法,尚沒有通用的鑑別網絡,因此AI檢測工具需要隨時更新。
正如 Photo DNA(識別和屏蔽兒童色情圖片的技術)技術開發者、達特茅斯學院教授 Hany Farid 所說,我們距離能夠確切地識別深度合成內容的鑑別技術還有幾十年的路要走。這意味着,在深度合成技術上,如果想要用技術來規制技術風險,還需要加大對通用且高效鑒偽技術的研發投入和支持力度。比如,美國國防部高級研究計劃局(DARPA)目前有兩個項目致力於深度合成內容的檢測鑑別——媒體鑑定(Media Forensics)和語義鑑定(Semantic Forensics)。
其中,媒體鑑定項目計劃開發一個算法平台,自動評估照片和視頻的完整性,並向分析師提供有關假冒內容是如何生成的信息。語義鑑定平台試圖開發一種媒體信息的自動識別方法,檢測並識別不尋常的信息或面部特徵。無論是媒體鑑定還是語義鑑定,兩者都是為了提高識別和對抗虛假信息的能力。
除了開發通用的鑑別技術外,用技術規制技術的另一方面,就是開發深度合成的溯源技術。實際上,一直以來,人們都有試圖通過技術手段遏制深度造假的泛濫。2019年,斯坦福大學研究員Tom Van de Weghe聯合計算機、新聞等行業的專家,成立了深度造假研究小組,以提升公眾對這一現象的認知度,設計深度造假的識別應對方案。
然而,技術發展速度往往高於破解速度。隨着鑑別器在識別假視頻方面做得越來越好,生成器在創建假視頻方面也做得越來越好。理論上,只要給GAN當前掌握的所有鑑別技術,它就能通過學習進行自我進化,規避鑑別監測。攻擊會被防禦反擊,反過來又被更複雜的攻擊所抵消。
這使得深度合成技術的檢測與反檢測逐漸演變成一場貓捉老鼠的技術競賽,深度合成技術正在快速更新以逃避檢測工具的識別。因此,還需要從內容源頭上區分真實內容與合成內容,確認內容的來源包括製作者、製作的地點等。
有一種設想是提供一種標記方法,要求用戶在特定位置標識內容的原始來源或註明內容是否已經過編輯。但是標記和分類的前提是用戶或平台能夠確定特定內容是否真實,而運用區塊鏈技術進行內容識別被認為是一種有效的解決方案。
目前市場上一些語音合成和視頻合成設備的製造商已經使用各種時間戳工具,在由特定設備創建的圖像和視頻上添加數字水印或數字簽名,用來記錄圖像或視頻是在何時何地拍攝的,用的什麼設備等信息,這些可以用來檢測某個文件是否隨着時間的推移而被修改。
「貓鼠遊戲」 的下一步是什麼?
科技進步,不僅在於技術的進步,還應展現人類駕馭技術的進步和智慧,顯然,想要發揮深度合成技術的最大效益,就必須與深度合成進行一場持續的攻守。
一方面,仍要持續發展深度合成技術,而不能「一刀切」地禁止,這將會阻礙正向應用與創新。顯然,隨着人工智能時代的到來,下一代媒體將由人工智能驅動,人工智能可能給數字內容領域帶來重塑。其中,可以實現換臉、人臉合成、語音合成、視頻生成甚至數字虛擬人等諸多應用形式的深度合成技術,作為人工智能發展到一定階段的產物,正在進入商業化階段。
短期內,深度合成技術已經作用於影視、娛樂和社交等諸多領域,它們或是被用於升級傳統的音視頻處理或後期技術,帶來更好的影音體驗;或是被用來進一步打破語言障礙,優化社交體驗。中長期來看,深度合成技術還可以基於其深度仿真的特徵,超越時空限制,加深我們與虛擬世界的交互,也可以基於其合成性,創造一些超越真實世界的素材。尤其是元宇宙概念的流行,更是為深度合成技術提供了更加寬廣的應用場景。
另一方面,面對深度合成衍生出的安全問題,除了要從源頭上解決,利用技術創新、技術對抗等方式,持續提升和迭代檢測技術的能力外,還需要通過政府與社會組織參與、協同治理。
在我國,2019年以來陸續出台《網絡音視頻信息服務管理規定》《網絡信息內容生態治理規定》《互聯網信息服務算法推薦管理規定》等法規,對生成合成類內容等提出了不同程度的監管要求。新公布的《互聯網信息服務深度合成管理規定》進一步提出,深度合成服務提供者深度合成服務時,應當使用顯著方式對深度合成信息內容進行標識。
此外,美國從聯邦和州層面進行了專門立法,歐盟將深度合成納入《通用數據保護條例(GDPR)》等現有法律框架規制。德國、新加坡、英國、韓國等國家,均有適用於深度合成技術相關犯罪案件審理的法律法規。
不過,雖然目前各國都在積極探尋有效治理機制,但由於深度合成往往基於公開照片的生成,這令其很難真正被發現。而一旦被發現,誰又有權利刪除數據?違法者或侵權者的數據是否擁有同樣的權利?此外,當平台發現疑似深度偽造視頻時,它是否能簡單刪除以規避責任,這種行為又是否會阻礙傳播自由?
本質上來看,深度合成的問題就是透明度不足。因此,從各個層面提高公眾對深度合成技術的認知尤為重要,只有將門檻降低到所有受眾能夠在共同框架下認識、理解這個問題的時候,深度合成技術才能健康良性發展。
說到底,如何最大限度地實現深度合成技術的社會效益和商業效應,依然是一場持續的攻守。「貓鼠遊戲」還會進行下去,在反覆的博弈中,人們也將進入一個機遇與挑戰並存的深度合成的新階段。-(文:陳根/來源:鈦媒體)