AI版權冰與火之歌:訴訟和合作交織丨AI版權戰事
AI領域的版權戰事仍在繼續,奏響冰與火之歌。本周,一邊是OpenAI頭號競爭對手的Anthropic被指AI訓練侵權遭起訴;另一邊則是OpenAI快速推進版權合作,與擁有Vogue等頂級時尚雜誌的國際知名出版集團康泰納仕宣布達成版權合作協議。
版權問題日漸白熱化,成為人工智能產業合規最鮮明的課題,新產業與舊秩序纏鬥,一邊是科技公司攫取高質量訓練語料的需求,另一邊則是新聞出版機構對自身價值的維護。
「媒體的集體知識產權正受到威脅,我們應該大聲要求賠償。」擁有《華爾街日報》、《泰晤士報》的新聞集團如是說。
通盤來看,目前多數人工智能公司反對訓練AI需要版權許可和付費,願意氪金的是少數。這也是雙方之間交鋒糾紛的0號源頭。
混戰中,OpenAI持續推進與新聞出版機構的合作,一方面是為了輕裝上陣,擺脫潛在的訴訟官司;另一方面,談攏的版權合作能更好地支撐具體業務。合作模式主要為給予版權費及相關的利益置換。
這會成為人工智能公司與新聞出版行業之間具有生命力的合作模式嗎?眼下雙方的合作協議會是終局嗎?
OpenAI版權合作商又添大軍
8月20日,OpenAI宣布與國際知名出版集團康泰納仕建立多年合作夥伴關系。這項協議使OpenAI能在ChatGPT 及其搜索引擎 SearchGPT 等人工智能驅動的平臺中展示和整合康泰納仕的內容。
康泰納仕向OpenAI敞開了內容庫,為AI訓練提供了養分。同時OpenAI將訪問和展示康泰納仕的信息,用戶可以直接通過ChatGPT和SearchGPT來訪問這些出版物的信息並與之交互。
康泰納仕是德國第三大出版公司,旗下包括《Vogue》、《The New Yorker》、《GQ》 等知名雜誌。康泰納仕首席執行官羅傑·林奇(Roger Lynch)表示:「我們與OpenAI的合作可以彌補部分收入,使我們能夠繼續保護和投資我們的新聞和創意工作。
這項內容合作協議是OpenAI與國際媒體公司達成的最新協議。
康泰納仕集團的首席執行官羅傑·林奇(Roger Lynch)強調:「這還只是一個開始,我們將繼續推進年初開展的工作,為整個行業的公平交易和合作鬥爭,直到所有開發和部署人工智能的實體都像 OpenAI 一樣,認真尊重出版商的權利。」
OpenAI的野心:在AI搜索中分羹
在遭遇幾起版權侵權訴訟後,OpenAI一直在積極推進與新聞出版機構的合作。除卻此次的康泰納仕,美聯社、Axel Springer、大西洋月刊、Dotdash Meredith、金融時報、LeMonde、新聞集團、Prisa Media、時代周刊、Vox Media 等均已經加入了與OpenAI的合作版權行列。
「我們的使命是將新聞業與人工智能服務更深入地結合起來。」OpenAI稱。
放眼整個人工智能領域,願意投入真金白銀來做版權合規、與新聞出版機構洽談合作的並非常態。
OpenAI此舉,一方面是為了輕裝上陣。作為人工智能領域塔尖位置的企業,關註度高,訴訟也多。21世紀經濟報道梳理發現,在訓練數據的版權問題上,美國已有十余起訴訟,其中涉及OpenAI的占了一半。積極爭取版權合作,能擺脫潛在的訴訟官司,對一個正在高速發展的企業來講似乎是明智之舉。
另一方面,談攏的版權合作能更好地支撐具體業務。
OpenAI與康泰納仕交易中的一部分就是,在其即將推出的搜索引擎 SearchGPT 產品中使用康泰納仕的內容。
今年7月,OpenAI 宣布推出其人工智能驅動的搜索引擎 SearchGPT,可以實時訪問來自互聯網的信息,並且包含信息來源的鏈接。
此前,不少人把ChatGPT這種聊天機器人當搜索引擎用,但容易出現「不懂裝懂」、「一本正經胡說八道」的情況,AI搜索一定程度上可以克服這一點。通常在AI搜索產品中詢問相關問題時,給到的回復會以角標的形式在結尾附上參考信源,可點進原鏈接核查真實性。
這也使得AI搜索也成為AI應用的新戰場。非凡產研今年3月的報告顯示, AI搜索產品的訪問量占據了24.2%的全球市場份額,僅次於AI聊天機器人。
不過,即便標註參考信源也存在版權合規的問題。該賽道領頭羊Perplexity就因為人工智能摘要功能而受到非議,出版商聲稱這是直接剽竊了他們的作品。最近秘塔AI收到了知網28頁的侵權告知函,秘塔稱搜索產品的「學術」板塊僅收錄了論文的文獻摘要和題錄,並未收錄文章內容本身,閱讀正文需通過來源鏈接跳轉至網站獲取。
OpenAI的版權合作,能避免上述的一些版權糾紛。OpenAI稱,SearchGPT是與多家新聞合作夥伴共同開發的。OpenAI表示,出版商將擁有一種管理他們在OpenAI搜索功能中呈現方式的方法。他們可以選擇不將自己的內容用於訓練OpenAI的模型,但仍然可以在搜索結果中出現。
SearchGPT旨在通過在搜索結果中突出顯示並鏈接到出版商,幫助用戶與出版商建立聯系。響應具有明確的、嵌入式、命名的引用和鏈接,這樣用戶就知道信息來自何處,並可以快速通過帶有來源鏈接的側邊欄訪問更多結果。
甩掉了版權合規的包袱,OpenAI為了更好鋪開AI搜索的業務,去爭奪這塊應用的陣地。
探路人工智能公司與新聞出版合作模式
21世紀經濟報道梳理發現,除了OpenAI,谷歌、Meta也在與新聞出版機構洽談合作,但是出手遠不如OpenAI大方。
而且,這些錢也並非所願,多數人工智能公司還在反對訓練AI需要版權許可和付費。谷歌在去年回復美國版權局的時候表示,如果拆開看大模型訓練過程的每一步——從抓取信息、復製輸入到處理分析,只有最初的復製行為能落在版權法範疇中,其他行為不觸發版權法。這也是許多大公司認可的觀點。
這也涉及到人工智能大模型的技術原理。南財合規科技研究院、21世紀經濟報道此前就曾提及過,人工智能時代面臨知識「液態化」問題,作品從冰變成了水、甚至蒸汽,難以認定。大模型記住的是統計關系,而不是文本本身。 OpenAI表示,大模型的每串數字(即權重)反映了不同單詞在不同情況下的統計關系。當有人發出指令時,大模型調用權重預測下一個詞和句子——不會通過數據庫重新訪問版權作品,也不會直接復製粘貼作品的內容。
「竊書」的舉動難以認定,人工智能公司也沒有付費的動力。
不過,相關訴訟在增多,新聞出版公司、相關著作權人在積極維權,甚至也有了官方下場,今年4月,谷歌因未妥善使用法國新聞內容訓練AI而被罰款2.5億歐元。
訓練數據版權合規在國外逐漸引起重視,OpenAI推進的版權合作一定程度上,是在混戰中摸索可行路徑。合作模式主要是版權費,補償內容創作者;以及機構之間的利益置換。
目前通過直接補償創作者來保障版權的做法主要分為兩種:事前補償:版權人的作品在被采納為訓練數據時獲得補償;事後補償:通過特定技術追溯 AI 生成內容的訓練數據源,並針對性地給予補償。
不過,事前補償的技術難度較低,但難以界定合理的補償額度;事後補償指通過技術手段對訓練數據溯源並進行對應的版權補償,定價更合理但技術難度尚不成熟。
定價是版權合作中的燙手山芋,《紐約時報》就是「談崩了」的典型例子。去年4月《紐約時報》開始與OpenAI談判,但始終沒能達成任何付費許可協議。12月27日,《紐約時報》正式將OpenAI告上法庭,指控它們未經許可使報道內容訓練AI,要求承擔「數十億美元的法定和實際損失」,標誌合作徹底破裂。
所以在很多合作中也有相應的利益置換條款。比如,OpenAI與美聯社的合作中,美聯社大量的新聞報道將為OpenAI提供訓練數據; 美聯社也會將OpenAI 的技術整合到新聞業務中。
不過,這是否是人工智能公司與新聞出版行業之間具有生命力的合作模式呢?談攏合作的新聞出版機構此時吃到的蜜糖,會是以後的砒霜嗎?以此次與康泰納仕的合作來講,不少反對聲音認為,SearchGPT 等人工智能驅動的搜索引擎提供對話式響應而不是傳統鏈接,這些變化可能會影響許多媒體公司賴以賺取收入的搜索流量。---[21世紀經濟報導記者: 王俊*實習生: 劉欣 北京報導/來源: 21世紀經濟報導]