互聯網巨頭,如何合法地"偷"你的數據訓練 AI?
蒼蠅再小也是肉,聚沙成塔。
你知道嗎,自己的數據,現在已經開始合法地被互聯網大廠們用作 AI 訓練了。
在新一波的 AI 競賽中,由於訓練模型需要大量數據,當互聯網的普通數據挖掘殆盡,平臺上大量用戶個人內容,便成了充滿誘惑的礦藏。
一些矽谷的科技公司如此渴望新數據,開始偷偷摸摸把 AI 訓練加入到數據使用政策中,賦予自己使用人們數據的權利。
在過去一年多裏,包括谷歌、Meta、Adobe、Zoom 和 X 等大公司紛紛更新其服務條款或隱私政策,允許自己利用用戶數據來訓練生成式 AI 模型。
這些互聯網大廠,都偷偷在「服務條款」裏塞進了什麽貨?
01, 矽谷巨頭的「小動作」
隨著科技巨頭對數據的渴望越來越大,它們正在仔細重寫其條款和條件,以包含「人工智能」、「機器學習」和「生成式人工智能」等詞語。
為了避免用戶對隱私問題的反感,公司有時悄悄地進行這些更改。在許多情況下,用戶會在未閱讀一字的情況下點擊同意,毫無警覺地接受協議。
下面是矽谷大廠們在用戶服務條款中各自「夾帶私貨」的細節:
谷歌
在 2022 年末,當 OpenAI 發布了 ChatGPT 並引發了全行業的追趕競賽後,谷歌的研究人員和工程師開始討論如何利用其他用戶數據。數十億字的內容存儲在人們的 Google 文檔和其他免費 Google 應用中,但是公司的隱私政策限製了他們如何使用這些數據。
當時,谷歌的隱私政策規定公司只能使用公開可用信息來「幫助訓練谷歌的語言模型和構建像 Google 翻譯這樣的功能」。
去年 6 月,據紐約時報報道,谷歌的法律部門要求隱私團隊起草語言,以擴展公司可以使用消費者數據的範圍。
去年 7 月,谷歌對其隱私政策進行了修改,增加了公共信息可用於訓練其 AI 聊天機器人和其他服務的內容。
谷歌將 Bard 和雲端 AI 加入到用戶條款中|NYT
「我們使用公開可用的信息來幫助訓練谷歌的 AI 模型,並構建諸如谷歌翻譯、Bard 和雲 AI 功能等產品和功能。」
為了安撫用戶,谷歌聲明稱,其隱私政策的變更「只是澄清了像 Bard(現為 Gemini)這樣的新服務也包括在內。我們並沒有因為這種語言變化而開始在其他類型的數據上訓練模型。」
谷歌的 AI 訓練當然也有用最私人化的數據,如給朋友和家人的信息。谷歌發言人表示,在得到一小群用戶許可的情況下,谷歌被允許在某些方面使用他們的個人電子郵件訓練其人工智能。
Meta
去年 Meta 就更新了相關隱私政策,用戶「在我們的產品和服務上提供的活動和信息」將被用來訓練其 AI,包括在使用像其 AI 工具時所寫或所說的一切。
Meta 表示,其 AI 不會讀取用戶在 Messenger 和 WhatsApp 等應用上與朋友和家人之間發送的消息,除非用戶在消息中 @ 了其 AI 聊天機器人。Meta 將與 AI 互動的責任推給用戶,表示人們應該「註意」他們在提示中所說的話,比如不要包括任何個人信息,如家庭地址或電話號碼。
Meta 聲明表示:「我發送給生成式 AI 功能的信息會發生什麽?AI 可能會保留並使用您在聊天中分享的信息,以提供更個性化的響應或相關信息,我們可能會與可信賴的合作夥伴(如搜索提供商)共享您提出的某些問題,以提供更相關、準確和最新的響應。」
「使用公開可用的信息訓練人工智能模型是整個行業的慣例,並非我們服務獨有。」Meta 發言人在聲明中說。
X
X 在條款後方補了一句對於人工智能模型訓練的事項|NYT
馬斯克一直在構建一個 AI 項目。去年 9 月,X 在其隱私政策中添加了一句話,關於機器學習和人工智能。
「我們使用收集到的信息來提供和運營 X 產品和服務。我們還使用收集到的信息來改進和個性化我們的產品和服務,以便您在 X 上獲得更好的體驗,包括向您展示更相關的內容和廣告、建議您關註的人和主題、啟用和幫助您發現關聯公司、第三方應用和服務。我們可能會使用收集到的信息和公開可用的信息來幫助訓練我們的機器學習或人工智能模型,以實現本政策中概述的目的。」
Snap
Snap 有些服務條款的變更只有幾個字。另一些則新增了整段內容來解釋生成式人工智能模型的工作原理,以及它們對用戶數據的訪問類型。
例如,今年,Snap 更新了其聊天機器人 My AI 的數據收集的隱私政策。Snap 提醒用戶不要與其人工智能聊天機器人分享機密信息,因為這些信息將用於訓練。
Snap 對於 My AI 聊天機器人的條款改動較多|NYT
「My AI 是一個基於生成式 AI 技術構建的聊天機器人,設計理念確保安全。生成式 AI 是一種正在開發的技術,它可能會提供有偏見、不正確、有害或誤導性的答案。所以,你不應該依賴它的建議。您也不應該分享任何機密或敏感信息——如果您這樣做,My AI 會使用它。」
「當您與 My AI 互動時,我們會使用您分享的內容和您的位置(如果您已啟用 Snapchat 的位置共享)以改進 Snap 的產品,包括增強 My AI 的安全性,並個性化您的體驗,包括廣告。」
Zoom
Zoom 去年 7 月開始更新其服務條款,說明會將用戶數據用於訓練 AI,但遭遇用戶和隱私提倡者的大量批評。在面臨社交媒體上的強烈反對聲音後,Zoom 去年 8 月又再次更新了服務條款,澄清未經同意不會使用視頻、音頻或聊天內容。
更新後的服務條款仍然要求用戶「在此授予 Zoom 永久性、全球性的、非獨占性的、免版稅的、可轉許可和可轉讓的許可及所有其他權利」使用客戶內容。
這些權利包括「重新分發、發布、導入、訪問、使用、存儲、傳輸、審查、披露、保存、提取、修改、復製、共享、展示、復製、分發、翻譯、轉錄、創作衍生作品和處理」客戶內容。
條款不再具體提及 Zoom 有權就客戶內容進行「AI 和 ML 訓練」,而是更模糊地提到「服務開發、營銷、分析、質量保證、機器學習、人工智能、培訓、測試、服務、軟件或 Zoom 其他產品、服務和軟件的改進,或以上任何組合。」
Adobe
今年 6 月初,Adobe 因在其隱私政策中加入了一句關於自動化的短語,激怒了不少創作者,許多用戶將其解讀為與 AI 數據抓取有關。
「我們訪問您的內容:我們可能會通過自動和手動方法訪問、查看或聆聽您的內容,但僅在有限的方式下,並且僅在法律允許的情況下。」
Adobe 公司的用戶對於數據被拿來用 AI 訓練比較敏感|NYT
這些條款影響了 Adobe 創意雲套件的超過 2000 萬用戶,一些用戶認為這允許 Adobe 訪問、查看他們的內容,包括受保密協議保護的作品。一些人認為 Adobe 正在監視他們的工作,吸收用戶的藝術作品,並可能將其用於訓練 AI 模型。
在用戶強烈反對後,Adobe 更新了服務條款,明確表示不會使用客戶作品訓練 AI。
Adobe 通過博客文章澄清,這些變更是為了檢測和刪除非法內容,例如兒童色情材料(CSAM),以及濫用內容或行為,包括垃圾郵件和網絡釣魚。Adobe 不會使用存儲在 Adobe 雲上的文件來訓練其 Firefly AI。
02, 提前占好「免責」的坑
不過,巨頭們的小動作,還是有監管在看著的。
美國聯邦貿易委員會(FTC)長期以來一直盯著與公司隱私政策有關的欺騙性和不公平行為。過去曾起訴過那些以偷偷摸摸的方式更改隱私政策、破壞對消費者的現有承諾的公司。
今年 2 月,美國聯邦貿易委員會警告科技公司,改變隱私政策以追溯性地抓取舊數據可能是不公平或欺騙性的,將追究「悄悄」更改隱私政策以挖掘用戶數據用於 AI 的公司。
FTC 指出,公司可能會被誘惑從其用戶群中挖掘現有數據以供 AI 模型使用,有「強大的商業動機」。FTC 稱公司潛在的困境是利益沖突。「市場參與者應註意,任何背棄其用戶隱私承諾的公司都可能觸犯法律。」
不過,就在上周,微軟 AI CEO Mustafa Suleyman 公開稱互聯網的公開內容可以被免費拿來訓練 AI,如此直白的發言引起了強勢的輿論反彈。
從矽谷巨頭們在用戶使用條款中的改動可以看出,各家確實都在利用產品優勢,將用戶數據用於 AI 訓練之中。不過,具體哪些數據會拿來訓練,哪些不能,行業內仍未達成一個共識——一項技術出現的早期,肯定會出現這種規則缺乏的「狂野西部」的階段。
而上述被動作手腳的使用條款,無疑是巨頭們為之後免責提前占的坑。不出意外的話,國內一種大廠和 AI 公司,應該也已經在用戶條款中修改、添加了 AI 訓練的內容。
對於普通用戶而言,對於長達數十頁的用戶使用條款,99% 都會直接無視。但是,如果這個產品,能通過有限的數據複製出一個「你」的時候,用戶是不是該更謹慎一些?
極客一問:你能接受---你的數據被用於 AI 訓練嗎?---[作者: 芯芯*編輯: 靖宇/來源: 極客公園]