用公共視頻網站數據訓練大模型？美AI巨頭頻陷非法數據收集爭議

2024032113:38

【環球時報駐美國、德國特約記者 : 馮亞仁昭東 *環球時報記者 : 王冬甄翔】“有許多專家相信，Open AI公司在使用公共視頻網站的數據訓練其大模型。”美國“商業內幕”網站18日刊文稱，這家業界領先的人工智能（AI）初創企業獲取數據的方式正在引發爭議。不只是Open AI，近期美國多個頭部科技企業遭遇類似爭議。訓練人工智能大模型的數據來源是否合法？如何界定企業使用公衆數據的邊界？都成爲未來各國完善人工智能法規需要認真考慮的問題。

Open AI遭遇質疑

“商業內幕”網的文章以Open AI公司旗下大火的人工智能視頻創作工具Sora爲例稱，Sora的訓練依賴海量數據，這些數據很可能搜刮自谷歌旗下的YouTube視頻網站，而這已經幾乎是公開的秘密。事實上，YouTube官方一直禁止使用自動化工具批量下載網站視頻的做法，也禁止下載YouTube視頻用于商業目的，並采取限流等措施應對工具刮削。文章稱，目前尚不清楚Open AI是用了什麽樣的技術手段繞過YouTube的攔截。

美國《華爾街日報》近期采訪Open AI首席技術官米拉·穆拉蒂，在被問及公司使用什麽數據訓練Sora時，她回應稱“使用的是公開和被許可數據”。但被問及其中是否包括YouTube視頻內容時，她表示“對此並不確定”。

中關村信息消費聯盟理事長項立剛20日告訴《環球時報》記者，人工智能大模型分爲通用大模型和垂直（行業）大模型。Open AI做的是通用大模型，會在YouTube等公共平台上爬取數據。圖片和視頻的版權往往較文字更爲明確，更容易引發爭議。“比如，我拍的視頻、圖片就是我所創作的內容，但被整合到人工智能大模型裏後，就成爲後者的內容。這裏面有很多法律問題是需要解決的。”

當前，人工智能賽道在全球持續火熱，衆多初創公司爭先恐後地收集高質量的數據訓練人工智能大模型。“商業內幕”網援引熟悉Open AI運營的人士的話稱，該公司指派了一個“秘密團隊”來獲取訓練數據，公司內部也不會深究數據來源。互聯網界的各大玩家似乎達成某種“共識”——只要自身能抓取到別人的數據，也就默許其他玩家采取相同的做法。

在一些人看來，這樣的“共識”是狂飙突進中的人工智能産業需要留意的一大隱患。“商業內幕”網的報道認爲，生成式人工智能的快速興起掀起了一場世界範圍內的技術競賽，在這個新領域中，什麽是合法的，什麽是合乎道德的，目前尚缺乏明確而成熟的規則。

“混亂”中推動監管措施變革

“商業內幕”網稱，人們對複雜的生成式人工智能系統給公衆帶來的潛在危害有很多擔憂，公衆對這些人工智能大模型從何處獲取數據、如何使用數據以及在涉及敏感信息時是否采取保護措施知之甚少，科技公司不僅沒有告訴公衆太多信息，甚至連自身都無法將這一過程徹底解釋清楚。

一段時間以來，美國多家業內頭部企業因人工智能訓練數據來源而陷入侵權糾紛，甚至吃到官司。本月初，3名作家在美國加州對英偉達公司發起集體訴訟，指控該公司的NeMo AI平台使用盜版文學網站素材訓練人工智能的自然語言撰寫技能。早前，包括《冰與火之歌》作者在內的18名作家起訴Open AI侵權；《紐約時報》起訴Open AI和微軟非法使用其內容；在2023年，就有許多設計師起訴人工智能繪畫軟件Midjourney和Stability AI未經許可使用其版權作品訓練人工智能繪圖工具。美國娛樂遊戲網站IGN評價上述官司稱，這些案例或成爲推動監管措施變革的關鍵。

面對外界越來越頻繁的質疑，一些巨頭對訓練人工智能所用的海量數據來源諱莫如深。去年年底，兩名美國議員提出一項《人工智能基礎模型透明法案》，要求所有人工智能基礎模型都必須披露訓練數據來源、獲取數據的方式以及使用的算法等。但這項法案何時能成爲正式立法不得而知。

多國法規有待檢驗

中國經濟學者盤和林告訴《環球時報》記者，對于獲取訓練人工智能大模型的數據，各國法規尚有分歧，甚至是一片空白。有些國家的法規更加傾向于信息公開，有些國家的法規更加傾向于信息安全。共識在于，選取數據不能涉及個人隱私數據。

如果企業爬取公共數據，需對數據進行處理以達到脫敏脫密。

項立剛告訴記者，中國去年在人工智能大模型的管理方面出台了相關的條例。至于涉及知識産權的管理，需要在未來隨著人工智能産品的完善和技術的發展進一步制定相關的法律和法規。

在管理人工智能訓練數據來源方面，歐洲步子邁得較大。瑞士《一瞥報》19日稱，人們已經意識到，會有犯罪者通過網絡數據進行非法AI創作，甚至還會出現勒索事件。

歐洲議會13日以壓倒性票數通過《人工智能法案》。該法案爲人工智能技術設置嚴格的規則，旨在確保人工智能的使用不會侵犯人的基本權利，如隱私、數據保護和非歧視等。歐盟官員將其稱爲“世界上第一部針對可信人工智能的全面、具有約束力的法規”。

盤和林表示，與美國不同，中國主流人工智能大模型多基于企業內部數據進行訓練。美國是判例法國家，經紀商可能從數據平台購買數據，更多的則是從互聯網公開數據中爬取有用數據。包括社交媒體的所有資料。繼而對數據進行預標注和加工處理。

“商業內幕”網認爲，谷歌、Open AI和一些科技公司認爲，在當前的“共識”下，即使使用受版權保護的內容進行人工智能模型訓練是合法的，但這樣的訴求也有待得到監管機構或法庭的檢驗。---[來源：環球時報/環球網資訊 ]

我要留言

用公共視頻網站數據訓練大模型？美AI巨頭頻陷非法數據收集爭議

澎湃調研｜最新AI公衆態度調查發布：一邊期待，一邊擔憂

賦能新質生産力，九方智能投顧數字人助力投顧行業發展

澎湃調研｜最新AI公衆態度調查發布：一邊期待，一邊擔憂

賦能新質生産力，九方智能投顧數字人助力投顧行業發展