知名AI產品被控"抄襲"，反AI工具市場會成為一個新方向嗎？

2024071016:36

估值30億美元的Perplexity正在面臨一場關於抄襲指控的風波。

不同於ChatGPT和Claude，AI聊天搜索引擎Perplexity並未訓練自身基礎模型，而是使用開放或商業可用的模型來獲取相關信息，並轉化為答案。

誕生於2022年的Perplexity在如今的AI搜索領域也是炙手可熱的明星產品，不過，在剛剛過去的6月份，《福布斯》指責Perplexity涉嫌抄襲其新聞文章，Perplexity還被其他媒體指責非法抓取網站信息。

* Perplexity並非AI界的無名小卒，其背後支持資本涉及英偉達和貝索斯等知名企業和個人，這場抄襲指控的風波在一定程度上給整個AI行業敲響了警鐘，關於信息抓取的合法化等問題，其安全邊界到底在哪裏？

在Perplexity面臨抄襲指控的同時，有關Deepfake（深偽技術）成本暴增的信息引發廣泛關注。

* 比抄襲指控更嚴重的是，Deepfake未來三年帶來的損失或將增加到400億美元，而這其中，就涉及由於AI技術的飛速發展，所帶來的視頻、音頻和文檔信息造假等問題。

一方面是AI技術正在滲透進各行各業，從B端企業到C端用戶，AI技術的普及正在以前所未有的速度在各領域延伸，另一方面，則是來自對AI技術支持下，AI工具的安全性，合法合規性的保證，以及在抄襲，造假等危及行業發展的情況出現時，反AI工具賽道正在迎來一場規模化發展的市場需求。

* AI產品工具的安全合規性該如何保證，抄襲，造假風波壓力之下，反AI工具市場會成為一個新方向嗎？

* 抄襲風波再起，反AI抓取工具成熱門

早在今年4月，Perplexity相關人員就表達了對自身產品合規性的觀點，彼時，Perplexity正在以30億美元的估值尋求一輪新的融資，公司方面表示，它尊重出版商不抓取內容的要求，並且在合理使用版權法的範圍內運營。

一方面是指控不道德的抓取為"抄襲"，另一方則表示在"合理"範圍內運行。作為AI搜索工具，無論Chatgpt還是Perplexity都必須采用大批量的網絡信息抓取以訓練其數據並豐富其內容；但另一方面，面對媒體信息采集的"獨家"性，以及出版商等對內容的保護需求，Perplexity之類的AI工具如何平衡"抄襲"和"合理合規"之間的關系？

這個問題的爭議存在於兩個方面：即機器人排除協議和版權法的合理利用。

對於信息產出網站來說，網站有權利使用機器人排除協議來明確標明其不希望被網絡爬蟲抓取或訪問的內容。

從版權法的角度來說，其建立法律框架，在特定要求之下，未經許可或付費使用的內容，不允許被隨便抓取。

但是，如何明確這二者的界限，是一個答案相對模糊的問題。

簡單來說，Perplexity在抓取一些網站過程中，如遇到明確標明"以其他方式禁止 robots.txt"的文件，從遵從協議的角度，Perplexity會規避這些信息。

但另一個問題在於，如果用戶手動向AI搜索工具提供URL，Perplexity則會相應的幫助用戶去進行信息抓取，在此過程中，Perplexity充當的並不是一個爬蟲工具，而是幫助用戶在檢索他們的要求。

* 更明確一點來說，AI工具抓取了部分網站不允許抓取的內容，那麽爭議點在於，這個內容的抓取，是AI工具所主導的，還是用戶所主導的。

在這種模糊的界限下，媒體方面針對不道德抓取信息指控Perplexity抄襲的問題，也就有了更多可解釋的空間。

* 作為一個AI搜索引擎的頭部應用，Perplexity面臨的指控在一定程度上代表了現在，乃至未來AI應用在數據訓練和為用戶提供服務過程中，勢必會面臨的合法合規困境。

有研究數據顯示，網絡上排名前1000的網站中，約有26%的網站已經屏蔽OpenAI的機器人，另有數據證實，超600家新聞出版商已屏蔽OpenAI。

* 爭議空間之下，反AI浪潮帶來的市場空間開始被發掘。

比如，雲服務提供商Cloudflare推出了一款新的免費工具，以防止機器人抓取其平臺上托管的網站數據來訓練人工智能模型。

包括谷歌、OpenAI和蘋果在內的一些人工智能供應商，允許網站所有者通過修改其網站的robots.txt（告訴機器人可以訪問網站上哪些頁面的文本文件）來阻止他們用於數據抓取和模型訓練的機器人。

Cloudflare方面表示："當不良行為者試圖大規模抓取網站時，他們通常會使用我們能夠識別指紋的工具和框架。""根據這些信號，我們的模型能夠適當地將來自規避人工智能機器人的流量標記為機器人。"

Cloudflare還表示，已經為主機建立了一個表格來報告可疑的AI機器人和爬蟲，並表示隨著時間的推移，它將繼續手動將AI機器人列入黑名單。

抄襲的指控，本質上來說是一場對信息的爭奪，以及對信息帶來商業化價值的利益之戰，在此過程中，反AI工具的存在某種程度上來說是兩個對立群體之間的剛需。

市場空間也基於此被廣泛開拓。

AI造假帶來400億美元損失，華人研究團隊爭奪視頻檢測市場

* 在這場反AI戰役中，媒體向Perplexity提出抄襲指控，是AI產品之間的資源爭奪。

但在另一方向，AI造假帶來的問題則關系到C端用戶，其輻射面積更廣，可能存在的隱患更多，從反AI產品開發方向來看，其市場規模和需求似乎更大。

Deepfake是目前增長最快的對抗性人工智能形式，數據顯示，與深度造假相關的損失預計將從2023年的123億美元增加到2027年的400億美元。

* 德勤預計，在深度造假領域，銀行和金融服務行業會成為重災區。

* 另有數據顯示，預計到2024年，世界範圍內產生的深度造假事件或將達到14到15萬起。

如此龐大的數字令人瞠目。

* 而更恐怖的問題在於，Deepfake視頻的主要受害者一部分是行業高管群體，另一部分則是女孩，包括部分女性名人。

比如企業高管群體，視頻和語音的深度偽造可以騙取他們大量的資金。

女孩受害者面臨的問題則在於個人形象和名譽的受損，獨立研究員Genevieve Oh收集的數據顯示，2023 年上傳到互聯網的露骨深度偽造視頻比任何其他年份都要多，Deepfake視頻中絕大多數會以未經同意的女性為主角生成色情視頻，甚至部分女性公眾人物也在受害者之列。

* 事實上，Deepfake不局限於視頻和音頻文檔等，其技術已經發展到可以創建虛假ID，躲過加密貨幣網站的檢驗，從而進行詐騙等活動。

相比之下，Perplexity的抄襲風波還僅僅存在於規則層面的擦邊，而Deepfake帶來的造假產業鏈，則是實打實的威脅著人們的資金和信息安全。

* 早在去年，彭博社就報導稱："暗網上已經存在一個完整的產業鏈，以20美元到數千美元的價格出售詐騙軟件。"

專注於數字貨幣的新聞網站Coindesk曾發布報導稱，2022年加密貨幣用戶因"詐騙、詐騙和黑客攻擊"損失了近40億美元，2023年，這一數字約為約20億美元。

一方面可以看出，Deepfake帶來的欺詐問題的重災區仍涉及金融相關的領域，另一方面，從2022年到2023年數字貨幣受詐騙影響帶來的損失數據波動也可以推測，隨著部分反AI技術和產品的出現，這些產品對於規避深度造假帶來的止損效果明顯。

* Ivanti 發布的《2024 年網絡安全狀況報告》調查數據顯示，74%的受訪企業已經看到人工智能威脅的證據，89%的受訪者認為人工智能驅動的威脅才剛剛開始。

在面對技術造假帶來的威脅，反AI的風還是吹到了視頻甄別領域。

當Sora，Pika等還在競爭誰生成的視頻更逼真的時候，對於AI生成視頻進行鑒別的賽道已經打開市場。

* 哥倫比亞大學楊俊鋒（Junfeng Yang）教授團隊開發的名為DIVID（DIffusion-generated VIdeo Detector）的文生視頻檢測工具，就是針對Sora、Gen-2 和 Pika 等模型生成的視頻進行檢測，目前其工具對AI視頻監測的準確率已經達到 93.7%。

此前，該團隊已於今年早些時候發布了AI生成文本的檢測工具Raidar，這款工具在檢測文本是否為AI生成的過程中，不需要訪問LLM大模型。

* 當然，從商業價值來說，對AI生成視頻進行檢測，是市場包括普通用戶更需要的產品。

DIVID的誕生恰恰契合了我們前面關註的Deepfake的商業價值市場，據了解，DIVID的研究人員表示，他們的技術有潛力作為插件集成到Zoom中，以實時檢測深度偽造電話。

對應此前Deepfake針對的行業高管偽造視頻的情況，DIVID的產品在利用技術保護用戶，特別是B端市場用戶安全方面是一個非常具有參考意義的實踐。

當然，這也印證了這個市場未來的空間之大，需要更多的參與者融入進去。

結語 : AI技術的進步過快，一方面推動了社會多個行業的發展，但與此同時，利用AI去擦邊，或者實施違法行為，一直都是存在且在發展中的市場，盡管這個市場並未完全暴露在陽光下，但其背後帶來的商業價值越大，對社會的危害也就越高。

"用AI打敗AI"或許會成為AI技術發展中一個始終存在的命題。當然，從商業化和道德倫理的角度，正面的反AI產品必然是這個社會所需要的，"用AI規範AI"的時代已經到來。---[文: 揚帆出海周可/來源: 藍鯨財經]

我要留言

知名AI產品被控"抄襲"，反AI工具市場會成為一個新方向嗎？

深度解析RAG大模型知識衝突，清華西湖大學港中文聯合發布

星巴克是如何"占領"茶飲大國日本的？

深度解析RAG大模型知識衝突，清華西湖大學港中文聯合發布

星巴克是如何"占領"茶飲大國日本的？