Nature刊文:"學術剽竊"定義正被AI模糊,我們該如何應對?
(來源:Piotr Kowalczyk,插畫家、平面設計師)
【編者按】今年四月,Science 顛覆了之前的鐵律:規定允許在論文的「方法」章節說明後,正當地采用生成式人工智能(AI)和大語言模型(LLM)製作插圖、撰寫論文內容。
如今,AI 能夠幫助研究者騰出更多思考的時間,但問題是,這算不算剽竊?以及在什麽情況下應該允許使用這項技術呢?
近日,科學記者 Diana Kwon 在 Nature 雜誌上刊文討論了生成式 AI 工具在學術寫作中的應用及其帶來的挑戰和影響。
她指出,ChatGPT 等生成式 AI 工具在節省時間、提高清晰度並減少語言障礙方面展現出了巨大的潛在價值,但同時也可能涉及剽竊和侵犯版權的問題。
她還提到,AI 的使用在學術寫作中已經爆炸性增長,尤其是在生物醫學領域。然而,檢測 AI 生成的文本存在困難,因為它們可以通過輕微編輯變得幾乎無法檢測。同時,AI 工具的合法與非法使用界限可能會進一步模糊,因為越來越多的應用程序和工具正在集成 AI 功能。
最後,她認為,需要更清晰的關於 AI 在學術寫作中使用的指導方針,以幫助研究人員和期刊確定何時使用 AI 工具是恰當的,以及如何披露其使用情況。
學術頭條在不改變原文大意的情況下,做了簡單的編譯。內容如下:
從一月份哈佛大學校長因被指控而辭職,到二月份同行評審報告中出現的剽竊文本被揭露,今年的學術界因剽竊事件而動蕩不安。
但學術寫作正面臨著一個更大的問題。生成式人工智能(AI)工具的迅速普及引發了關於這算不算剽竊以及在什麽情況下應該允許使用的疑問。路易斯安那州新奧爾良市的版權和剽竊顧問 Jonathan Bailey 說:「從完全由人撰寫到完全由 AI 撰寫,AI 的使用範圍很廣,中間是一片巨大的混淆地帶。」
基於大語言模型(LLM)的生成式 AI 工具,如 ChatGPT,可以節省時間,使文本更加清晰易懂並減少語言障礙。現在,許多研究人員認為,在某些情況下它們是可以接受的,並且應該完全公開其使用情況。
但這些工具使原本關於不當使用他人作品的激烈辯論變得更加復雜。LLM 經過訓練,可以通過學習大量已發表的寫作來生成文本。因此,如果研究人員將機器的工作成果據為己有,或者機器生成的文本與某人的作品非常相似但沒有註明來源,這可能會導致類似剽竊的行為。
這些工具還可以用來掩飾故意剽竊的文本,而且它們的使用很難被發現。英國普利茅斯大學的生態學家 Pete Cotton 說:「界定我們所說的學術不誠實或剽竊是什麽,以及邊界在哪裏,將非常非常困難。」
在 2023 年一項針對 1600 名研究人員進行的調查中,68% 的受訪者表示,AI 將使剽竊行為變得更容易且更難被發現。柏林應用科學大學剽竊鑒定專家 Debora Weber-Wulff 說:「每個人都擔心其他人使用這些系統,他們也擔心自己在應該使用的時候沒有使用。關於這件事,大家都有些慌亂。」
* 當剽竊遇見 AI
根據美國研究誠信辦公室的定義,剽竊是指「未經適當引用或致謝,就采用他人的想法、過程、結果或文字」。2015 年的一項研究估計,1.7% 的科學家承認有過剽竊行為,30% 的科學家知道他們的同事有過這種行為。
LLM 可能會使這種情況變得更糟。如果有人先讓 LLM 改寫文本,那麽故意剽竊人類撰寫的文本就可以輕易地被掩飾。加拿大不列顛哥倫比亞大學計算機科學家和語言學家 Muhammad Abdul-Mageed 說,這些工具可以被引導以復雜的方式進行改寫,比如采用學術期刊的風格。
一個核心問題是,使用完全由機器編寫而非人類編寫的未註明出處的內容是否算作剽竊。許多研究人員說,不一定算。例如,歐洲學術誠信網絡將使用 AI 工具進行寫作的未經授權或未申報的使用定義為「未經授權的內容生成」,而不是剽竊。
Weber-Wulff 說:「對我來說,剽竊應該是可以歸因於另一個可識別的人的東西。」她補充說,盡管有生成式 AI 產生幾乎與現有的人類編寫內容相同的文本的情況,但這通常不足以被認為是剽竊。
不過,也有些人認為生成式 AI 工具侵犯了版權。剽竊和侵犯版權都是不當使用他人作品的行為,其中剽竊是違反學術倫理的行為,而未經授權使用版權作品可能違反法律。密歇根大學安娜堡分校計算機科學家 Rada Mihalcea 說:「這些 AI 系統是基於數百萬人甚至數億人的作品構建的。」
一些媒體公司和作者抗議他們視為 AI 侵犯版權的行為。2023 年 12 月,《紐約時報》對微軟和 OpenAI 提起版權訴訟。該訴訟稱這兩家公司復製並使用了數百萬篇《紐約時報》文章來訓練 LLM,如今這些 LLM 生成的內容正與該出版物的內容「競爭」。訴訟中包括了提示導致 GPT-4 幾乎逐字復製報紙文章的幾個段落的實例。
今年 2 月,OpenAI 在聯邦法院提出動議,要求駁回訴訟的部分內容,稱「ChatGPT 絕不是《紐約時報》訂閱的替代品。」微軟的一位發言人表示,「合法開發的 AI 工具應該被允許負責任的發展」,「它們也不能替代記者所發揮的重要內容」。
如果法院裁定未經許可在文本上訓練 AI 確實構成版權侵犯,Bailey 說,「這對 AI 公司來說將是一個巨大的沖擊。」沒有廣泛的訓練集,像 ChatGPT 這樣的工具「就無法存在」。
* AI 正在爆炸式蔓延
無論這是否被稱為剽竊,自 2022 年 11 月 ChatGPT 發布以來,AI 在學術寫作中的使用已經爆炸性增長。
在一篇於 7 月更新的預印本中,研究人員估計,2024 年上半年至少有 10% 的生物醫學論文摘要使用了 LLM 進行撰寫,相當於每年大約 150000 篇論文。
該研究由德國蒂賓根大學數據科學家 Dmitry Kobak 領導,分析了 2010 年至 2024 年 6 月之間在學術數據庫 PubMed 上發表的 1400 萬篇摘要。
他們展示了LLM的出現與風格詞匯使用增加有關,例如「delves」、「showcasing」和「underscores」,然後使用這些不尋常的詞匯模式來估計使用 AI 處理的摘要比例。他們寫道:「基於 LLM 的寫作助手的出現在科學文獻中產生了前所未有的影響。」
圖|LLM 的出現與風格詞匯使用增加有關。
Kobak 預測,LLM 的使用「肯定會繼續增加」,並且將「可能變得更難檢測」。
在學術寫作中未公開使用軟件的情況並不新鮮。自 2015 年以來,法國圖盧茲大學計算機科學家 Guillaume Cabanac 和他的同事一直在揭露由名為 SCIgen 的軟件撰寫的「胡言亂語」的論文,以及由自動翻譯或改寫文本的軟件創造的包含「扭曲短語」的論文。Cabanac 說:「即使在生成式 AI 出現之前,人們就已經有了這些工具。」
然而,在學術寫作中使用 AI 也有一些價值。研究人員表示,這可以使文本和概念更清晰,減少語言障礙,並為實驗和思考騰出時間。利雅得沙特國王大學信息技術研究員 Hend Al-Khalifa 表示,在生成式 AI 工具可用之前,許多將英語作為第二語言的同事在撰寫論文時會感到困難。「現在,他們專註於研究,並使用這些工具消除寫作的麻煩,」她說。
但對於 AI 的使用何時構成剽竊或違反倫理,人們仍然感到困惑。馬裏蘭大學學院公園計算機科學家 Soheil Feizi 表示,使用 LLM 來改寫現有論文的內容明顯是剽竊。但如果透明地使用 LLM 來幫助表達想法——無論是根據詳細提示生成文本,還是編輯草稿——則不應受到懲罰。Feizi 說:「我們應該允許人們利用 LLM 毫不費力地、清晰地進行表達。」
現在許多期刊都有允許一定程度使用 LLM 的政策。在最初禁止由 ChatGPT 生成的文本之後,Science 在 2023 年 11 月更新了他們的政策,表示在撰寫手稿時使用 AI 技術的行為應完全披露——包括使用的系統和提示。作者有責任確保準確性和「確保沒有剽竊」。
Nature 也表示,研究手稿的作者應在方法部分記錄任何 LLM 的使用。對 100 家大型學術出版商和 100 份高排名期刊的分析發現,截至 2023 年 10 月,24% 的出版商和 87% 的期刊對使用生成式 AI 有指導方針。
幾乎所有提供指導的都說 AI 工具不能被列為作者,但對於允許的 AI 使用類型和所需的披露水平,政策各不相同。
Weber-Wulff 表示,急需更清晰的關於學術寫作中使用 AI 的指導方針。
目前,Abdul-Mageed 表示,撰寫科學論文時廣泛使用 LLM 的行為因其局限性而受到製約。用戶需要創建詳細提示,描述受眾、語言風格和研究子領域。「實際上,要讓一個語言模型給你確切想要的東西是非常困難的,」他說。
但 Abdul-Mageed 表示,開發者正在構建應用程序,這將使研究人員更容易生成專業科學內容。他說,未來用戶可能只需從下拉菜單中選擇選項,按下一個按鈕,就能從零開始生成整篇論文,而無需編寫詳細提示。
* 邊界可能會進一步模糊
在快速采用 LLM 編寫文本的同時,也出現了大量旨在檢測 LLM 的工具。盡管許多工具宣稱準確率很高——在某些情況下超過 90%——但研究表明,大多數工具並沒有達到對外宣稱的準確率。
在去年 12 月發表的一項研究中,Weber-Wulff 和她的同事評估了在學術界廣泛使用的 14 種 AI 檢測工具。其中只有 5 種能夠準確識別 70% 或更多的文本為 AI 或人類撰寫,沒有一個得分超過 80%。
當檢測到有人輕微編輯 AI 生成的文本,通過替換同義詞和重新排列句子時,檢測器的準確率平均下降到 50% 以下。作者寫道,這樣的文本「幾乎無法被當前工具檢測到」。其他研究也顯示,多次要求 AI 改寫文本會大幅降低檢測器的準確率。
此外,AI 檢測器還存在其他問題。一項研究表明,如果英語文章是由非英語為母語的人所寫,它們更可能錯誤地將這些寫作歸類為 AI 生成。
Feizi 說,檢測器無法可靠地區分完全由 AI 撰寫的文本和作者使用基於 AI 的服務來潤色文本的情況,後者通過幫助語法和句子清晰度來改進文本。「區分這些情況將非常困難和不可靠——可能導致極高的誤報率,」他說。他補充說,被錯誤地指控使用 AI,可能對那些學者或學生的聲譽造成「相當大的損害」。
合法與非法使用 AI 的邊界可能會進一步模糊。2023 年 3 月,微軟開始將其生成式 AI 工具整合到其應用程序中,包括 Word、PowerPoint 和 Outlook。其 AI 助手 Copilot 的一些版本可以起草或編輯內容。6 月,谷歌也開始將其生成式 AI 模型 Gemini 整合到 Docs 和 Gmail 等工具中。
「AI 正在變得如此深入地嵌入我們使用的所有東西中,我認為人們將越來越難以知道你所做的事情是否受到了 AI 的影響,」英國聖馬可和聖約翰大學高等教育專家 Debby Cotton 說。「我認為我們可能無法跟上它的發展速度。」
---[編譯:馬雪薇*原作者:Diana Kwon,自由科學記者/來源: 學術頭條]
原文鏈接:https://www.nature.com/articles/d41586-024-02371-z