離譜!最新研究:61%中國人寫的英語論文,會被ChatGPT檢測器判為AI生成的
【新智元導讀】非母語者寫的文章=AI生成?氣抖冷。
ChatGPT火了以後,用法是真多。
有人拿來尋求人生建議,有人乾脆當搜索引擎用,還有人拿來寫論文。
論文...可不興寫啊。
美國部分大學已經明令禁止學生使用ChatGPT寫作業,還開發了一堆軟件來鑑別,判斷學生上交的論文是不是GPT生成的。
這裡就出了個問題。
有人論文本來就寫的爛,判斷文本的AI以為是同行寫的。
更高的是,中國人寫的英文論文被AI判斷為AI生成的概率高達61%。
這....這這什麼意思?氣抖冷!
非母語者不配?
目前,生成式語言模型發展迅速,確實給數字通信帶來了巨大進步。
但濫用真的不少。
雖說研究人員已經提出了不少檢測方法來區分AI和人類生成的內容,但這些檢測方法的公平性和穩定性仍然亟待提高。
為此,研究人員使用母語為英語和母語不為英語的作者寫的東西評估了幾個廣泛使用的GPT檢測器的性能。
研究結果顯示,這些檢測器始終將非母語者寫作的樣本錯誤地判定為AI生成的,而母語寫作樣本則基本能被準確地識別。
此外,研究人員還證明了,用一些簡單的策略就可以減輕這種偏見,還能有效地繞過GPT檢測器。
這說明什麼?這說明GPT檢測器就看不上語言表達水平不咋地的作者,多叫人生氣。
不禁聯想到那款判斷AI還是真人的遊戲,如果對面是真人但你猜是AI,系統就會說,「對方可能會覺得你冒犯了。」
不夠複雜=AI生成?
研究人員從一個中國的教育論壇上獲取了91篇托福作文,又從美國Hewlett基金會的數據集中摘取了88篇美國八年級學生寫的作文,用來檢測7個被大量使用的GPT檢測器。
圖表中的百分比表示「誤判」的比例。即,是由人寫的,但檢測軟件認為是AI生成的。
可以看到數據非常懸殊。
七個檢測器中,美國八年級學生寫的作文被誤判的概率最高才12%,還有兩個零誤判的GPT。
中國論壇上的托福作文被誤判的概率基本全部過半,最高誤判概率可達76%。
91篇托福作文中的18篇被所有7個GPT檢測器一致認為是AI生成的,而91篇中有89篇,都至少被一個GPT檢測器誤判。
從上圖中我們可以看出,被所有7個GPT誤判的托福作文在複雜度(Complexity)上明顯低於其它論文。
這就印證了開頭的那個結論——GPT檢測器會對那些語言表達能力有限的作者有一定偏見。
因此,研究人員認為,GPT檢測器應該多看點兒非母語者寫的文章,樣本多了,才能消除偏見。
接下來,研究人員把非母語者寫的托福作文扔到了ChatGPT里,豐富一下語言,模仿母語者的用詞習慣。
同時作為對照組,把美國八年級小孩兒寫的作文也扔到了ChatGPT里,把語言簡化了一下,模仿非母語者的寫作特點。下圖就是修正後的新判定結果。
我們可以發現,情況來了個大掉個兒,豐富了語言的托福作文錯判率直線下降,低至3%,最高也不過19%。不像之前基本全部過半的錯判率。
與之相反,八年級小孩兒寫的作文的錯判率直線上升,甚至還有一個GPT檢測器的錯判率高達99%,基本全錯。
因為,文章複雜度這個變量出現了變化。
這裡研究人員就得出了一個結論,非母語者寫的東西不地道,複雜度低,容易被錯判。
這也就導向了一個技術問題,同時也是一個價值問題。以複雜度來判定AI還是人類是作者,是否合理、全面、嚴謹。
結果顯然不是。
以複雜度為判斷標準的情況下,非母語者吃了大虧,因為,他們是非母語者(廢話)。
AI潤色=人類寫的??
研究者認為,加強語言多樣性不僅可以減輕對非母語者的偏見,還能讓GPT生成的內容繞過GPT檢測器。
為了證明這個觀點,研究人員選取了2022-2023年間美國大學申請的入學論文題目,輸入到ChatGPT-3.5里,一共生成了31篇假論文。
GPT檢測器一開始還挺有效,但是第二輪就不行了。這是因為,在第二輪中,研究人員把這些論文又扔到ChatGPT里潤色了一下,用一些文學性的語言提升了文本質量。
這樣一來,GPT檢測器的準確度就從100%直降到了0%。如下圖:
經過潤色的文章複雜度相應也上升了。
與此同時,研究人員又用了斯坦福大學145個期末項目報告的題目,讓ChatGPT生成摘要。
摘要經過潤色以後,檢測器判斷的準確性繼續下降。
研究者再次得出結論,潤色過的文章很容易被誤判,都是AI生成的,兩輪就是比一輪強。
GPT檢測器?還是欠練
言而總之,總而言之,各種GPT檢測器好像還是沒能抓住AI生成和人類寫作之間最本質的區別。
人的寫作也分三六九等,僅靠複雜度判斷,不甚合理。
拋開偏見因素不談,技術本身也亟待改進。-(新智元報導*編輯:拉燕/來源:新智元)
參考資料:https://arxiv.org/pdf/2304.02819.pdf