2023.06.11 16:15

美國大學團隊找到檢驗論文是否由ChatGPT創作的新方法,宣稱精準率達 99%

ADVERTISEMENT

據日本《朝日新聞》報導,美國堪薩斯大學的研究團隊近期發現了一種新的檢驗辦法,可以精準判斷一篇論文是否由 ChatGPT 創作,其精準率可達到 99%

目前,使用者只需要輸入一組資料,並附言「請使用這些資料寫一份學術論文」,ChatGPT 就能在幾十秒內創作一篇可以假亂真的論文,這使得許多論文作者已經部分甚至全部使用 ChatGPT 來寫論文。

不過,一些學術期刊和研究機構已經警告,如果這些作者在提交時沒有明確說明自己使用了 ChatGPT,則構成抄襲或其他欺詐行為。

ADVERTISEMENT

出於這個原因,檢測文章是否是由 AI 生成的相關工具研發已經取得了進展,但到目前為止,還沒有專門用於學術論文的檢測工具。

堪薩斯大學的研究團隊則專注於從“段落複雜性”和“常用短語”著手,訓練一個新的 AI 來檢驗一篇論文是否由 ChatGPT 生成。

ADVERTISEMENT

報導稱,研究團隊在截至 2023 年 3 月的半年內,從美國學術期刊《科學》雜誌上選取了 64 篇論文,並讓 ChatGPT 為論文生成 300-400 個字左右的摘要,最終生成了 128 篇由 ChatGPT 創作的文章,並被用於訓練這個新的檢測 AI 模型。

經過訓練,該模型可以從 AI 生成的文章中 100% 識別出人工創作的部分,對文字中特定段落的識別精準率為 92%,綜合精準率達 99%。相關成果已經發佈在了《Cell Reports Physical Science》雜誌上。 

ADVERTISEMENT

另一方面,人類更習慣將長句和短句交錯使用,並且在句式上也與 ChatGPT 的慣用寫法有所差異。

根據論文中,他們用來判斷是否是GPT產生論文的分辨方式,有四種面向,又可以分成主要兩種差異類別:

ChatGPT 會產生比人類科學家更簡單的內容的方式

模型中使用的四類功能中有兩類是 ChatGPT 生成比人類更簡單的內容的方式。最大的區別特徵是每段的句子數和每段的總單詞數。在這兩種情況下,ChatGPT 的平均值都明顯低於人類。我們還發現,人類比 ChatGPT 更喜歡改變他們的句子結構:雖然平均句子長度不是兩組的有用鑑別方式,但在任何給定段落中,句子長度的標準差是一個有價值的鑑別輔助方式,正如給定句子和緊隨其後的句子之間的中位數差異(以單詞表示)。人類比 ChatGPT 更能改變他們的句子長度。

ChatGPT 寫作風格與人類科學家不同的方式

其餘兩類差異化特徵可以更多地描述為「風格」的選擇。一方面,人類會更頻繁地使用問號、破折號、括號、分號和冒號,而 ChatGPT 使用更多的單引號。科學家們還使用更多的專有名詞和/或首字母縮略詞,這兩者多半都以大寫字母來出現。另外,科學家們會使用更多的數字,而ChatGPT 似乎更喜歡提供籠統的信息,而這個壓倒一切的主題表現在特定詞頻的差異上。

ADVERTISEMENT

ChatGPT 通常寫到人的時候,會寫一些比較模糊的、概括的寫法,包括「其他人」和「研究者」,而人類比較會指名道姓,說出他們正在描述其工作的科學家的名字。人類科學家還在訓練數據中展示了其他一致的模式:他們更有可能使用模棱兩可的語言(然而,但是,儘管),並且他們也更頻繁地使用“this”和“because”。

研究團隊發現,ChatGPT 很少使用“雖然…… 但是……(but、however、although)”這類表述。相反,它很喜歡使用“他人(others)、研究者(researchers)”等詞語。

論文連結:點此前往

 

 

 

ADVERTISEMENT