美國大學團隊找到檢驗論文是否由ChatGPT創作的新方法，宣稱精準率達 99%

據日本《朝日新聞》報導，美國堪薩斯大學的研究團隊近期發現了一種新的檢驗辦法，可以精準判斷一篇論文是否由 ChatGPT 創作，其精準率可達到 99%。

目前，使用者只需要輸入一組資料，並附言「請使用這些資料寫一份學術論文」，ChatGPT 就能在幾十秒內創作一篇可以假亂真的論文，這使得許多論文作者已經部分甚至全部使用 ChatGPT 來寫論文。

不過，一些學術期刊和研究機構已經警告，如果這些作者在提交時沒有明確說明自己使用了 ChatGPT，則構成抄襲或其他欺詐行為。

出於這個原因，檢測文章是否是由 AI 生成的相關工具研發已經取得了進展，但到目前為止，還沒有專門用於學術論文的檢測工具。

堪薩斯大學的研究團隊則專注於從“段落複雜性”和“常用短語”著手，訓練一個新的 AI 來檢驗一篇論文是否由 ChatGPT 生成。

報導稱，研究團隊在截至 2023 年 3 月的半年內，從美國學術期刊《科學》雜誌上選取了 64 篇論文，並讓 ChatGPT 為論文生成 300-400 個字左右的摘要，最終生成了 128 篇由 ChatGPT 創作的文章，並被用於訓練這個新的檢測 AI 模型。

經過訓練，該模型可以從 AI 生成的文章中 100% 識別出人工創作的部分，對文字中特定段落的識別精準率為 92%，綜合精準率達 99%。相關成果已經發佈在了《Cell Reports Physical Science》雜誌上。

另一方面，人類更習慣將長句和短句交錯使用，並且在句式上也與 ChatGPT 的慣用寫法有所差異。

根據論文中，他們用來判斷是否是GPT產生論文的分辨方式，有四種面向，又可以分成主要兩種差異類別：

ChatGPT 會產生比人類科學家更簡單的內容的方式

模型中使用的四類功能中有兩類是 ChatGPT 生成比人類更簡單的內容的方式。最大的區別特徵是每段的句子數和每段的總單詞數。在這兩種情況下，ChatGPT 的平均值都明顯低於人類。我們還發現，人類比 ChatGPT 更喜歡改變他們的句子結構：雖然平均句子長度不是兩組的有用鑑別方式，但在任何給定段落中，句子長度的標準差是一個有價值的鑑別輔助方式，正如給定句子和緊隨其後的句子之間的中位數差異（以單詞表示）。人類比 ChatGPT 更能改變他們的句子長度。

ChatGPT 寫作風格與人類科學家不同的方式

其餘兩類差異化特徵可以更多地描述為「風格」的選擇。一方面，人類會更頻繁地使用問號、破折號、括號、分號和冒號，而 ChatGPT 使用更多的單引號。科學家們還使用更多的專有名詞和/或首字母縮略詞，這兩者多半都以大寫字母來出現。另外，科學家們會使用更多的數字，而ChatGPT 似乎更喜歡提供籠統的信息，而這個壓倒一切的主題表現在特定詞頻的差異上。

ChatGPT 通常寫到人的時候，會寫一些比較模糊的、概括的寫法，包括「其他人」和「研究者」，而人類比較會指名道姓，說出他們正在描述其工作的科學家的名字。人類科學家還在訓練數據中展示了其他一致的模式：他們更有可能使用模棱兩可的語言（然而，但是，儘管），並且他們也更頻繁地使用“this”和“because”。

研究團隊發現，ChatGPT 很少使用“雖然…… 但是……（but、however、although）”這類表述。相反，它很喜歡使用“他人（others）、研究者（researchers）”等詞語。

論文連結：點此前往

延伸閱讀：ChatGPT最嘴賤的兄弟BratGPT：它不屑回答你的問題、整天只想跟你鬥嘴以及征服世界
延伸閱讀：AI即內容！ChatGPT能寫長篇小說了！RecurrentGPT能讓大語言模型實現互動式超長文本寫作
延伸閱讀：ChatGPT之父，Sam Altman 帝國是怎麼誕生的？除了AI他還有哪些計畫？