Google AI科學家點名中國機器學習論文嚴重抄襲,作者達上百人中國重要 AI 學者幾乎「一網打盡」

Google AI科學家點名中國機器學習論文嚴重抄襲,作者達上百人中國重要 AI 學者幾乎「一網打盡」

Google大腦的科學家 Nicholas Carlini 近日公開撰文,指控一篇於今年 3 月 26 日刊登在論文預印網站 Arxiv 的論文《關於“Big Model大模型”的路線圖》(A Roadmap for Big Model)一文涉嫌嚴重抄襲。

Google AI科學家點名中國機器學習論文嚴重抄襲,作者達上百人中國重要 AI 學者幾乎「一網打盡」

Nicholas Carlini 在文章中表示,「我最近發現到了機器學習研究領域的一個抄襲案例。A Roadmap for Big Model這篇論文抄襲了我最近的一篇論文中的幾個段落,即重複訓練資料使語言模型更好。( Big Model的論文抄襲了一篇關於資料複製的論文,這有一些諷刺意味。)。這是不幸的,但令我沮喪的是,我們的論文並不是唯一被抄襲的論文:Big Models的論文至少抄襲了其他十幾篇論文。」

他表示,從總體上看,雖然這並不像一篇論文直接抄襲先前的結果的方法,並把結果聲稱它是自己得出來的。但是,即使拋開把別人的文章說成是自己的文章是錯誤的這一事實,一份研究報告的價值應該在於它們如何重新構築這個領域。而一篇只是直接從先前論文抄襲的報告,並沒有對該領域做出任何新的貢獻。

Google AI科學家點名中國機器學習論文嚴重抄襲,作者達上百人中國重要 AI 學者幾乎「一網打盡」

Nicholas Carlini 詳細列舉了該論文存在大幅度抄襲其他論文的嫌疑,證據是大量的文字重疊度。其中,疑似被剽竊的論文也包括他自己發表的論文“Deduplicating Training Data Makes Language Models Better”。

針對他的文章引起的迴響,有些人認為應該要解雇參與這篇論文的人。他在文章的更新中表示,他並不希望他的文章變成一場獵巫行動。

這篇篇幅巨大的論文,作者署名甚至多達百人。該論文長達數十頁,並足足用了第一頁的篇幅羅列參與的作者。其中不乏中國AI業界和學界的知名大佬,供職機構更是把中國知名大學和網路巨頭幾乎一網打盡。

Google AI科學家點名中國機器學習論文嚴重抄襲,作者達上百人中國重要 AI 學者幾乎「一網打盡」

Nicholas Carlini 表示,跟那些惡意抄襲論文、把別人的研究成果說成是自己的研究的狀況比起來,這篇論文的情況輕微許多。他不想認為這是一種惡意抄襲:也許論文中的一些初級作者本意是好的,認為有了引文就可以複製文字了。也許是上面有壓力,讓一些學生覺得要按時交稿,因此這些學生唯一的選擇就是偷工減料。而對於掛名的資深作者來說,他們可能讀了一遍報告,認為它看起來非常合理,只是在這裡和那裡稍微做了一些調整,而沒有意識到它的來源......這篇論文有100位作者,任何事情都有可能發生。

他表示,發這篇文章的目的只是想讓大家注意一些他發現的事情。例如,大約有1%的已發表的論文的資料複製率比這篇論文還要高,這是他注意到的這個領域的普遍問題。希望大家能把這當成一個學習的經驗,以改善整個領域的情況。

北京半官方AI研究機構,參與企業眾多

這篇論文由北京智源人工智慧研究院所主導發表,北京智源人工智慧研究院是在2018年成立,由中國科技部和北京市委市政府的指導,由北京市科委和海淀區政府推動成立,算是半官方的研究機構,並且由北京大學、清華大學、中國科學院、百度、小米、字節跳動、美團點評、曠視科技等北京人工智慧領域優勢單位共建的新型研究機構。 

才在3月底,北京智源才在官網介紹《如何煉大模型?200 頁 pdf100 + 位作者 19 家單位!北京智源清華唐傑等發佈》介紹該篇論文,強調了這篇論文的學術背景實力。 

根據北京智源人工智慧研究院官方網站的資料,《A Roadmap for Big Model》由悟道大模型研究計畫負責人,智源學術副院長,清華大學計算機系教授唐傑牽頭,從大模型基礎資源、大模型構建、大模型關鍵技術與大模型應用探索 4 個層面出發,對 15 個具體領域的 16 個相關主題進行全面介紹和探討。非常值得關注。

而 Nicholas Carlini 所指出的,「一份研究報告的價值應該在於它們如何重新構築這個領域。而一篇只是直接從先前論文抄襲的報告,並沒有對該領域做出任何新的貢獻。」那麼,這篇論文到底有沒有對該領域做出新的貢獻呢?

而我們都知道,一篇學術論文都要有研究成果或是結論這些貢獻,通常會都寫在摘要裡。

該篇論文的摘要為「隨著深度學習的快速發展,對多個下游任務進行大模型(Big Models, BMs)訓練成為一種流行的範式。研究人員在BM的構建和BM在許多領域的應用方面取得了各種成果。目前,缺乏對BMs總體進展進行梳理和指導後續研究的研究工作。本文不僅介紹了BM技術本身,還介紹了BM技術運用BMs進行BM訓練和應用的前提條件,將BM評審分為資源、模型、關鍵技術和應用四個部分。我們在這四個部分介紹了16個具體的BM相關主題,它們是數據、知識、計算系統、並行訓練系統、語言模型、視覺模型、多模態模型、理論與可解釋性、常識推理、可靠性與安全性、治理、評估、機器翻譯、文字生成、對話和蛋白質研究。在每個課題中,我們對當前的研究進行了總結,並提出了未來的研究方向。最後,我們從一個更全面的角度總結了BM的進一步發展。」

針對Nicholas Carlini 的抄襲說,北京智源人工智慧研究院對外回覆表示:“我們已經注意到對《A Roadmap for Big Model(關於“大模型”的路線圖)》一文的質疑,正在對相關情況進行核實,智源研究院鼓勵學術創新和學術交流,對學術不端零容忍,有關進展將盡快通報。”

 

 

 

 

 

 

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
Robert Liu
1.  Robert Liu (發表於 2022年4月18日 10:02)
樂此不疲!這是我的貢獻,已經讓政府官員論文被撤除二篇,即將出現第三篇。https://link.springer.com/article/10.1007/s11192-020-03818-6
發表回應
謹慎發言,尊重彼此。按此展開留言規則