2023.05.16 13:00

ChatGPT,能成為新的「維基百科」嗎?

ADVERTISEMENT

 

 

22 年前,2001 年初,維基百科 Wikipedia 橫空出世,在其後的網際網路時代,成為人們獲取知識的重要平臺。 

ADVERTISEMENT

但在剛開始,人們對維基「人人可編輯」的組織形式產生過質疑。甚至有電視主持人諷刺其為「wikiality」,即如果在維基百科上編造條目,只要有足夠多的人同意,它就會成為現實。 

後來,隨著《自然》(Nature)雜誌的調查研究,發現維基百科準確度接近大英百科全書,Google 開始把維基百科放到搜尋結果的首項,維基社群和內容貢獻者也持續壯大,維基百科用了很多年時間終於取得了公眾的信任。 

誕生之初遭到質疑,越來越多人參與去完善,而後平反收到大眾認可,繼而成為日常的工具,這一過程,僅誕生半年的 ChatGPT 正在經歷,不僅於此,它還成為了維基百科的挑戰者。 

ADVERTISEMENT

不久前,維基媒體基金會召開 2023-2024 年度計畫的電話會議,會議中提及了 35 次 AI,討論的主題也是圍繞 ChatGPT 帶來的挑戰。 

但維基百科所擔心的挑戰,並不是被 ChatGPT 取代。而是更深刻地考驗:未來的維基百科,會由 ChatGPT 來撰寫嗎? 

維基百科的內容哪裡來的?

要想知道 ChatGPT 能否撰寫維基百科,得先知道維基百科目前內容來源於哪裡。 

ADVERTISEMENT

維基百科主要是由來自網際網路上的義工共同合作編寫而成,任何使用網路進入維基百科的使用者都可以編寫和修改裡面的文章。它是網際網路上一個極大的自由內容、公開編輯、多語言的網路百科全書協作計畫。 

截至 2021 年初,所有語種的維基百科條目數量達 5500 萬條,如何確保內容上的準確,全靠維基社群義工們的篩查。 

在 ChatGPT 出現前,維基百科已經長期在用 AI 去減少一些人力成本。應用最多的就是把現有條目直接用機器翻譯,再由人工編輯校對。 

ADVERTISEMENT

2016 年時,資深科學家 Aaron Halfaker 開發了一套開源機器學習演算法,可以自動辨識維基百科裡那些惡意破壞條目和編輯假消息的行為;2020 年,MIT 的研究人員也為維基百科推出過基於 AI 的修改功能,可以精確定位維基百科句子中的特定資訊,並自動替換為類似於人類編輯的語言。 

以及如維基社群所述,人工智慧非常擅長總結把一篇很長的技術類條目,總結成兒童都能理解的版本,讓 AI 去產生兒童版的維基百科效果很好。 

翻譯、檢查、概括簡化已有內容,維基百科一直以來對 AI 的應用僅限於此,直到大型語言模型 ChatGPT 的出現。 

目前仍以文字方式互動為主的 ChatGPT,除了回答使用者直接的提問以外,還可以用於甚為複雜的語言工作,包括自動生成文本、自動問答、自動摘要等等。 

ChatGPT 可以寫出相似真人的文章,並在許多知識領域給出詳細和清晰的回答。哪怕 ChatGPT 生成內容的事實準確度還需要人工去二次查閱,但這時維基百科面臨的問題已經很明顯了:義工能否用 ChatGPT 來撰寫維基百科條目? 

能不能和想不想

紐約市維基媒體分會的老維基人 Richard Knipel 就用 ChatGPT 在維基百科上起草了一個名為「藝術作品標題」的新條目,Knipel 表示,ChatGPT 給出的版本一般但語法正確,定義了藝術作品標題的概念,給出了從古至今的例子。他在草稿基礎上只做了輕微修改。 

但另一位編輯在條目上標注,將會進行大量修改並完善。如今,我們再點進這一條目,會發現它增加了大量內容和理論索引,還整理出了目錄,給出了圖片案例。像 Knipel 這樣的維基人認為,ChatGPT 可以作為生成維基百科條目草稿、骨架的工具,在此基礎上,人工再驗證內容,編輯和充實條目。 

但另一派維基人則認為,在維基百科條目的創作裡 ChatGPT 應該完全被禁用。一位維基百科編輯就表示「我們應該強烈呼籲不使用 AI 工具來產生條目草稿,即使這些條目隨後會被人工審閱。ChatGPT 太擅長引入那些看起來很有道理的謊言。」 

但另一派也反駁這種說法,就像 Knipel 認為,修改並豐富不完善的資訊,這就是維基百科在實踐中一直運作的方式。ChatGPT 將繼續存在並飛速發展,利用它同時強調人工干預的必要性怎麼就不行呢?把 ChatGPT 上來就視作洪水猛獸實在有些偏頗。 

但在想不想之前,我們先看看能不能。ChatGPT 還夠不夠格直接編寫維基百科呢? 

3 月 30 日時,維基百科創始人 Jimmy Wales 在接受 Evening Standard 採訪時討論了這個議題。Wales 認為,讓 ChatGPT 能獨立寫一個完整的維基條目,目前還有一段距離,但距離多遠就難說了。「ChatGPT 的一大問題是會胡說八道,業內把這種情況稱為 hallucinating(幻覺)——我稱之為說謊。」(One of the issues with the existing ChatGPT is what they call in the field 『hallucinating』—I call it lying.) 

「ChatGPT 有一種憑空捏造的傾向,這對維基百科來說真的不太行。」Wales 在採訪裡說道。實踐中也是如此,你在維基百科上搜一個詞,維基百科可能會回饋「該條目不存在」,但你問 ChatGPT,它可能會給你產生一段不知道哪裡來的的假訊息。 

ChatGPT 會「說謊」,這種事已經不新鮮了。但 ChatGPT 誕生僅半年,它的自我反覆運算能力已經令人咋舌,讓 ChatGPT「句句吐真言」,似乎只是時間問題,那維基百科現在擔憂的是什麼呢? 

人力有限,算力「無限」

維基百科團隊並沒有那麼擔心內容到底來源於人類還是 AI,它擔心的是內容品質是否能過關。 

在維基媒體基金會在電話會議總結報告裡,「挑戰」被放到了開篇,其中最大比重的部分,也是維基百科團隊最大的擔憂在於:維基百科湧入大量 AI 產生的內容,把真正高品質的、正確的資訊給淹沒了。 

「Wiki 專案有大量高品質的、可靠的,結構化的、分類好的內容。這就是我們帶給世界的價值。最讓我害怕的不是人們使用 GPT 之類的大語言模型來獲取知識,而是需要巡查的 AI 生成的內容會爆炸式增長。」 

對高品質內容來說,創作比消費的時間成本高很多,就像一篇較為完整的維基條目,需要許多人參與撰寫,花許多時間,走過很多流程後完成,對讀者來說幾分鐘就閱讀完了。 

像維基百科這種平臺,為了保證內容品質,還需要專業人士核查一條條目中每個資訊、資料、引用是否來源準確,篩查和編輯的成本同樣很高。因此 AI 產生內容越多,人工核查的時間也更長。而且哪怕 ChatGPT 給出了正確的結論,但它並不會直接給出結論的論據來源何處,人工還需要再找到論據。到最後,修正可能比撰寫耗時更長。 

目前維基百科義工們已經發現了許多 ChatGPT 自動生產內容上的問題。比如 ChatGPT 很容易太籠統地概括定義,導致表意不明。還有 ChatGPT 遣詞造句過於肯定,不夠匹配維基百科想呈現的客觀中性的文字風格。 

最重要的是可信度來源難以查詢,維基百科的可信度和擴展閱讀性,很大程度上是基於條目底下豐富的資訊參考來源,但 ChatGPT 不會主動提供參考,甚至會憑空捏造。 

擔任了 20 年維基百科志工編輯的 Andrew Lih 在用 ChatGPT 起草新條目時就發現,ChatGPT 概述定義做得很不錯,但它所提供的消息來源於《富比士》、《衛報》、《今日心理學》,但 Lih 仔細查閱後發現,這些所謂有可靠來源的文章並不存在,甚至 ChatGPT 給出的 URL 都是自動產生找不到頁面的假連結。 

綜上,維基百科團隊直接表示,AI 生產內容的速度和效率,可能會超出項目的運行能力。 

除此之外,還有許多維基百科團隊會擔心的點,比如如今的維基百科貢獻者裡,使用英語的白人男性依舊是主體,維基內容已帶有語言和內容偏見,ChatGPT 靠吸納網路資訊為養料的 AI 機器,產生的內容會進一步放大偏見。 

維基百科團隊也無法把握義工對 AI 工具使用的傾向。Lih 就認為,維基人不缺動力,缺的是時間,ChatGPT 產生的糟糕草稿,可以激發維基義工的修改欲。這也符合維基之父 Ward Cunningham 所提出的「坎寧安定律」:在網際網路上得到優秀答案的最佳方法不是去提問,而是發布一個錯誤的答案。 

維基百科團隊還擔心,當維基百科充斥著 AI 產生的內容時,使用者們會降低對它資訊的信任度,轉而去信任更有「人類作者」標識的媒體內容,比如會出鏡的影片,標記了作者的媒體報刊。 

就不能共存嗎

維基百科和 ChatGPT 有很多相似性,比如都以文本為主,試圖「回答一切」。但二者最顯著的區別,在於回答方式的不同。 

維基百科是有框架、系統、詳細索引的百科式資訊,你點進一個條目,可以從最簡單的概括式介紹瞭解到其歷史的變化,透過條目裡豐富的擴展連結,可以在縱向裡深入瞭解,也能在橫向裡在不同條目之間跳轉,擴展對一整個領域的瞭解。 

ChatGPT 目前呈現出的還是提問式的互動,需要使用者明確瞭解自己想知道的問題,向外擴展也是需要建立在 ChatGPT 給出的回答之上,進一步詢問。 

不同使用者獲取資訊的傾向不同,選擇工具也不同,維基百科無法做到 ChatGPT 一樣能回答非常具體的問題,ChatGPT 也不會像維基百科一樣有那麼精準且整理好的知識類資訊。這二者的使用方式,就像我們選擇閱讀教科書,還是直接向教授提問。 

就像維基百科並沒有因為搜尋引擎 Google 的崛起而磨滅,反而它會出現在 Google 搜尋結果的第一條和邊欄上。 

維基百科團隊也並沒有如 Google 一般有那麼大的危機感,在年度會議裡,雖然開篇點了 ChatGPT 帶來的挑戰,但整個會議更多的時間留給了「機會」。 

 

「當網路上有大量 AI 產生的內容時會發生什麼?在一個由數兆個低品質、低可信度的頁面組成的網際網路,創建大模型的人和使用者都需要去找到可靠的資訊,他們可能會更多地使用維基百科。」這就是維基人眼中的「機會」。 

利用大語言模型去查 bug、翻譯、內容總結、豐富媒體形式,比如 GPT-4 中體現的影片生成,AI 繪製的圖片也可以放到很多抽象概念的條目裡,增加可讀性,還可以在文本和語音之間互相轉換。 

但以上的前提,都是不能讓大語言模型做為輔助,不能喧賓奪主。「維基百科是關於人類聚集在一起試圖定義真相。這些工具不可靠,會分散我們對實際任務的注意力。我們應該小心要以多快的速度追趕這一趨勢,而不是放棄它。我們應該關注創造知識的人。」 

維基百科團隊的態度,也折射了我們當下對 AI 的審慎態度。沒有被取代,想充分利用 AI 的同時不夠信任它,想發揮 AI 的最大價值,但真正有價值的內容又不敢輕易交付,難以放下人類本位的核心概念,謹慎地靠近,小心地追趕。 

維基百科如何和大語言模型共存,或許就回答了我們人類如何與 AI 共存。

ADVERTISEMENT