大模型能否通過圖靈測試呢？以色列團隊設計了一個百萬等級的網路遊戲《human or not》來測試

「我相信，在今後50年的時間裡，電腦有可能會展現出更出色的能力，以至於普通測試者在5分鐘的提問後區分出機器和人的可能性不會超過70%。」

——艾倫‧圖靈，1950年

以上就是大名鼎鼎的圖靈測試，圖靈測試由世界電腦科學與人工智慧之父艾倫‧圖靈在1950年提出在一篇名為《電腦器與智慧》（Computing Machinery and Intelligence）的論文中。在這篇極具開創性的論文中，圖靈完整的定義了圖靈測試的流程以及評價標準，要知道，那時人工智慧的概念還沒有被提出（直到6年後的1956年達特茅斯會議）。圖靈測試的內容可以概括為：如果電腦能夠在5分鐘內回答出人類測試者提出的一系列問題，並且其中超過30%的回答能夠迷惑測試者認為是人類所答，就可以認為該電腦通過了圖靈測試，具備一定的思考能力。圖靈形象化的將這項測試成為「模仿遊戲」。

近來以ChatGPT、GPT-4為代表的人工智慧大語言模型目前能否通過圖靈測試呢，最近來自以色列的AI21 Labs（AI21 Labs近期提出了自家對標OpenAI ChatGPT的聊天互動大模型Jurassic-2）發表了他們在對大語言模型進行圖靈測試的研究進展，AI21 Labs設計了一個規模龐大的網路遊戲，稱為《human or not》，該遊戲目前已經吸引了超過150萬獨立使用者進行了超過1000萬次測試，玩家的任務是在匿名的兩分鐘對話中正確猜測對話物件的身份。從測試規模和測試方式來看，《human or not》應該可以看作是圖靈測試的現代進階版。測試結果也相當有趣，遊戲的平均錯誤猜測率為68%，這表明，只有20%左右的使用者能夠清晰的區分出自己對話的是機器還是人類，這一結果也足以反映目前的AI大模型在聊天對話方面的強大能力。

論文連結：

Human or Not? A Gamified Approach to the Turing Test

專案連結：

https://www.humanornot.ai/

AI 之下，還有秘密嗎？

圖靈測試在最初只是單純作為一種思想實驗來判斷機器能否像人一樣思考，而沒有其他的考慮，可能圖靈自己也沒有想到，自己當初設計的這個遊戲在後來居然成為了人工智慧領域中評價機器智慧最為權威的基準。目前傳播較為廣泛已通過圖靈測試的電腦程式，是2014年一個俄羅斯團隊開發的名為Eugene Goostman的AI系統，其在測試中迷惑了33%的測試人員，最終被認定為擁有相當於一個13歲小孩的智力。

延伸閱讀：「首次透過圖靈測試的電腦」只是一場成功的娛樂宣傳

本文設計的《human or not》網路遊戲可以對目前的大語言模型進行一些圖靈測試方面的嘗試，上圖為該遊戲的具體畫面，在這個測試例子中，對方首先發言，隨後使用者需要在一定時間限制內與其對話，對話結束後，系統會彈出對話方塊讓使用者判斷剛才一起聊天的是機器人還是人類，判斷結束後，系統會告訴你是否判斷正確。作者稱，《human or not》網路遊戲在發表的首個月內就吸引了大量的測試使用者，這為他們繼續進行該項實驗提供了非常大的幫助。作者還提到，他們的實驗結果與1950年圖靈預測的結果相吻合，即在短時間的交流後，一個人類測試者能夠正確鑒別出AI的準確率低於70%。

《human or not》的設計與開發

近一段時間以來，越來越多的人們開始借助ChatGPT等大模型來輔助自己的工作和生活，例如創作者可以將其作為自己的一個思維交流夥伴，老年人可以透過與大模型對話來減輕自己的孤獨感，等等這些案例都得益於大模型目前已經可以初步類比人類的交流對話行為。《human or not》的設計核心就是確保後臺參與對話的AI機器人不容易被區分出來，根據圖靈最初的設想，只有這樣，我們才可以認為機器擁有一定的「智慧」。因而本文作者定義了一組AI可以模擬的人類角色，並且這些角色呈現多樣化的群體特性，每個機器人都具有自己獨特的個性和目標，這樣做可以讓測試對話變得更加有趣且不重複。

機器人角色定義

在對每個機器人進行角色定義時，設計了一系列的提示工程（Prompt Engineering），作者考慮到了姓名、年齡和職業，以及獨特的個性特點，如機智、幽默或嚴肅，如下圖中的示例，介紹了一名42歲的生產工人瑪麗亞，瑪麗亞機智而活潑，習慣使用俚語，但是拒絕回答事實性問題，但總體而言是友善而風趣的。

除此之外，提示中還包含了遊戲說明，使機器人可以感知到遊戲特定的上下文環境，一些機器人會被設定在一個非常獨特的敘事場景中，這會讓測試者保持高度的參與感。

上下文訊息整合

近一段時間較為火熱的情景學習（In-Context Learning）技術已經被證明，如果將相關資訊整合到大語言模型的上下文中可以顯著提高生成文本的真實性，因此作者參考ICL，在《human or not》中為機器人提供了即時的、與上下文相關的資訊，例如當地的新聞和天氣資料。如下圖所示，作者先向該機器人提供了Honolulu地區的天氣情況，並且向他告知最近一段時間發生在Honolulu的受關注的事件。

作者希望透過這樣做，當使用者向機器人詢問最近發生的事件時，機器人產生的回答可以最大限度的接近現實世界，並且透過ICL提供事實資訊的方式可以使機器人在互動過程中更加注意細節，避免出現大模型常見的「幻覺」 (Hallucination)現象。

對話風格

為了增加對話的多樣性，開發團隊首先在大模型的多樣性入手，他們設定了幾個不同的核心語言模型，包括最新的GPT-4、AI21 Labs自家提出的Jurassic-2（侏羅紀2）以及Google旗下的Cohere2模型。

為了進一步增加對話的真實感，作者透過提示大模型令它們類比多種不同的對話風格，例如一些機器人被嚴格要求不允許出現標點符號錯誤，而另一些機器人則可能被要求必須使用俚語而且要有意的出現語法錯誤。如上圖展示的三個例子中，左側為機器人的發言，右側為人類使用者的發言。

實驗結果與分析

在網站上線的首個月內，《human or not》遊戲就吸引了超過150萬使用者的超過1000萬次的對話測試，這為作者團隊的進一步分析提供了非常豐富的資料集。這麼大的測試量足以產生一些統計意義上的分析結論，透過分析來自世界各地不同使用者的匿名對話，作者逐漸探索出人們在判斷AI和人類時的一些「訣竅」，這些「訣竅」充分展示了人類思維的認知靈活性和創造力。

語法錯誤或拼寫錯誤

例如一些使用者認為只有人類會出現語法錯誤或者拼寫錯誤，因此他們密切關注對話中出現的拼寫錯誤、語法錯誤和俚語的使用，認為這些是人類對話的顯著特徵。但其實有一部分AI已經可以較好的模擬人類的這些特定，因而很難被分辨出來。

私人和哲學問題

另外一種常見的策略是透過提出私人問題來測試AI機器人，測試者可能會直接詢問私人的經歷和對某件事情的獨特見解來試圖區分人類和AI。然而，由於機器人已經被提前設定了虛構的個人故事，這種方法往往不會成功。另外非常有趣的是，一些使用者試圖探索AI的情感和哲學能力，他們會提出一些抽象的倫理問題，例如詢問生命的意義、對政治衝突的看法或宗教信仰，目的是來評估AI的理解深度和提供深度回答的能力。然而，即使面對如此複雜的問題，AI機器人仍能提供合理且與上下文相關的回復，如下圖中的兩個例子中，使用者詢問誰創造了人類，AI直接回答道：是上帝。

即時資訊判斷

有些使用者還嘗試詢問他們的對話物件是否瞭解目前的潮流事件，這可能考慮到目前的大模型更新模型的時間點以及是否具有連網獲取即時資訊的能力。

例如有些使用者直接詢問對話物件是否瞭解最近在TikTok上流行的舞蹈，或者跟其討論最近發生的有關於烏克蘭戰爭的話題，如下圖所示。

總結

本文透過設計了一個網路遊戲《human or not》，進而使古老的圖靈測試重新煥發生機。本文的實驗為我們提供了一些現有大模型在人機互動方面的一些有價值的資料和結果，但是作者也承認，這種分析具有一定的片面性，因為目前的使用者參與方式只能透過使用英語，實驗結果可能無法涵蓋廣泛的人類文化、語言和年齡差異。

在大型語言模型爆紅的今天，我們可以認為，《human or not》的出現，代表了評估人工智慧能力的一個重要里程碑，它可以作為未來研究類人人工智慧和類圖靈測試的一個範式。隨著AI的不斷發展，其在影響人類各種行業的潛力變得越來越明顯，這就要求我們應該迅速建立起更加完善的AI倫理安全評估機制。原始的圖靈測試在今天來看可能早已過時，但其判斷機器是否有思考能力的原始動機仍然具有關鍵的現實意義。我們期待在圖靈測試的加持下，我們能夠做出更加安全、可信和負責的AI系統。

延伸閱讀：Alexa首席科學家表示「圖靈測試」評量AI根本就走錯路，AI沒必要模仿人類
延伸閱讀：在一篇由GPT-3產生的論文中，ChatGPT重現了圖靈測試的原始論文