ChatGPT歷史溯源:從1950年代講起,談聊天機器人的前世今生

ChatGPT歷史溯源:從1950年代講起,談聊天機器人的前世今生

ADVERTISEMENT

圖片來源:Unsplash |Jonathan Kemper

在其他玩家看來,佛朗茲·布羅塞夫 (Franz Broseph) 與其他的《外交》遊戲網路玩家沒什麼分別。 

《外交》是遊戲中的經典之作,受到甘迺迪和亨利·季辛吉等人的喜愛,它將軍事戰略與政治謀略結合起來,再現了第一次世界大戰的場景:玩家手握軍隊,需要與盟友、敵人以及介於兩者之間的所有人進行談判。 

居住在荷蘭的化學家德·格拉夫在比賽中獲得了第五名的好成績。他花了近 10 年的時間參加這個比賽,包括在線上和在全球各地的線下比賽。然而,幾周後他才意識到,他竟輸給了一台機器人。這台機器名叫佛朗茲·布羅塞夫,是一個人工智慧機器人。 

36 歲的德·格拉夫說:「當時我很吃驚,它看起來如此逼真,栩栩如生。它能夠閱讀我的消息,與我交談,並制定對雙方都有利的計畫。這使得我們兩個人都能取得進展。但它也會對我撒謊,背叛我,就像一名頂級玩家經常會做的那樣。」 

佛朗茲·布羅塞夫是由一支由科技巨頭 Meta、麻省理工學院和其他知名大學的人工智慧研究人員組成的團隊製造的,是新一波線上聊天機器人中的佼佼者,它正在迅速將機器人技術推向新的領域。 

當你與這些機器人聊天時,感覺就像在與另一個人聊天。換句話說,它可以 「感覺「 到你,這些機器已經通過了一部分智力測試。 

70 多年來,電腦科學家一直在努力建造能夠通過圖靈測試的技術:在這個技術反曲點上,我們人類不再確定我們是在與機器還是與人聊天。該測試是以艾倫·圖靈命名的,他是著名的英國數學家、哲學家和戰時密碼破譯者,早在 1950 年就提出了該測試。他認為這一測試可以向世界展示機器何時最終達到 「真正的智慧」。 

圖靈測試是一個主觀的衡量標準。它取決於問問題的人是否確信他們是在與另一個人交談,而實際上他們是在與一台裝置交談。 

從客觀上看,機器人領域的發展已經到了新的階段。這樣的機器人,如佛朗茲·布羅塞夫,已經在特定情況下通過了測試,例如談判外交行動或預訂餐館晚餐。去年 11 月,舊金山的 OpenAI 實驗室發表了機器人 ChatGPT,讓人們感覺就像是在和另一個人聊天,而不是與機器人聊天。 

ChatGPT 幾乎可以寫任何東西,包括學期論文,因此大學擔心學生會用它來完成課堂作業。有些人在與這些機器人交談時,甚至認為它們具有知覺和意識,並且認為機器已以某種方式發展出對周圍世界的認識。 

OpenAI 已經私下構建了一個比 ChatGPT 更強大的系統即 GPT-4,它甚至可以產生圖像和文字。 

然而,這些機器人並不具有智慧:它們沒有意識,也不具有人類智慧。甚至該技術的製造者也承認了這一點。 

這些機器人在一些特定類型的對話中表現相當出色,但卻不具備像人類那樣對意外情況作出反應的能力。它們有時會說錯話,並且無法糾正自己的錯誤。雖然它們在某些方面的表現可以超過人類,但在其他方面卻不如人意。與以前的類似系統一樣,它們主要做的是為熟練工人提供輔助,而不是取代他們。 

其中一個問題在於,當機器人模仿人類對話時,它可能看上去比實際上更具有智慧。當我們看到寵物或機器有類似人類行為時,我們很容易產生誤解,認為它在其他方面也像人類一樣,即使實際情況並非如此。 

OpenAI 的首席科學家、過去十年間最重要的人工智慧研究者之一伊爾亞‧蘇茨克維 (Ilya Sutskever) 說:「這些系統可以完成很多有用的任務,但在特定的方面表現卻不盡如人意。人們有時會高估它們的能力。」 

隨著先進技術不斷湧現,可以明確的是,科學家們必須重新思考並重新定義他們追蹤人工智慧發展的方式。圖靈測試已經不再能勝任這項任務。 

人工智慧技術不斷超越眾多曾經被認為無法逾越的測試,包括 1997 年它贏得了西洋棋比賽、2016 年的圍棋比賽以及 2019 年的撲克比賽。 

作為公眾,我們需要一個新的框架來理解人工智慧的能力和局限,以及它未來可能帶來的影響。

模擬遊戲

1950 年,艾倫·圖靈在其論文 《電腦機械與智慧》中發表了一種確定新型電腦是否具有思維能力的方法,他稱之為 「模擬遊戲」,這是在他提出世界上第一台電腦的想法 15 年後。當時,科學界正在努力瞭解電腦是什麼:是一個數位大腦嗎?還是其他的什麼?圖靈的提議為這個問題提供了一種答案。 

類比遊戲涉及兩次對話:一次是與機器的對話,另一次是與人類的對話,兩者都透過文本聊天進行,因此對話的另一方無法立即確定他或她是在與誰交談。 

如果隨著對話的進行,該人無法分辨這兩個對話者,則可以說機器具有思維能力。圖靈寫道,問答法適用於我們希望包括的幾乎任何領域。這種測試可以包括從詩歌到數學的所有內容,並以下列假設的對話為例。 

問:以福斯橋為主題寫一首十四行詩。
答:不好意思,我沒法為您寫詩。我並不擅長寫詩。
問:將 34957 與 70764 相加。
答:好的,請稍等一下。(約 30 秒後)結果是 105621。
問:你會下棋嗎?
答:是的,我會下棋。
問:當前棋盤上 K1 處有 K,除此之外沒有其他棋子。而我擁有 K6 處的 K 和 R1 處的 R。請問你要如何下棋?
答:請稍等一下。(約 15 秒後)我會走 R-R8 這一步。

在圖靈測試被提出的時候,電腦還不具備聊天的能力。科學家們透過打字機、磁帶和打孔卡將數學公式和文字指令輸入到巨大的真空管電腦中進行交流。 

隨著技術的發展,研究人員開創了一個新領域,即人工智慧。這是一項旨在建造能夠像人類一樣思考的機器的領域。 

「人們迄今為止並未能建立起流暢的對話系統,這的確是一件非常困難的事情,」 專門研究計算語言學(包括圖靈測試)的哈佛大學電腦科學家斯圖亞特·席柏 (Stuart Shieber) 表示,「但它是一個值得期待的目標。」 

1960 年代中期,機器就可以進行簡單的聊天了,但人們卻誤以為它們比實際上的更加智慧。 

在麻省理工學院,研究人員約瑟夫·韋森鮑姆 (Joseph Weizenbaum) 建造了一個名為 「伊麗莎」 的機器人治療師,它只是透過重複使用者話語來回答問題。然而,有些人將其誤解為真正的治療師,甚至向其透露了私人秘密。 

隨著時間的推移,聊天機器人的發展速度很緩慢。研究人員設定了一系列規則來定義機器人的行為,但這遠遠不夠。因為自然語言太複雜了。 

2014 年,在 AI 領域研究進行了 60 多年後,聖彼德堡的三名研究人員創造了一個名為尤金·古斯特曼 (Eugene Goostman) 的機器人,它學會了模仿一個 13 歲的烏克蘭人說話,並使用英語作為第二語言。然而,關於它通過了圖靈測試的說法被大大誇大了。 

當被問及 「鞋盒和珠穆朗瑪峰哪個更大?」 時,它回答說:「我現在無法作出選擇。」 當被問及 「駱駝有幾條腿?」 時,它回答說:「大約在 2 和 4 之間,也可能是3條?:-))) 」 

然後,大約三年後,Google和 OpenAI 等研究人員開始建立一種新的人工智慧。而從這個時候開始,它才進一步走出研究領域,成為大眾所熟知的 「聰明的機器人」。 

圖片來源: Unsplash| OpenMind

「為我寫一首十四行詩」

最近的一個早晨,我向 ChatGPT 提出了圖靈在 1950 年的論文中提出的同樣問題。它立刻撰寫了一首關於福斯橋的詩: 

它的紅漆在晨曦中閃閃發光, 
令人眼前一亮,令人目不暇接, 
它的威嚴和壯麗從未停止過。

然後它正確地算出了 3495 與 70764 之和,不需要 30 秒就能完成。當我像圖靈那樣列出一盤棋的結局時,它以典型的清晰、簡潔、自信的散文回應。它似乎理解了這種情況,但其實它誤將棋局的結束誤認為是開始,因此沒有正確回應。 

ChatGPT 是研究人員所稱的神經網路,它是一個以大腦神經元網路為模型的數學系統,並且是翻譯英語和西班牙語的技術(如谷歌翻譯),以及辨識行人的技術(如自動駕駛汽車)。 

神經網路透過分析資料來學習技能,例如,它可以透過在數以千計的停車標誌照片中尋找模式來學會辨識停車標誌。 

五年前,Google、OpenAI 和其他人工智慧實驗室開始設計神經網路,分析巨量數位文本,包括書籍、新聞報導、維基百科文章和線上聊天記錄,研究人員稱它們為「大型語言模型」。它們透過在人們連接單詞、字母和符號的方式中尋找數十億種不同的模式,學會產生自己的文本。 

它們可以創作推文、部落格、詩歌,甚至是電腦程式。它們還可以進行對話,至少在一定程度上可以對話。它們可以把毫無關聯的概念無縫地結合在一起。你可以要求它們改編皇后樂隊的流行歌曲《波西米亞狂想曲》,讓它變成一個博士後學者的生活狂想曲,它們都能完成。 

倫敦 DeepMind 實驗室的深度學習研究高級主管奧瑞歐斯 (Oriol Vinyals) 說:「人們已經建立了突破性的系統,可以應用於從語言到3D電玩遊戲的各個方面。」 機器人能夠以你想不到的方式結合各類概念。 

多年來,研究人員、企業和其他早期採用者一直在測試這些系統。最初,它們很難使用,而且產生了很多廢話。但是經過 ChatGPT,OpenAI 已經完善了這項技術。 

當人們對 OpenAI 的系統的早期版本進行測試時,OpenAI 要求他們對它的表現給出評分,以確定它是否令人信服、真實或有用。為了提高系統的效果,該實驗室透過強化學習技術,利用這些評價打磨系統,並且更深入地定義了它應該做什麼以及不應該做什麼。 

最終,人們創造了類似 ChatGPT 這樣回答個人問題的聊天機器人,這正是圖靈曾經想像過的事情。Google、Meta 以及其他組織也建立了類似的機器人。 

但是,雖然它們的語言能力令人驚訝,它們的話語和想法並不總是有理性或正確的。比如,這些系統在產生食譜時並未考慮食物的味道,對於事實和虛構也沒有明顯的區分,並且對於西洋棋的走法也總是 「出錯但仍然很有信心」。 

因為它們是基於整個網際網路的資料進行訓練的,而網際網路資料是真假參半的,所以它們能夠處理無數的情況,但又會犯很多錯誤。 

OpenAI 的研究人員將這些機器人比喻為特斯拉的 「全自動駕駛」 技術。這是一項實驗性技術,可以在城市街道上實現自動駕駛,但作為人類駕駛員,你仍然需要把注意力放在道路上,隨時準備控制車輛。「它可以完成各種任務,比如轉彎,停車,辨識行人, 但你仍然需要經常進行干預。」 

ChatGPT 是一個能夠回答任何問題的機器人,但如果將它引入其他方向,它很容易出現故障。佛朗茲·布羅塞夫可以進行幾分鐘的外交談判,但如果每次談判的時間再長一點,對方很可能就會意識到它是一個機器人了。此外,如果將它帶到其他情況下,比如接聽技術支援電話,它就不再有任何價值了。 

一項新測試

在發布其聊天機器人的六個月前,OpenAI 發布了一個名為 DALL-E 的工具。 

這一實驗性技術是對 2008 年關於機器人的動畫電影《瓦力》和超現實主義畫家薩爾瓦多·達利的致敬,它可以讓你透過描述你想看到的東西來創造數位圖像。 

這也是一個神經網路,構建得很像佛朗茲·布羅塞夫或 ChatGPT。不同的是,它同時從圖像和文本中學習。透過分析數以百萬計的數位圖像和描述它們的標題,它學會了辨識圖片和文字之間的聯繫。這就是所謂的多模態系統。 

Google、OpenAI 和其他組織已經在使用類似的方法來建立能夠產生人和物體影片的系統。初創公司正在建立機器人,可以代表使用者瀏覽軟體應用和網站。 

這些系統不是任何人都能用圖靈測試(或任何其他簡單的方法)正確評估的。因為他們的最終目標不是對話。 

谷歌和Google母公司旗下的 DeepMind 的研究人員正在開發測試,目的在評估聊天機器人和像 DALL-E 這樣的系統,以判斷它們做得好的地方,以及在哪裡缺乏理性和常識等。 

一項測試向人工智慧系統展示影片,並要求它們解釋發生了什麼。例如,在觀看了某人擺弄電動刮鬍刀後,人工智慧必須解釋刮鬍刀為什麼沒有打開。這些測試感覺很像圖靈測試,但又不完全一樣。 

我們需要一些更實用的判斷標準,能夠真正告訴我們這些系統哪些做得好,哪些做得不好,它們將如何在短期內取代人類勞動,以及它的局限是什麼。華盛頓大學名譽教授、西雅圖著名實驗室艾倫人工智慧研究所的創始首席執行長奧倫·艾齊奧尼(Oren Etzioni)說:「我們需要轉變觀念:不再透過將機器與人類行為進行比較來判斷智慧。」 

圖靈測試是用來判斷機器是否具有模擬人類思維的能力的。後者是人工智慧的一個典型表現。然而,現在正在開發的技術與人類完全不同,它們無法理解以前從未遇到過的概念,也無法將思想帶到物理世界中進行探索。 

ChatGPT 的情況也說明了這一點。隨著越來越多的使用者對它進行實驗,它展現出了它的能力和局限性。比如,當一位推特使用者詢問 ChatGPT 在序列 「O T T F F S S」 的下一個字母是什麼時,它給出了正確的答案(E)。但是它給出正確答案的原因是錯的——它並沒有意識到以上的序列規律是它們都是英語中數字 1 到 8 的第一個字母。 

同時,這些機器人在許多方面比人類更優秀。它們不會疲倦,不會被情緒影響,可以立刻掌握大量的資訊,並以人類無法實現的速度和數量產生文本、圖像和其他媒體。 

研究人員們正在進一步提高這些系統的技能,未來幾年內,它們的技能將會得到極大的提升。例如,經過幾個月的訓練後,ChatGPT 會發展出許多之前未曾有過的對話技能。 

「我們已經找到了一套技術,它可以方便地擴展,」 DeepMind 的高級研究主管拉雅·哈賽爾 (Raia Hadsell) 說,「這是一種簡單而強大的方法,並且還在不斷提升。」 

過去幾年中,我們看到聊天機器人的改進呈指數級增長,但這種改進不可能永久持續。隨著時間的推移,相應的突破和創新可能會逐漸趨於平穩。儘管如此,AI 系統仍將繼續改進,從而能使它們掌握涉及圖像、聲音和電腦程式的日益複雜的技能。電腦科學家將努力將這些機器人與其他系統結合起來,使得它們能夠完成人類無法完成的任務。 

ChatGPT 尚未通過圖靈測試,但我們知道,早在 1997 年,電腦就能在西洋棋比賽中擊敗最優秀的人類選手。將 ChatGPT 插入西洋棋程式,就能填補更多漏洞。 

在未來數年裡,這些機器人將幫助你在網際網路上尋找資訊,以便輕鬆理解相關內容。如果你願意,它們甚至可以為您撰寫推文、部落格文章和學期論文。 

它們還將在你的試算表中列出每月的開支,以幫助你更好地管理財務。它們會造訪房地產網站,為您尋找符合預算要求的房屋。此外,它們還會模擬真人,使其看起來和聽起來都與人類極其相似。最後,它們將製作出讓人愉悅的迷你電影,並配以美妙的音樂和對話。 

前 Salesforce 首席研究科學家布萊恩·麥肯 (Bryan McCann) 表示:「這將是下一個皮克斯般的突破,任何人都可以快速製作出高度個性化的電影。」 他目前正在和一家名為 You.com 的初創公司探索聊天機器人和其他人工智慧技術的應用。 

ChatGPT 和 DALL-E 所展示的情形,將是令人驚奇、迷人和有趣的。它也令我們不禁思考:它將如何影響我們的生活?拍攝電影的從業者將會受到怎樣的影響?這種技術是否會導致網路上充滿了看似真實卻實際上虛假的影像?他們的失誤是否會將我們引入歧途? 

《總統班底》講的是卡爾·伯恩斯坦和鮑勃·伍德華揭示水門事件的經典故事。在這個故事中,伍德華在大學一年級時寫了一篇歷史論文,在閱讀了許多關於國王亨利四世在 1077 年向教宗聖額我略七世求饒時赤足站在雪地上數天的文獻後,伍德華將這個軼事寫入了他的論文。 

然而,他的教授卻給這篇論文打了不及格,並解釋說,沒有人能夠赤足站在雪地上數天而不被凍死。教授說:「國王的神聖權力不能打破自然規律和常識。」 

同樣,就像將歷史軼事信以為真一樣,ChatGPT 很可能犯同樣的錯誤。在這種情況下,你需要扮演教授的角色。 

機器人將改變世界。但是你有責任對它們的言行保持警惕,審核它們提供給你的內容,對網上看到的東西持懷疑態度。研究人員知道如何賦予這些系統廣泛的技能,但他們還不知道如何賦予它們理性、常識或真理感。 

最終還是要靠人類自己。

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則