讓AI說中文的難度往往被低估了,GPT的「母語」到底是什麼?

讓AI說中文的難度往往被低估了,GPT的「母語」到底是什麼?

Google BARD最近向所有用戶開放,問題是,出人意外的是,目前還不支援中文。

或許你會想,讓AI可以用中文溝通,這件事那麼難嗎?ChatGPT不就做出來了?Google你家大業大,為什麼花了這麼多時間卻還做不出中文的AI?

沒錯,這件事還真的有那麼難。

你不妨想想,每次在跟ChatGPT聊天時,就算你指定他用繁中來回答,有時候我們聊到一半,它會突然冒出簡中的回答,甚至把他逼急了,他還會用英文來回答你。再不然有的時候,你問一些比較「在地」的問題,往往會覺得他的回答不怎麼「在地」,甚至好像在糊弄你。

有時候,你會覺得,你是在跟一個去中國學過中文的外國人在聊天。

其實,這樣的想法,似乎也不算錯。

 ChatGPT這樣的大語言模型,「母語」到底是什麼?

要解釋這個問題,或許就需要知道ChatGPT到底是怎麼「說話」的。這可以從GPT三個字母的全稱,Generative Pre-trained Transfomer(生成型預訓練變換器)得到答案。

生成型,意思就是依靠上文,預測下文。而預訓練變換器,則意味著它使用了 Transfomer 架構,也就是通過模仿人類的「注意力機制」,學習詞與詞之間的關係,並預測下一個單詞。

而對於 ChatGPT 來說,它使用的是一種自回歸式的生成模式,也就是模型每生成一個字,都會加入到上文中進行下一次預測,這使得模型的學習能力和精準度都有顯著提升。

讓AI說中文的難度往往被低估了,GPT的「母語」到底是什麼?

從結果來看,ChatGPT可以和我們用「語言」進行對話,從原理上看,ChatGPT 是一個可以通過數學運算預測,完成接下句的工作的模型。我們完全可以說,ChatGPT 其實本人並不知道它輸出的「答案」背後到底是什麼意思,但可以輸出從語言角度上來講正確的答案。

GPT-4的中文挺好的,是怎麼做到的?

GPT-4 發佈以後,我們可以看到幾個例子,比如一本書你自己看花了三天,給GPT-4看,發現它完全可以理解,非常厲害,試用了以後也發現,GPT-4 在中文理解和輸出上也已經有了很強的能力了。

那它是怎麼做的?

GPT-3 的論文裡其實有部分解釋 ChatGPT 的「few-shot學習」機制。簡單來說,就是舉例子。

比如我要讓AI翻譯「上山打老虎」,我會在輸入問題的時候,同時給他幾個中譯英的例子,像這樣:

Promot:上山打老虎

example1:天王蓋地虎 ---- sky king gay ground tiger

example2:上陣父子兵 ---- go to battlefield together

然後再讓 AI 根據這個上下文進行輸出,這個就叫 In-contex learning,是 OpenAI 訓練模型的實際方式。真正的原理目前恐怕一時半會兒解釋不清楚,但從 GPT-3 的論文標題《Language Models are Few-Shot Learners》我們就能知道結果很明顯:好用。

到了 GPT-4,它的多語言理解能力更強了,但這次論文裡公開的技術細節很少,而且從某些角度來講,ChatGPT 能做到的,和大家能解釋的內容開始逐漸發生偏差。

那中文不行,影響什麼了?

在很多人的測試中,指出中文差,導致語言模型在學習中文表達的時候遇到了很多的困難。但事實上照理來說,有了前面提到的 in-context learning 機制,其實現在的大語言模型在掌握一門新語言的時候,不需要這門語言的龐大語料庫了。理論上說,不同語言對於AI來說都是資料,在大算力和深度學習面前,沒有什麼太大的區別。

道理是這樣,但我們可以瞭解一下 ChatGPT 本身選取語料的辦法,根據論文顯示,GPT-3 模型用到的 Token(NLP研究對於詞語的一個單位)數量高達499B,也就是4990億個。而 GPT-4 到底用了多少外文語料,OpenAI 目前還沒有公開。

GPT-3論文裡關於訓練集的資料

雖然說名師出高徒,但臭皮匠的數量足夠,外加正確的學習方法,還是能出高徒的。

那如果我們用文言文訓練呢?

在視訊的評論區里很多人提出了這個有趣的問題!還有人說文言文是不是人類最後的堡壘,那我們火星文是不是也有機會……

如果你理解了前面我們對於 ChatGPT 原理和訓練過程的介紹,就會知道其實文言文可能對於資料模型來說,只是「要不要練,怎麼練」的過程。

如果我們想要一個會說文言文的 AI,可能需要給他喂足夠多的文言文語料,這背後帶來更多的工作,比如說文獻數位化、分類、提取……

人工智慧是個燒錢的生意,或許目前我們還不太需要一個會說文言文的 AI?

誰知道呢。

那如何讓AI說好中文?

或許我們可以照貓畫虎,通過ChatGPT和BERT的公開資訊,梳理一個工作表——到底需要做什麼,才能讓AI說好中文。

首先是語料,語料就彷彿是土壤,有好的土壤自然就有好的基礎。或許我們需要一些除了維基百科之外的中文語料集來進行訓練,同時或許也可以像 OpenAI 一樣,先使用英文語料,再教會它翻譯。

其次就是訓練方式方法,技術路線各家有各家的不同,但具體採用什麼樣的技術手段,一定會直接影響產品的最終表現。

最後就是錢和時間。時間很簡單,誰學說話不得花時間呢,其次就是錢。據估算,GPT-3 訓練一次的成本是500萬美元,而整體成本更是突破數億美元。

這些都是白花花的銀子。

AI 用英語訓練,對多元文化的影響是什麼?

這似乎是一個不太被目前所討論的問題,但正如好萊塢對全球文化的影響,如果人工智慧真的會像一些人預期那樣席捲全球,那麼這基於英語的訓練資料,是否會影響文化的多元性呢?

在 OpenAI 公佈的論文里我們可以知道,ChatGPT 在進行 RLHF(基於人工反饋的強化學習)時,尋找了40個承包商(contractor)進行”打標籤“(labeling),這些承包商是什麼背景的,我們暫時不得而知。

GPT-4 論文顯示經過 RLHF 後做題得分有顯著增加

又考慮到目前 Transfomer 和神經網路的黑箱特性,這些人工干涉的部分會對最終的模型產生什麼影響,實際上是暫時不明確的。但從以往人工智慧的實例來看,偏見普遍存在,而通過參數調整解決這個偏見,還是個難題。

大型語言模型會影響語言本身嗎?

網路上有一個笑話:

「有的公司在訓練有意識的AI;有的公司在訓練無意識的工人。」

現在各種 AI 使用指南“正在如同雨後春筍般冒出來,從實際效果來看,至少可以確定的是,用ChatGPT學習外語絕對是可行的,像是翻譯、潤色、理解,這些都是大語言模型所擅長的。

但也有人擔心了,如果我們過度依賴大語言模型,我們會不會又從訓練 AI 的人,變成被 AI 訓練的人呢?如果 AI 底層有一些問題,那我們是否會受到影響呢?

結果誰也不敢說,因為AI發展的速度實在是太快了……就好像在人工智慧的牌桌上,在沒有攤牌之前,每個人的手裡都是一對ACE一樣。

至於攤牌之後會怎麼樣?恐怕只有到時才知道。

 

 

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則