12萬詞名著175詞講完,AI比我會抓重點

12萬詞名著175詞講完,AI比我會抓重點

讓演算法像人一樣理解語言,仍有很遠的路要走。

讀完一本書後對故事內容進行總結概述,這件事情對於一個人類來講並不是能不假思索完成的。現在,機器學習模型可以了。 

近日,美國著名人工智慧非營利組織 OpenAI 公佈了一項新成果——由 GPT-3微調而來能總結梗概書籍內容的演算法模型,它不僅可以對每本書的各個章節進行概述,還能夠進行更高層次的總結。 

用機器學習來寫作體育比賽、地震、財經新聞等類別的文字摘要已經較為常見,此前,學術出版商 Springer Nature 也借助機器學習對鋰離子電池領域的數百篇研究論文做了綜述,使讀者根據摘要去有選擇地閱讀全文。 

不過,本次 OpenAI 首次將其在去年6月推出的大型語言模型 GPT-3進行應用,開發出能對文學名著等圖書進行總結概述的演算法模型。 

據稱,該進展是團隊第一次關於梗概對齊技術(scaling alignment techniques.)的大型實證工作。這里提到的對齊技術,簡單來說就是找到能夠對人一般智慧進行對齊的技術,這一類研究目前是機器學習研究的一大挑戰。 

論文連結:https://arxiv.org/abs/2109.10862 

01 AI讀名著:將12萬詞小說提煉出175詞摘要

我們來看看 OpenAI 團隊的成果,模型能對圖書內容進行怎樣的梗概? 

以很多人看過的《愛麗絲夢遊仙境》為例,這本書共十二個章節,近26,449詞。在AI更改後變成以下136詞英文摘要,也就是差不多一條微博文字的長度,大家感受一下: 

12萬詞名著175詞講完,AI比我會抓重點

可以看到,AI在事件概述上抓住了主要人物、事件和時間順序,但同時也顯得有些流水賬、缺起承轉合,很像一個小學生回家後被要求給爸爸媽媽復述課本上內容的反應。 

看完童話故事,再看看更有難度的著名劇作家莎士比亞的名著《羅密歐與朱麗葉》,“讀”完這本書後,AI寫下119詞摘要: 

12萬詞名著175詞講完,AI比我會抓重點

如果說梗概簡單的童話故事AI尚能勝任,那麼理解成人的愛情故事對它來說就顯得有些吃力。它確實把主角羅密歐與朱麗葉前後的相遇、相愛、分別、死亡點到了,卻讓人感到曠世的愛情悲劇好像被講成一場碎片拼貼起來的drama懸疑劇,讓讀者找不到矛盾的核心,更不用提被愛情感動。不過,僅從敘事梗概這個層次來說,機器做得還是比較准確的。 

看完AI對短篇文學作品的梗概,我們再來看看中長篇,比如珍·奧斯丁12萬詞的《傲慢與偏見》,摘要是這樣的: 

12萬詞名著175詞講完,AI比我會抓重點

中文譯文參考如下: 

12萬詞名著175詞講完,AI比我會抓重點

這一小說主要講述了鄉紳之女伊麗莎白·貝內特和富有的達西先生,以及他們的親友簡和賓格利的愛情故事,反映了19世紀英國鄉紳階層的禮節、成長、教育、道德、婚姻的情態。可以看到機器還是抓住了幾個主角的愛情故事的主旋律,邏輯基本沒有問題。不過不足之處和前面也十分類似,機械化、堆砌、缺乏多層次抽象。 

不過,對於這項需要從海量的人物、動作、心理、環境等描寫和復雜的時間線、場景轉換中總結出主角、主要事件的任務來說,OpenAI 的這項模型已經表現不錯。據團隊稱,其輸出結果在BookSum數據集、“敘事QA”數據集上都實現了最先進的結果,這表明盡管你覺得這一模型表現跟人類差遠了,但這已是世界先進水準。 

對此,團隊在論文中也承認,用研究模型生成的這些摘要包含了書中重要的事件,有時還對多出細節進行了抽象化地歸納總結;然而,他們經常遺漏重要的細節或無法掌握更廣泛的上下文內容。 

02 先把小說分成66部分梗概,再總結為6段

要做到整本書的梗概,OpenAI 團隊首先的工作是讓模型從總結篇幅更小的段落文字開始。 

以往,大型訓練模型並不善於總結文本。此前,團隊發現從人類反饋中訓練強化學習模型,有助於使模型變得善解人意。簡單說,就是由人來判斷模型輸出結果,以幫助模型進化,進而理解短帖和文章中人的情感和表達的含義。當任務擴展到整本書,摘要工作對模型來說變得更難。 

為瞭解決這一問題,團隊採用遞迴任務分解法,簡單來說,就是在程式上將一項艱巨的任務分解為較容易的任務。在這個任務中,就是將長文章被分解為多個小節進行處理。 

以《愛麗絲夢遊仙境》為例,團隊首先讓模型將全文66小節共長達6024詞的內容分節梗概,如下圖所示: 

66節中的第一節梗概內容

然後將這66節梗概再縮寫,轉化成6小節一共830詞的梗概,可以看到,內容逐漸變得更精簡抽象。 

6節中的第一節梗概內容

直到最後,一段136詞的梗概才呈現出來。這一梗概生成的過程可以從以下模式圖中展現,該方法可用於對任意長度的書進行總結,實現了在數十萬字的書籍上遞迴到3層深度的內容總結。 

12萬詞名著175詞講完,AI比我會抓重點

團隊指出,相對於端到端的訓練過程,遞迴任務分解具有以下優點: 

1、允許參考書籍內容的一小部分摘要來更快地評估模型,而不是閱讀原文。 

2、跟蹤摘要的編寫過程更容易。例如,可以查找摘要中的某些事件在原文中發生的位置。 

3、這一方法可用於總結無限制長度的書籍,不受使用的轉換模型上下文長度的限制。 

團隊在論文中稱:“當定量評估時,我們的模型顯著優於我們的行為克隆基線,並且,少量的總結接近人類水準的品質。” 

03 GPT-3發布一年多以來,展現出對齊人類智慧的潛力

OpenAI 本次發布的模型只聚焦一個細分領域的應用,但這一模型是由 GPT-3微調而來,代表著 GPT-3模型的最新應用進展。GPT-3的全稱叫生成預訓練轉換器-3(Generative Pretrained Transformer-3),是 OpenAI 於2020年6月推出的大型語言模型,誕生的使命是使用深度學習分類或產生人類可以理解的自然語言。 

今年3月,OpenAI 宣佈,GPT-3現已被數萬開發者用於300多個不同的應用程式,應用包括創作小說、編寫潦草的程式碼,以及讓使用者對話歷史人物等,每天輸出45億詞之多。 

任何公司都可以申請使用 GPT-3的通用API,而獲得 OpenAI 授權商用 GPT-3底層程式碼的目前只有微軟。今年5月,GPT-3被加入到 Power Apps 使用的低程式碼程式語言 Power Fx 中。 

本次,對基於 GPT-3開發的書籍內容梗概模型,OpenAI 在部落格中寫道:“這項工作是我們正在進行的調整先進人工智慧系統的研究的一部分,這是我們任務的關鍵。當訓練模型去做越來越復雜的任務時,對模型的輸出進行明智的評估對人類來說將變得越來越困難。” 

“我們目前解決這個問題的方法是,讓人類能夠利用其他模型的幫助來評估機器學習模型的輸出。” 

展望未來,團隊正在研究更好的方法來幫助人類評估模型行為,目標是找到能夠對人一般智慧進行對齊的技術。“希望我們的工作能夠鼓勵更多的研究,使用訓練過的模型來幫助人類完成更簡單的任務,為更困難的任務提供訓練指引。” 

04 結語:讓演算法對齊人類智慧,仍有很遠的路

OpenAI 的新成果讓我們看到,基於 GPT-3等語言模型,機器正在實現閱讀理解、抽象寫作等更加需要思考的復雜任務,讓人看到其向認知智慧靠近的潛力。 

與此同時,演算法的能力依然十分有限,更多是像一個剪刀手剪輯出來片段的組合,雖然看起來也能模仿人類的抽象思維,但難以把部分和總體聯繫起來結合上下文去理解事件背後的深層含義。 

讓人工智慧更具有認知智慧,進而理解人類博大精深的語言下的深層思想情感和隱含意義,這仍然距今有很長的路要走。 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則