12萬詞名著175詞講完，AI比我會抓重點

讓演算法像人一樣理解語言，仍有很遠的路要走。

讀完一本書後對故事內容進行總結概述，這件事情對於一個人類來講並不是能不假思索完成的。現在，機器學習模型可以了。

近日，美國著名人工智慧非營利組織 OpenAI 公佈了一項新成果——由 GPT-3微調而來能總結梗概書籍內容的演算法模型，它不僅可以對每本書的各個章節進行概述，還能夠進行更高層次的總結。

用機器學習來寫作體育比賽、地震、財經新聞等類別的文字摘要已經較為常見，此前，學術出版商 Springer Nature 也借助機器學習對鋰離子電池領域的數百篇研究論文做了綜述，使讀者根據摘要去有選擇地閱讀全文。

不過，本次 OpenAI 首次將其在去年6月推出的大型語言模型 GPT-3進行應用，開發出能對文學名著等圖書進行總結概述的演算法模型。

據稱，該進展是團隊第一次關於梗概對齊技術（scaling alignment techniques.）的大型實證工作。這里提到的對齊技術，簡單來說就是找到能夠對人一般智慧進行對齊的技術，這一類研究目前是機器學習研究的一大挑戰。

▲ 論文連結：https://arxiv.org/abs/2109.10862

01 AI讀名著：將12萬詞小說提煉出175詞摘要

我們來看看 OpenAI 團隊的成果，模型能對圖書內容進行怎樣的梗概？

以很多人看過的《愛麗絲夢遊仙境》為例，這本書共十二個章節，近26,449詞。在AI更改後變成以下136詞英文摘要，也就是差不多一條微博文字的長度，大家感受一下：

可以看到，AI在事件概述上抓住了主要人物、事件和時間順序，但同時也顯得有些流水賬、缺起承轉合，很像一個小學生回家後被要求給爸爸媽媽復述課本上內容的反應。

看完童話故事，再看看更有難度的著名劇作家莎士比亞的名著《羅密歐與朱麗葉》，“讀”完這本書後，AI寫下119詞摘要：

如果說梗概簡單的童話故事AI尚能勝任，那麼理解成人的愛情故事對它來說就顯得有些吃力。它確實把主角羅密歐與朱麗葉前後的相遇、相愛、分別、死亡點到了，卻讓人感到曠世的愛情悲劇好像被講成一場碎片拼貼起來的drama懸疑劇，讓讀者找不到矛盾的核心，更不用提被愛情感動。不過，僅從敘事梗概這個層次來說，機器做得還是比較准確的。

看完AI對短篇文學作品的梗概，我們再來看看中長篇，比如珍·奧斯丁12萬詞的《傲慢與偏見》，摘要是這樣的：

中文譯文參考如下：

這一小說主要講述了鄉紳之女伊麗莎白·貝內特和富有的達西先生，以及他們的親友簡和賓格利的愛情故事，反映了19世紀英國鄉紳階層的禮節、成長、教育、道德、婚姻的情態。可以看到機器還是抓住了幾個主角的愛情故事的主旋律，邏輯基本沒有問題。不過不足之處和前面也十分類似，機械化、堆砌、缺乏多層次抽象。

不過，對於這項需要從海量的人物、動作、心理、環境等描寫和復雜的時間線、場景轉換中總結出主角、主要事件的任務來說，OpenAI 的這項模型已經表現不錯。據團隊稱，其輸出結果在BookSum數據集、“敘事QA”數據集上都實現了最先進的結果，這表明盡管你覺得這一模型表現跟人類差遠了，但這已是世界先進水準。

對此，團隊在論文中也承認，用研究模型生成的這些摘要包含了書中重要的事件，有時還對多出細節進行了抽象化地歸納總結；然而，他們經常遺漏重要的細節或無法掌握更廣泛的上下文內容。

02 先把小說分成66部分梗概，再總結為6段

要做到整本書的梗概，OpenAI 團隊首先的工作是讓模型從總結篇幅更小的段落文字開始。

以往，大型訓練模型並不善於總結文本。此前，團隊發現從人類反饋中訓練強化學習模型，有助於使模型變得善解人意。簡單說，就是由人來判斷模型輸出結果，以幫助模型進化，進而理解短帖和文章中人的情感和表達的含義。當任務擴展到整本書，摘要工作對模型來說變得更難。

為瞭解決這一問題，團隊採用遞迴任務分解法，簡單來說，就是在程式上將一項艱巨的任務分解為較容易的任務。在這個任務中，就是將長文章被分解為多個小節進行處理。

以《愛麗絲夢遊仙境》為例，團隊首先讓模型將全文66小節共長達6024詞的內容分節梗概，如下圖所示：

▲ 66節中的第一節梗概內容

然後將這66節梗概再縮寫，轉化成6小節一共830詞的梗概，可以看到，內容逐漸變得更精簡抽象。

▲ 6節中的第一節梗概內容

直到最後，一段136詞的梗概才呈現出來。這一梗概生成的過程可以從以下模式圖中展現，該方法可用於對任意長度的書進行總結，實現了在數十萬字的書籍上遞迴到3層深度的內容總結。

團隊指出，相對於端到端的訓練過程，遞迴任務分解具有以下優點：

1、允許參考書籍內容的一小部分摘要來更快地評估模型，而不是閱讀原文。

2、跟蹤摘要的編寫過程更容易。例如，可以查找摘要中的某些事件在原文中發生的位置。

3、這一方法可用於總結無限制長度的書籍，不受使用的轉換模型上下文長度的限制。

團隊在論文中稱：“當定量評估時，我們的模型顯著優於我們的行為克隆基線，並且，少量的總結接近人類水準的品質。”

03 GPT-3發布一年多以來，展現出對齊人類智慧的潛力

OpenAI 本次發布的模型只聚焦一個細分領域的應用，但這一模型是由 GPT-3微調而來，代表著 GPT-3模型的最新應用進展。GPT-3的全稱叫生成預訓練轉換器-3（Generative Pretrained Transformer-3），是 OpenAI 於2020年6月推出的大型語言模型，誕生的使命是使用深度學習分類或產生人類可以理解的自然語言。

今年3月，OpenAI 宣佈，GPT-3現已被數萬開發者用於300多個不同的應用程式，應用包括創作小說、編寫潦草的程式碼，以及讓使用者對話歷史人物等，每天輸出45億詞之多。

任何公司都可以申請使用 GPT-3的通用API，而獲得 OpenAI 授權商用 GPT-3底層程式碼的目前只有微軟。今年5月，GPT-3被加入到 Power Apps 使用的低程式碼程式語言 Power Fx 中。

本次，對基於 GPT-3開發的書籍內容梗概模型，OpenAI 在部落格中寫道：“這項工作是我們正在進行的調整先進人工智慧系統的研究的一部分，這是我們任務的關鍵。當訓練模型去做越來越復雜的任務時，對模型的輸出進行明智的評估對人類來說將變得越來越困難。”

“我們目前解決這個問題的方法是，讓人類能夠利用其他模型的幫助來評估機器學習模型的輸出。”

展望未來，團隊正在研究更好的方法來幫助人類評估模型行為，目標是找到能夠對人一般智慧進行對齊的技術。“希望我們的工作能夠鼓勵更多的研究，使用訓練過的模型來幫助人類完成更簡單的任務，為更困難的任務提供訓練指引。”