ADVERTISEMENT
想創作一幅迅猛龍在摩天樓頂上工作的畫作,模仿 1932 年的「摩天樓頂上的午餐」的那種風格?找 DALL-E。想創作一檔由彼得·泰爾、伊隆·馬斯克和賴利·佩吉三人出演的虛構單口喜劇節目?用 GPT-3。
想深入瞭解 COVID-19 方面的研究,並基於證據回答問題?學習如何進行布林搜尋、閱讀科學論文,甚至可能還得弄到博士學位,因為沒有針對大量科學研究出版物進行訓練的產生 AI 模型。如果有這樣的模型的話,獲得有證據支持的、通俗易懂的科學問題的答案將是這樣的模型最簡單的好處之一。
用於科學的產生型人工智慧可以幫助扭轉科學創新減速的局面,讓我們更容易找到新的想法。這樣的模型還可以為一定會失敗的治療假說提供資料支援,讓那種論調懸崖勒馬,抵消掉人類的偏見,並避免走進會浪費數十億美元、浪費幾十年時間的死胡同。最後,此類模型還可以透過對研究結果進行映射、權衡以及聯繫上下文,給出可信度分數,進而應對可重複性危機。
那麼為什麼還沒有用於科學身上的 DALL-E 或 GPT-3 呢?原因在於,雖然科學研究是全世界最有價值的內容,但同時也是最難獲得、最難理解的內容。本文將解釋如何大規模地解鎖科學資料,讓產生式人工智慧成為可能,以及這種人工智慧將如何改變我們的研究方式。
科學研究資料很有挑戰性的原因在哪裡
研究出版物是全世界最重要的內容和資訊庫之一。它們將不同時間和學科的想法和發現聯繫在一起,並透過圖書館的網路永久保存起來。這些材料有證據、分析、專家剖析與統計關係的支持。它們非常有價值,但基本上都隱藏在 web 之外,而且使用效率也非常低。Web 上充斥著各種各樣阿貓阿狗的影片,但尖端的癌症研究卻近乎空白。比方說,Web of Science 是最全面的科學知識索引之一了,誕生至今已有幾十年,但大多數讀者甚至連聽都沒聽說過它,就更不必說使用了。我們當中的大多數人都沒法看到那些研究論文,就算給你看,那些文字也十分的晦澀難懂,而且被打包成了 PDF——這種格式是專為列印而設計的。
因為科學論文不容易獲得,我們不能輕易地利用這些資料來訓練像 GPT-3 或 DALL-E 這樣的產生模型。如果研究人員提出一個實驗,人工智慧模型馬上就可以告訴他們之前是不是已經有人做過(最好是還提供結果),這樣的情形你能想像嗎?然後,一旦他們從某個新穎的實驗中獲得了資料,人工智慧就可以根據結果提出後續實驗設想呢?最後,再想像一下如果研究人員可以上傳他們的結果,然後由人工智慧模型為他們編寫結果的初稿的話,又可以節省多少時間。與科學版的 DALL-E 最接近的是 Google Scholar,但後者不是一個可持續或可擴展的解決方案。IBM Watson 也在著手實現此處描述的大部分工作,但他們的大部分工作都是在大型語言模型取得的最新進展之前做的,並且沒有利用適當或足夠的資料來配合他們的行銷炒作。
要想解鎖我說的那種價值,我們需要有長期投資、承諾和願景。為此,我們需要將科學出版物當作要進行大規模組合和分析的基質。一旦消除了障礙,我們就可以利用科學來為需要大量資料的產生 AI 模型提供資料。這些模型有加速科學和提高科學素養的巨大潛力,比方說可以訓練這些模型來產生新的科學思想,幫助科學家管理和瀏覽大量科學文獻,幫助辨識有缺陷甚至是假冒的研究,以及綜合複雜的研究結果並將其轉化為普通的人類語言等。
如何才能得到科學版 DALL-E 或 GPT-3?
如果你是科技圈的,向朋友展示 DALL-E、GPT-3 等產生 AI 模型的輸出,就仿佛在向他們展示魔法一樣。這些工具代表了 web 的下一代。它們源自對巨量資訊的綜合,這種綜合超越了簡單的關聯,而是開發出具有產生能力的工具。那麼,我們如何才能在科學領域也創造出類似的神奇體驗,讓任何人都可以用通俗易懂的語言提出科學文獻的問題,並得到有證據支持的,可理解的答案呢?我們如何才能幫助研究人員做出假設,然後不斷完善和檢驗這些假設?在阿茲海默症研究當中,人們因為錯誤地假設遺傳與抑鬱症之間存在關聯,進而浪費了數十億美元,我們如何才能避免這種無效的假設呢?
這些問題的解決方案聽起來也許像科幻小說,但有證據表明,當科學工作的用途不僅僅是部分之和時,我們就可以做出驚人的、不可思議的事情。事實上,透過利用蛋白質資料庫(Protein Data Bank)當中的近 200000 種蛋白質結構,AlphaFold 就能夠準確地預測出有記錄在案的每種蛋白質(超過 2 億個!)的結構。用類似於理解蛋白質結構的方式去研究論文自然是我們要邁出的下一步。
將論文分解成最小的組件
研究論文裡面充滿了各種有價值的資訊,包括數位、圖表、統計關係以及對其他論文的引用。將這些內容分解成各種組成部分,並大規模地利用這些組成部分,可以幫助我們訓練機器去處理科學相關的不同類型的工作或課題。簡單的問題可以透過對某種成分類型的訓練來回答,但更複雜的問題則需要結合多種成分類型,並需要瞭解它們之間的關係。
一些可能的比較複雜的提示範例如下:
- 「告訴我為什麼這個假設是錯的」
- 「告訴我為什麼我的處理辦法行不通」
- 「產生新的處理辦法」
- 「有什麼證據支持社會政策 X?」
- 「這個領域最可靠的研究是誰發表的?」
- 「根據我提供的資料幫我寫一篇科學論文出來」
有些團體正在朝著這一願景邁進。比方說,Elicit 就將 GPT-3 應用到數百萬篇論文標題和摘要上,去幫助回答研究人員提出的問題——這有點像科學版的 Alexa。系統會提取實體之間的統計關係,顯示不同的概念和實體是如何連結的。 Primer 本身的重點並不是研究論文,但它確實在與 arXiv 合作,提供了一個資訊儀表板,可供企業和政府用來綜合和理解來自多個來源的大量資料。
存取所有的組件
不幸的是,這些團體的工作主要靠標題和摘要,而不是全文,因為約六分之五的文章都不是免費就可以獲得的,或者弄到並不容易。對於擁有資料或論文的 Web of Science 和Google等團體來說,其許可和使用範圍存在限制或是不明確的。就Google而言,目前我們還弄不清楚為什麼他們沒有公開宣布自己在 Google Scholar 針對全文科學研究訓練 AI 模型的努力。令人驚訝的是,在導致全球陷入停頓的疫情大流行期間,這種情況甚至都沒有發生改變。在這種情況下,Google AI 團隊挺身而出,為公眾就查詢有關 COVID-19 的問題提供了一種方法原型。但是,奇怪的是,他們當時是用了來自 PubMed 的可免費存取的論文,而不是來自 Google Scholar 的論文。
幾十年來,有人一直在宣導要開放獲取論文,而且這些論文的用途不應該只是看一遍就完。我本人已經親自研究了近十年,在我攻讀博士學位的最後一年曾推出過一個名為 The Winnower 的開放獲取出版平臺,然後在另一家初創企業 Authorea 致力於開發未來的文章。雖然這些舉措都沒有完全按照我希望的方式取得進展,但正是因為有了那些努力,我才得以開展目前在 scite 方面的工作,至少部分透過直接與出版商合作解決了存取的問題。
連接元件並定義關係
scite的目標是引入下一代引文——我們稱之為智慧引文(Smart Citations)——它會呈現出文獻是如何引用以及如何討論特定文章、研究人員、期刊或主題的,以及為什麼要引用。透過與出版商的合作,我們得以直接從全文中提取出所用引文的相關句子。這些句子可以為理解「論文是如何被更新的文章所引用的」提供定性的見解。就有點像研究版的爛番茄(Rotten Tomatoes網站。
為了做到這一點,需要能存取引文的全文,並與出版商合作,透過利用機器學習來大規模提取和分析引文陳述。因為有了足夠多的文章可供啟動我們的工作,我們得以開發出概念驗證,並一一向出版商展示被我們的系統索引到的文章的可發現性增加了,而且我們還為他們提供了一個系統,去展示更好的指標,幫助做出更負責任的研究評估。
用關係資料來訓練 AI 模型
從論文提取的要素和關係可用來訓練針對研究的新型大型語言模型。GPT-3 雖然非常強大,但畢竟它不是為科學工作而開發的,而且在回答你可能會在 SAT上看到的那種問題方面表現不佳。用數百萬篇研究論文對 GPT-2(GPT-3 的早期版本)進行訓練適配後,這種 AI 在特定的知識任務上的表現要比直接用 GPT-2 的效果更好。這凸顯了用於訓練模型的資料是什麼非常重要。
有些團體最近在用 GPT-3 來撰寫學術論文,雖然這頗為令人印象深刻,但那些論文聲稱要展示的事實或論點也許是非常錯誤的。如果這個模型連簡單的 SAT 式的問題都不能回答正確的話,我們又怎麼可以相信它能寫出一篇完整的論文呢?誕生比 GPT-3 早了近 20 年的 SCIgen 表明,產生看起來很逼真的論文相對容易。他們的系統雖然簡單得多,但產生的論文卻能夠被各種會議接受。我們需要的不僅是一個看起來科學而且實際上也很科學的模型,而且需要要有一個系統來驗證機器和人類的聲明。 Meta 最近引入了一個用於驗證 Wikipedia 引用的系統,有的出版商直言,希望學術出版物也能擁有這樣的系統。
當前進展
再強調一次,這樣的系統要想取得成果,關鍵是要排除獲取論文和資源的障礙,有了這些才有做出模型的可能。但凡可以大規模使用論文或資訊的地方,我們確實就看到了工具和新模型在這些地方的蓬勃發展。Google專利團隊用 1 億項專利來訓練一個説明分析專利的系統,其實那就相當於一個 GooglePatentBERT。其他人則引入了像 BioBERTSciBERT 這樣的模型,儘管事實上用來訓練模型的資料大概只占特定學科領域約 1% 的科學文本,但這些模型已經在學術任務(包括我們 scite 的引文分類系統)中有了令人印象深刻的表現。
最近又發布了一個 ScholarBERT 模型,這個模型可以利用所有的科學文獻來訓練 BERT。他們克服了存取問題,但他們對如何解決問題卻保持沉默,只是強調使用是「非消耗性的」。這個用例可能會為其他人在未經出版商明確許可的情況下使用文章打開大門,並且可能是創建科學版 DALL-E 的重要一步。不過,令人驚訝的是,ScholarBERT 在各種專業知識任務上的表現還比不上 SciBERT 等規模較小的科學語言模型。
重要的是,BERT 風格的模型比 GPT-3 等大型語言模型的規模要小得多,而且這種模型不支援通用提示和上下文學習,而這是 GPT-3 炒作的主要賣點。問題仍然存在:如果我們用訓練 ScholarBERT 的相同資料來訓練像 GPT-3 這樣的大規模產生模型會是什麼情況?如果我們能設法展示機器提供的答案是來自哪裡的,或者將它們直接與文獻(如智慧引用)關聯起來又會怎樣?
為什麼是現在?
幸運的是,現在對論文的存取正變得越來越開放,機器也變得越來越強大。我們現在可以用論文以及連接的儲存庫中的資料來訓練機器,去回答問題,並基於研究合成出新想法。這可能會對醫療保健、政策、科技以及我們周圍的一切產生變革性的影響。想像一下,如果我們能搜尋的不只是文檔標題,還能搜尋答案,這對各個學科的研究和工作流程會產生什麼樣的影響。
將全球的科學知識從可訪問性和可理解性的雙重障礙中解放出來,這可以幫助推動 Web 把放在點擊、瀏覽、點讚和關注上的焦點轉移到證據、資料以及真實性上面。製藥公司顯然有動力實現這一目標,所以才會有越來越多的初創企業用人工智慧來辨識潛在的藥物目標——但我相信公眾、政府和任何用Google的人,為了結果的可信性和節省時間,可能都會願意棄用免費的搜尋。世界迫切需要這樣一個系統,而且馬上就要。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!