「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

AI 真的可以用來科學地算命了?丹麥科學家用全國 600 萬人的公開資料訓練一個基於 Transformer 的模型,成功的預測意外死亡和性格特點。

丹麥理工大學的研究人員聲稱,他們已經設計出一種人工智慧模型,據說可以預測人們生活中的重大事件和結果,包括每個人死亡的大致時間。文章在前兩天登上了 Nature 的子刊 Computational Science。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

作者 Sune Lehmann 稱,「我們使用該模型來解決一個基本問題:我們可以在多大程度上,根據過去的條件和事件,來預測未來的事件?」

看來作者研究的目的沒有別的,確實就是想用 AI 來幫大家算命。

研究人員將人的生活軌跡表徵,為時間順序的生活事件序列,這種表徵方法與自然語言具有結構相似性。利用 Transformer 模型的表徵學習能力,可以學習到生活事件的語義空間,並生成個體生活序列的緊湊向量表徵。

研究人員利用丹麥約 600 萬人口的健康和勞動力資料,建構了基於 Transformer 的模型「life2vec」。模型的輸入資料是個人的出生時間、地點、教育、健康狀況、職業和薪資等,而輸出數據包括了「意外死亡」和「性格的細微差異」等和個人生活息息相關的內容。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

研究團隊基於生活序列對個人的生活事件展開預測,模型表現明顯優於當前其他方法。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

相比於其他方法,life2vec 模型對於性格的細微差異有更加優秀的預測結果。

研究人員在論文中進一步指出,模型的概念空間和個體表徵空間都是有意義和可解釋的,可以用來生成新假說,為個體化干預提供可能。

人的一生也許是可以預測的

人類目前正在經歷的「人類預測時代」的核心原因,是海量資料集和強大的機器學習演算法的出現。

在過去的十年裡,機器學習透過訪問越來越大的資料集,使越來越複雜的模型成為可能,從而使圖像和文字處理領域發生革命性的變化。語言處理發展得特別快,Transformer 體系結構已被證明可以成功捕獲大量非結構化單詞序列中的複雜模式。

雖然這些模型起源於自然語言處理,但將它們捕獲人類語言中的結構的能力推廣到其他序列,這些序列與語言有著相似的屬性。不過由於缺乏大規模資料,Transformer 模型尚未應用於行業外的多模態社會經濟資料。

而研究人員的資料集改變了這一點,資料集的巨大體量,使研究團隊能夠建構個體生命軌跡的序列等級表徵,其中詳細說明每個人如何在時間中移動。研究人員可以在不同類型的事件中觀察個人生活是如何演變的 (關於心臟病發作的資訊與加薪或從城市搬到農村的資訊混合在一起)。

每個序列中的時間解析度和序列的總數都足夠大,研究人員可以有意義地應用基於 transformer 的模型來預測生活事件的結果。這意味著表徵學習可以應用於一個全新的領域,以發展對人類生活的進化和可預測性的新理解。

具體地說,研究人員採用了類似 Bert 的架構,來預測人類生活兩個非常不同的方面:死亡時間和個性細微差別。

研究人員發現,模型可以精準預測這些結果,在早期死亡的情況下,比目前最先進的方法高出11%。為了做出這些精準的預測,研究人員的模型依賴於生活中所有事件的單一公共嵌入空間-軌跡。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

正如研究語言模型中的嵌入空間可以提供對人類語言的新理解一樣,研究人員可以研究嵌入空間的概念,以揭示生活事件之間的非平凡相互作用。

以下就是研究人員提供了對由此產生的生活事件的概念空間的洞察,並展示該空間和模型本身的健壯性和可解釋性。

基於 Transformer 的模型還產生了對個體的嵌入 (語言表徵中的類比是總結整個文本的向量)。使用顯著圖和概念啟動向量 (TCAV) 等可解釋性工具,研究人員表明個人摘要也是有意義的,並具有作為行為表型的潛力,可以改進其他個人水平的預測任務,例如,增強對醫學圖像的分析。

模型預測結果

研究人員用一種簡單的符號語言對豐富的資料進行編碼。

複雜的多源時態資料的原始資料流帶來了巨大的方法論挑戰,例如不規則的採樣率、資料的稀疏性、特徵之間的複雜互動以及大量的維度。

用於時間序列分析的經典方法 (例如,支援向量機,ARIMA)變得繁瑣,因為它們具有伸縮性,不靈活,並且需要大量的資料預處理來提取有用的特徵。

使用轉換方法允許研究人員避免手工製作的特徵,而是以一種利用與語言的相似性的方式對資料進行編碼。具體地說,在研究人員的例子中,每一類離散特徵和離散連續特徵形成一個詞彙表。

這個詞彙表 —— 連同時間的編碼 —— 允許研究人員將每個生活事件 (包括其詳細的限定資訊) 表徵為一個由合成詞或概念符號組成的句子。

研究人員在每個事件上都附加了兩個時間指標。一個是指定個人在事件發生時的年齡,另一個是捕捉絕對時間。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

因此,研究人員的合成語言可以捕捉到這樣的資訊:「2020 年 9 月,法蘭西斯科在艾辛諾爾的一座城堡裡當警衛時,收到了 2 萬丹麥克朗。」

或者「在寄宿中學的第三年,赫敏參加了五門選修課」。在這個意義上,一個人的生命進程被表徵為一串這樣的句子,它們一起構成了個人的生命序列。

此研究方法中編碼包含關於個人生活中事件的詳細資訊,而不犧牲原始資料的內容和結構。

life2vec 模型

研究人員使用 transformer 模型來形成個人生活的緊湊表徵,而此深度學習模型為 life2vec。

Life2vec 模型基於 transformer 架構。由於其壓縮上下文資訊的能力,以及考慮時間和位置資訊,Transformer 非常適合表徵生命序列。

Life2vec 的訓練分為兩個階段。首先,研究人員透過同時使用 (1) 一個遮罩語言模型(MLM)任務,迫使模型使用標記表徵和上下文資訊 (2) 一個序列排序預測(SOP)任務,關注序列的時間連貫性來訓練模型。預訓練建立了一個概念空間,並教會模型生命序列結構中的模式。

接下來,為了建立個人生命序列的緊湊表徵,模型執行了一個分類任務。模型在這最後一步學習的個人總結取決於分類任務;它辨識並壓縮了為給定下游任務最大化確定性的模式。

例如,當研究人員要求模型預測一個人的個性細微差別時,人物嵌入空間將圍繞著對個性貢獻的關鍵維度建構。

跨領域的精準預測

任何模型的首要測試是預測性能。life2vec 不僅超越了現有的 SOTA,同時還能在非常不同的領域進行分類預測。研究人員在兩個不同的任務上測試了他們的框架。

預測早期死亡率

研究人員估算一個人在 2016 年 1 月 1 日之後四年內存活的可能性,這是統計建模中常用的任務。此外,死亡率預測與其他健康預測任務密切相關,因此需要 life2vec 建模個人健康序列的發展以及勞動歷史,以成功預測正確的結果。

具體來說,給定一個序列表示,life2vec 推斷出一個人在研究人員序列結束後的四年內(2016 年 1 月 1 日)存活的可能性。

研究人員專注於對年輕的群體進行預測,包括 30 至 55 歲的個人,其中死亡率難以預測。

研究人員展示了使用修正的Matthews相關係數 C-MCC61的模型的性能,該模型由於存在未標記的樣本而調整 MCC 值。

Life2vec 比基線高出 11%。請注意,增加 RNN 模型的大小並不能提高它們的性能。

下圖 2.D 還細分了各種子組的性能:基於年齡和性別的交叉組,以及基於序列長度的組。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

預測個性的細微差別

死亡作為一個預測目標是明確定義的,也是非常可衡量的。

為了測試 life2vec 的多功能性,研究人員現在預測「個性細微差別」,這是測量光譜的另一端的結果,是個體內部的東西,通常可以通過問卷調查來衡量。

儘管很難測量,但個性是塑造人們思想、情感和行為並預測生活結果的重要特徵。具體地說,研究人員關注內向-外向維度領域中的人格細微差別 (為了簡單起見,下面是外向),因為相應的人格細微差別是上個世紀 (在西方世界) 出現的基本人格結構的幾乎所有綜合模型的一部分。

作為研究人員的資料集,研究人員使用了在「丹麥個性和社會行為小組」(POSAP) 研究中為一大群有很大代表性的個體收集的資料。

研究人員隨機選擇一個項目 (個性細微差別) 每個外向方面,並預測個人水平的答案。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

上圖顯示,將 Life2vec 應用於生命序列不僅允許研究人員預測早期死亡率,而且具有足夠的通用性,足以捕捉個性的細微差別)。

Life2vec 在所有項目上的得分都高於 RNN,但只有在項目 2 和 3 上差異有統計學意義。為這一特定任務而訓練的 RNN 也能夠提取個性周圍的訊號,這一事實凸顯出,儘管變壓器模型很強大,但使 Life 2vec 如此通用的很大一部分原因是資料集本身。

概念空間:理解概念之間的關係

研究人員方法的新奇之處在於,該演算法學習包含人類生活中可能發生的所有事件的單個聯合多維空間。研究人員從可視化開始研究人員對這個空間的探索。

全域視野

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

在上圖中,使用 PaCMAP 將原始的 280 維概念投影到二維圖上,該圖保留了高維空間的局部和全域結構。

在這裡,每個概念都根據其類型進行著色。

這種顏色清楚地表明,總體結構是根據合成語言的關鍵概念組織的:健康、工作類型等,但有趣的細節,將出生年份、收入、社會地位和其他關鍵的人口統計資訊分開。這個空間的結構是高度魯棒的,並在一系列條件下可靠地重複出現。

概念空間的精細結構是有意義的。深入挖掘全域佈局,研究人員發現該模型學習了附近概念之間的錯綜複雜的關聯。

研究人員透過鄰居分析來研究這些局部結構,該分析利用原始高維表示中概念之間的餘弦距離作為相似性度量。

個人摘要

個人的摘要是一個單一的向量,它概括了一個人的整個生活事件序列的基本方面。

個人摘要跨越了研究人員的人嵌入的空間。為了形成人的摘要,模型確定哪些方面與手頭的任務相關。從這個意義上說,人稱摘要是以特定的預測任務為條件的。以下即為研究人員側重於死亡可能性的人稱摘要。

「AI 算命」新模型Life2vec成功預測死亡時間,這篇論文的實際內容在講什麼?

上圖可視化了個人概要的空間。

相對於死亡率預測,該模型將個體組織在從低到高地估計死亡率 (D 組中的點雲) 的連續體上。

在圖中,研究人員透過紅色菱形顯示真實的死亡,而預測的可信度通過點的半徑來表現 (例如,具有小半徑的點是低置信度預測)。

此外,使用從黃色到綠色的顏色對應來顯示估計的機率。

研究人員看到,雖然區域 2 大多數都是老年人,但仍然看到很大一部分年輕人 (圖 5E),它包含一小部分真正的目標 (圖 5F)。

B 區具有很大程度上相反的結構,大多數是年輕人,但也有相當數量的老年人 (圖 5E),只有一人實際死亡 (圖 5F)。

當研究人員查看低機率區域的實際死亡時,研究人員發現距離區域 1 最近的 5 個死亡原因如下--兩個意外、腦部惡性腫瘤、子宮頸惡性腫瘤、心肌梗塞。

參考資料:

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則