21歲SpaceX實習生用AI破譯2000年前的赫庫蘭尼姆古卷軸

2000年前的古卷軸（赫庫蘭尼姆卷軸），終於被一個21歲電腦少年給破譯了。

這個古卷軸可以說是極其的特殊——

在西元79年被一場火山爆發掩埋碳化，直到1752年才被挖掘出土。

而且由於古卷軸本身已經太脆弱了，數百年來沒人敢動它，處理稍微不當就可能化作塵埃。

赫庫蘭尼姆城和著名的龐貝古城相距8公里，位於義大利那不勒斯東南的維蘇威火山腳下；前者比龐貝古城更接近火山口。

那麼如何看到它上面記載了什麼內容，就成了困擾科學家們數百年的大難題。

現如今，隨著這位電腦少年成功的破譯，使他成為了2000年來第一個從未打開卷軸，卻「看」到了上面文字的人。

這項任務其實是來自一個叫做維蘇威火山的挑戰賽（Vesuvius Challenge）：

要求參賽者在卷軸的4平方公分區域內，至少找到10個字母。

這位少年作為完成任務的第一人，也被活動官方授予了40000美元的首字母獎（First Letters Prize）。

很多小夥伴肯定好奇，少年破譯的文字到底是什麼？

是古希臘語πορφυρας，意思是紫色染料或者紫色的衣服。

在結果出爐之後，比賽的贊助者、科技企業家Nat Friedman還手動＠了馬斯克，很驕傲地介紹這位少年：

他是你們SpaceX的實習生！

延伸閱讀：AI透過拍攝手機、ATM表面的熱成像照片，20秒內就可以破解你的密碼，成功率高達86%

破解數千年古卷軸，AI立大功

這位少年名叫路克·法瑞托（Luke Farritor），是一位電腦專業學生。

而在講這位少年的故事之前，我們還需要說明一下關於這個比賽的背景。

早在2019年，肯塔基大學EduceLab的布蘭特·希爾斯（Brent Seales）教授，便在粒子加速器中，對赫庫蘭尼姆卷軸進行了成像工作，並生成了解析度高達4μm的3D CT掃描。

▲ 希爾斯教授和團隊在粒子加速器上掃描

這位教授的博士生史蒂芬·帕森斯（Stephen Parsons），長期致力於使用機器學習模型檢測CT掃描中的墨水。

於是他和他的團隊掃描並拍攝了帶有可見墨水的分離卷軸碎片，從而提供了一個ground-truth資料集。

▲ Stephen的博士論文：在ground-truch資料集上訓練機器學習模型

這項研究成功引起了科技企業家奈特·弗里德曼（Nat Friedman）和丹尼爾·格羅斯（Daniel Gross）的注意；於是乎，在二人的贊助之下，便發起維蘇威火山挑戰賽。

他們在今年三月發起公開競賽，設置總獎金為70000美元，目的就是加速破譯古卷軸。

到了今年八月份的時候，一位叫做凱西·漢德默（Casey Handmer）的學者寫了一篇部落格，講述了他所發現的看起來像墨水的「裂紋模式（crackle pattern）」。

這可以說是一個非常重要的突破進展，即使是史蒂芬，此前也只是在分離的碎片上看到過墨水的直接證據，但還沒有在卷軸上看到過。

然後路克在一場PODCAST中，偶然聽到了這個消息和挑戰賽，也看到了凱西的裂紋模式在Discord上被廣泛討論。這引起了路克非常大的興趣，並開始利用晚上的時間，著手訓練一個關於「裂紋模式」的機器學習模型。

在訓練的過程中，他前前後後發現了幾十個墨蹟比劃，還有一些完整的字母，路克對它們做好了標記並作為訓練資料。

▲ 左：在紙莎草纖維背景下可以看到有裂紋的墨水；右：生成的二進位墨水標籤。

沒過多久，模型就露出了肉眼看不見的裂紋痕跡；這些痕跡成了最後形成字母和實際單詞的線索。

下面這張圖便是路克向挑戰賽提交的一個作品，隱約可以看到「ΠΟΡΦΥΡΑϹ」（porphyras）的單詞形狀，

當希爾斯教授和團隊看到這張圖的時候驚歎道：

儘管字母很模糊，但他們可以立即讀出「porphyras」這個詞。

這個單詞在古代文獻中也並不是很常見，但是也是經得起推敲，大概意思就是「紫色的」。

一位專家解釋說：

序列πορφυ̣ρ̣ας̣ ，可能是πορφύ̣ρ̣ας̣（名詞，紫色染料或紫色布）或πορφυ̣ρ̣ᾶς̣（形容詞，紫色）。

由於缺少上下文，也不排除是 πορφύ̣ρ̣α ς̣κ 或 πορφυ̣ρ̣ᾶ ς̣κ 。

值得注意的是，古代的單詞和現代不同，那時候的文本沒有空格，因此單詞的邊界確定起來也是比較困難。

最終挑戰賽官方認為，路克值得獲得首字母獎；而他本人在得知這一消息的時候也非常激動：

延伸閱讀：人工智慧的又一步： Vicarious 模擬人腦成功破解文字驗證碼CAPTCHA

另一位研究生也有相同的發現

無獨有偶，在凱西和路克的成果激勵之下，另一位參賽者，來自柏林Egyptian biorobotics的研究生尤瑟夫·納德爾（Youssef Nader），採用了不同的方法也得到了相同的結果。

他篩選了Kaggle上墨水檢測獎的獲獎作品，該獎項的重點是改進史蒂芬·帕森斯在分離片段中進行機器學習的方法。

在此基礎上，他採用了域轉移技術使這些模型適應古卷軸：對卷軸資料進行無監督預訓練，然後對片段標籤進行微調。

使用Kaggle競賽的這個修改模型，他設法找到了一些字母，儘管完全不依賴於凱西手動尋找裂紋的方法。然後，他將看起來像字母形狀的東西注釋到標籤數據中。

▲ 左：Youssef工作的最早的圖像；右：他的第一組假設墨水標籤。

在反復的最佳化之下，尤瑟夫向官方提交的作品如下：

最終，尤瑟夫獲得了首字母獎的二等獎，10000美元。

專家們在看到尤瑟夫的作果之後，更加確認了路克發現的古卷軸中的文字。

他們甚至開始推測上面和下面的單詞，可能是ανυοντα（實現）和ομοιων（類似）。

而就在前幾天，尤瑟夫的模型產生了更為驚人的結果：

在這張圖中，你可以清楚地看到四列半的文本，用一定的邊距隔開。

儘管並非所有字母都能被專家們立即辨認出來，但起碼可以看到更多的字母了。

官方表示，專家們正在做進一步的調研，很快將會有新的結果。

資料來源：