ADVERTISEMENT
2000年前的古卷軸(赫庫蘭尼姆卷軸),終於被一個21歲電腦少年給破譯了。
這個古卷軸可以說是極其的特殊——
在西元79年被一場火山爆發掩埋碳化,直到1752年才被挖掘出土。
而且由於古卷軸本身已經太脆弱了,數百年來沒人敢動它,處理稍微不當就可能化作塵埃。
赫庫蘭尼姆城和著名的龐貝古城相距8公里,位於義大利那不勒斯東南的維蘇威火山腳下;前者比龐貝古城更接近火山口。
那麼如何看到它上面記載了什麼內容,就成了困擾科學家們數百年的大難題。
現如今,隨著這位電腦少年成功的破譯,使他成為了2000年來第一個從未打開卷軸,卻「看」到了上面文字的人。
這項任務其實是來自一個叫做維蘇威火山的挑戰賽(Vesuvius Challenge):
要求參賽者在卷軸的4平方公分區域內,至少找到10個字母。
這位少年作為完成任務的第一人,也被活動官方授予了40000美元的首字母獎(First Letters Prize)。
很多小夥伴肯定好奇,少年破譯的文字到底是什麼?
是古希臘語πορφυρας,意思是紫色染料或者紫色的衣服。
在結果出爐之後,比賽的贊助者、科技企業家Nat Friedman還手動@了馬斯克,很驕傲地介紹這位少年:
他是你們SpaceX的實習生!
破解數千年古卷軸,AI立大功
這位少年名叫路克·法瑞托(Luke Farritor),是一位電腦專業學生。
而在講這位少年的故事之前,我們還需要說明一下關於這個比賽的背景。
早在2019年,肯塔基大學EduceLab的布蘭特·希爾斯(Brent Seales)教授,便在粒子加速器中,對赫庫蘭尼姆卷軸進行了成像工作,並生成了解析度高達4μm的3D CT掃描。
這位教授的博士生史蒂芬·帕森斯(Stephen Parsons),長期致力於使用機器學習模型檢測CT掃描中的墨水。
於是他和他的團隊掃描並拍攝了帶有可見墨水的分離卷軸碎片,從而提供了一個ground-truth資料集。
這項研究成功引起了科技企業家奈特·弗里德曼(Nat Friedman)和丹尼爾·格羅斯(Daniel Gross)的注意;於是乎,在二人的贊助之下,便發起維蘇威火山挑戰賽。
他們在今年三月發起公開競賽,設置總獎金為70000美元,目的就是加速破譯古卷軸。
到了今年八月份的時候,一位叫做凱西·漢德默(Casey Handmer)的學者寫了一篇部落格,講述了他所發現的看起來像墨水的「裂紋模式(crackle pattern)」。
這可以說是一個非常重要的突破進展,即使是史蒂芬,此前也只是在分離的碎片上看到過墨水的直接證據,但還沒有在卷軸上看到過。
然後路克在一場PODCAST中,偶然聽到了這個消息和挑戰賽,也看到了凱西的裂紋模式在Discord上被廣泛討論。 這引起了路克非常大的興趣,並開始利用晚上的時間,著手訓練一個關於「裂紋模式」的機器學習模型。
在訓練的過程中,他前前後後發現了幾十個墨蹟比劃,還有一些完整的字母,路克對它們做好了標記並作為訓練資料。
沒過多久,模型就露出了肉眼看不見的裂紋痕跡;這些痕跡成了最後形成字母和實際單詞的線索。
下面這張圖便是路克向挑戰賽提交的一個作品,隱約可以看到「ΠΟΡΦΥΡΑϹ」(porphyras)的單詞形狀,
當希爾斯教授和團隊看到這張圖的時候驚歎道:
儘管字母很模糊,但他們可以立即讀出「porphyras」這個詞。
這個單詞在古代文獻中也並不是很常見,但是也是經得起推敲,大概意思就是「紫色的」。
一位專家解釋說:
序列πορφυ̣ρ̣ας̣ ,可能是πορφύ̣ρ̣ας̣(名詞,紫色染料或紫色布)或πορφυ̣ρ̣ᾶς̣(形容詞,紫色)。
由於缺少上下文,也不排除是 πορφύ̣ρ̣α ς̣κ 或 πορφυ̣ρ̣ᾶ ς̣κ 。
值得注意的是,古代的單詞和現代不同,那時候的文本沒有空格,因此單詞的邊界確定起來也是比較困難。
最終挑戰賽官方認為,路克值得獲得首字母獎;而他本人在得知這一消息的時候也非常激動:
另一位研究生也有相同的發現
無獨有偶,在凱西和路克的成果激勵之下,另一位參賽者,來自柏林Egyptian biorobotics的研究生尤瑟夫·納德爾(Youssef Nader),採用了不同的方法也得到了相同的結果。
他篩選了Kaggle上墨水檢測獎的獲獎作品,該獎項的重點是改進史蒂芬·帕森斯在分離片段中進行機器學習的方法。
在此基礎上,他採用了域轉移技術使這些模型適應古卷軸:對卷軸資料進行無監督預訓練,然後對片段標籤進行微調。
使用Kaggle競賽的這個修改模型,他設法找到了一些字母,儘管完全不依賴於凱西手動尋找裂紋的方法。然後,他將看起來像字母形狀的東西注釋到標籤數據中。
在反復的最佳化之下,尤瑟夫向官方提交的作品如下:
最終,尤瑟夫獲得了首字母獎的二等獎,10000美元。
專家們在看到尤瑟夫的作果之後,更加確認了路克發現的古卷軸中的文字。
他們甚至開始推測上面和下面的單詞,可能是ανυοντα(實現)和ομοιων(類似)。
而就在前幾天,尤瑟夫的模型產生了更為驚人的結果:
在這張圖中,你可以清楚地看到四列半的文本,用一定的邊距隔開。
儘管並非所有字母都能被專家們立即辨認出來,但起碼可以看到更多的字母了。
官方表示,專家們正在做進一步的調研,很快將會有新的結果。
資料來源:
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!