阿里達摩院技術助中文古籍數位化,20萬頁古籍AI辨識準確率97.5%

阿里達摩院技術助中文古籍數位化,20萬頁古籍AI辨識準確率97.5%

「漢典重光」是由阿里巴巴公益基金會、中國四川大學、加州大學柏克萊分校、中國國家圖書館及浙江圖書館等單位共同合作,旨在尋覓流散海外的中國古籍將其數位化與公共化,讓大家特別是古籍研究者能夠親近古籍,透過古籍與先賢對話,與優秀傳統文化對話。

阿里達摩院技術助中文古籍數位化,20萬頁古籍AI辨識準確率97.5%

阿里巴巴達摩院院長張建鋒表示,阿里巴巴計劃將這套技術工具連同古籍數位化平台一併捐贈,交由權威公共機構長期運營,同時,阿里巴巴仍將在古籍數位化工作上持續投入人力物力。

漢典重光平台數位化的中文古籍《宋百家詩存》內容

加州大學柏克萊分校是美國的漢學研究重鎮,以中文藏書量計,為全美國排名第三。納入首批數位化名單的約20萬頁古籍中,包含40餘種珍貴宋元刻本及寫本,例如宋刻本《後村居士集》、北宋《金粟山大藏經》寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業堂、密韻樓的抄本,還有命運多舛的清文瀾閣《四庫全書》零本。

漢典重光平台數位化的中文古籍《宋百家詩存》卷首

將古籍數位化的方法主要有兩種,一種是純人工錄入,將內容全數輸入至電腦之中;另一種是電腦與人工相結合,由電腦利用光學字元辨識(OCR)技術辨識一部分文字,電腦無法辨識的文字就由專家手動錄入,最終再由人工校對。

達摩院技術團隊與四川大學專家聯手研發一套全新的古籍辨識系統,利用單字檢測、無監督單字聚類、少樣本分類、主動學習等一系統機器學習方法,構造一套邊辨識古籍、邊訓練模型的系統,以97.5%的準確率完成對20萬頁古籍的整體辨識。

目前該古籍識別系統已經能有規模地辨識逾百本古籍,並沉澱覆蓋3萬多字的古籍字典。比起專家人工錄入,這套人機交互的辨識系統將效率提升近30倍。隨著古籍識別規模的擴增,機器還會自我進化,不斷提升準確率和效率。

Hsuann
作者

T客邦特約編輯 ,負責產業即時報導、資訊整理

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則