AI比對 快速解讀甲骨文 首都師範大學與微軟合作
原文刊於信報財經新聞「StartupBeat創科鬥室」
刻在龜甲或獸骨上的甲骨文,其歷史可追溯到3000年前,為已知最早期的中國文字形式,惟不少謎團尚待破解。最近北京的研究人員與微軟亞洲研究院合作,共同開發人工智能(AI)模型「校重助手Diviner」,針對已公布的18萬餘片甲骨文拓本,用大約3至5分鐘作初步「校重」整理,為史料研究工作節省大量時間。
甲骨文據說由清朝金石學家王懿榮於1899年首次發現,他在中藥龍骨上看到類似文字的符號,其後考證出是屬於商代文字。在1928年,中研院史語所正式發掘河南安陽殷墟遺址。時至今日,出土甲骨達15萬件,散落全球100多間機構。
最早的甲骨文抄本,是用中國墨拓製作,近年開始用照片,以至3D成像技術製作,這些拓本圖像被稱為「重片」。為解讀背後的秘密,研究人員必須像拼圖一樣,人手逐塊碎片比較,配對重複或重疊的圖像。大約4500個甲骨字符中,至今只解讀約1000個含義。
18萬組拓片三百項新發現
上海復旦大學出土文獻與古文字研究中心指出,由於同一甲骨片或經過多次著錄,各版本的清晰度及完整度存在差異,因此要做大量工作,加以關聯、比對及解釋。這些工序需要完全依靠有豐富經驗及敏銳記憶的學者,不但耗時費力,也有大量無法分辨的重出、互見現象。
微軟亞洲研究院與首都師範大學甲骨文研究中心莫伯峰教授團隊,花了8至9個月構建AI模型。去年11月,Diviner從100個數據庫中,比較了18.11萬件甲骨文拓片,不但發現數萬組重複記錄,更配對了300組前人未破解的拓片,論文刊登在中國社會科學院先秦史研究室網站上。
冀憑上下語境推測含義
簡單而言,Diviner模型通過圖像增強技術,模擬同一塊甲骨在不同時期製作成拓片,或者因年深日久造成的圖像變化,例如磨損、模糊等。此外,模型更能精確的預測出,重片之間點對點的對應關係,把重片拼合或拼接於一起。透過深度神經網絡,提取拓片的局部特徵,排除當中的干擾因素,加快數據整理過程。
甲骨文於2017年被聯合國教科文組織入選《世界記憶名錄》,它不但是商代晚期占卜及祈福的卜辭記錄,亦是中國文字系統的最早證據,一脈相承發展到現代漢字。莫伯峰早前接受央視《朝聞天下》訪問時稱,未來希望利用AI語言模型,根據上下語境推測文句含義。