人工智能開啟甲骨文整理
研究新范式
在甲骨學研究中,甲骨“校重”整理是一項費事費力但又極其重要的基礎(chǔ)性研究工作。微軟亞洲研究院與首都師范大學甲骨文研究中心莫伯峰教授團隊合作開發(fā)的甲骨文校重助手 Diviner,第一次將自監(jiān)督 AI 模型引入到甲骨文“校重”工作中,并取得數(shù)百項新成果,為甲骨文整理領(lǐng)域開創(chuàng)了人工智能與人類專家協(xié)作(AI+HI)的全新研究范式。
入選《世界記憶名錄》的甲骨文,是迄今為止中國發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),對中國歷史乃至世界文化的發(fā)展研究具有非凡意義。有人曾說“東周之前無信史”,因為《春秋》一書記錄了2000多年前的東周歷史,而之前的商文明曾被認為是傳說,直至甲骨文被發(fā)現(xiàn),才有力地證明了殷商王朝的存在,把中國信史向上推進了約1000年。
從甲骨文首次被發(fā)現(xiàn)至今,出土的甲骨實物約有十五萬片。因為收藏、流轉(zhuǎn)的緣故,大部分的甲骨都留下了多張拓本圖像,被稱為“重片”。甲骨重片數(shù)量繁多,效果互有參差,對其整理成為了一項重要的基礎(chǔ)性研究工作,稱作“校重”。然而,人工校重只能一一對照,費時費力,是甲骨文研究的一大痛點。正如《甲骨文合集補編》“前言”中所述:“這種對重、選片的工作,其煩瑣、費工是局外人難以想象的。”
近期,微軟亞洲研究院主管研究員武智融與首都師范大學甲骨文研究中心莫伯峰教授團隊合作,提出了基于自監(jiān)督學習的甲骨文校重助手 Diviner,大幅提升了甲骨文校重工作的效率。系統(tǒng)窮盡比對了18萬幅拓本,輔助甲骨學家在上百個甲骨文數(shù)據(jù)庫中發(fā)現(xiàn)了大量甲骨重片,不僅復現(xiàn)了專家過去所發(fā)現(xiàn)的數(shù)萬組重片,而且經(jīng)過初步整理,已發(fā)現(xiàn)了三百多組未被前人發(fā)現(xiàn)的校重新成果。這項研究為甲骨文整理領(lǐng)域開創(chuàng)了人工智能與人類專家協(xié)作(AI+HI)的全新研究范式。本項目全面成果的甲骨學解讀稍后將發(fā)布于中國社科院先秦史研究室網(wǎng)站 www.xianqin.org。
AI在甲骨文“校重”中
令人驚喜的新發(fā)現(xiàn)
“校重”是甲骨學領(lǐng)域的一個老題目,此前已經(jīng)有很多甲骨學家為這項工作傾注了大量心血。比如甲骨文領(lǐng)域最重要的兩部著錄書《合集》《合補》,在編著過程中花費大量功夫做的工作就是校重。理論上來說,完成一張甲骨拓本的校重工作,應該將它與其余的所有甲骨拓本逐一比照,才能確保沒有遺漏。盡管可以利用文字信息和分類方法縮小對比范圍,但對于甲骨學家而言,這仍然是一項十分艱巨的工作,且難以保證全面性和準確性。
對比和處理海量數(shù)據(jù),并從中挖掘有用信息正是 AI 的專長。大規(guī)模的校重,窮盡性的比對,都難不倒校重助手 Diviner。接下來就讓我們一起看看 Diviner 的效果。你也可以測試一下自己能否發(fā)現(xiàn)其中的異同?
這些校重結(jié)果對
甲骨文研究有什么作用?
作為三千年前古人留下的一份禮物,每一片甲骨都彌足珍貴。但目前甲骨的研究主要依靠拓本圖像,而非甲骨實物,所以拓本就是甲骨研究的根本出發(fā)點。很多時候一個字形、一條卜辭的清楚認知,就來自更全、更清的拓本材料。所以甲骨學家從不放過哪怕只有一個字的拓本。
本次校重助手 Diviner 就提供了一批更全、更清晰的甲骨圖像,更有不少堪稱驚喜的新發(fā)現(xiàn):
“重而不同”的新圖像。左側(cè)是時間較早,沒有拓全的甲骨拓本。右側(cè)是時間較晚的拓本,甲骨殘破只余下一部分,盡管拓全了但很不完整。通過將兩個拓本重疊,獲得了一張最完整的甲骨圖像,特別是右上部分的一段甲骨文字的完整展現(xiàn),為甲骨文研究直接提供了一條新材料。
“有里有面”的新圖像。有些甲骨正反兩面皆有文字,但有時只有一面留下了拓本。比如馬保春先生曾發(fā)現(xiàn)這兩版反面拓本可以綴合在一起。但其中一片的正面圖像一直沒有找到。Diviner 校重發(fā)現(xiàn)了下面一片甲骨的正反完整拓本,正面綴合復原的圖像也終于得以呈現(xiàn)。
從“重片”到“綴合”。左側(cè)圖像是過去由張宇衛(wèi)先生綴合在一起的兩片甲骨。通過 Diviner 的校重發(fā)現(xiàn),下部拓本原來還有一片更完整的重片。如此,兩片甲骨的綴合就擴展成了三片甲骨的綴合。
從模糊到清晰。由于有些甲骨拓本質(zhì)量不高,上面文字難以辨認,給甲骨學家?guī)砗芏嗬_。比如這幾組重片,模糊拓本上的文字讓人難以辨認,直到這次發(fā)現(xiàn)了清晰的重片,才把過去的很多疑惑解決了。
Diviner 在甲骨校重工作中的出色表現(xiàn)和展現(xiàn)出的巨大潛力得到了很多甲骨學家的認可。復旦大學出土文獻與古文字研究中心研究員蔣玉斌認為:“甲骨校重與指出互見,是甲骨學重要的基礎(chǔ)性工作。同一甲骨片,可能經(jīng)過多次著錄,各版本有早有晚,清晰度、完整度存在差別,需要加以關(guān)聯(lián)、比對、研判。過去,這種工作完全靠學者憑經(jīng)驗、記憶零星舉列,雖頗有得,但總體上耗時費力,也仍有大量未能指出的重出、互見現(xiàn)象。莫伯峰教授團隊與微軟亞洲研究院合作開發(fā)的人工智能甲骨文校重助手 Diviner,實現(xiàn)了大范圍的校重,效率高,成果多,令人振奮。我堅信,在甲骨校重與指出互見方面,校重助手 Diviner 已經(jīng)遠勝人力,今后此項工作的大規(guī)模開展,或?qū)⑼耆尚V刂?Diviner 這樣的工具取代。近年,有多支學術(shù)團隊致力于甲骨文等古文字研究與人工智能的融合創(chuàng)新,先進的技術(shù)手段將為古老文字的研究插上騰飛的翅膀。但人工智能助力古文字研究的著力點在哪里,是首先要解決的問題。校重助手 Diviner 很好地契合了甲骨文研究的需要與人工智能的專長,功效顯著,成果突出,我認為是人工智能輔助甲骨文研究的成功典范?!?/p>
自監(jiān)督學習首次在甲骨文中應用
AI模型泛化性顯著
校重助手 Diviner 能有如此出眾的效果,技術(shù)上是如何實現(xiàn)的?有哪些創(chuàng)新之處?
近兩年,不依賴人工標注數(shù)據(jù)的自監(jiān)督學習是 AI 研究的熱門方向,但很多前沿技術(shù)仍停留在研究階段。Diviner 不僅第一次將自監(jiān)督 AI 模型引入到甲骨文“校重”工作,也是自監(jiān)督 AI 模型在真實場景中的一次成功應用。
“盡管自監(jiān)督研究熱度很高,但是很多問題最終還是要通過人工數(shù)據(jù)標注來解決。我們一直希望使用完全無標注的數(shù)據(jù)進行自監(jiān)督學習,甚至是人工根本上無法標注的數(shù)據(jù)?!蔽④泚喼扪芯吭褐鞴苎芯繂T武智融說,“甲骨校重需要兩兩比對十八萬張數(shù)據(jù)庫中的所有拓片,這為基于完全無標注數(shù)據(jù)的自監(jiān)督學習模型應用提供了一個絕佳的落地場景?!?/p>
計算兩張拓片的視覺相似度,通常的方法會從全局特征出發(fā)。然而,在甲骨文的研究中,即使是重片,外觀上也可能有很大差異,這是由于拓印范圍、拓印方式、磨損等多方面原因造成的??紤]到一塊完整的甲骨可能會碎裂成多片,校重時經(jīng)常需要從大骨片中找出小骨片。因此,基于全局外觀表示的傳統(tǒng)方法并不能很好地發(fā)揮作用。面對這一挑戰(zhàn),研究員想到了甲骨拓片的特性,因其是從同一塊甲骨而來,重片之間存在著精確的點與點的對應關(guān)系?;谶@一特性,校重助手 Diviner 從局部尋找匹配關(guān)系,再拓展到全局。
局部匹配。Diviner 使用的局部描述符(local descriptor)是經(jīng)過自監(jiān)督訓練的深度神經(jīng)網(wǎng)絡。模型應用了對比學習的自監(jiān)督技術(shù),使用圖像增強,讓特征在訓練時不受甲骨拓片上清晰度、對比度、噪音、旋轉(zhuǎn)等因素的影響。在甲骨圖像上訓練的局部描述符能夠檢測和匹配局部塊之間的關(guān)鍵點,并進行點對點匹配。
全局優(yōu)化。基于密集的點與點的匹配結(jié)果,通過使用魯棒的優(yōu)化算法 RANSAC 估計全局的幾何仿射變換。仿射變換允許模型在內(nèi)容重復的情況下拼合或拼接已有圖像。這種局部到全局的方法對檢測大量的甲骨碎片至關(guān)重要。
Diviner 模型一個特點是具有強大的泛化能力,這歸功于其自監(jiān)督學習的匹配算法。模型通過圖像增強技術(shù)模擬同一塊甲骨在不同時期制作成拓片或者因年深日久造成的圖像變化,例如磨損、模糊等。在大規(guī)模無標注數(shù)據(jù)上獲取的密集的自我監(jiān)督,遠遠比稀疏的基于整體的人工監(jiān)督更有效。
Diviner 模型另一個特點在于能夠精確的預測出重片之間點對點的對應關(guān)系,并將重片拼合或拼接在一起。這種可以被專家快速解讀的結(jié)果大大方便了人類與人工智能的協(xié)同合作。對于甲骨文這樣的冷門絕學,人機合作尤為重要。在校重結(jié)果中,專家可以看到局部匹配細節(jié)和重疊圖,極大地幫助并加速了他們驗證的過程。
“過去的甲骨校重工作中,對拓面差異較大的不同拓本之間的認同存在現(xiàn)實困難。甲骨文校重助手 Diviner,既不受文字信息的限制,也不受圖像數(shù)量的限制,直接運用圖像比對就可以完成精準的圖像校重,并取得了顯著的成果??梢灶A期,隨著 Diviner 模型功能的不斷完善,甲骨學界一定會取得更大、更多的科研成果?!鼻迦A大學出土文獻研究與保護中心教授王子楊如此評價校重助手 Diviner。
“AI+HI”為古文化研究
打開新大門
“甲骨學是一個系統(tǒng)性的科學,一方面它是一種語言文字研究資料,另一方面它是一種歷史研究資料,其研究涉及方方面面,研究者需要了解文字在古代的形、音、義等等,因此我們解決一個問題也要從不同維度探討。此次與微軟亞洲研究院的合作只是甲骨文和人工智能交叉研究的一個小序幕,推開了甲骨學研究的一扇新大門,為后續(xù)的研究起到了示范作用。未來,人工智能與古文字研究的結(jié)合將具有更廣闊的前景?!蹦褰淌诒硎尽?/p>
微軟亞洲研究院主管研究員武智融(左)與首都師范大學甲骨文研究中心莫伯峰教授(右)
"我們很高興看到人工智能模型 Diviner 能夠為甲骨學專家節(jié)省用于甲骨文數(shù)據(jù)整理的時間,讓他們更專注于其他方面的研究。甲骨文是兼具象形圖像屬性和文字屬性的神秘語言,多模態(tài)的人工智能在甲骨文研究上有著廣闊天地。未來,我們希望能夠與甲骨文專家一起探索更多有趣的課題?!蔽渲侨诒硎?。
計算機圖形圖像領(lǐng)域知名學者、微軟亞洲研究院常務副院長郭百寧表示,“甲骨文作為世界文化的瑰寶,其研究已經(jīng)發(fā)展成為國際性的學術(shù)課題。多年來,微軟亞洲研究院一直致力于將最前沿的計算機技術(shù)應用于文化遺產(chǎn)保護與傳承等具有社會意義的研究中,并取得了諸多成果。我們希望可以與更多研究機構(gòu)、研究學者共同合作,為推進世界文化、歷史的保護和傳承貢獻一份力量?!?/p>
你知道本文每個小標題的圖標分別是哪種動物的甲骨文么?歡迎在評論區(qū)留言你的答案!
*文章中用到的拓本來自四本甲骨著錄書:①《甲骨文合集》②《甲骨文合集補編》③《上海博物館所藏甲骨文字》④《殷虛書契續(xù)編》
? ?
?
原文標題:當人工智能?研究?上了甲骨文
文章出處:【微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
微軟
+關(guān)注
關(guān)注
4文章
6554瀏覽量
103896
原文標題:當人工智能?研究?上了甲骨文
文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論