因邦交、貿(mào)易、戰(zhàn)亂等,歷史上中國古籍時有出海,近代以來,戰(zhàn)爭和動蕩更加劇了古籍的損毀和流散。據(jù)不完全估計,散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻等等。
2019年,阿里巴巴和四川大學提出“數(shù)字化回歸”設想,四川大學歷史文化學院王果副院長與該院教授、中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機構,獲得加州大學伯克利分校支持,達成共識,將伯克利東亞圖書館的中文古籍善本逐步數(shù)字化。
加州大學伯克利分校是美國的漢學研究重鎮(zhèn),中文藏書量排名全美第三。首批數(shù)字化的20萬頁古籍中,包含40余種珍貴宋元刻本、寫本,如宋刻本《後村居士集》、北宋《金粟山大藏經(jīng)》寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業(yè)堂、密韻樓的抄本,還有命運多舛的清文瀾閣《四庫全書》零本等,很多都是消失多年后重回公眾視線的珍本。
伯克利提供古籍的掃描圖片和編目數(shù)據(jù),達摩院將其全部文字化。古漢語常用字僅有幾千,但中國古籍全部字符約有幾十萬,絕大部分不僅沒被現(xiàn)代字庫收錄,也幾乎找不到樣本供AI學習。面對海量無標注的數(shù)據(jù),如何讓AI快速批量識別古籍,始終是古籍數(shù)字化領域的技術瓶頸。
達摩院技術團隊與四川大學專家聯(lián)手研發(fā)了一套全新的古籍識別系統(tǒng)。利用單字檢測、無監(jiān)督單字聚類、小樣本學習、主動學習等機器學習方法,構造了一套邊識別古籍、邊訓練模型的系統(tǒng),以97.5%的準確率完成對20萬頁古籍的整體識別。
該系統(tǒng)已能批量識別百本古籍,并沉淀覆蓋3萬多字的古籍字典。比起專家錄入,這套人機交互的識別系統(tǒng)將效率提升了近30倍。隨著古籍識別規(guī)模的擴增,機器還會自我進化,不斷提升準確率和效率。
阿里巴巴達摩院院長張建鋒表示,守護中華傳世典籍,是科技工作者和文化工作者共同的使命。阿里計劃將這套技術工具連同古籍數(shù)字化平臺一并捐贈,交由權威公共機構長期運營,同時,阿里仍將在古籍數(shù)字化工作上持續(xù)投入人力物力。
與古籍打了一輩子交道的陳力說,典籍是中華文明的傳承載體,更是人類世界的公共財產(chǎn),希望有更多力量參與中國古籍的保護和傳承,讓更多普通人有機會接觸古籍、使用古籍,讓所有蒙塵的古籍重煥新生,讓書寫在古籍里的文字活起來。
附:
“漢典重光”首批數(shù)字化古籍重要書目一覽
1、周易兼義九卷(魏)王弼(晉)韓康伯注(唐)孔穎達疏 元刻本
2、易附記十六卷[存卷一至十一]書附記十四卷詩附記十卷[存卷一至七]禮記附記囗卷[存卷四至六]春秋附記[缺卷七、九](清)翁方綱撰 稿本,嘉業(yè)堂藏書
3、五代史闕文一卷(宋)王禹偁撰 清乾隆南昌彭氏知圣道齋抄本,清彭元瑞跋,嘉業(yè)堂藏書
4、瀛壖雜志一卷(清)王韜撰 稿本 清魏彥、左桂、孫瀜、趙烈文題記
5、金石古文八卷(題)雙華山人喬輯 清周亮工抄本 清吳騫跋
6、居業(yè)錄八卷[存卷三至四](明)胡居仁撰 清乾隆文瀾閣四庫全書本,嘉業(yè)堂藏書
7、學思錄一卷(封面題東塾存稿)(清)陳澧撰 稿本
8、丙丁龜鑒十卷(宋)柴望撰 天一閣抄本
9、新刊履齋示兒編二十三卷(宋)孫奕撰 明抄本,天一閣、嘉業(yè)堂遞藏
10、蓬軒類記四卷(明)黃暐撰 明抄本 柯逢時校,汪氏振綺堂、劉氏嘉業(yè)堂遞藏
11、大般若波羅蜜多經(jīng)[存卷第二百五十四] 北宋寫金栗山廣惠禪院大藏本
12、蘇文忠公文集[存一葉](宋)蘇軾撰 宋四川眉山刻本
13、淮海集四十卷淮海后集六卷(宋)秦觀撰 宋乾道九年高郵軍學刻宋元明遞修本,嘉業(yè)堂藏書
14、傅忠肅公文集三卷(宋)傅察撰 清初經(jīng)鉏堂抄本,曹溶舊藏
15、鶴山先生大全文集一百十卷目錄二卷[存卷一至九、九六、九十九至一百零三、一百九十](宋)魏了翁撰 民國蔣汝藻影宋抄本,密韻樓藏書
16、後村居士集五十卷目錄二卷[卷四十六至五十繆荃孫抄配](宋)劉克莊撰 宋刻本,嘉業(yè)堂藏書
17、林子真詩一卷(明)林光宇撰 明曹學佺輯 明崇禎韓錫抄本
18、茗柯文編囗編囗卷[存初編一卷三編一卷四編一卷未編稿一卷](清)張惠言撰 稿本 清范當世、近人葉恭綽跋,嘉業(yè)堂藏書
19、宋百家詩存四十卷[存卷七](清)曹廷棟輯 清文瀾閣四庫全書本
20、西清詩話三卷(題)無為子撰 明抄本,嘉業(yè)堂藏書
21、拜經(jīng)樓詩話續(xù)編二卷(清)吳騫撰 稿本,嘉業(yè)堂藏書
22、玉茗新詞四種(明)湯顯祖撰 明萬歷四十六年雕蟲館刻本