合合信息用AI 搶救古彝文 發(fā)布業(yè)內首個編碼數(shù)據(jù)庫
微新創(chuàng)想(idea2003.com)9月27日 消息:據(jù)第一財經(jīng)消息,近日,合合信息聯(lián)合上海大學、華南理工大學,發(fā)布了業(yè)內首個古彝文基礎編碼數(shù)據(jù)庫。該數(shù)據(jù)庫通過人工智能技術,對云貴地區(qū)流傳的古彝文字符進行數(shù)字化編碼,編制成類似“大字典”的數(shù)據(jù)庫,以幫助相關人士更便捷地查詢古彝文的讀音和釋義。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
據(jù)介紹,古彝文指民間流傳使用的原生態(tài)彝文,有87046個字符,遠多于漢字。其中,《西南彝志》是目前發(fā)現(xiàn)的篇幅最長、內容最豐富的古彝文典籍。但由于古彝文異體字繁多,一個字可有幾十種不同寫法,給古籍數(shù)字化帶來巨大挑戰(zhàn)。
為突破難點,項目組采用智能圖像處理、文字識別等人工智能技術,對7萬6千余個樣本進行訓練,建立古彝文統(tǒng)一的數(shù)字編碼。數(shù)據(jù)庫發(fā)布后,相關用戶只需輸入一串編碼,就可查詢到字的讀音、釋義等信息,大大降低了閱讀古籍的門檻。
合合信息表示,數(shù)據(jù)庫的發(fā)布是基礎性工作,有助更多人認識、研究古彝文,也為語言文明的保護提供了新路徑。當前,數(shù)字化已成為文化傳承的重要途徑。數(shù)據(jù)庫項目表明,人工智能可以發(fā)揮重要作用,助力傳統(tǒng)文化走向數(shù)字化。