浩如煙海的古籍是我國珍貴的歷史文化寶藏。隨著信息化時代的來臨,利用數(shù)字化手段保護(hù)與利用古籍成為學(xué)術(shù)界研究探索的新領(lǐng)域,其中關(guān)鍵的一環(huán)是古籍識別技術(shù),即利用計算機(jī)算法將掃描的古籍圖像轉(zhuǎn)換為可全文檢索的電子文檔,便于學(xué)者及時獲取研究資料。但是,古籍漢字書寫風(fēng)格變化多端、字符集數(shù)目龐大、具有類別標(biāo)記的訓(xùn)練樣本匱乏,因此在識別過程中極具挑戰(zhàn)。
2015年2月,清華大學(xué)電子工程系碩士研究生馮繼雄作為第一作者在第22屆文檔識別與檢索國際會議上發(fā)表論文“基于高斯過程風(fēng)格映射的古籍漢字識別方法”,提出了一種基于非線性遷移學(xué)習(xí)的古籍漢字識別方法,該論文獲得DRR 2015的最佳學(xué)生論文獎。論文的第二作者為馮繼雄的導(dǎo)師彭良瑞副教授。在這一成果中,馮繼雄在導(dǎo)師彭良瑞副教授的指導(dǎo)下提出的非線性遷移學(xué)習(xí)的古籍漢字識別方法,與傳統(tǒng)的線性遷移學(xué)習(xí)相比,在遷移學(xué)習(xí)中引入高斯過程和核函數(shù)方法,可以更好地利用大量有類別標(biāo)記的現(xiàn)代繁體漢字樣本為古籍漢字樣本進(jìn)行建模,具有更強(qiáng)的模型描述能力和對實際樣本的適應(yīng)效果,對于解決古籍?dāng)?shù)字化問題具有重要作用。這一成果對于我國古籍文化保護(hù)、促進(jìn)散失在海外的古籍等的數(shù)字化回歸和檢索利用具有積極的意義。
DRR 2015是美國影像科學(xué)與技術(shù)學(xué)會和國際光學(xué)工程學(xué)會聯(lián)合舉辦的電子成像國際會議的組成部分,是文檔分析、識別和檢索領(lǐng)域的專業(yè)國際學(xué)術(shù)會議。馮繼雄此次發(fā)表的論文是彭良瑞副教授負(fù)責(zé)的由國家自然科學(xué)基金委員會與法國國家科研署共同資助的“手寫體中文古籍識別”課題的部分成果。