浩如煙海的古籍是我國珍貴的歷史文化寶藏。隨著信息化時代的來臨,,利用數字化手段保護與利用古籍成為學術界研究探索的新領域,,其中關鍵的一環(huán)是古籍識別技術,即利用計算機算法將掃描的古籍圖像轉換為可全文檢索的電子文檔,,便于學者及時獲取研究資料,。但是,古籍漢字書寫風格變化多端,、字符集數目龐大,、具有類別標記的訓練樣本匱乏,因此在識別過程中極具挑戰(zhàn),。
2015年2月,,清華大學電子工程系碩士研究生馮繼雄作為第一作者在第22屆文檔識別與檢索國際會議上發(fā)表論文“基于高斯過程風格映射的古籍漢字識別方法”,提出了一種基于非線性遷移學習的古籍漢字識別方法,,該論文獲得DRR 2015的最佳學生論文獎,。論文的第二作者為馮繼雄的導師彭良瑞副教授。在這一成果中,,馮繼雄在導師彭良瑞副教授的指導下提出的非線性遷移學習的古籍漢字識別方法,,與傳統(tǒng)的線性遷移學習相比,在遷移學習中引入高斯過程和核函數方法,可以更好地利用大量有類別標記的現代繁體漢字樣本為古籍漢字樣本進行建模,,具有更強的模型描述能力和對實際樣本的適應效果,,對于解決古籍數字化問題具有重要作用。這一成果對于我國古籍文化保護,、促進散失在海外的古籍等的數字化回歸和檢索利用具有積極的意義,。
DRR 2015是美國影像科學與技術學會和國際光學工程學會聯合舉辦的電子成像國際會議的組成部分,是文檔分析,、識別和檢索領域的專業(yè)國際學術會議,。馮繼雄此次發(fā)表的論文是彭良瑞副教授負責的由國家自然科學基金委員會與法國國家科研署共同資助的“手寫體中文古籍識別”課題的部分成果。