無標題文檔我們讓計算機識圖認字
●丁曉青

THOCR具有強大的識圖認字功能
電子系智能圖文研究室集十余年的努力,,致力于使計算機具有識圖認字的人類感知的能力,,能自動認識各種文字和文本圖像,使人們長期的夢想終于部分成真。
在今天,,我們可以快速,、準確,、輕易地將印刷的報章雜志,、書籍文本自動變成計算機可閱讀的電子文檔;可以利用筆寫字與計算機交流會話,;可以將人們書寫的文字表格自動輸入計算機,;可以將過去必須由人們識圖認字解決的問題,交由計算機自動解決和實現(xiàn),,大大解脫人們漢字輸入繁重的勞動,,為計算機智能信息處理開辟了極為寬廣的道路,。
在這十余年的努力中,我們從模仿人類視覺感知出發(fā),,即人類的視覺感知是形象思維,,而非邏輯思維過程,研究和發(fā)展了模式識別信息熵理論,,基于統(tǒng)計模式識別的理論和算法,,在特征提取和選擇、分類器設計和集成,、識別可信度分析、利用上下文的模式識別算法等方面的研究成果,,解決了包括數(shù)量達兩萬余字的超大集合漢字在內(nèi)的東方多國文字文本圖像的計算機識圖認字問題,;解決了從聯(lián)機手寫漢字識別到脫機手寫漢字和數(shù)字等極大變化模式類別的識別問題;解決了低質(zhì)量,、低清晰度文字的識別問題,;還解決了從版面自動分析、文檔自動識別,、版面自動理解和版面自動重構(gòu)為一體的文本全信息數(shù)字化問題,。
在這十余年的努力中,我們不僅在理論和方法上取得成果,,更重要的是把研究成果投入到實際的應用中,,開發(fā)成為產(chǎn)品,在千萬人們的文檔數(shù)字化實際應用中經(jīng)受考驗,,反饋促進我們的研究,。我們的THOCR產(chǎn)品有十年歷史,有國內(nèi)65%以上市場,,在我國漢語信息資源建設中發(fā)揮著重要作用,;業(yè)已聞名國內(nèi)外,并授權(quán)于IBM,、摩托羅拉,、諾基亞等許多國際知名公司。我們的中日韓東方文字識別系統(tǒng)授權(quán)于微軟公司,,經(jīng)美國Scansoft公司評測,,居國際領(lǐng)先水平。