清華大學(xué)民族文字識(shí)別領(lǐng)域再結(jié)碩果
千龍網(wǎng) 2004-9-6
民族語(yǔ)言文字信息化工作邁上新臺(tái)階
全球首款維哈柯(漢英)阿(英)印刷文檔識(shí)別系統(tǒng)問(wèn)世
8月10日,全球首款在統(tǒng)一系統(tǒng)框架中支持維吾爾文、哈薩克文、柯爾克孜文(簡(jiǎn)稱維哈克文)以及阿拉伯文(簡(jiǎn)稱阿文)的印刷文檔識(shí)別系統(tǒng)在清華大學(xué)問(wèn)世,這標(biāo)志著我國(guó)阿拉伯文字體系文檔識(shí)別技術(shù)已經(jīng)位居國(guó)際前列。據(jù)悉,該系統(tǒng)可以準(zhǔn)確、高效的將維哈柯文的紙質(zhì)文檔轉(zhuǎn)化為電子文檔,因此極大的方便了上述文字資料的信息化處理,必將促進(jìn)我國(guó)少數(shù)民族地區(qū)的經(jīng)濟(jì)文化建設(shè)和對(duì)外交流。該系統(tǒng)還全面支持全球超過(guò)2億人使用的阿拉伯文的識(shí)別,因此也將對(duì)我國(guó)與阿拉伯國(guó)家的合作、交流產(chǎn)生深遠(yuǎn)影響。
在8月10日于清華大學(xué)舉行的該系統(tǒng)鑒定會(huì)上,由倪光南院士領(lǐng)銜的多位信息處理及維哈柯阿語(yǔ)言領(lǐng)域的專家組成的鑒定委員會(huì)對(duì)該系統(tǒng)給予了極高的評(píng)價(jià)。鑒定專家們一致認(rèn)為:作為目前國(guó)內(nèi)外首款在統(tǒng)一系統(tǒng)框架中支持維、哈、柯、阿的印刷文檔識(shí)別系統(tǒng),其對(duì)實(shí)際文本的識(shí)別率以及主要技術(shù)指標(biāo)均達(dá)到了國(guó)際領(lǐng)先水平,應(yīng)用前景極為廣闊。
專家表示,清華大學(xué)民族文字識(shí)別領(lǐng)域的技術(shù)成果,可是稱得上是民族語(yǔ)言文化邁入信息化大門的一把金鑰匙。一個(gè)民族的文字記載著民族的歷史和文化,而一個(gè)民族要跟上現(xiàn)代信息社會(huì)的發(fā)展步伐,語(yǔ)言文字的信息化是個(gè)關(guān)鍵。只有把紙面記載的大量歷史、經(jīng)濟(jì)、文化信息轉(zhuǎn)化成計(jì)算機(jī)能讀懂的數(shù)字語(yǔ)言,才能促使民族文化的瑰寶更方便的流傳、處理和保存,才能達(dá)到社會(huì)經(jīng)濟(jì)信息資源共享、充分利用的目的,從而使民族地區(qū)的社會(huì)經(jīng)濟(jì)文化發(fā)展更好的跟上現(xiàn)代社會(huì)進(jìn)步的步伐。
據(jù)了解,所謂文字識(shí)別,就是基于OCR(光學(xué)字符識(shí)別)技術(shù),將掃描儀、攝像機(jī)等光學(xué)輸入方式得到的書籍、報(bào)刊、文稿、表格等印刷品的文字圖像信息轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別和處理的文本信息。由于可以大大提高工作效率,文字識(shí)別技術(shù)已經(jīng)越來(lái)越受到人們的關(guān)注。特別是在我國(guó),由于信息化建設(shè)的全面展開,為文字識(shí)別技術(shù)提供了廣闊的應(yīng)用舞臺(tái),諸如辦公自動(dòng)化、銀行、稅務(wù)、數(shù)字圖書館、電子出版、公安、交通運(yùn)輸、郵政分揀等行業(yè)均有著廣泛應(yīng)用。
據(jù)專家介紹,作為我國(guó)新疆地區(qū)使用的主要民族文字,維吾爾文、哈薩克文、柯爾克孜文與阿拉伯文非常相近。阿拉伯文字形相對(duì)于方塊漢字、有很大不同,由于連寫字符多,相似字多,再加之文本書寫方式從右向左,其文字識(shí)別工作更為困難。而此次由清華大學(xué)與新疆大學(xué)聯(lián)合推出的維哈柯(漢英)阿(英)印刷文檔識(shí)別系統(tǒng)則較好的解決了這一難題。
據(jù)了解,維哈柯(漢英)阿(英)印刷文檔識(shí)別系統(tǒng)既具有基于統(tǒng)計(jì)方法的多字體、多字號(hào)維哈柯阿文字符識(shí)別核心方法,又具有支持從右向左書寫方向的維哈柯阿文及含有與之反向書寫的英文或漢字的文本切分方法。依據(jù)文本切分中字符語(yǔ)種鑒別結(jié)果,結(jié)合清華大學(xué)已有的漢字和英文字符識(shí)別器,最終實(shí)現(xiàn)維哈柯與漢英混排,阿文與英文混排文檔識(shí)別系統(tǒng)。
依靠多年在OCR識(shí)別領(lǐng)域的技術(shù)積累,清華大學(xué)電子工程系目前已經(jīng)在漢、日、韓、英以及藏民族文字的識(shí)別領(lǐng)域取得了顯著成果,其多項(xiàng)文字識(shí)別技術(shù)均位居國(guó)際領(lǐng)先水平,其清華TH-OCR漢日韓識(shí)別核心技術(shù)在國(guó)際競(jìng)爭(zhēng)中奪標(biāo),被應(yīng)用于微軟office2003中。而此次與新疆大學(xué)聯(lián)合推出的維哈柯(漢英)阿(英)印刷文檔識(shí)別系統(tǒng)則再次將我國(guó)的民族文字識(shí)別帶入了世界領(lǐng)先行列,同時(shí)也為中國(guó)的OCR技術(shù)進(jìn)一步走向世界,增添了一枚重要的籌碼。