隨著網(wǎng)絡(luò)數(shù)據(jù)的爆炸性增長,搜索引擎已經(jīng)成為信息化社會不可或缺的基礎(chǔ)互聯(lián)網(wǎng)應(yīng)用系統(tǒng)之一,。正如2014年圖靈獎獲得者Vinton Cerf指出,,搜索引擎已經(jīng)成為人類記憶的延伸,這充分說明了搜索已經(jīng)在人類的認知過程中發(fā)揮了重要的作用,。盡管搜索引擎在應(yīng)用層面已經(jīng)取得了很大的成功,,但搜索技術(shù)發(fā)展中仍然面臨著巨大的技術(shù)挑戰(zhàn):一方面,網(wǎng)絡(luò)空間數(shù)據(jù)資源的規(guī)模龐大而內(nèi)容繁雜,,目前中文網(wǎng)頁的規(guī)模已經(jīng)達到數(shù)千億的規(guī)模,,但其中的低質(zhì)量、垃圾乃至非法內(nèi)容卻為數(shù)眾多,;另一方面,,搜索用戶信息需求的內(nèi)容復(fù)雜而表述模糊,搜索引擎每日需要處理數(shù)以億計的用戶查詢,,但這些查詢的平均長度僅有6個字左右,。
從本質(zhì)上講,這兩方面的技術(shù)挑戰(zhàn)反映了用戶個體相對有限的認知能力與網(wǎng)絡(luò)空間近乎無限的資源容量之間的矛盾,?;诖耍嬎銠C科學(xué)提出采用群體智能(Wisdom of Crowds)方法來應(yīng)對這類技術(shù)挑戰(zhàn),。在2015年度北京市科學(xué)技術(shù)獎評選中,,清華大學(xué)計算機系作為第一完成單位與搜狗公司合作完成的項目“群體智能支撐的互聯(lián)網(wǎng)搜索技術(shù)及其應(yīng)用”獲得一等獎(技術(shù)發(fā)明類),,計算機系主要完成人包括劉奕群,、張敏、馬少平,、王超和金奕江,。
群體智能方法,就是利用用戶群體決策,,協(xié)助解決在認知與信息處理方面用傳統(tǒng)計算方法難以直接完成的任務(wù),。計算方法在處理問題時具有存儲、處理效率較高的優(yōu)勢,,但是其應(yīng)對認知,、推理任務(wù)的能力有限;人類個體具有較強的認知,、推理能力,,但是反饋效率較低、質(zhì)量也不甚穩(wěn)定,。群體智能很大程度上結(jié)合了兩者之間的優(yōu)勢,,借助搜索引擎記錄的規(guī)模龐大的匿名用戶群體行為信息,就可以從中挖掘提煉出群體智能,協(xié)助其解決面臨的各種挑戰(zhàn)性問題,。
具體來講,,該項目開展了基于用戶行為結(jié)構(gòu)圖的信息需求理解、基于行為模式挖掘的網(wǎng)絡(luò)資源質(zhì)量評估,、基于點擊模型構(gòu)建的搜索結(jié)果排序三方面的研究工作,。其中,信息需求理解是資源質(zhì)量評估與結(jié)果排序工作開展的基礎(chǔ),,資源的質(zhì)量水平與排序效果的優(yōu)劣歸根到底由用戶的需求加以定義和度量,,而信息需求理解涉及的用戶行為結(jié)構(gòu)圖模型也構(gòu)成了用戶群體交互行為分析的基本要素。資源質(zhì)量評估是搜索結(jié)果排序的主要依據(jù)之一,,也是從繁雜的網(wǎng)絡(luò)資源環(huán)境中去偽存真,、去粗取精的基礎(chǔ)。結(jié)果排序是搜索引擎技術(shù)研究的重中之重,,直接關(guān)系到用戶信息需求的滿足和信息獲取效率的提升,,而排序的結(jié)果又對于用戶行為反饋信息的收集產(chǎn)生反作用。該項目的主要創(chuàng)新點在于對用戶群體行為中規(guī)律性知識的提取,,以及針對用戶個體認知行為中決策依據(jù)的分析,。
上述研究成果在學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用方面都取得了良好的效果:理論成果方面共申請發(fā)明專利18項,獲得軟件著作權(quán)2項,,并發(fā)表了數(shù)十篇高質(zhì)量的學(xué)術(shù)論文,,得到眾多國際權(quán)威學(xué)者引用,例如微軟研究院的學(xué)者在其論文中稱之為“據(jù)我們所知最為有效的方法”,;西班牙Ovideo大學(xué)的學(xué)者評價這是“最優(yōu)性能的方法”,。實際應(yīng)用方面,該項目通過清華—搜狗搜索技術(shù)聯(lián)合實驗室平臺進行產(chǎn)學(xué)研轉(zhuǎn)化,,取得良好效果,。相關(guān)技術(shù)在搜狗公司、人民網(wǎng)搜索引擎等技術(shù)平臺,北京市工商局,、北京市食品與藥品監(jiān)督局等公共管理平臺,,以及7萬余家各類企業(yè)的推廣運營中取得了良好的應(yīng)用。