近年來,借助智能系統(tǒng)實(shí)現(xiàn)汽車的自動駕駛成為科技屆和產(chǎn)業(yè)界關(guān)注的熱門領(lǐng)域。目前已經(jīng)有處于實(shí)驗(yàn)階段的無人駕駛汽車進(jìn)行路測,而向駕駛員提供的智能輔助駕駛功能更是愈加豐富。對于這些車載智能系統(tǒng)來說,如何判斷機(jī)動車、非機(jī)動車、行人混行的復(fù)雜路況,并作出對車內(nèi)乘員和車外物體最為安全的駕駛判斷,是至今仍在探討的關(guān)鍵問題。可以說,解決這些問題最關(guān)鍵的技術(shù)是視覺感知,即如何通過計算機(jī)來自動識別物體。
為了評測目標(biāo)(機(jī)動車、非機(jī)動車、行人等)檢測、目標(biāo)跟蹤等計算機(jī)視覺技術(shù)在車載環(huán)境下的性能,德國卡爾斯魯厄理工學(xué)院和芝加哥豐田技術(shù)研究所聯(lián)合建立的一個算法評測平臺KITTI,成為目前國際上公開的最大的自動駕駛場景下的計算機(jī)視覺算法評測數(shù)據(jù)集。不久前,清華大學(xué)電子系副教授馬惠敏率領(lǐng)的三維圖像團(tuán)隊(duì)在KITTI國際評測中取得了優(yōu)異的成績,全部六項(xiàng)指標(biāo)中的四項(xiàng)獲得第一,兩項(xiàng)獲得第三。參加評測的還有來自百度公司、NEC美國研究院、斯坦福大學(xué)、加州大學(xué)洛杉磯分校、馬克思·普朗克研究所(MPI)等機(jī)構(gòu)的團(tuán)隊(duì)。
在物體檢測這一競賽項(xiàng)目上,參賽者使用計算機(jī)視覺算法檢測出由車載相機(jī)所拍攝的城市街道上的車輛、行人和自行車,并且估計出它們的姿態(tài)朝向。用于性能測試的KITTI數(shù)據(jù)集包含了7千多張車載圖像,單張圖像上尺度不同的車輛數(shù)目最多可達(dá)十幾輛,因此部分車輛會被其它車輛遮擋,而且遠(yuǎn)處的車輛在圖像中尺度非常小(最小高度只有25像素),檢測難度非常大。馬惠敏研究組和多倫多大學(xué)合作提出了一種高效的三維物體提取方法,并結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò),依據(jù)立體圖像推斷場景中物體的位置和姿態(tài)。和傳統(tǒng)的基于昂貴的激光雷達(dá)的自動駕駛識別算法不同,該研究組的算法僅依賴于普通的雙目RGB攝像頭即可完成高精度的目標(biāo)檢測和姿態(tài)估計,因此有望大大降低自動駕駛視覺系統(tǒng)的成本。他們的相關(guān)論文也已發(fā)表在機(jī)器學(xué)習(xí)與神經(jīng)計算的頂級會議NIPS上。