清華新聞網(wǎng)5月19日電 近日,清華大學(xué)車輛與運載學(xué)院李克強院士、李升波教授團隊在強化學(xué)習(xí)算法設(shè)計領(lǐng)域取得重要進展。團隊針對工業(yè)對象的智能決策與控制需求,推出了DSAC(Distributional Soft Actor Critic)系列強化學(xué)習(xí)算法,解決了已有方法值函數(shù)學(xué)習(xí)不準、策略性能低下的難題,并于典型基準測試任務(wù)中取得了國際領(lǐng)先的SOTA性能。第一代DSAC算法發(fā)表于《IEEE神經(jīng)網(wǎng)絡(luò)與學(xué)習(xí)系統(tǒng)匯刊》(IEEE Transactions on Neural Networks and Learning Systems)(2022),第二代發(fā)表于《IEEE模式分析與機器智能匯刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence)(2025)。
強化學(xué)習(xí)在具身智能控制(如自動駕駛、機器人等)任務(wù)中展現(xiàn)出巨大潛力,但主流方法長期面臨“值函數(shù)過估計”難題。簡而言之,貝爾曼方程的迭代求解過程中,因為最大化算子的存在,易造成值函數(shù)(即性能衡量指標)誤差向單一方向持續(xù)累積,導(dǎo)致策略學(xué)習(xí)嚴重偏離最優(yōu)解。該問題最早在1993年由斯坦福大學(xué)的學(xué)者從算法實驗中發(fā)現(xiàn),進入深度強化學(xué)習(xí)階段之后,因神經(jīng)網(wǎng)絡(luò)擬合速度慢以及固有訓(xùn)練誤差的存在,導(dǎo)致過估計問題更加嚴峻。自2010年開始,Deepmind、麥吉爾大學(xué)的科學(xué)家先后提出了Double Q-learning、Clipped Double-Q等一系列措施,嘗試使用雙函數(shù)互相矯正的思想解決單一函數(shù)的計算誤差。這些措施雖然在一定程度上抑制了值函數(shù)的過估計問題,但是對于高維非線性任務(wù),仍面臨值函數(shù)學(xué)習(xí)不準、策略性能低下的瓶頸難題。

圖1.DSAC算法核心架構(gòu)和關(guān)鍵技術(shù)
自2019年開始,車輛學(xué)院研究團隊聚焦“如何提高強化學(xué)習(xí)算法性能”這一問題開展攻關(guān)。首次發(fā)現(xiàn)了值分布函數(shù)(distributional value function)的估計偏差調(diào)節(jié)機制,證明了過估計偏差與值分布方差呈反比的結(jié)論。團隊將這一機制與最大熵框架結(jié)合,把策略優(yōu)化目標的刻畫從單一維度擴展為無窮維度,以此為基礎(chǔ)提出了第一代DSAC算法,極大提升了復(fù)雜工業(yè)控制任務(wù)的學(xué)習(xí)性能。為進一步改進該算法的迭代穩(wěn)定性,并降低參數(shù)敏感度,團隊提出了三項全新的值分布梯度修正技術(shù),即Expected Value Substituting(EVS)、Twin Value Distribution Learning(TVDL)和Variance-Based Critic Gradient Adjustment(VCGA),并將其嵌入到第二代DSAC算法中(又稱為DSAC-T)。EVS的原理是在訓(xùn)練值分布網(wǎng)絡(luò)時以期望目標值替代單次隨機樣本,顯著降低梯度方差,提高學(xué)習(xí)穩(wěn)定性。TVDL的原理是并行訓(xùn)練兩個獨立值分布網(wǎng)絡(luò),借鑒Double Q-learning的思路,在更新時選取更保守的一方,進一步抑制過估計誤差。VCGA的原理是根據(jù)值分布方差自適應(yīng)縮放值分布函數(shù)更新梯度,使算法在不同任務(wù)和參數(shù)設(shè)定下都能保持穩(wěn)定且一致的性能。標準測試環(huán)境的實驗表明,DSAC算法的綜合表現(xiàn)全面超越SAC(UC Berkeley)、TD3(McGill)、DDPG(DeepMind)、TRPO(UC Berkeley)、PPO(OpenAI)等主流強化學(xué)習(xí)算法。

圖2.典型任務(wù)的性能對比
目前,研究團隊已將DSAC兩代算法進行了開源,并集成于自主研發(fā)的GOPS工具鏈,以方便學(xué)術(shù)界與工業(yè)界驗證與使用。該算法已應(yīng)用于端到端自動駕駛、具身智能機器人、工程機械無人作業(yè)等領(lǐng)域的模型訓(xùn)練,與滴滴、廣汽、東風(fēng)、一汽、寶武等龍頭企業(yè)開展產(chǎn)業(yè)應(yīng)用服務(wù)。該項目得到國家“十四五”重點研發(fā)計劃、國家自然科學(xué)基金、北京市自然科學(xué)基金及清華大學(xué)自主科研計劃的資助。
兩篇論文以及代碼開源鏈接:
1.第二代DSAC算法的論文網(wǎng)址:https://ieeexplore.ieee.org/document/10858686
2.第一代DSAC算法的論文網(wǎng)址:https://ieeexplore.ieee.org/document/9448360
3. 代碼開源鏈接:
DSAC開源鏈接:https://github.com/Jingliang-Duan/DSAC-v2
GOPS開源鏈接:https://gops.readthedocs.io/
供稿:車輛學(xué)院
編輯:李華山
審核:郭玲