清華新聞網(wǎng)9月27日電 近日,清華大學(xué)交叉信息研究院姚期智和袁洋領(lǐng)銜的研究團(tuán)隊(duì)提出“累積推理(Cumulative Reasoning, CR)”框架,顯著提升了大語(yǔ)言模型(LLMs)解決復(fù)雜推理任務(wù)的準(zhǔn)確度,特別是在邏輯推理和24點(diǎn)難題上實(shí)現(xiàn)了高達(dá)98%的準(zhǔn)確率,在數(shù)學(xué)難題上(MATH Level 5)實(shí)現(xiàn)了42%的準(zhǔn)確率相對(duì)提升。
盡管大語(yǔ)言模型已取得顯著進(jìn)步,但面對(duì)高度復(fù)雜的推理任務(wù)時(shí),它們?nèi)噪y以提供穩(wěn)定且準(zhǔn)確的答案。為突破這一局限性,此前學(xué)者已提出“思維鏈(Chain of Thought, CoT)”和“思維樹(shù)(Tree of Thought, ToT)”等幾種模仿人類(lèi)“深思熟慮”且“邏輯性”的思維框架。但這些方法均未設(shè)置思維中間結(jié)果的儲(chǔ)存位置,導(dǎo)致大語(yǔ)言模型不能更全面地模仿人類(lèi)復(fù)雜的思維過(guò)程。為彌補(bǔ)這一研究空缺,研究團(tuán)隊(duì)提出了“累積推理”框架,嘗試對(duì)思維過(guò)程進(jìn)行更一般性地建模。
“累積推理”框架利用三個(gè)不同的大語(yǔ)言模型來(lái)解決復(fù)雜推理問(wèn)題,包括提議者(Proposer)、驗(yàn)證者(Verifier)和報(bào)告者(Reporter)。其中,提議者基于現(xiàn)有前提(premises)和命題(propositions)提出一個(gè)或幾個(gè)提案來(lái)啟動(dòng)該過(guò)程。隨后,驗(yàn)證者評(píng)估該提案,確定該提案是否可以作為新的命題保留。最后,報(bào)告者決定是否是終止思考過(guò)程并提供最終答案的最佳時(shí)機(jī)。

圖1.累積推理框架用于解決含三個(gè)前提的問(wèn)題
研究團(tuán)隊(duì)選擇在FOLIO wiki和AutoTNLI、24點(diǎn)游戲、MATH數(shù)據(jù)集上對(duì)“累積推理”框架進(jìn)行檢驗(yàn)。結(jié)果表明,在FOLIO wiki和AutoTNLI數(shù)據(jù)集上“累積推理”框架始終優(yōu)于現(xiàn)有方法,顯示出高達(dá)9.3%的提升。特別是在校對(duì)后的FOLIO wiki curated數(shù)據(jù)集上,“累積推理”達(dá)到了98.04%的準(zhǔn)確率。在圍繞24點(diǎn)游戲的實(shí)驗(yàn)中,“累積推理”達(dá)到了98%的準(zhǔn)確率。值得注意的是,與先前的最先進(jìn)的方法ToT相比,這一數(shù)字有著高達(dá)24%的顯著提升。MATH數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,“累積推理”算法在兩種不同的實(shí)驗(yàn)設(shè)定下,均達(dá)到了超出當(dāng)前已有算法的正確率。其中“累積推理”總體正確率可達(dá)58%,并在Level 5的難題中實(shí)現(xiàn)了42%的相對(duì)準(zhǔn)確率提升,建立了GPT-4模型下的新SOTA。

圖2.FOLIO wiki數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

圖3.AutoTNLI數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

圖4.24點(diǎn)游戲?qū)Ρ葴y(cè)試結(jié)果

圖5.MATH數(shù)據(jù)集對(duì)比測(cè)試結(jié)果
“累積推理”框架不僅被證明可以在邏輯推理任務(wù)中實(shí)現(xiàn)更高的準(zhǔn)確率,也為人工智能領(lǐng)域帶來(lái)了新的啟示和可能性。研究團(tuán)隊(duì)表示,隨著這種“步步為營(yíng)”的方法不斷完善,在解決復(fù)雜的數(shù)學(xué)與科學(xué)問(wèn)題上,人類(lèi)有望迎來(lái)能夠獨(dú)立完成研究的人工智能數(shù)學(xué)家(AI Mathematician)。但研究者們承認(rèn),這樣的遠(yuǎn)景目標(biāo)仍面臨“如何對(duì)大語(yǔ)言模型輸出結(jié)果進(jìn)行高效驗(yàn)證”“如何增加思考上下文的長(zhǎng)度,以處理更加復(fù)雜的問(wèn)題”等挑戰(zhàn)。
論文來(lái)自清華大學(xué)交叉信息研究院姚期智院士和袁洋助理教授領(lǐng)銜的AI for Math研究團(tuán)隊(duì)。近日,該論文以“大語(yǔ)言模型的‘累積推理’框架(Cumulative Reasoning with Large Language Models)”為題發(fā)布于康奈爾大學(xué)ArXiv。論文共同通訊作者為姚期智和袁洋,論文共同第一作者為交叉信息研究院2021級(jí)博士生張伊凡、楊景欽。
論文鏈接:
https://arxiv.org/abs/2308.04371
供稿:交叉信息研究院
題圖設(shè)計(jì):李娜
編輯:李華山
審核:郭玲