无翼乌漫,92亚洲精品在线,91大神力作

交叉信息研究院姚期智和袁洋領(lǐng)銜提出大語(yǔ)言模型“累積推理”框架

清華新聞網(wǎng)9月27日電 近日，清華大學(xué)交叉信息研究院姚期智和袁洋領(lǐng)銜的研究團(tuán)隊(duì)提出“累積推理（Cumulative Reasoning, CR）”框架，顯著提升了大語(yǔ)言模型（LLMs）解決復(fù)雜推理任務(wù)的準(zhǔn)確度，特別是在邏輯推理和24點(diǎn)難題上實(shí)現(xiàn)了高達(dá)98%的準(zhǔn)確率，在數(shù)學(xué)難題上（MATH Level 5）實(shí)現(xiàn)了42%的準(zhǔn)確率相對(duì)提升。

盡管大語(yǔ)言模型已取得顯著進(jìn)步，但面對(duì)高度復(fù)雜的推理任務(wù)時(shí)，它們?nèi)噪y以提供穩(wěn)定且準(zhǔn)確的答案。為突破這一局限性，此前學(xué)者已提出“思維鏈（Chain of Thought, CoT）”和“思維樹(shù)（Tree of Thought, ToT）”等幾種模仿人類(lèi)“深思熟慮”且“邏輯性”的思維框架。但這些方法均未設(shè)置思維中間結(jié)果的儲(chǔ)存位置，導(dǎo)致大語(yǔ)言模型不能更全面地模仿人類(lèi)復(fù)雜的思維過(guò)程。為彌補(bǔ)這一研究空缺，研究團(tuán)隊(duì)提出了“累積推理”框架，嘗試對(duì)思維過(guò)程進(jìn)行更一般性地建模。

“累積推理”框架利用三個(gè)不同的大語(yǔ)言模型來(lái)解決復(fù)雜推理問(wèn)題，包括提議者（Proposer）、驗(yàn)證者（Verifier）和報(bào)告者（Reporter）。其中，提議者基于現(xiàn)有前提（premises）和命題（propositions）提出一個(gè)或幾個(gè)提案來(lái)啟動(dòng)該過(guò)程。隨后，驗(yàn)證者評(píng)估該提案，確定該提案是否可以作為新的命題保留。最后，報(bào)告者決定是否是終止思考過(guò)程并提供最終答案的最佳時(shí)機(jī)。

20230926-論文配圖1-攝影未知-配圖.png

圖1.累積推理框架用于解決含三個(gè)前提的問(wèn)題

研究團(tuán)隊(duì)選擇在FOLIO wiki和AutoTNLI、24點(diǎn)游戲、MATH數(shù)據(jù)集上對(duì)“累積推理”框架進(jìn)行檢驗(yàn)。結(jié)果表明，在FOLIO wiki和AutoTNLI數(shù)據(jù)集上“累積推理”框架始終優(yōu)于現(xiàn)有方法，顯示出高達(dá)9.3%的提升。特別是在校對(duì)后的FOLIO wiki curated數(shù)據(jù)集上，“累積推理”達(dá)到了98.04%的準(zhǔn)確率。在圍繞24點(diǎn)游戲的實(shí)驗(yàn)中，“累積推理”達(dá)到了98%的準(zhǔn)確率。值得注意的是，與先前的最先進(jìn)的方法ToT相比，這一數(shù)字有著高達(dá)24%的顯著提升。MATH數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，“累積推理”算法在兩種不同的實(shí)驗(yàn)設(shè)定下，均達(dá)到了超出當(dāng)前已有算法的正確率。其中“累積推理”總體正確率可達(dá)58%，并在Level 5的難題中實(shí)現(xiàn)了42%的相對(duì)準(zhǔn)確率提升，建立了GPT-4模型下的新SOTA。

圖2.FOLIO wiki數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

圖3.AutoTNLI數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

圖4.24點(diǎn)游戲?qū)Ρ葴y(cè)試結(jié)果

圖5.MATH數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

“累積推理”框架不僅被證明可以在邏輯推理任務(wù)中實(shí)現(xiàn)更高的準(zhǔn)確率，也為人工智能領(lǐng)域帶來(lái)了新的啟示和可能性。研究團(tuán)隊(duì)表示，隨著這種“步步為營(yíng)”的方法不斷完善，在解決復(fù)雜的數(shù)學(xué)與科學(xué)問(wèn)題上，人類(lèi)有望迎來(lái)能夠獨(dú)立完成研究的人工智能數(shù)學(xué)家（AI Mathematician）。但研究者們承認(rèn)，這樣的遠(yuǎn)景目標(biāo)仍面臨“如何對(duì)大語(yǔ)言模型輸出結(jié)果進(jìn)行高效驗(yàn)證”“如何增加思考上下文的長(zhǎng)度，以處理更加復(fù)雜的問(wèn)題”等挑戰(zhàn)。

論文來(lái)自清華大學(xué)交叉信息研究院姚期智院士和袁洋助理教授領(lǐng)銜的AI for Math研究團(tuán)隊(duì)。近日，該論文以“大語(yǔ)言模型的‘累積推理’框架（Cumulative Reasoning with Large Language Models）”為題發(fā)布于康奈爾大學(xué)ArXiv。論文共同通訊作者為姚期智和袁洋，論文共同第一作者為交叉信息研究院2021級(jí)博士生張伊凡、楊景欽。

論文鏈接：

https://arxiv.org/abs/2308.04371

供稿：交叉信息研究院

題圖設(shè)計(jì)：李娜

編輯：李華山

審核：郭玲

2023年09月27日 09:07:33

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖