麻豆影视文化传媒在线看|果冻传媒91制片厂麻豆|性色网站|国产成人吃瓜网|麻豆文化传媒百度云|韩国黄色一级黄色片|成人电影区|糖心vlog是真的吗|黄瓜视频丝瓜视频香蕉视频|国产精品视频在一区鲁鲁,性感丰满美乳巨乳,蜜桔影院91制片厂,爱豆传媒陈可心作品名字

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

交叉信息研究院姚期智和袁洋領(lǐng)銜提出大語(yǔ)言模型“累積推理”框架

清華新聞網(wǎng)9月27日電 近日,清華大學(xué)交叉信息研究院姚期智和袁洋領(lǐng)銜的研究團(tuán)隊(duì)提出“累積推理(Cumulative Reasoning, CR)”框架,顯著提升了大語(yǔ)言模型(LLMs)解決復(fù)雜推理任務(wù)的準(zhǔn)確度,特別是在邏輯推理和24點(diǎn)難題上實(shí)現(xiàn)了高達(dá)98%的準(zhǔn)確率,在數(shù)學(xué)難題上(MATH Level 5)實(shí)現(xiàn)了42%的準(zhǔn)確率相對(duì)提升。

盡管大語(yǔ)言模型已取得顯著進(jìn)步,但面對(duì)高度復(fù)雜的推理任務(wù)時(shí),它們?nèi)噪y以提供穩(wěn)定且準(zhǔn)確的答案。為突破這一局限性,此前學(xué)者已提出“思維鏈(Chain of Thought, CoT)”和“思維樹(shù)(Tree of Thought, ToT)”等幾種模仿人類(lèi)“深思熟慮”且“邏輯性”的思維框架。但這些方法均未設(shè)置思維中間結(jié)果的儲(chǔ)存位置,導(dǎo)致大語(yǔ)言模型不能更全面地模仿人類(lèi)復(fù)雜的思維過(guò)程。為彌補(bǔ)這一研究空缺,研究團(tuán)隊(duì)提出了“累積推理”框架,嘗試對(duì)思維過(guò)程進(jìn)行更一般性地建模。

“累積推理”框架利用三個(gè)不同的大語(yǔ)言模型來(lái)解決復(fù)雜推理問(wèn)題,包括提議者(Proposer)、驗(yàn)證者(Verifier)和報(bào)告者(Reporter)。其中,提議者基于現(xiàn)有前提(premises)和命題(propositions)提出一個(gè)或幾個(gè)提案來(lái)啟動(dòng)該過(guò)程。隨后,驗(yàn)證者評(píng)估該提案,確定該提案是否可以作為新的命題保留。最后,報(bào)告者決定是否是終止思考過(guò)程并提供最終答案的最佳時(shí)機(jī)。

20230926-論文配圖1-攝影未知-配圖.png

圖1.累積推理框架用于解決含三個(gè)前提的問(wèn)題

研究團(tuán)隊(duì)選擇在FOLIO wiki和AutoTNLI、24點(diǎn)游戲、MATH數(shù)據(jù)集上對(duì)“累積推理”框架進(jìn)行檢驗(yàn)。結(jié)果表明,在FOLIO wiki和AutoTNLI數(shù)據(jù)集上“累積推理”框架始終優(yōu)于現(xiàn)有方法,顯示出高達(dá)9.3%的提升。特別是在校對(duì)后的FOLIO wiki curated數(shù)據(jù)集上,“累積推理”達(dá)到了98.04%的準(zhǔn)確率。在圍繞24點(diǎn)游戲的實(shí)驗(yàn)中,“累積推理”達(dá)到了98%的準(zhǔn)確率。值得注意的是,與先前的最先進(jìn)的方法ToT相比,這一數(shù)字有著高達(dá)24%的顯著提升。MATH數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,“累積推理”算法在兩種不同的實(shí)驗(yàn)設(shè)定下,均達(dá)到了超出當(dāng)前已有算法的正確率。其中“累積推理”總體正確率可達(dá)58%,并在Level 5的難題中實(shí)現(xiàn)了42%的相對(duì)準(zhǔn)確率提升,建立了GPT-4模型下的新SOTA。

圖2.FOLIO wiki數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

圖3.AutoTNLI數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

圖4.24點(diǎn)游戲?qū)Ρ葴y(cè)試結(jié)果

圖5.MATH數(shù)據(jù)集對(duì)比測(cè)試結(jié)果

“累積推理”框架不僅被證明可以在邏輯推理任務(wù)中實(shí)現(xiàn)更高的準(zhǔn)確率,也為人工智能領(lǐng)域帶來(lái)了新的啟示和可能性。研究團(tuán)隊(duì)表示,隨著這種“步步為營(yíng)”的方法不斷完善,在解決復(fù)雜的數(shù)學(xué)與科學(xué)問(wèn)題上,人類(lèi)有望迎來(lái)能夠獨(dú)立完成研究的人工智能數(shù)學(xué)家(AI Mathematician)。但研究者們承認(rèn),這樣的遠(yuǎn)景目標(biāo)仍面臨“如何對(duì)大語(yǔ)言模型輸出結(jié)果進(jìn)行高效驗(yàn)證”“如何增加思考上下文的長(zhǎng)度,以處理更加復(fù)雜的問(wèn)題”等挑戰(zhàn)。

論文來(lái)自清華大學(xué)交叉信息研究院姚期智院士和袁洋助理教授領(lǐng)銜的AI for Math研究團(tuán)隊(duì)。近日,該論文以“大語(yǔ)言模型的‘累積推理’框架(Cumulative Reasoning with Large Language Models)”為題發(fā)布于康奈爾大學(xué)ArXiv。論文共同通訊作者為姚期智和袁洋,論文共同第一作者為交叉信息研究院2021級(jí)博士生張伊凡、楊景欽。

論文鏈接:

https://arxiv.org/abs/2308.04371

供稿:交叉信息研究院

題圖設(shè)計(jì):李娜

編輯:李華山

審核:郭玲

2023年09月27日 09:07:33

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.