麻豆影视文化传媒在线看|果冻传媒91制片厂麻豆|性色网站|国产成人吃瓜网|麻豆文化传媒百度云|韩国黄色一级黄色片|成人电影区|糖心vlog是真的吗|黄瓜视频丝瓜视频香蕉视频|国产精品视频在一区鲁鲁,性感丰满美乳巨乳,蜜桔影院91制片厂,爱豆传媒陈可心作品名字

清華主頁 - 清華新聞 - 媒體清華 - 正文

全球科研團隊競逐低成本AI模型研發(fā)新范式

來源:新華社 2-23 彭茜

美國斯坦福大學等機構研究團隊近日宣布,,在基座大模型基礎上,僅耗費數(shù)十美元就開發(fā)出相對成熟的推理模型,。盡管其整體性能尚無法比肩美國開放人工智能研究中心(OpenAI)開發(fā)的o1,、中國深度求索公司的DeepSeek-R1等,但此類嘗試意味著企業(yè)可以較低成本研發(fā)出適合自身的AI應用,,AI普惠性有望增強,。同時,其所應用的“測試時擴展”技術或代表一條更可持續(xù)的AI研發(fā)路徑,。

低成本玩轉(zhuǎn)高級推理

美國斯坦福大學和華盛頓大學研究團隊近日宣布研發(fā)出名為s1的模型,,在衡量數(shù)學和編碼能力的測試中,可媲美o1和DeepSeek-R1等,。研究團隊稱,,訓練租用所需的計算資源等成本只需約幾十美元。

s1的核心創(chuàng)新在于采用了“知識蒸餾”技術和“預算強制”方法,?!爸R蒸餾”好比把別人釀好的酒進一步提純。該模型訓練數(shù)據(jù)是基于谷歌Gemini Thinking Experimental模型“蒸餾”出的僅有1000個樣本的小型數(shù)據(jù)集,。

“預算強制”則使用了AI模型訓練新方法——“測試時擴展”的實現(xiàn)方式,。“測試時擴展”又稱“深度思考”,,核心是在模型測試階段,,通過調(diào)整計算資源分配,使模型更深入思考問題,提高推理能力和準確性,。

“預算強制”通過強制提前結束或延長模型的思考過程,,來影響模型的推理深度和最終答案。s1對阿里云的通義千問開源模型進行微調(diào),,通過“預算強制”控制訓練后的模型計算量,,使用16個英偉達H100 GPU僅進行26分鐘訓練便達成目標。

美國加利福尼亞大學伯克利分校研究團隊最近也開發(fā)出一款名為TinyZero的精簡AI模型,,稱復刻了DeepSeek-R1 Zero在倒計時和乘法任務中的表現(xiàn),。該模型通過強化學習,實現(xiàn)了部分相當于30億模型參數(shù)的大語言模型的自我思維驗證和搜索能力,。團隊稱項目訓練成本不到30美元,。

“二次創(chuàng)造”增強AI普惠性

清華大學計算機系長聘副教授劉知遠接受記者采訪時說,部分海外研究團隊使用DeepSeek-R1,、o1等高性能推理大模型來構建,、篩選高質(zhì)量長思維鏈數(shù)據(jù)集,再用這些數(shù)據(jù)集微調(diào)模型,,可低成本快速獲得高階推理能力,。

相關專家認為,這是AI研發(fā)的有益嘗試,,以“二次創(chuàng)造”方式構建模型增強了AI普惠性,。但有三點值得注意:

首先,所謂“幾十美元的低成本”,,并未納入開發(fā)基座大模型的高昂成本。這就好比蓋房子,,只算了最后裝修的錢,,卻沒算買地、打地基的錢,。AI智庫“快思慢想研究院”院長田豐告訴記者,,幾十美元成本只是最后一個環(huán)節(jié)的算力成本,并未計算基座模型的預訓練成本,、數(shù)據(jù)采集加工成本,。

其次,“二次創(chuàng)造”構建的模型,,整體性能尚無法比肩成熟大模型,。TinyZero僅在簡單數(shù)學任務、編程及數(shù)學益智游戲等特定任務中有良好表現(xiàn),,但無法適用于更復雜,、多樣化的任務場景。而s1模型也只能通過精心挑選的訓練數(shù)據(jù),在特定測試集上超過早期版本o1 preview,,而遠未超過o1正式版或DeepSeek-R1,。

最后,開發(fā)性能更優(yōu)越的大模型,,仍需強化學習技術,。劉知遠說,就推動大模型能力邊界而言,,“知識蒸餾”技術意義不大,,未來仍需探索大規(guī)模強化學習技術,以持續(xù)激發(fā)大模型在思考,、反思,、探索等方面的能力。

AI模型未來如何進化

在2025年美國消費電子展上,,美國英偉達公司高管為AI的進化勾畫了一條路線圖:以智能水平為縱軸,、以計算量為橫軸,衡量AI模型的“規(guī)模定律”呈現(xiàn)從“預訓練擴展”,、到“訓練后擴展”,,再到“測試時擴展”的演進。

“預訓練擴展”堪稱“大力出奇跡”——訓練數(shù)據(jù)越多,、模型規(guī)模越大,、投入算力越多,最終得到AI模型的能力就越強,。目標是構建一個通用語言模型,,以GPT早期模型為代表。而“訓練后擴展”涉及強化學習和人類反饋等技術,,是預訓練模型的“進化”,,優(yōu)化其在特定領域的任務表現(xiàn)。

隨著“預訓練擴展”和“訓練后擴展”邊際收益逐漸遞減,,“測試時擴展”技術興起,。田豐說,“測試時擴展”的核心在于將焦點從訓練階段轉(zhuǎn)移到推理階段,,通過動態(tài)控制推理過程中的計算量(如思考步長,、迭代次數(shù))來優(yōu)化結果。這一方法不僅降低了對預訓練數(shù)據(jù)的依賴,,還顯著提升了模型潛力,。

三者在資源分配和應用場景上各有千秋。預訓練像是讓AI模型去學校學習基礎知識,,而后訓練則是讓模型掌握特定工作技能,,如醫(yī)療,、法律等專業(yè)領域?!皽y試時擴展”則賦予了模型更強推理能力,。

AI模型的迭代還存在類似摩爾定律的現(xiàn)象,即能力密度隨時間呈指數(shù)級增強,。劉知遠說,,2023年以來,大模型能力密度大約每100天翻一番,,即每過100天,,只需要一半算力和參數(shù)就能實現(xiàn)相同能力。未來應繼續(xù)推進計算系統(tǒng)智能化,,不斷追求更高能力密度,,以更低成本,實現(xiàn)大模型高效發(fā)展,。

編輯:李華山

2025年02月24日 22:47:51

相關新聞

讀取內(nèi)容中,請等待...

最新動態(tài)

清華大學新聞中心版權所有,,清華大學新聞網(wǎng)編輯部維護,電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.