wpk打破地域界限,無論你身在何處,只需輕點(diǎn)鼠標(biāo),即可與各地的撲克高手同臺競技。感受不同文化的碰撞。
https://arxiv.org/abs/2505.13508
【新智元導(dǎo)讀】Time-R1通過三階段強(qiáng)化學(xué)習(xí)提升模型的時間推理能力,其核心是動態(tài)獎勵機(jī)制,根據(jù)任務(wù)難度和訓(xùn)練進(jìn)程調(diào)整獎勵,引導(dǎo)模型逐步提升性能,最終使3B小模型實(shí)現(xiàn)全面時間推理能力,超越671B模型。
特色動態(tài)獎勵機(jī)制:引導(dǎo)模型循序漸進(jìn)
圖中的結(jié)果也有力的證明了動態(tài)獎勵機(jī)制的有效性。
在有了基礎(chǔ)時間推理能力后,繼續(xù)訓(xùn)練的Time-R1在未來事件時間預(yù)測上取得了最高的平均總得分,在整個預(yù)測時間范圍內(nèi)(2024年8月至2025年2月)持續(xù)優(yōu)于包括DeepSeek-R1和DeepSeek-V3在內(nèi)的大多數(shù)基線模型。
第一階段,構(gòu)建「時間認(rèn)知基石」,通過在四大特訓(xùn)任務(wù)上的強(qiáng)化微調(diào),建立事件與時間的精準(zhǔn)映射:時間戳推理,時間差計算,事件排序,時間實(shí)體補(bǔ)全;
根據(jù)最新的實(shí)驗結(jié)果,Time-R1 (3B)在第一階段的基礎(chǔ)時間理解任務(wù)上,其綜合表現(xiàn)已經(jīng)成功超越了參數(shù)量200多倍的DeepSeek-V3-0324模型(0.647)!
論文地址:https://arxiv.org/abs/2505.13508
時間差估計:獎勵綜合了兩個事件日期的推斷準(zhǔn)確性以及它們之間時間差的準(zhǔn)確性,并引入了不一致性懲。這個懲罰項用于懲罰模型明確推斷的時間差與其推斷的兩個日期所暗示的時間差之間的矛盾,確保模型輸出的內(nèi)部邏輯自洽。
此任務(wù)中,設(shè)計了不一致性懲罰(確保推斷順序與推斷日期所指示的順序一致)和多樣性懲罰(懲罰所有推斷日期都相同或日期呈簡單序列的「平凡解」),鼓勵模型推斷出更多樣化和真實(shí)的事件日期分布。
Time-R1的具體實(shí)現(xiàn)由三個階段組成:
時間,是我們?nèi)粘I钪凶罨A(chǔ)的概念。
Time-R1的成功很大程度上歸功于研究人員為每個子任務(wù)量身定制的、極其細(xì)致的獎勵函數(shù)。
(a)階段1通過四個時間子任務(wù)進(jìn)行強(qiáng)化微調(diào),建立時間觀念的基本理解;(b)階段2在階段1的基礎(chǔ)上進(jìn)一步使用知識截止時間后以及合成的數(shù)據(jù)來訓(xùn)練,鍛煉預(yù)測未來的能力;(c)第3階段直接進(jìn)行創(chuàng)造性未來情景的生成。
格式遵循獎勵:如果輸出格式符合任務(wù)要求(例如日期格式為「YYYY-MM」),則給予少量獎勵。 這也是準(zhǔn)確性評分的前提。
該框架的核心創(chuàng)新在于其精心設(shè)計地動態(tài)的、基于規(guī)則的獎勵機(jī)制,像一位經(jīng)驗豐富的導(dǎo)師,逐步引導(dǎo)模型掌握時間的奧秘。
同時,工作成果「Attentive Transfer Entropy to Exploit Transient Emergence of Coupling Effect」發(fā)表于人工智能頂會NeurIPS,并被收錄為「Spotlight」。
根據(jù)任務(wù)難度和訓(xùn)練進(jìn)程,動態(tài)調(diào)整日期準(zhǔn)確性獎勵部分中的衰減系數(shù)α
博士在讀期間,發(fā)表多篇高水平論文,并被多次引用。
通過上述精心設(shè)計,Time-R1在第一階段取得了令人矚目的成績。
掩碼時間實(shí)體補(bǔ)全:獎勵綜合事件日期推斷的準(zhǔn)確性和被掩碼實(shí)體(年份或月份)補(bǔ)全的準(zhǔn)確性。特別地,當(dāng)掩碼實(shí)體是「月份」時,會計算預(yù)測月份與真實(shí)月份之間的「循環(huán)差異」,以更好地捕捉月份的鄰近性。
訓(xùn)練語料庫是靜態(tài)的,存在知識截斷時間;在按非時間順序的語料訓(xùn)練過程中,跨越不同時期的時間信息是同時處理的,不像人類逐步接收知識,阻礙了在事件與其對應(yīng)時間之間建立可靠的邏輯映射。
在頂級期刊Physical Review X以第一作者發(fā)表「Early predictor for the onset of critical transitions in networked dynamical systems」文章,被頂級Nature子刊Nature Physics進(jìn)行專門報道。
長度與重復(fù)懲罰:懲罰過于冗長或重復(fù)的輸出,這在實(shí)驗中被證明非常有效。該懲罰項綜合考慮了總長度和多種重復(fù)情況(如連續(xù)詞語重復(fù)、短語重復(fù)、n-gram多樣性不足等)。
但對于大語言模型(LLM)來說,它們或許能寫詩作畫、通曉古今,但在真正理解和運(yùn)用時間概念時,卻常常顯得力不從心。
事件排序:獎勵同樣綜合了各事件日期的推斷準(zhǔn)確性和最終排序的準(zhǔn)確性。
最近,來自伊利諾伊大學(xué)香檳分校的研究人員發(fā)布了一份突破性成果Time-R1,基于一個僅3B的小模型,通過精心設(shè)計的三階段的課程強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)理解過去、預(yù)測未來甚至創(chuàng)造性生成大一統(tǒng)。
同時研究團(tuán)隊實(shí)現(xiàn)了全面開源,不僅發(fā)布了Time-Bench由200000余條的10年紐約時報新聞打造的大型多任務(wù)時間推理數(shù)據(jù)集,還發(fā)布了Time-R1完整訓(xùn)練代碼以及各階段模型檢查點(diǎn),積極促進(jìn)下一步的研究和發(fā)展。
這套獎勵機(jī)制的代碼總行數(shù)超過了1200行,每一個設(shè)計細(xì)節(jié),都是在模型試圖「鉆空子」、尋找捷徑時,針對性地提出「反制措施」,是無數(shù)次實(shí)驗和迭代的結(jié)晶。
接著,在沒有任何微調(diào)的情況下,創(chuàng)造性場景生成任務(wù)中,Time-R1同樣取得了最佳的平均最大相似度得分(衡量生成新聞與真實(shí)新聞的語義相似度),再次超越了所有基線模型,展現(xiàn)了強(qiáng)大的泛化能力,有力地證明了前兩階段訓(xùn)練范式的成功。
代碼地址:https://github.com/ulab-uiuc/Time-R1/tree/master
小模型的「屠榜時刻」
標(biāo)簽結(jié)構(gòu)獎勵:對正確使用 和等結(jié)構(gòu)標(biāo)簽給予獎勵,以鼓勵「思考鏈」式的推理過程。
Time-R1在面對未來導(dǎo)向問題的真實(shí)回答。(左)未來事件時間預(yù)測;(右)創(chuàng)造性場景生成,輸出與未來發(fā)生的現(xiàn)實(shí)新聞比較。
時間戳推斷:獎勵基于推斷日期與真實(shí)日期之間的月份差距,采用指數(shù)衰減函數(shù),其中設(shè)計一個衰減系數(shù)α能讓模型感知到其時間誤差的「大小」,同時還設(shè)計了動態(tài)調(diào)整機(jī)制。
1200行代碼,精心打磨的「獎勵藝術(shù)」
第三階段,零樣本創(chuàng)意生成,無需額外訓(xùn)練,直接生成指定未來時間下合理的推演未來場景。
現(xiàn)有的方案如時間對齊、外部知識庫等,如同「打補(bǔ)丁」,哪差補(bǔ)哪,始終未能實(shí)現(xiàn)「理解-預(yù)測-生成」的全鏈路突破。
論文一作劉子嘉是同濟(jì)大學(xué)直博生,導(dǎo)師為嚴(yán)鋼教授,目前在美國伊利諾伊大學(xué)香檳分校(UIUC)訪問交流,接受Jiaxuan You教授指導(dǎo),博士期間圍繞論文選題取得一系列成果:
Time-R1第一階段的訓(xùn)練曲線與baselines對比。紅色:Time-R1,具有三過程動態(tài)獎勵機(jī)制。藍(lán)色:沒有動態(tài)獎勵設(shè)計的消融實(shí)驗。
這個技術(shù)短板來自于大模型的底層設(shè)計,無法避免:
直播回放:https://b23.tv/aArKNSY
準(zhǔn)確度獎勵,是獎勵機(jī)制的核心,針對每個任務(wù)的特性進(jìn)行設(shè)計:
Time-R1的三階段「時間特調(diào)」
Time-R1,一個3B參數(shù)語言模型,通過一種新穎的、精心設(shè)計的三階段強(qiáng)化學(xué)習(xí)課程和動態(tài)獎勵系統(tǒng),實(shí)現(xiàn)了全面的時間推理能力——涵蓋理解、預(yù)測和創(chuàng)造性生成,碾壓671B巨無霸模型。
為了解決從零開始微調(diào)LLM進(jìn)行專門時間任務(wù)時的「冷啟動」挑戰(zhàn),并培養(yǎng)模型在難題上的穩(wěn)健表現(xiàn),研究團(tuán)隊在第一階段引入了動態(tài)獎勵機(jī)制。
第二階段,跨越知識邊界的未來預(yù)測,在嚴(yán)格隔離未來數(shù)據(jù)的前提下,在階段一得到的模型checkpoint基礎(chǔ)上繼續(xù)強(qiáng)化微調(diào),讓模型從歷史規(guī)律中自主推演趨勢;
數(shù)據(jù)集地址:https://huggingface.co/datasets/ulab-ai/Time-Bench
這一成功直接解決了大模型領(lǐng)域一個重要的痛點(diǎn),并證明了先進(jìn)的、漸進(jìn)式的強(qiáng)化學(xué)習(xí)方法能夠使更小、更高效的模型實(shí)現(xiàn)卓越的時間性能,為實(shí)現(xiàn)具有巨大應(yīng)用潛力的、真正具備時間意識的人工智能提供了一條實(shí)用且可擴(kuò)展的路徑。
模型地址:https://huggingface.co/collections/ulab-ai/time-r1-682626aea47cb2b876285a16
特定任務(wù)的精準(zhǔn)「標(biāo)尺」