wpkcom官網下載德州蘋果:3B超越DeepSeek，大模型終于理解時間了！Time-R1一統(tǒng)過去/未來/生成

發(fā)布時間：2025-06-23 來源：

加入我們HHPoker精英德?lián)淦脚_，體驗智慧與策略的碰撞。我們提供公平競技環(huán)境，豐富賽事活動，以及尊享會員服務。攜手并進，共創(chuàng)財富與榮耀，讓每一次出牌都成為精彩瞬間！期待您的加入，共赴德?lián)涫⒀纾?

　　圖中的結果也有力的證明了動態(tài)獎勵機制的有效性。

wpkcom官網下載德州蘋果

　　代碼地址：https://github.com/ulab-uiuc/Time-R1/tree/master

wpkcom官網下載德州蘋果

　　1200行代碼，精心打磨的「獎勵藝術」

　　第一階段，構建「時間認知基石」，通過在四大特訓任務上的強化微調，建立事件與時間的精準映射：時間戳推理，時間差計算，事件排序，時間實體補全；

　　該框架的核心創(chuàng)新在于其精心設計地動態(tài)的、基于規(guī)則的獎勵機制，像一位經驗豐富的導師，逐步引導模型掌握時間的奧秘。

　　最近，來自伊利諾伊大學香檳分校的研究人員發(fā)布了一份突破性成果Time-R1，基于一個僅3B的小模型，通過精心設計的三階段的課程強化學習，實現(xiàn)理解過去、預測未來甚至創(chuàng)造性生成大一統(tǒng)。

　　但對于大語言模型（LLM）來說，它們或許能寫詩作畫、通曉古今，但在真正理解和運用時間概念時，卻常常顯得力不從心。

　　這套獎勵機制的代碼總行數超過了1200行，每一個設計細節(jié)，都是在模型試圖「鉆空子」、尋找捷徑時，針對性地提出「反制措施」，是無數次實驗和迭代的結晶。

　　Time-R1第一階段的訓練曲線與baselines對比。紅色：Time-R1，具有三過程動態(tài)獎勵機制。藍色：沒有動態(tài)獎勵設計的消融實驗。

　　此任務中，設計了不一致性懲罰（確保推斷順序與推斷日期所指示的順序一致）和多樣性懲罰（懲罰所有推斷日期都相同或日期呈簡單序列的「平凡解」），鼓勵模型推斷出更多樣化和真實的事件日期分布。

　　時間戳推斷：獎勵基于推斷日期與真實日期之間的月份差距，采用指數衰減函數，其中設計一個衰減系數α能讓模型感知到其時間誤差的「大小」，同時還設計了動態(tài)調整機制。

　　第三階段，零樣本創(chuàng)意生成，無需額外訓練，直接生成指定未來時間下合理的推演未來場景。

　　Time-R1的成功很大程度上歸功于研究人員為每個子任務量身定制的、極其細致的獎勵函數。

　　準確度獎勵，是獎勵機制的核心，針對每個任務的特性進行設計：

　　為了解決從零開始微調LLM進行專門時間任務時的「冷啟動」挑戰(zhàn)，并培養(yǎng)模型在難題上的穩(wěn)健表現(xiàn)，研究團隊在第一階段引入了動態(tài)獎勵機制。

　　在頂級期刊Physical Review X以第一作者發(fā)表「Early predictor for the onset of critical transitions in networked dynamical systems」文章，被頂級Nature子刊Nature Physics進行專門報道。

　　Time-R1在面對未來導向問題的真實回答。（左）未來事件時間預測；（右）創(chuàng)造性場景生成，輸出與未來發(fā)生的現(xiàn)實新聞比較。

　　第二階段，跨越知識邊界的未來預測，在嚴格隔離未來數據的前提下，在階段一得到的模型checkpoint基礎上繼續(xù)強化微調，讓模型從歷史規(guī)律中自主推演趨勢；

　　(a)階段1通過四個時間子任務進行強化微調，建立時間觀念的基本理解；(b)階段2在階段1的基礎上進一步使用知識截止時間后以及合成的數據來訓練，鍛煉預測未來的能力；(c)第3階段直接進行創(chuàng)造性未來情景的生成。

　　小模型的「屠榜時刻」

　　時間，是我們日常生活中最基礎的概念。

　　特定任務的精準「標尺」

　　通過上述精心設計，Time-R1在第一階段取得了令人矚目的成績。

　　【新智元導讀】Time-R1通過三階段強化學習提升模型的時間推理能力，其核心是動態(tài)獎勵機制，根據任務難度和訓練進程調整獎勵，引導模型逐步提升性能，最終使3B小模型實現(xiàn)全面時間推理能力，超越671B模型。

　　根據最新的實驗結果，Time-R1 (3B)在第一階段的基礎時間理解任務上，其綜合表現(xiàn)已經成功超越了參數量200多倍的DeepSeek-V3-0324模型（0.647）！

　　格式遵循獎勵：如果輸出格式符合任務要求（例如日期格式為「YYYY-MM」），則給予少量獎勵。這也是準確性評分的前提。

　　標簽結構獎勵：對正確使用和等結構標簽給予獎勵，以鼓勵「思考鏈」式的推理過程。

　　時間差估計：獎勵綜合了兩個事件日期的推斷準確性以及它們之間時間差的準確性，并引入了不一致性懲。這個懲罰項用于懲罰模型明確推斷的時間差與其推斷的兩個日期所暗示的時間差之間的矛盾，確保模型輸出的內部邏輯自洽。

　　現(xiàn)有的方案如時間對齊、外部知識庫等，如同「打補丁」，哪差補哪，始終未能實現(xiàn)「理解-預測-生成」的全鏈路突破。

　　Time-R1，一個3B參數語言模型，通過一種新穎的、精心設計的三階段強化學習課程和動態(tài)獎勵系統(tǒng)，實現(xiàn)了全面的時間推理能力——涵蓋理解、預測和創(chuàng)造性生成，碾壓671B巨無霸模型。

　　Time-R1的具體實現(xiàn)由三個階段組成：

　　這個技術短板來自于大模型的底層設計，無法避免：

　　論文地址：https://arxiv.org/abs/2505.13508

　　https://arxiv.org/abs/2505.13508

　　這一成功直接解決了大模型領域一個重要的痛點，并證明了先進的、漸進式的強化學習方法能夠使更小、更高效的模型實現(xiàn)卓越的時間性能，為實現(xiàn)具有巨大應用潛力的、真正具備時間意識的人工智能提供了一條實用且可擴展的路徑。

　　Time-R1的三階段「時間特調」

　　訓練語料庫是靜態(tài)的，存在知識截斷時間；在按非時間順序的語料訓練過程中，跨越不同時期的時間信息是同時處理的，不像人類逐步接收知識，阻礙了在事件與其對應時間之間建立可靠的邏輯映射。

　　同時，工作成果「Attentive Transfer Entropy to Exploit Transient Emergence of Coupling Effect」發(fā)表于人工智能頂會NeurIPS，并被收錄為「Spotlight」。

　　直播回放：https://b23.tv/aArKNSY

　　接著，在沒有任何微調的情況下，創(chuàng)造性場景生成任務中，Time-R1同樣取得了最佳的平均最大相似度得分（衡量生成新聞與真實新聞的語義相似度），再次超越了所有基線模型，展現(xiàn)了強大的泛化能力，有力地證明了前兩階段訓練范式的成功。

　　長度與重復懲罰：懲罰過于冗長或重復的輸出，這在實驗中被證明非常有效。該懲罰項綜合考慮了總長度和多種重復情況（如連續(xù)詞語重復、短語重復、n-gram多樣性不足等）。

　　同時研究團隊實現(xiàn)了全面開源，不僅發(fā)布了Time-Bench由200000余條的10年紐約時報新聞打造的大型多任務時間推理數據集，還發(fā)布了Time-R1完整訓練代碼以及各階段模型檢查點，積極促進下一步的研究和發(fā)展。

　　論文一作劉子嘉是同濟大學直博生，導師為嚴鋼教授，目前在美國伊利諾伊大學香檳分校(UIUC)訪問交流，接受Jiaxuan You教授指導，博士期間圍繞論文選題取得一系列成果：

　　博士在讀期間，發(fā)表多篇高水平論文，并被多次引用。

　　事件排序：獎勵同樣綜合了各事件日期的推斷準確性和最終排序的準確性。

　　模型地址：https://huggingface.co/collections/ulab-ai/time-r1-682626aea47cb2b876285a16

　　特色動態(tài)獎勵機制：引導模型循序漸進

　　掩碼時間實體補全：獎勵綜合事件日期推斷的準確性和被掩碼實體（年份或月份）補全的準確性。特別地，當掩碼實體是「月份」時，會計算預測月份與真實月份之間的「循環(huán)差異」，以更好地捕捉月份的鄰近性。

　　在有了基礎時間推理能力后，繼續(xù)訓練的Time-R1在未來事件時間預測上取得了最高的平均總得分，在整個預測時間范圍內（2024年8月至2025年2月）持續(xù)優(yōu)于包括DeepSeek-R1和DeepSeek-V3在內的大多數基線模型。

　　根據任務難度和訓練進程，動態(tài)調整日期準確性獎勵部分中的衰減系數α

　　數據集地址：https://huggingface.co/datasets/ulab-ai/Time-Bench

下一篇：400萬年薪+500萬獎金被拒?記者：奧斯梅恩仍未接受新月報價
上一篇：曝尼克斯曾報價杜蘭特！雙方互有興趣合作美記解析兩大交易框架

高清性色生活片a,亚洲色图综合,99久久精品国产一区二区三区,高清色惰www日本午夜,亚洲精品国产精品乱码不卡√香蕉,亚洲h网站,久久久久久久久久久大尺度免费视频

wpkcom官網下載德州蘋果:3B超越DeepSeek，大模型終于理解時間了！Time-R1一統(tǒng)過去/未來/生成

wpkcom官網下載德州蘋果:3B超越DeepSeek，大模型終于理解時間了！Time-R1一統(tǒng)過去/未來/生成