WPK正版官網(wǎng)_WePoker下載-微撲克俱樂(lè)部加入Copyright ? WePoker. All Rights Reserverd. 簡(jiǎn)體中文 和好朋友一起玩最快樂(lè)的德州撲克
實(shí)證研究揭示了關(guān)于當(dāng)前推理模型(LRM)的幾個(gè)關(guān)鍵發(fā)現(xiàn):
所有模型在圓盤(pán)數(shù)量超過(guò) 13 個(gè)時(shí)準(zhǔn)確率都將為 0,這僅僅是因?yàn)樗鼈儫o(wú)法輸出那么多!
蘋(píng)果還對(duì)前沿的 LRM 進(jìn)行了比較分析,例如 Claude-3.7-Sonnet(有思維 vs. 無(wú)思維)和 DeepSeek(R1 vs V3)。結(jié)果如圖 2 所示,在 MATH500 數(shù)據(jù)集上,當(dāng)提供相同的推理 token 預(yù)算時(shí),思維模型的 pass@k 性能與非思維模型相當(dāng)。然而,蘋(píng)果觀察到這種性能差距在 AIME24 基準(zhǔn)上有所擴(kuò)大,在 AIME25 上進(jìn)一步擴(kuò)大。這種不斷擴(kuò)大的差距帶來(lái)了解釋上的挑戰(zhàn)。
為了研究問(wèn)題復(fù)雜性對(duì)推理行為的影響,本文在可控謎題環(huán)境中開(kāi)展了推理與非推理模型對(duì)的對(duì)比實(shí)驗(yàn),比如 Claude-3.7-Sonnet(thinking/non-thinking)和 DeepSeek(R1/V3)。
對(duì)于蘋(píng)果的這項(xiàng)研究,有人表示如果真是這樣,那又如何解釋 o3-preview 在 ARC 基準(zhǔn)測(cè)試上的表現(xiàn)呢?
蘋(píng)果評(píng)估了 LRM 推理在四個(gè)可控謎題上的性能,這些謎題涵蓋了組合深度、規(guī)劃復(fù)雜度和分布設(shè)置。謎題如下圖 3 所示。
最近的研究通過(guò)比較基于強(qiáng)化學(xué)習(xí)的思維模型與其非思維標(biāo)準(zhǔn) LLM 對(duì)應(yīng)的上限能力 (pass@k),利用已建立的數(shù)學(xué)基準(zhǔn)探索了這個(gè)問(wèn)題。他們表明,在相同的推理 token 預(yù)算下,非思維 LLM) 最終可以在 MATH500 和 AIME24 等基準(zhǔn)測(cè)試中達(dá)到與思維模型相當(dāng)?shù)男阅堋?/p>
有人還表示,如果這波分析沒(méi)錯(cuò)的話,那蘋(píng)果的研究將沒(méi)有意義。
在復(fù)雜度適中的第二種狀態(tài)下,能夠生成長(zhǎng)思維鏈的推理模型的優(yōu)勢(shì)開(kāi)始顯現(xiàn),推理、非推理模型之間的性能差距開(kāi)始擴(kuò)大。
推理模型的思維內(nèi)部發(fā)生了什么?
然而近日,蘋(píng)果團(tuán)隊(duì)的一篇論文對(duì) LLM 的推理能力提出了質(zhì)疑,并提出了自己的觀點(diǎn) ——像 DeepSeek-R1、o3-mini 這類(lèi)模型實(shí)際上根本沒(méi)有進(jìn)行推理,只是很擅長(zhǎng)記憶模式罷了
這些發(fā)現(xiàn)凸顯了現(xiàn)有 LRM 的優(yōu)勢(shì)和局限性,并對(duì)這些系統(tǒng)中推理的屬性提出了質(zhì)疑,這對(duì)它們的設(shè)計(jì)和部署具有重要意義。
作為補(bǔ)充,圖 5 在相同推理 token 計(jì)算量下(所有謎題平均值),呈現(xiàn)了這些模型對(duì)的性能上限(pass@k)。
推理模型令人困惑的行為
當(dāng)前,AI 的「推理」能力已經(jīng)在以 DeepSeek-R1、OpenAI o1/o3、Claude 3.7 Sonnet 為代表的推理大模型中得到了驗(yàn)證,它們顯示出了非常類(lèi)人的思考過(guò)程。
由于移動(dòng)次數(shù)太多,則將解釋求解算法,而不是逐一列出所有 32,767 個(gè)移動(dòng)次數(shù)。
過(guò)河(River Crossing)是一個(gè)約束滿足規(guī)劃難題,涉及 n 個(gè)參與者及其對(duì)應(yīng)的 n 個(gè)代理,他們必須乘船過(guò)河。目標(biāo)是將所有 2n 個(gè)個(gè)體從左岸運(yùn)送到右岸。船最多可載 k 個(gè)人,且不能空載。當(dāng)參與者與另一個(gè)代理在一起而沒(méi)有自己的代理時(shí),會(huì)出現(xiàn)無(wú)效情況,因?yàn)槊總€(gè)代理都必須保護(hù)其客戶(hù)免受競(jìng)爭(zhēng)代理的侵害。此任務(wù)的復(fù)雜性也可以通過(guò)存在的參與者 / 代理對(duì)的數(shù)量來(lái)控制。當(dāng) n = 2 或 n = 3 對(duì)時(shí),使用船容量 k = 2;當(dāng)對(duì)數(shù)較大時(shí),使用 k = 3。
這可以歸因于:(1)復(fù)雜性不斷增加,需要更復(fù)雜的推理過(guò)程,從而揭示思維模型在更復(fù)雜問(wèn)題上的真正優(yōu)勢(shì);或者(2)在較新的基準(zhǔn)(尤其是 AIME25)中數(shù)據(jù)污染減少。有趣的是,人類(lèi)在 AIME25 上的表現(xiàn)實(shí)際上高于 AIME24,這表明 AIME25 的復(fù)雜度可能較低。然而,模型在 AIME25 上的表現(xiàn)比 AIME24 更差 —— 這可能表明在前沿 LRM 的訓(xùn)練過(guò)程中存在數(shù)據(jù)污染。
目前,我們尚不清楚近期基于強(qiáng)化學(xué)習(xí)的思維模型所觀察到的性能提升是歸因于「更多接觸已建立的數(shù)學(xué)基準(zhǔn)數(shù)據(jù)」,還是歸因于「分配給思維 token 的顯著更高的推理計(jì)算能力」,又或是歸因于「基于強(qiáng)化學(xué)習(xí)的訓(xùn)練所開(kāi)發(fā)的推理能力」?
最大可解規(guī)模且沒(méi)有任何推理空間:DeepSeek:12 個(gè)圓盤(pán);Sonnet 3.7 和 o3-mini:13 個(gè)圓盤(pán)。如果你仔細(xì)觀察模型的輸出,就會(huì)發(fā)現(xiàn),如果問(wèn)題規(guī)模過(guò)大,它們甚至不會(huì)進(jìn)行推理。
最后,蘋(píng)果對(duì)中間推理軌跡或思維的分析揭示了與復(fù)雜性相關(guān)的模式:在較簡(jiǎn)單的問(wèn)題中,推理模型通常會(huì)盡早識(shí)別出正確的解決方案,但會(huì)低效地繼續(xù)探索錯(cuò)誤的替代方案 —— 這是一種「過(guò)度思考」現(xiàn)象。在中等復(fù)雜度下,正確的解決方案只有在廣泛探索錯(cuò)誤路徑后才會(huì)出現(xiàn)。超過(guò)一定的復(fù)雜度閾值,模型將完全無(wú)法找到正確的解決方案(圖 1 右下)。這表明 LRM 具有有限的自我修正能力,雖然很有價(jià)值,但也暴露出其根本的效率低下和明顯的擴(kuò)展限制。
還有人(x 用戶(hù) @scaling01)復(fù)現(xiàn)了蘋(píng)果論文中的漢諾塔謎題及使用的精確prompt,有了一些有趣的發(fā)現(xiàn):
這些謎題:(1) 對(duì)復(fù)雜性進(jìn)行細(xì)粒度控制;(2) 避免現(xiàn)有基準(zhǔn)中常見(jiàn)的污染;(3) 僅需明確提供的規(guī)則,強(qiáng)調(diào)算法推理;(4) 支持基于模擬器的嚴(yán)格評(píng)估,從而實(shí)現(xiàn)精確的解決方案檢查和詳細(xì)的故障分析。
本文還發(fā)現(xiàn)推理模型最初會(huì)隨著問(wèn)題復(fù)雜度成比例地增加思維 Token 使用量。然而,當(dāng)接近臨界閾值(該閾值與其準(zhǔn)確率崩潰點(diǎn)高度吻合)時(shí),盡管問(wèn)題難度持續(xù)增加,模型卻會(huì)反直覺(jué)地減少推理投入。這一現(xiàn)象在 o3-mini 系列變體中最為顯著,而在 Claude-3.7-Sonnet(思維版)模型中相對(duì)較輕。值得注意的是,盡管這些模型的推理生成長(zhǎng)度遠(yuǎn)未達(dá)到上限,且擁有充足的推理計(jì)算預(yù)算,但隨著問(wèn)題復(fù)雜度提升,它們卻未能有效利用思維階段額外的計(jì)算資源。這種行為表明,當(dāng)前推理模型的思維能力相對(duì)于問(wèn)題復(fù)雜度存在根本性的擴(kuò)展局限。
最有趣的狀態(tài)是問(wèn)題復(fù)雜度更高的第三種狀態(tài),兩種模型的性能都崩潰為零。
跳棋(Checker Jumping)是一個(gè)一維謎題,將紅色棋子、藍(lán)色棋子和一個(gè)空格排成一條線。目標(biāo)是交換所有紅色和藍(lán)色棋子的位置,有效地鏡像初始配置。有效的移動(dòng)包括將棋子滑入相鄰的空位,或跳過(guò)恰好一個(gè)相反顏色的棋子落入空位。在謎題過(guò)程中,任何棋子都不能后退。該任務(wù)的復(fù)雜性可以通過(guò)棋子的數(shù)量來(lái)控制:如果棋子數(shù)量為 2n,則所需的最小移動(dòng)次數(shù)為 (n + 1)^2 ? 1。
此外,在圖 8c 和 8d 中,本文觀察到 Claude 3.7 Sonnet thinking 模型表現(xiàn)出截然不同的行為模式。該模型在提出的解決方案中首次出現(xiàn)錯(cuò)誤的時(shí)間往往較晚,而在過(guò)河謎題中,該模型僅能生成有效解直至第 4 步。值得注意的是,該模型在解決需要 31 步的問(wèn)題(N=5)時(shí)能達(dá)到近乎完美的準(zhǔn)確率,卻無(wú)法解決僅需 11 步的過(guò)河謎題(N=3)。這可能表明網(wǎng)絡(luò)上 N>2 的過(guò)河謎題范例較為稀缺,意味著 LRMs 在訓(xùn)練過(guò)程中可能較少接觸或記憶此類(lèi)實(shí)例。
對(duì)于簡(jiǎn)單問(wèn)題(低復(fù)雜度):推理模型通常在思維早期就能找到正確解(綠色分布),但隨后持續(xù)探索錯(cuò)誤解(紅色分布)。值得注意的是,與正確的解決方案(綠色)相比,錯(cuò)誤解決方案(紅色)的分布更傾向于思維的末端。這種現(xiàn)象,在文獻(xiàn)中被稱(chēng)為過(guò)度思考(overthinking),導(dǎo)致了計(jì)算的浪費(fèi)。
這些結(jié)果都表明,雖然推理模型延緩了這種崩潰,但它們最終也會(huì)遇到與非推理模型相同的根本限制。
你至少需要 2^N - 1 步,并且輸出格式要求每步包含 10 個(gè) token 以及一些常量。
OpenAI 的員工也湊起了熱鬧,表示「這波對(duì)蘋(píng)果研究的深挖很棒?!?/p>
論文標(biāo)題:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
為了更深入地理解推理模型的思考過(guò)程,本文對(duì)模型推理軌跡進(jìn)行了細(xì)粒度分析。重點(diǎn)關(guān)注 Claude-3.7-Sonnet-Thinking。
最后,對(duì)于復(fù)雜度更高的問(wèn)題,會(huì)出現(xiàn)崩潰,這意味著模型無(wú)法在思維中生成任何正確的解決方案。
蘋(píng)果從問(wèn)題復(fù)雜性的角度探究前沿推理模型(LRM)的推理機(jī)制,沒(méi)有采用用標(biāo)準(zhǔn)基準(zhǔn)(例如數(shù)學(xué)問(wèn)題),而是采用可控的謎題環(huán)境,通過(guò)調(diào)整謎題元素并保留核心邏輯,系統(tǒng)地改變復(fù)雜度,并檢驗(yàn)解決方案和內(nèi)部推理(圖 1 頂部)。
在這篇論文的作者中,共同一作為 Parshin Shojaee,她現(xiàn)在為 Virginia Tech 三年級(jí)博士生,且為蘋(píng)果的研究實(shí)習(xí)生。另一位共一 Iman Mirzadeh 為蘋(píng)果的 ML 研究工程師。此外,Yoshua Bengio 的兄弟 Samy Bengio 也參與了這項(xiàng)工作,他現(xiàn)為蘋(píng)果的 AI 和機(jī)器學(xué)習(xí)研究高級(jí)總監(jiān)。
此外,Sonnet 3.7 的輸出限制為 128k,DeepSeek R1 為 64k,o3-mini 為 100k。這包括它們?cè)谳敵鲎罱K答案之前使用的推理 token!
在問(wèn)題復(fù)雜度較低的第一種狀態(tài)下,本文觀察到非推理模型能夠獲得與推理模型相當(dāng)甚至更好的性能。
漢諾塔謎題(Tower of Hanoi)包含三個(gè)樁子和 n 個(gè)大小不同的圓盤(pán),這些圓盤(pán)按大小順序(最大的在底部)堆疊在第一個(gè)樁子上。目標(biāo)是將所有圓盤(pán)從第一個(gè)樁子移動(dòng)到第三個(gè)樁子。有效的移動(dòng)方式包括一次只移動(dòng)一個(gè)圓盤(pán)、只取樁子頂部的圓盤(pán),以及永遠(yuǎn)不要將較大的圓盤(pán)放在較小的圓盤(pán)上。此任務(wù)的難度可以通過(guò)初始圓盤(pán)的數(shù)量來(lái)控制,因?yàn)槌跏紙A盤(pán)數(shù)量為 n 時(shí)所需的最小移動(dòng)次數(shù)為 2^n ? 1。然而,在本研究中,蘋(píng)果不對(duì)最終解決方案的最優(yōu)性進(jìn)行評(píng)分,而只衡量每次移動(dòng)的正確性以及是否達(dá)到目標(biāo)狀態(tài)。
首先,盡管這些模型通過(guò)強(qiáng)化學(xué)習(xí)習(xí)得了復(fù)雜的自我反思機(jī)制,但它們未能發(fā)展出適用于規(guī)劃任務(wù)的泛化問(wèn)題解決能力,其性能在超過(guò)一定復(fù)雜度閾值后會(huì)崩盤(pán)至零。
如圖 8a 和 8b 所示,在漢諾塔環(huán)境中,即使本文在提示中提供算法 —— 以便模型只需要執(zhí)行規(guī)定的步驟 —— 模型性能也不會(huì)提高,并且觀察到的崩潰仍然發(fā)生在同一點(diǎn)左右。
復(fù)雜性如何影響模型推理?
當(dāng)問(wèn)題變得稍微復(fù)雜時(shí),這種趨勢(shì)就會(huì)逆轉(zhuǎn):模型首先探索不正確的解決方案,然后再得出正確的解決方案。此時(shí)錯(cuò)誤解(紅色)的分布位置相較于正確解(綠色)明顯下移。
參考鏈接:https://x.com/scaling01/status/1931783050511126954
有人認(rèn)為蘋(píng)果的研究具有誤導(dǎo)性,他們只測(cè)試了 DeepSeek R1 和 Claude 3.7。雖然其他模型可能會(huì)失敗,但說(shuō)「ALL 推理模型失敗是不公平的。
有趣的是,這些模型在每次移動(dòng)時(shí)都有 X% 的概率選出正確的 token。即使有 99.99% 的概率,由于問(wèn)題規(guī)模呈指數(shù)級(jí)增長(zhǎng),模型最終也會(huì)出錯(cuò)。
圖 4 展示了兩類(lèi)模型在所有謎題環(huán)境中隨問(wèn)題復(fù)雜度變化的準(zhǔn)確率。
相關(guān)的一則推文在 x 上的閱讀量已經(jīng)突破了 1000 萬(wàn)。
上述結(jié)果都表明,這些模型的行為在復(fù)雜性方面存在三種狀態(tài):
基于推理軌跡的分析進(jìn)一步驗(yàn)證了前文所述的三種復(fù)雜度模式,如圖 7a 所示。
鑒于這些不合理的觀察結(jié)果以及數(shù)學(xué)基準(zhǔn)不允許對(duì)問(wèn)題復(fù)雜性進(jìn)行控制操縱的事實(shí),蘋(píng)果轉(zhuǎn)向了能夠進(jìn)行更精確和系統(tǒng)實(shí)驗(yàn)的謎題環(huán)境。
積木世界(Blocks World)是一個(gè)積木堆疊難題,要求將積木從初始配置重新排列成指定的目標(biāo)配置。目標(biāo)是找到完成此轉(zhuǎn)換所需的最少移動(dòng)次數(shù)。有效移動(dòng)僅限于任何堆疊的最頂層積木,該積木可以放置在空堆疊上或另一個(gè)積木之上。此任務(wù)的復(fù)雜性可以通過(guò)存在的積木數(shù)量來(lái)控制。
本文實(shí)驗(yàn)是在推理模型及其對(duì)應(yīng)的非推理模型上進(jìn)行的,例如 Claude 3.7 Sonnet(thinking/non-thinking)和 DeepSeek-R1/V3。
總結(jié)來(lái)說(shuō),這項(xiàng)工作的貢獻(xiàn)包括如下:
至少對(duì)于 Sonnet 來(lái)說(shuō),一旦問(wèn)題規(guī)模超過(guò) 7 個(gè)圓盤(pán),它就不會(huì)嘗試進(jìn)行推理。它會(huì)陳述問(wèn)題本身以及求解算法,然后輸出解決方案,甚至不會(huì)考慮每個(gè)步驟。
此外,蘋(píng)果論文對(duì)游戲復(fù)雜性的解讀也非常令人困惑 僅僅因?yàn)闈h諾塔謎題需要的步數(shù)比其他塔多得多,而其他的只需要二次或線性更多的步數(shù),這并不意味著漢諾塔謎題更難。
對(duì)當(dāng)前基于既定數(shù)學(xué)基準(zhǔn)的 LRM 評(píng)估范式提出質(zhì)疑,并利用算法謎題環(huán)境設(shè)計(jì)了一個(gè)可控的實(shí)驗(yàn)平臺(tái),該環(huán)境能夠根據(jù)問(wèn)題復(fù)雜性進(jìn)行可控的實(shí)驗(yàn)。實(shí)驗(yàn)表明,最先進(jìn)的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能開(kāi)發(fā)出可泛化的問(wèn)題解決能力。在不同環(huán)境中,當(dāng)復(fù)雜度超過(guò)一定水平時(shí),準(zhǔn)確率最終會(huì)降至零。蘋(píng)果發(fā)現(xiàn) LRM 的推理能力在問(wèn)題復(fù)雜性方面存在一個(gè)擴(kuò)展極限,這一點(diǎn)可以從思維 token 在達(dá)到某個(gè)復(fù)雜性點(diǎn)后呈現(xiàn)的反直覺(jué)下降趨勢(shì)中看出。蘋(píng)果質(zhì)疑當(dāng)前基于最終準(zhǔn)確率的評(píng)估范式,并借助確定性謎題模擬器將評(píng)估范圍擴(kuò)展到思維軌跡的中間解。分析表明,隨著問(wèn)題復(fù)雜度的增加,正確的解會(huì)系統(tǒng)性地出現(xiàn)在思維的后期,而錯(cuò)誤的解則不然,這為理解推理模型 (LRM) 中的自我修正機(jī)制提供了定量層面的見(jiàn)解。蘋(píng)果發(fā)現(xiàn) LRM 在執(zhí)行精確計(jì)算方面存在一些令人驚訝的局限性,包括它們無(wú)法從顯式算法中獲益,以及它們?cè)诓煌i題類(lèi)型之間的推理不一致。
我們接下來(lái)看蘋(píng)果這篇文章如何得出這一結(jié)論的:
圖 6 表明,所有推理模型在面對(duì)復(fù)雜度變化時(shí)都呈現(xiàn)出相似的模式:隨著問(wèn)題復(fù)雜度的提升,模型準(zhǔn)確率逐漸下降,直至超過(guò)模型特定的復(fù)雜度閾值后完全崩潰(準(zhǔn)確率歸零)。
接下來(lái),本文又研究了不同推理模型在問(wèn)題復(fù)雜度變化時(shí)的效果。測(cè)試模型包括 o3-mini(中 / 高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B 以及 Claude-3.7-Sonnet(thinking)。
這位用戶(hù)直言不諱地稱(chēng)這項(xiàng)工作為「胡說(shuō)八道」,模型實(shí)際上不是受限于推理能力,而是輸出 token 的限制造成的。
其次,蘋(píng)果在等效推理計(jì)算條件下對(duì) LRM 和標(biāo)準(zhǔn) LLM 進(jìn)行了比較,揭示了三種不同的推理機(jī)制(圖 1 底部)。其中對(duì)于更簡(jiǎn)單、低組合性的問(wèn)題,標(biāo)準(zhǔn) LLM 表現(xiàn)出更高的效率和準(zhǔn)確性。隨著問(wèn)題復(fù)雜度的適度增加,思維模型會(huì)獲得優(yōu)勢(shì)。然而,當(dāng)問(wèn)題達(dá)到高復(fù)雜度且組合深度更長(zhǎng)時(shí),兩種模型類(lèi)型的性能都會(huì)完全崩潰(圖 1 左下)。值得注意的是,接近這個(gè)崩潰點(diǎn)時(shí),盡管 LRM 的運(yùn)行速度遠(yuǎn)低于代數(shù)限制,但隨著問(wèn)題復(fù)雜度的增加,它們開(kāi)始減少推理工作量(以推理時(shí)間 token 衡量)(圖 1 中下)。這表明,相對(duì)于問(wèn)題復(fù)雜度,LRM 的推理能力在推理時(shí)間尺度上存在根本的限制。
簡(jiǎn)單來(lái)說(shuō),這位用戶(hù)的觀點(diǎn)就是:所有模型在圓盤(pán)數(shù)量超過(guò)13個(gè)時(shí)準(zhǔn)確率降至0,僅僅是因?yàn)樗鼈儫o(wú)法輸出那么多。