[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-prerl-training-llms-in-pre-train-space-zh":3,"tags-prerl-training-llms-in-pre-train-space-zh":30,"related-lang-prerl-training-llms-in-pre-train-space-zh":41,"related-posts-prerl-training-llms-in-pre-train-space-zh":45,"series-research-2428c4f3-8cbf-43dc-afe8-dad89550740f":82},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":20},"2428c4f3-8cbf-43dc-afe8-dad89550740f","PreRL：把強化學習搬進預訓練空間","\u003Cp>大型語言模型近年常靠可驗證獎勵的強化學習來補推理能力，但這篇論文認為，問題還卡在基礎模型原本的輸出分布。它提出一個更前面的切入點：不要只調整「給定提示詞時會怎麼回答」，而是直接在預訓練空間裡，調整模型整體的生成分布。論文原文可見 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.14142\">From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space\u003C\u002Fa>。\u003C\u002Fp>\u003Cp>白話一點說，這不是單純把某個 prompt 的答案修正得更準，而是想把模型整個「比較會想」的空間先塑形。對開發者來說，這代表學習壓力被放到更底層：不只是「這題答對」，而是「讓正確推理更容易被走到」。\u003C\u002Fp>\u003Cp>這篇摘要沒有公開完整 benchmark 細節，所以我們能確認的是方法方向、幾個量化觀察，以及作者對效果的總結；但還不能從摘要直接看出它在各任務上的完整表現表格。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>論文先從 RL with verifiable rewards，也就是 RLVR 的限制切入。RLVR 的重點是優化 \u003Ccode>P(y|x)\u003C\u002Fcode>，也就是在輸入 \u003Ccode>x\u003C\u002Fcode> 給定時，讓輸出 \u003Ccode>y\u003C\u002Fcode> 的機率更高。這種做法確實能改善推理，但作者認為它仍然受限於 base model 原本就會不會產生那些路徑。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776319619099-op5n.png\" alt=\"PreRL：把強化學習搬進預訓練空間\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果模型本來就偏向某些不太有用的生成軌跡，那麼你再怎麼用 RLVR 拉，也只是沿著既有分布做局部修補。論文想修的，就是這個天花板。它主張與其只改條件分布，不如直接改更底層的邊際分布 \u003Ccode>P(y)\u003C\u002Fcode>。\u003C\u002Fp>\u003Cp>作者把這個訓練場域稱為「Pre-train \u003Ca href=\"\u002Fnews\u002Fspatialevo-self-evolving-3d-spatial-reasoning-zh\">Spa\u003C\u002Fa>ce」。意思不是回到傳統靜態預訓練資料那套，而是把獎勵訊號直接灌進更廣的生成空間。這樣做的目標，是讓模型的整體探索範圍更適合推理，而不是只在某個 prompt 上表現好看。\u003C\u002Fp>\u003Cp>這裡還有一個背景問題：傳統預訓練靠的是靜態語料與被動學習。作者認為，當目標已經是針對推理能力做定向提升時，這種方式會產生分布落差。也就是說，模型學到的東西和你真正想優化的行為，未必在同一個空間裡。\u003C\u002Fp>\u003Ch2>PreRL 到底怎麼運作\u003C\u002Fh2>\u003Cp>這篇論文提出的方法叫做 PreRL，意思是 Pre-train Space RL。核心做法很直接：把獎勵驅動的線上更新，從只作用在 \u003Ccode>P(y|x)\u003C\u002Fcode>，改成直接作用在 \u003Ccode>P(y)\u003C\u002Fcode>。作者想藉此改善模型整體的輸出空間，而不只是修某個 prompt 的局部行為。\u003C\u002Fp>\u003Cp>論文同時主張，\u003Ccode>log P(y)\u003C\u002Fcode> 和 \u003Ccode>log P(y|x)\u003C\u002Fcode> 之間存在強烈的梯度對齊，而且這件事有理論與實驗上的驗證。這個說法很關鍵，因為它等於在說：優化邊際分布不只是另起爐灶，而是可以當成標準 RL 的可行替代或近似。若兩邊梯度方向相近，那麼在一個空間裡做更新，可能也能帶動另一個空間的改善。\u003C\u002Fp>\u003Cp>方法裡一個重要元件是 Negative Sample Reinforcement，簡稱 NSR。論文把它描述成 PreRL 裡特別有效的推理驅動器。它的概念是從負樣本中學習，快速剪掉錯誤推理路徑，同時刺激模型出現內生的反思行為。這不是單純多給資料，而是用負例去重塑搜尋空間。\u003C\u002Fp>\u003Cp>另一個設計是 Dual Space RL，簡稱 DSRL。作者把它描述為一種 Policy Reincarnation 策略。流程上，模型先用 NSR-PreRL 初始化，先把推理視野打開，再切回標準 RL 做更細的最佳化。這種兩階段設計，反映作者的判斷：先擴張可走的推理空間，再做精修，可能比一開始就硬做單一 RL 目標更有效。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>就摘要能看到的資訊，作者給出的主張分成兩層。第一層是理論與實驗都支持 \u003Ccode>log P(y)\u003C\u002Fcode> 和 \u003Ccode>log P(y|x)\u003C\u002Fcode> 的梯度對齊。第二層是大規模實驗顯示，DSRL 持續優於強基線。這兩點是目前最核心的結果敘述。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776319616955-19cu.png\" alt=\"PreRL：把強化學習搬進預訓練空間\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要裡唯一明確公開的數字，是 NSR-PreRL 的行為變化：transition \u003Ca href=\"\u002Fnews\u002Fanthropic-mythos-private-bank-risk-fears-zh\">tho\u003C\u002Fa>ughts 增加 14.89 倍，reflection thoughts 增加 6.54 倍。作者用這組數字來支持一個判斷：NSR 不只是把錯誤壓下去，還能更快地清掉不良推理空間，並刺激模型出現更多反思式的中間步驟。\u003C\u002Fp>\u003Cp>這組結果的意義在於，它把「推理變強」拆成可觀察的行為訊號，而不只是最後答案對不對。對做 reasoning trace、self-correction 或 search-like generation 的團隊來說，這種訊號很有參考價值，因為它指向的是模型內部的探索方式。\u003C\u002Fp>\u003Cp>但也要講清楚，摘要沒有提供完整 benchmark 細節。沒有任務名稱、沒有逐項分數、沒有完整 evaluation table。換句話說，我們可以說它宣稱優於強基線，也可以說它觀察到某些推理行為大幅增加；但不能從這份 raw 資料直接推導出它在哪些資料集上、贏了多少、或是否對所有場景都穩定。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 LLM 系統，這篇論文最值得注意的地方，是它重新定義了強化學習的作用點。它不是只把 prompt-response 的結果修正得更好，而是試著把模型的生成先驗整體往「更會推理」的方向推。這對需要多步推理、探索中間步驟、或需要模型自己找路徑的應用，會特別有吸引力。\u003C\u002Fp>\u003Cp>NSR 的設計也很實用。很多訓練流程都偏向正向監督，也就是把正確答案拉高。但這篇論文提醒你，負樣本不只是拿來懲罰錯誤，它也可以主動切掉壞路徑，讓模型更容易走到反思式軌跡。對有做 chain-of-thought、校正式生成、或自我檢查流程的人來說，這是很直接的設計靈感。\u003C\u002Fp>\u003Cp>DSRL 也提供一個很工程化的想法：先粗後細。先用 pre-train-space 的強化把推理空間打開，再切到標準 RL 做收斂。這種 staged optimization 的思路，往往比想用單一目標一次解決所有問題更容易管理。\u003C\u002Fp>\u003Cul>\u003Cli>PreRL 把訓練目標從 \u003Ccode>P(y|x)\u003C\u002Fcode> 推到 \u003Ccode>P(y)\u003C\u002Fcode>。\u003C\u002Fli>\u003Cli>NSR-PreRL 被作者描述為能快速剪掉錯誤推理路徑。\u003C\u002Fli>\u003Cli>DSRL 結合了 pre-train-space 的擴張與標準 RL 的精修。\u003C\u002Fli>\u003Cli>摘要公開的數字只有 14.89 倍與 6.54 倍，沒有完整 benchmark 表。\u003C\u002Fli>\u003Cli>這篇的重點是訓練空間的重設，不是單純再做一次 RLVR。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>最大的限制很明顯：目前看到的是摘要，不是完整論文。它告訴我們方法方向與幾個結果，但沒有足夠資訊去評估失敗模式、訓練成本、穩定性，或對模型規模的敏感度。\u003C\u002Fp>\u003Cp>另一個還沒釐清的問題是泛化範圍。摘要說有理論與實驗上的梯度對齊驗證，但沒有說這個結論在不同架構、不同任務、不同領域是否都成立。對實務團隊來說，這會直接影響它能不能搬進現有 pi\u003Ca href=\"\u002Fnews\u002Fopenai-limits-gpt-54-cyber-trusted-firms-zh\">pe\u003C\u002Fa>line。\u003C\u002Fp>\u003Cp>部署面也還有疑問。把更新放到 \u003Ccode>P(y)\u003C\u002Fcode> 的 pre-train space 聽起來很強，但它到底要怎麼接到既有的 RLHF 或 RLVR 流程，摘要沒有交代。作者把 PreRL 定位成標準 RL 的 surrogate，可是從這份資料還看不出整合成本有多高。\u003C\u002Fp>\u003Cp>所以比較務實的結論是：這篇論文不是叫你明天就把現有 RL stack 全換掉，而是在提醒一件事——如果你的模型卡在推理深度、反思能力或探索多樣性，也許問題不只在 reward 設計，而是訓練訊號打到的層次不夠前面。PreRL 想做的，就是把學習壓力往更底層搬，先改變模型「有哪些路可走」，再來談「哪條路最對」。\u003C\u002Fp>","PreRL 把 RL 從 P(y|x) 轉向 P(y)，直接在預訓練空間做獎勵更新，主打增強推理與探索。摘要也提到 NSR 與 DSRL 兩種設計。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.14142",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776319619099-op5n.png",[13,14,15,16,17],"PreRL","RLVR","pre-train space","negative sample reinforcement","dual space RL","zh",1,false,"2026-04-16T06:06:37.875971+00:00","2026-04-16T06:06:37.854+00:00","done","a6869049-052c-47ae-bbbf-fef3bf1c6fa0","prerl-training-llms-in-pre-train-space-zh","research","d1bbd868-15d4-459c-9e2b-2626c779b4ef","published","2026-04-16T09:00:08.28+00:00",[31,33,35,37,39],{"name":14,"slug":32},"rlvr",{"name":13,"slug":34},"prerl",{"name":15,"slug":36},"pre-train-space",{"name":17,"slug":38},"dual-space-rl",{"name":16,"slug":40},"negative-sample-reinforcement",{"id":27,"slug":42,"title":43,"language":44},"prerl-training-llms-in-pre-train-space-en","PreRL: Training LLMs in pre-train space","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]