[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-autotts-llms-discover-test-time-scaling-zh":3,"tags-autotts-llms-discover-test-time-scaling-zh":34,"related-lang-autotts-llms-discover-test-time-scaling-zh":45,"related-posts-autotts-llms-discover-test-time-scaling-zh":49,"series-research-1ff5ab46-edd3-4ee3-b21e-a186f08ed550":86},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":30,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":20},"1ff5ab46-edd3-4ee3-b21e-a186f08ed550","AutoTTS讓LLM自己找推理策略","\u003Cp data-speakable=\"summary\">AutoTTS把 test-time scaling 變成環境搜尋問題，讓 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 自動找出更省算力的推理策略。\u003C\u002Fp>\u003Cp>推理階段多花一點算力，語言模型常常就能答得更好。這件事在實務上很有吸引力，因為它不一定要重訓模型，只要把 inference 時的計算分配好，效果就可能往上拉。\u003C\u002Fp>\u003Cp>問題也很明顯：現在很多 test-time scaling 做法，還是靠研究者手動設計。怎麼分支、怎麼延續、\u003Ca href=\"\u002Fnews\u002Fwhy-adala-is-the-wrong-way-to-think-about-data-labeling-zh\">什麼\u003C\u002Fa>時候探測、什麼時候剪枝、什麼時候停下來，往往都靠經驗和直覺。這篇論文想處理的，就是這個「人手調策略」的瓶頸。\u003C\u002Fp>\u003Cp>論文標題是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.08083\">LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling\u003C\u002Fa>。它提出 AutoTTS，把 test-time scaling 改寫成一個可以在環境裡自動搜尋的問題，而不是每一招都要研究者自己想。\u003C\u002Fp>\u003Ch2>這篇在補哪個洞\u003C\u002Fh2>\u003Cp>作者的起點不是懷疑 test-time scaling 沒用。相反地，論文直接把它當成一個已經有價值的方法：在推理時投入更多計算，通常能換到更好的表現。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778479857028-4w21.png\" alt=\"AutoTTS讓LLM自己找推理策略\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>真正的痛點在於，這些額外算力到底怎麼用，還沒有被系統化處理。論文把現況描述成大量手工設計的策略，研究者會根據直覺去定義推理模式和各種 heuristic，但這也代表很多可能的計算分配方式根本還沒被探索到。\u003C\u002Fp>\u003Cp>對開發者來說，這件事很現實。推理算力貴，而且通常是線上成本。若能找到一個不用人工反覆調參、卻能維持更好 accuracy-cost tradeoff 的方法，部署時的可擴展性會高很多。\u003C\u002Fp>\u003Cp>所以這篇不是在談「要不要多花算力」，而是在談「多花的算力要怎麼被更聰明地分配」。這也是 AutoTTS 的核心切入點。\u003C\u002Fp>\u003Ch2>AutoTTS 到底怎麼運作\u003C\u002Fh2>\u003Cp>AutoTTS 的重點，是把設計單位從單一 heuristic 改成一個可搜尋的環境。作者說，這個環境至少要做到兩件事：控制空間要夠可管理，回饋要夠便宜，而且要夠頻繁，搜尋才有機會跑得動。\u003C\u002Fp>\u003Cp>論文裡實作的主軸是 width-depth test-time scaling。白話一點說，系統會先用預先收集好的 reasoning trajectories 和 probe signals，然後在這些資料上合成 controller。這個 controller 決定下一步要做什麼：分支、繼續、探測、剪枝，或是直接停止。\u003C\u002Fp>\u003Cp>這裡最關鍵的地方，是 controller 的評估不需要每次都重新呼叫 LLM。也就是說，搜尋過程可以用比較便宜的方式反覆試，避免 disc\u003Ca href=\"\u002Fnews\u002Fmicrosoft-goalcover-fine-tuning-gaps-zh\">over\u003C\u002Fa>y 階段就把推理成本燒爆。對做自動化搜尋的人來說，這一點很重要，因為它直接決定方法能不能落地。\u003C\u002Fp>\u003Cp>作者還加了兩個設計來讓搜尋更好做。第一個是 beta parameterization，用來讓搜尋空間維持在可處理、而且夠細的範圍。第二個是 fine-grained execution trace feedback，讓 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 能看見 test-time scaling program 為什麼失敗，進而提升 discovery 效率。\u003C\u002Fp>\u003Cp>換句話說，AutoTTS 不是單純「讓模型自己想」。它更像是先搭一個可操作的環境，再讓系統在這個環境裡找出更好的推理控制策略。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>根據摘要，作者是在數學推理 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上做實驗。結果顯示，AutoTTS 找到的策略，在整體 accuracy-cost tradeoff 上，優於強而有力的手工 baseline。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778479848619-t3r9.png\" alt=\"AutoTTS讓LLM自己找推理策略\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這句話很重要，因為它不是在說純準確率一定更高，而是在說「同樣要考慮成本時，整體表現更好」。對實際系統來說，這通常比單看 accuracy 更有意義。因為很多時候，你不是不能再多花一點算力，而是不能無上限地花。\u003C\u002Fp>\u003Cp>摘要也提到，這些自動找到的策略可以 generalize 到 held-out benchmarks 和不同 model scales。這代表它們不只是對單一測試集或單一模型尺寸過擬合，至少在論文描述裡，具備一定的可遷移性。\u003C\u002Fp>\u003Cp>另一個很吸睛的結果，是搜尋成本本身不高。論文聲稱整個 search 只花了 39.9 美元和 1\u003Ca href=\"\u002Fnews\u002Fai-weekly-2026-w20-zh\">60\u003C\u002Fa> 分鐘。對研究方法來說，這是一個很實用的數字，因為它把 AutoTTS 描述成一個可反覆跑的自動調整流程，而不是一次性的大型離線工程。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 benchmark 細節。它沒有給出精確的 accuracy 數字、每個資料集的分項結果，也沒有列出具體節省了多少成本。所以目前能確定的是方向與高層結論，不能從這份 raw 資料直接推到更細的量化比較。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做推理型系統，這篇論文傳遞的訊號很直接：test-time scaling 可以被當成一個環境搜尋問題，而不是一組需要人工堆疊的技巧。這會讓 inference optimization 更系統化，也比較不依賴「誰比較會調 prompt」這種經驗差距。\u003C\u002Fp>\u003Cp>對工程實作來說，這種思路也提醒一件事：搜尋能不能成功，往往不只看演算法，還看環境設計。你得先把控制空間做得夠小、回饋做得夠便宜，agent 才有可能在裡面找到有用的 policy。這跟很多自動化優化問題其實是同一個道理。\u003C\u002Fp>\u003Cp>如果把它放到產品或系統角度看，AutoTTS 的價值不是「再發明一個更聰明的推理招式」，而是提供一條比較可擴展的路：讓模型自己在受控環境裡找出更好的推理控制方式。這對要長期維持成本與效果平衡的團隊，會比單次手工調整更有吸引力。\u003C\u002Fp>\u003Cul>\u003Cli>它把 test-time scaling 從手工 heuristic，改成可搜尋的環境問題。\u003C\u002Fli>\u003Cli>它用預先收集的 reasoning trajectories 和 probe signals，避免搜尋時反覆呼叫 LLM。\u003C\u002Fli>\u003Cli>它強調的是 accuracy-cost tradeoff，不是只追求更高準確率。\u003C\u002Fli>\u003Cli>它在摘要中宣稱可泛化到 held-out benchmarks 和不同 model scales。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這篇摘要最明顯的限制，是它聚焦在數學推理 benchmark。這代表目前還不能直接知道，這套方法能不能同樣適用在 coding、工具使用，或更開放式的 assistant 任務。\u003C\u002Fp>\u003Cp>另一個還沒拆開的問題，是成果到底有多少來自 width-depth 這個特定 formulation，又有多少來自「環境驅動 discovery」這個更大的想法。摘要沒有提供足夠細節去分辨這兩者的貢獻。\u003C\u002Fp>\u003Cp>還有一個實作門檻不能忽略：方法依賴 pre-collected reasoning trajectories 和 probe signals。這表示要用 AutoTTS，不是只把模型丟進去就好，前面還要有資料管線和追蹤訊號的準備。對研究團隊或 instrumentation 做得比較完整的系統，這可能可行；但對資源較少的團隊，仍然是成本。\u003C\u002Fp>\u003Cp>總結來看，這篇論文的重點很清楚：如果想把推理階段的表現再往上推，可能不能只靠人類一個個設計策略，而是要建立一個能讓策略被發現的環境。對關心模型效率、自動化推理政策、或 agentic optimization loop 的開發者來說，這是一個值得注意的方向。\u003C\u002Fp>","AutoTTS把 test-time scaling 變成環境搜尋問題，讓 LLM 在推理時自動找出更省算力的策略，而不是靠人手調 heuristics。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.08083",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778479857028-4w21.png",[13,14,15,16,17],"test-time scaling","LLM reasoning","environment search","inference efficiency","accuracy-cost tradeoff","zh",0,false,"2026-05-11T06:10:29.812426+00:00","2026-05-11T06:10:29.719+00:00","done","99bc0cb2-092c-48c4-b62d-3bb26ea14ad1","autotts-llms-discover-test-time-scaling-zh","research","afddc8c2-ae3d-416b-bacd-63d8d4e4899b","published","2026-05-11T09:00:14.63+00:00",[31,32,33],"AutoTTS 把 test-time scaling 變成環境搜尋問題，而不是手工 heuristic 設計。","論文主打 width-depth test-time scaling，靠預收集 trajectories 與 probe signals 合成 controller。","摘要宣稱在數學推理 benchmark 上改善 accuracy-cost tradeoff，且搜尋成本只有 39.9 美元、160 分鐘。",[35,37,39,41,43],{"name":13,"slug":36},"test-time-scaling",{"name":15,"slug":38},"environment-search",{"name":17,"slug":40},"accuracy-cost-tradeoff",{"name":16,"slug":42},"inference-efficiency",{"name":14,"slug":44},"llm-reasoning",{"id":27,"slug":46,"title":47,"language":48},"autotts-llms-discover-test-time-scaling-en","AutoTTS lets LLMs discover test-time scaling","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]