[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-skillopt-agent-skills-text-space-optimizer-zh":3,"article-related-skillopt-agent-skills-text-space-optimizer-zh":30,"series-research-628d9cc5-f7d9-46c8-90be-a0475f7a2ddb":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"628d9cc5-f7d9-46c8-90be-a0475f7a2ddb","skillopt-agent-skills-text-space-optimizer-zh","SkillOpt 把技能當權重訓練","\u003Cp data-speakable=\"summary\">SkillOpt 把 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 技能當成可編輯文字，透過驗證門檻做受控更新，讓技能能像模型權重一樣被優化。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：GPT-5.5 直聊 +23.5 分\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：驗證門檻式文字優化\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.23904\">SkillOpt: Executive Strategy for Self-Evolving Agent Skills\u003C\u002Fa> 想處理的是一個很實際的問題：agent 的技能，能不能不要再靠零散的 prompt 微調，而是用更像訓練模型的方式來改進？這篇論文的核心主張很直接。技能不該只是靜態設定，而應該是可被優化、可回溯、也可控的文字資產。\u003C\u002Fp>\u003Cp>這個方向對開發者很有感。因為很多 agent 系統真正卡住的，不是底層模型不夠強，而是技能寫法不穩、改一次壞一次、很難重現。SkillOpt 就是想把這種「靠感覺修 prompt」的流程，\u003Ca href=\"\u002Fnews\u002Fjaire-alexander-eagles-exit-template-zh\">變成\u003C\u002Fa>一個有規則的優化迴圈。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>作者批評現有 agent 技能的更新方式，常見問題是太隨意。可能是人工寫、一次生成、或在自我迴圈裡反覆改寫，但這些方法都不像真正的 optimizer。它們很難控制，也很難重現。更重要的是，當有回饋訊號時，這些方法不一定真的能穩定變好。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779689158796-ajrz.png\" alt=\"SkillOpt 把技能當權重訓練\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個痛點在實務上很常見。當 agent 要用工具、跑工作流、遵守步驟時，技能文本常常就是決定成敗的地方。若技能更新是噪音很大的試錯，團隊最後就會回到手工修 prompt，變成一種脆弱的工程習慣。\u003C\u002Fp>\u003Cp>SkillOpt 的思路是把技能文本當成外部狀態。底層 agent 保持 frozen，不直接改模型本體；真正被優化的是那份 skill document。這個設計很像把「權重空間的訓練」概念搬到文字空間裡，只是操作對象不是參數，而是可讀的技能描述。\u003C\u002Fp>\u003Ch2>SkillOpt 怎麼運作\u003C\u002Fh2>\u003Cp>論文把 SkillOpt 定義成一個 controllable text-space optimizer。做法不是讓模型隨便重寫整份技能，而是由另一個 optimizer model 讀取 scored rollouts，然後對單一 skill document 提出有限制的修改。\u003C\u002Fp>\u003Cp>這些修改只允許三種操作：add、delete、replace。這點很重要。因為它把搜尋空間鎖住了，不讓系統把整份技能無限制地洗掉重來。對工程師來說，這比較像受控編輯，而不是自由發散式重寫。\u003C\u002Fp>\u003Cp>真正的保護機制是 validation gating。只有當某個修改能夠「嚴格提升」一個 held-out validation score，這次編輯才會被接受。也就是說，系統不只是相信 optimizer 的判斷，而是要求看得見的驗證分數改善，才讓技能版本往前走。\u003C\u002Fp>\u003Cp>論文還提到三個穩定化機制：textual learning-rate budget、rejected-edit buffer、epoch-wise slow\u002F\u003Ca href=\"\u002Ftag\u002Fmeta\">meta\u003C\u002Fa> update。摘要沒有把實作細節講滿，但名字已經透露出設計意圖：限制每次能改多少、記住被拒絕的編輯、而且更新節奏要更保守。\u003C\u002Fp>\u003Cp>這種設計很像把 prompt 優化拉近正式訓練流程。不是靠即興修改，而是有步幅、有回饋、有拒絕機制。對想把 agent 放進 production 的團隊來說，這種可控性通常比「看起來很聰明」更重要。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>作者用六個 benchmark、七個 target models、以及三種 execution harness 來測 SkillOpt，分別是 direct chat、\u003Ca href=\"\u002Ftag\u002Fcodex\">Codex\u003C\u002Fa> 和 \u003Ca href=\"\u002Ftag\u002Fclaude-code\">Claude Code\u003C\u002Fa>。這個測試矩陣算是相當廣，因為 agent 的表現通常會隨執行環境大幅變動，不同 runtime 可能會把同一份技能放大或削弱。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779689158225-1cu7.png\" alt=\"SkillOpt 把技能當權重訓練\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要給出的結論很強：SkillOpt 在 52 個 model-benchmark-harness cell 裡，都是最佳或並列最佳。它也優於每個 cell 的其他 skill 競品，包含 human、one-shot LLM、Trace2Skill、TextGrad、GEPA 和 EvoSkill。這些都是摘要中的比較宣稱，但目前公開文字沒有提供完整逐項 benchmark 表格，所以還看不到每個測項的細節。\u003C\u002Fp>\u003Cp>最明確的數字來自 GPT-5.5。SkillOpt 在 direct chat 模式下，把 no-skill accuracy 平均提升 +23.5 分；在 Codex agentic loop 裡提升 +24.8 分；在 \u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> Code 裡提升 +19.1 分。摘要沒有公開原始 baseline 百分比，所以這些應該解讀為相對增幅，而不是絕對分數。\u003C\u002Fp>\u003Cp>論文也提到 transfer 效果。優化後的 skill artifact 可以跨 model scale 保留價值，也能在 Codex 與 Claude Code 的執行環境之間轉移，甚至能直接搬到一個相近的數學 benchmark，而不需要再重新優化。這代表它學到的不只是某一個環境的局部技巧，至少在作者的測試裡，具備一定可遷移性。\u003C\u002Fp>\u003Ch2>對開發者來說，這代表什麼\u003C\u002Fh2>\u003Cp>如果你在做 agent，這篇論文最實際的啟發是：技能可能不是一次寫完就結束的設定，而是可以被版本化、被訓練、也能被轉移的資產。SkillOpt 的核心承諾，是把技能改進變成一個更系統化的流程，而且部署時不需要額外增加 inference-time 的模型呼叫。\u003C\u002Fp>\u003Cp>這點很關鍵。很多 agent 改善方案都會把複雜度塞到每一次請求裡，導致線上成本和延遲一起上升。SkillOpt 的做法是把成本搬到離線優化階段。換句話說，模型在上線時保持 frozen，真正變動的是技能文本本身。\u003C\u002Fp>\u003Cp>這種架構對維運也比較友善。技能可以像程式碼或設定檔一樣管理，適合做版本控制、回滾、比較不同版本的效果。若團隊要追查 agent 為\u003Ca href=\"\u002Fnews\u002Ffever-grace-vanslooten-roster-move-right-call-zh\">什麼\u003C\u002Fa>突然失常，這種明確的 skill artifact 也比一團隨機對話記錄好 debug 得多。\u003C\u002Fp>\u003Cp>但限制也要看清楚。摘要沒有交代 benchmark 名稱、驗證切分方式、技能文件大小、或 optimizer 可能失敗的場景。也沒有說明這個方法對 held-out validation set 有多敏感，或人工介入要到什麼程度。這些都會影響它能不能從研究原型走到穩定流程。\u003C\u002Fp>\u003Cp>另外，任何 text-space optimizer 都有一個共同風險：技能好不好，最後還是取決於搜尋過程夠不夠好。如果 optimizer model 太弱，或回饋訊號本身就偏掉，系統還是可能往錯的方向累積。驗證門檻能降低亂改的風險，但不能自動消除評估設計的問題。\u003C\u002Fp>\u003Ch2>為什麼這篇值得繼續看\u003C\u002Fh2>\u003Cp>SkillOpt 有意思的地方，在於它把 agent 改善拉回開發者熟悉的語言：迭代、約束、驗證、轉移。這比起「讓 agent 自己反省，然後希望它變好」更像一個可落地的工程流程。\u003C\u002Fp>\u003Cp>即使不直接採用這個方法，它也提供了一個很清楚的設計方向：底層模型保持固定，把技能明確抽成可管理的 artifact，再用有門檻的方式去優化它。這對除錯、回滾、重用都比較友善。\u003C\u002Fp>\u003Cp>對正在做 agentic workflows 的團隊來說，這篇論文真正值得注意的，不只是分數提升，而是它示範了一種把技能當成長期資產的思路。技能可以跨模型、跨執行環境演化，而且不必把每一次推理都變得更重。\u003C\u002Fp>\u003Cp>目前從摘要能確定的，是它在多模型、多環境測試下拿到強勢結果，並且有明確的驗證門檻與受控編輯機制。至於它在更大規模實務場景裡會不會一樣穩，還要看完整論文\u003Ca href=\"\u002Fnews\u002Fhow-to-run-and-fine-tune-llms-with-unsloth-zh\">怎麼\u003C\u002Fa>處理那些目前摘要沒說清楚的細節。\u003C\u002Fp>\u003Cul>\u003Cli>SkillOpt 把 agent 技能當成可優化的文字資產，而不是一次寫死的 prompt。\u003C\u002Fli>\u003Cli>它用 bounded edit 和 validation gating 來控制技能更新，避免無限制重寫。\u003C\u002Fli>\u003Cli>摘要聲稱它能跨模型與執行環境轉移，但完整 benchmark 細節未在摘要公開。\u003C\u002Fli>\u003C\u002Ful>","SkillOpt 把 agent 技能當成可編輯文字，透過驗證門檻做受控更新，讓技能能像模型權重一樣被優化。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.23904",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779689158796-ajrz.png","research","zh","7f605257-ebd0-4301-b48a-08e7550c9fa6",[17,18,19,20,21],"agent skills","text-space optimization","validation gating","prompt optimization","frozen model",[23,24,25],"用受控文字編輯優化 agent 技能，而不是直接改模型本體。","在 GPT-5.5 直聊、Codex、Claude Code 都有明確增益。","摘要未公開完整 benchmark 細節，轉移效果仍需看全文驗證。",38,"2026-05-25T06:05:31.495581+00:00","2026-05-25T06:05:31.48+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":20,"slug":33},"prompt-optimization",{"name":19,"slug":35},"validation-gating",{"name":17,"slug":37},"agent-skills",{"name":21,"slug":39},"frozen-model",{"name":18,"slug":41},"text-space-optimization",{"id":15,"slug":43,"title":44,"language":45},"skillopt-agent-skills-text-space-optimizer-en","SkillOpt trains agent skills like model weights","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]