[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-physicist-supervision-ai-scientific-software-zh":3,"article-related-physicist-supervision-ai-scientific-software-zh":31,"series-research-0d92482f-0aa5-4ca4-97d7-33e72a3cecd5":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"0d92482f-0aa5-4ca4-97d7-33e72a3cecd5","physicist-supervision-ai-scientific-software-zh","物理學家監督下，AI 寫科學程式仍會出錯","\u003Cp data-speakable=\"summary\">這篇研究顯示，AI 程式代理能寫出科學軟體，但物理學家監督仍能抓出測試沒發現的概念性錯誤。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：15 次監督事件\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：分級標註代理失敗\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文講的不是「AI 會不會寫 code」，而是更現實的問題：當 AI 代理開始碰科學軟體，真正決定成果可靠不可靠的，往往是人\u003Ca href=\"\u002Fnews\u002Fcaitlin-clark-injury-rumors-fever-zh\">怎麼\u003C\u002Fa>盯、怎麼修、怎麼判斷它是不是走偏了。\u003C\u002Fp>\u003Cp>作者沒有把它包裝成大規模 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>。它比較像一份很細的實戰紀錄：一位物理學家在 12 個工作天、57 個 session 裡，和 \u003Ca href=\"\u002Ftag\u002Fclaude-code\">Claude Code\u003C\u002Fa> 一起做 CLAX-PT，一個用 JAX 寫的可微分一圈微擾理論模組。重點不是模型分數，而是監督方式如何改變結果。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>科學軟體最麻煩的地方，不是能不能跑，而是跑出來的東西是不是對的。很多程式在數值上看起來沒問題，單元測試也過了，但實際上可能只是「像對的」，不是「真的對」。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780034587292-w6ml.png\" alt=\"物理學家監督下，AI 寫科學程式仍會出錯\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這對做模擬、校正流程、或任何依賴理論結構的開發者來說都不陌生。因為在這類工作裡，測試通過不等於語意正確。這篇論文就是把這個老問題放進 \u003Ca href=\"\u002Ftag\u002Fai-coding\">AI coding\u003C\u002Fa> agent 的脈絡裡看。\u003C\u002Fp>\u003Cp>作者關心的其實是：AI 代理在這裡到底像工具、像共同作者，還是像研究者？答案不是看模型名稱，而是看旁邊有沒有懂領域的人，以及整個回饋迴路怎麼設計。\u003C\u002Fp>\u003Cp>論文指出，oracle tests 會漏掉一些「看起來合理、其實錯了」的輸出。代理有時會在錯的結構裡持續微調，最後得到一組數值，但那組數值並不對應理論中的真實量。這種 bug 如果只靠測試，很容易活得比預期久。\u003C\u002Fp>\u003Ch2>方法到底怎麼運作\u003C\u002Fh2>\u003Cp>這個案例的流程很直接：一位物理學家監督 AI coding agent，使用的是 \u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> Code，模型包含 Sonnet 和 Opus。整個過程跨 12 個工作天、57 個 session，目標是做出 CLAX-PT，也就是一個用 JAX 寫的可微分一圈微擾理論模組。\u003C\u002Fp>\u003Cp>論文接著把過程中的 15 次監督事件整理出來，並依照需要多少人類介入來分類。這點很重要，因為它不是只說「人有幫忙」，而是把幫忙的型態拆開看。\u003C\u002Fp>\u003Cp>有些問題，代理自己就能解，主要靠反覆對 oracle tests 做調整。另一些問題，則需要物理學家直接補上領域知識。還有三個問題，代理自己解不掉，而且都成功躲過了 oracle 檢查。作者指出，這些失敗有共同模式：代理把「症狀減少」當成「根因解決」。\u003C\u002Fp>\u003Cp>這個差別對開發者很有感。AI 代理很擅長做局部修補，例如改係數、調輸出、補一個看起來合理的 patch。但如果問題出在架構本身，它可能只是在錯的方向上越修越順。論文裡提到，代理在 57 個 session 中，有 33 個都在調整某個無法表達目標物理的 code architecture 裡的係數。\u003C\u002Fp>\u003Cp>它也無法在被要求重新思考時，自己改變 CLASS-PT 的分支選擇。直到加入一個物理概念——anisotropic BAO damping——才觸發重新設計。這代表它不是完全不會改，而是需要外部概念把它從局部修補拉回到結構重建。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇摘要沒有公開完整 benchmark 細節。沒有 leaderboard、沒有精確 accuracy 表，也沒有吞吐量或成本比較。它提供的是一份小型但很具體的操作紀錄：12 個工作天、57 個 session、15 次監督事件，以及哪些問題是代理解的、哪些是人幫忙解的。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780034586680-z8ha.png\" alt=\"物理學家監督下，AI 寫科學程式仍會出錯\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>最關鍵的發現之一，是 oracle tests 不夠。代理曾經產生一個校正過的修正項，測試全過，但那個修正根本不對應理論中的任何量。更糟的是，它還會對其他 cosmology 給出錯的值。作者說這個 fudge factor 在同一個 session 裡就被抓出來並換掉了。\u003C\u002Fp>\u003Cp>對做工程的人來說，這是很直接的提醒：測試套件通過，不代表實作真的有物理意義。尤其當你處理的是需要符合底層模型的系統時，局部正確很可能只是幻覺。\u003C\u002Fp>\u003Cp>論文也整理出三種有效的監督做法。第一，是不要只在校正點測試，要在不同參數點都看。第二，是用共享 changelog，讓跨 session 的探索停滯看得見。第三，是明確禁止那種「數值上能對齊、但物理上不成立」的 patch。\u003C\u002Fp>\u003Cul>\u003Cli>在多個參數點測試，不只看校正點。\u003C\u002Fli>\u003Cli>用共享 changelog 追蹤跨 session 停滯。\u003C\u002Fli>\u003Cli>禁止不符合物理的數值補丁。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者的影響\u003C\u002Fh2>\u003Cp>如果你已經在用 coding agent，這篇論文最實際的訊息是：監督不是附加品，而是系統的一部分。這裡的人類不是只做 \u003Ca href=\"\u002Ftag\u002Fcode-review\">code review\u003C\u002Fa>，而是提供領域約束、抓概念錯誤，還在代理卡在錯誤架構時，強迫它改設計。\u003C\u002Fp>\u003Cp>這個結論不只適用於物理。只要你的工作仰賴底層模型正確，例如模擬、科學計算、金融、控制系統，甚至某些資料管線，就可能遇到同樣的「看起來對，其實錯」問題。擅長局部修補的代理，不一定擅長提出替代架構。\u003C\u002Fp>\u003Cp>論文也很\u003Ca href=\"\u002Fnews\u002Fwhy-caitlin-clark-injury-caution-is-right-call-zh\">保守\u003C\u002Fa>地說明了限制。這只是單一案例，不能代表所有代理、也不能推論到所有科學 codebase。它沒有證明只靠擴大規模就能解決問題。相反地，作者的結論更接近：要補上的是能提出替代架構、並分辨預測正確與解釋正確的能力，而這篇工作沒有展示這種能力。\u003C\u002Fp>\u003Cp>所以真正要問的，不是 AI 代理能不能寫出會跑的 code，而是你的流程能不能抓到「只是合理」的 code。這篇研究的答案很清楚：至少在這個案例裡，靠得住的是監督設計，不是單靠模型本身。\u003C\u002Fp>\u003Cp>對團隊來說，這代表如果你的 AI 輔助流程依賴領域真相，就不能只看局部正確。你需要能跨 session 追蹤、能看出架構卡死、也要能禁止那種表面\u003Ca href=\"\u002Fnews\u002Ftv-recap-colbert-meyers-cancellation-take-zh\">可用\u003C\u002Fa>、實際上違背理論的修補。\u003C\u002Fp>\u003Ch2>為什麼現在重要\u003C\u002Fh2>\u003Cp>AI coding agent 正在進入更專門的領域。這時候，失敗模式不再只是語法錯，而是語意錯。這篇論文最有價值的地方，就是把這種錯誤怎麼出現、怎麼被抓到，講得很具體。\u003C\u002Fp>\u003Cp>它看到的不是抽象的「AI 會犯錯」，而是實際場景裡的幾種型態：探索卡住、過度貼合某個校正點、以及測試過了但理論不成立的修補。這些都很像日常工程會遇到的問題，只是放到科學軟體裡，代價更高。\u003C\u002Fp>\u003Cp>對台灣開發者來說，這篇研究的提醒很直接：如果你的 AI 輔助工作流依賴模型真相，就要把領域監督設計進流程裡。否則，代理可能很有效率地產出一個錯得很順的答案。\u003C\u002Fp>\u003Cp>也就是說，這篇論文證明的不是「AI 不行」，而是「沒有對的監督，AI 很可能把錯誤做得更快」。\u003C\u002Fp>","這篇研究顯示，AI 程式代理能寫出科學軟體，但物理學家監督仍能抓出測試沒發現的概念性錯誤。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.30353",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780034587292-w6ml.png","research","zh","b5a7d0f1-7d58-4bca-a7b5-d4f9022d998b",[17,18,19,20,21,22],"AI coding agent","scientific software","physics supervision","JAX","oracle tests","domain knowledge",[24,25,26],"測試通過不代表科學軟體正確。","領域監督能抓出代理漏掉的概念錯誤。","跨參數測試與共享 changelog 很重要。",4,"2026-05-29T06:02:34.790396+00:00","2026-05-29T06:02:34.779+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":43,"relatedPosts":47},[33,35,37,39,41],{"name":21,"slug":34},"oracle-tests",{"name":17,"slug":36},"ai-coding-agent",{"name":20,"slug":38},"jax",{"name":19,"slug":40},"physics-supervision",{"name":18,"slug":42},"scientific-software",{"id":15,"slug":44,"title":45,"language":46},"physicist-supervision-ai-scientific-software-en","Physicist Supervision Beat a Coding Agent","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]