[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-reprorepo-github-issues-reproducibility-audits-zh":3,"article-related-reprorepo-github-issues-reproducibility-audits-zh":30,"series-research-a11f0446-10ed-4065-b079-fd59f9d7e6e1":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","\u003Cp data-speakable=\"summary\">ReproRepo 把 \u003Ca href=\"\u002Ftag\u002Fgithub\">GitHub\u003C\u002Fa> issues \u003Ca href=\"\u002Fnews\u002Fnewcore-turns-ai-agents-into-managed-identities-zh\">變成可\u003C\u002Fa>重用監督訊號，用來擴大\u003Ca href=\"\u002Fnews\u002Fveritas-robot-policy-visual-verification-zh\">機器\u003C\u002Fa>學習論文的可重現性稽核。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：1,149 篇近期機器學習論文\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：用人類 issues 當監督\u003C\u002Fli>\u003C\u002Ful>\u003Cp>可重現性一直是研究圈的老問題，但它最麻煩的地方，不是大家不知道重要，而是很難規模化地測。你要驗證一個 LLM \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 能不能幫忙做 reproducibility audit，總得先有一套夠真實、又夠大規模的測試資料。問題是，這類 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 往往要靠大量人工整理，成本高，也很難一直擴。\u003C\u002Fp>\u003Cp>這篇論文的 ReproRepo，就是在解這個痛點。它不從零發明一堆人工任務，而是把 GitHub issues 當成自然生成的 supervision，拿來標記真實世界裡到底是什麼阻礙了重現。\u003C\u002Fp>\u003Ch2>它想解什麼問題\u003C\u002Fh2>\u003Cp>作者先指出一個很實際的瓶頸：reproducibility evaluation 很重要，但現有給 LLM agents 用的 benchmark，通常都很吃手工整理與手工評估。這讓它們難以擴到很多論文、很多 repo、很多失敗類型。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png\" alt=\"ReproRepo 用 GitHub issues 做可重現性稽核\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>換句話說，問題不只在模型，也在測量方法本身。你如果想知道一個 agent 能不能幫忙稽核可重現性，就需要拿它去面對真實的 blocker；但如果每做一個新 benchmark 都要花大量人力，benchmark 反而成了瓶頸。\u003C\u002Fp>\u003Cp>ReproRepo 的切入點，就是把這個瓶頸往前推。它把論文和對應的開源程式庫配對，再把 repository 裡人類實際提出的 issues 拿來當標籤，讓模型學到的是現實世界的 debug 痛點，而不是人工編出來的測驗題。\u003C\u002Fp>\u003Cp>這個方向對開發者很有感，因為它比較接近真實工作流。大家在追 code、看 paper、找 bug 的時候，常常不是卡在單一理論點，而是卡在文件沒寫清楚、實作細節不完整、依賴版本對不上，或是 paper 和 repo 的路徑根本沒對齊。\u003C\u002Fp>\u003Ch2>ReproRepo 怎麼運作\u003C\u002Fh2>\u003Cp>方法本身其實很直接：先把論文和它們釋出的程式庫配對，再把 GitHub issues 裡的人類回報拿來當 reproducibility problem 的訊號。這些 issues 就成了監督資料，反映的是實際有人踩過的坑。\u003C\u002Fp>\u003Cp>這件事的關鍵不在於 issues 本身新不新，而在於它們夠不夠貼近真實失敗模式。GitHub issues 常常會寫出重現時遇到的摩擦點，例如缺少說明、實作細節含糊、相依套件不合，或某段 code path 跟論文描述對不上。摘要沒有列出更細的 issue 分類，所以只能確定它把這些人類回報當成可重現性阻礙的來源，不能再往下硬拆 taxonomy。\u003C\u002Fp>\u003Cp>作者把這套框架設計成可重用的評估基礎。也就是說，它不只是做一次性的資料集，而是想成為之後評估 LLM agents 在真實 reproducibility auditing 上表現的工具。這種設計的好處是，未來如果有新的模型或新的 agent 架構，理論上可以直接拿來測，不必每次都重做整套人工標註。\u003C\u002Fp>\u003Cp>論文把 ReproRepo 實作在 1,149 篇近期機器學習論文上，並評估四種 frontier model-agent 組合。摘要沒有把四組配置完整列出，所以外界目前只能看到一個明確提到的結果：\u003Ca href=\"\u002Ftag\u002Fcodex\">Codex\u003C\u002Fa> with GPT-5.5。\u003C\u002Fp>\u003Cp>這裡也要注意，這篇摘要沒有公開完整 benchmark 細節。像是資料切分方式、每個 agent 的完整設定、或全部配置的逐一數值比較，都沒有在摘要裡展開。這代表你可以把它視為一個有方向性的研究結果，但還不能直接當成完整的工程選型依據。\u003C\u002Fp>\u003Ch2>它真正證明了什麼\u003C\u002Fh2>\u003Cp>最醒目的結果，是表現最好的 agent：Codex with GPT-5.5，對資料集中大約 90% 的論文，至少能找出一個語意上相關的人類回報 blocker。這個數字很重要，因為它不是單純說模型「看起來有幫助」，而是指出它常常能把問題定位到正確的語意範圍。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678887837-b6uy.png\" alt=\"ReproRepo 用 GitHub issues 做可重現性稽核\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對做 coding agent 或研究工具的人來說，這代表一件事：模型不一定要先真的跑 code，才有機會幫忙找出重現障礙。它有時候只靠 paper 和 repo 的關聯，就能先指出「問題大概在哪裡」，例如是哪一段方法、哪一塊程式、或哪個\u003Ca href=\"\u002Fnews\u002Fkimi-k27-review-copyable-coding-playbook-zh\">流程\u003C\u002Fa>最可能出事。\u003C\u002Fp>\u003Cp>但論文也把界線畫得很清楚。作者說，這些 agents 對於「可見的失敗」和「語意區域定位」表現不錯，可是對精準定位還不夠可靠。也就是說，它可能知道問題在這個模組附近，卻還不能準確指出是哪個檔案、哪一行，或真正的 root cause。\u003C\u002Fp>\u003Cp>這個差異很關鍵。因為 reproducibility auditing 跟真正修 bug 不一樣。前者比較像是先判斷哪裡有風險、哪裡值得查；後者則是要真的把問題修掉。ReproRepo 證明的是前者有機會被規模化，不是後者已經被解決。\u003C\u002Fp>\u003Cp>另外，摘要沒有提供傳統 benchmark 常見的完整數字，例如 accuracy、F1、pass rate 等，也沒有說模型是否會執行程式碼來完成重現。唯一明確公開的量化結果，就是上面那個約 90% 的語意相關 blocker 提示率。這也表示目前能下的結論，應該控制在「能幫忙找方向」而不是「能端到端重現結果」。\u003C\u002Fp>\u003Ch2>對開發者有什麼意義\u003C\u002Fh2>\u003Cp>如果你在做 ML tooling、agentic debugging，或研究基礎設施，ReproRepo 提供了一種很實際的評估思路。它不是拿乾淨的合成題來測模型，而是直接用真實 repo 裡的人類 issue 當題目。這種資料更接近工程現場，因為真實世界本來就充滿模糊描述、缺漏文件和版本相依問題。\u003C\u002Fp>\u003Cp>對三類人特別有用。第一類是做 code agent 的團隊，因為他們需要知道模型能不能先抓到 blocker。第二類是維護研究 repo 的人，因為他們可以把這種框架想成一種可重現性風險的雷達。第三類是想評估研究流程的組織，因為它提供了一種比較能擴充的測量方式。\u003C\u002Fp>\u003Cp>更廣一點看，這篇也在提醒 benchmark 設計的一個方向：監督訊號不一定都得從頭人工標。只要生態系本來就會產生有用的訊號，例如 GitHub issue、錯誤回報、或實際除錯紀錄，就可能被轉成可重用的評估資料。這對台灣很多做 \u003Ca href=\"\u002Ftag\u002Fai-工具\">AI 工具\u003C\u002Fa>、DevTools、研究平台的人來說，都是值得參考的思路。\u003C\u002Fp>\u003Ch2>限制在哪裡\u003C\u002Fh2>\u003Cp>第一個限制，是 GitHub issues 不是完美的 reproducibility proxy。不是每個 blocker 都會被人提 issue；有些 issue 寫得很模糊；也有些回報的問題，未必剛好對應 benchmark 真正想量的那個重現障礙。換句話說，它很實用，但不是絕對精準。\u003C\u002Fp>\u003Cp>第二個限制，是精準定位還不夠好。摘要已經直接說了，agents 在 exact localization 上仍然不足。這意味著 ReproRepo 更像是「先幫你縮小範圍」的工具，而不是可以直接幫你 patch repo、一步重現結果的系統。\u003C\u002Fp>\u003Cp>第三個限制，是評估範圍。這次資料來自近期的機器學習論文，而且是 major conferences 的脈絡，所以不能直接推論到所有研究領域，也不能直接推論到一般軟體專案。不同領域的 repo 結構、issue 習慣、文件品質，都可能差很多。\u003C\u002Fp>\u003Cp>最後，摘要也沒有把四種 frontier model-agent 組合的完整比較攤開。這讓我們知道有做多組評估，但還看不到完整的相對差異。對想做實作選型的人來說，這是目前資訊不足的地方。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>ReproRepo 的重點，不是炫技式自動化，而是把一個本來很難規模化的問題，做成比較可測的形式。它證明 human-raised GitHub issues 可以變成可重用的監督訊號，拿來做 reproducibility audits，而且 frontier agents 已經能在不少案例裡先抓到真實 blocker。\u003C\u002Fp>\u003Cp>對開發者來說，這篇的訊號很直接：如果你正在做研究除錯、code agent，或任何跟 paper-to-code 有關的工具，下一個有價值的 benchmark，也許不是合成題，而是 issue tracker 裡那些早就存在的真實問題。\u003C\u002Fp>\u003Cp>但也別把它看成已經解決可重現性。它更像是把「怎麼有效測這件事」往前推了一大步。能先找到問題在哪裡，已經很有價值；只是離完全自動化重現，還有一段路。\u003C\u002Fp>","ReproRepo 把 GitHub issues 變成可重用監督訊號，用來擴大機器學習論文的可重現性稽核。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.18237",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","research","zh","d910529d-15c0-498a-a930-85e14c6ef748",[17,18,19,20,21],"reproducibility","GitHub issues","LLM agents","benchmark","machine learning papers",[23,24,25],"用 GitHub issues 當真實監督訊號，讓可重現性稽核更容易擴大。","最佳 agent 對約 90% 論文能找到語意相關 blocker，但精準定位仍不足。","這篇更像評估框架，不是端到端重現系統。",0,"2026-06-17T06:47:34.915676+00:00","2026-06-17T06:47:34.898+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":33,"relatedPosts":37},[32],{"name":20,"slug":20},{"id":15,"slug":34,"title":35,"language":36},"reprorepo-github-issues-reproducibility-audits-en","ReproRepo scales reproducibility audits with GitHub issues","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","2026-06-17T08:32:36.427824+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"7cd85acd-4f96-43b7-a980-db5092ece240","variable-width-transformers-cut-wasted-capacity-zh","可變寬度 Transformer 省算力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png","2026-06-17T06:32:32.22399+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"956f7918-ff9c-4c2d-b8a5-e12b4ad361f2","veritas-robot-policy-visual-verification-zh","VERITAS 讓機器人邊跑邊驗證","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png","2026-06-17T06:17:37.525843+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"60d92b7d-73c4-4da6-a3d8-3de30d8ada82","phase-noise-information-aging-massive-mimo-zh","相位雜訊讓大規模MIMO資訊老化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781641075077-kuxz.png","2026-06-16T20:17:27.875482+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"83b83aaf-90bf-44d6-a2c8-74665bfe99b8","ai-model-benchmarks-gpt-55-claude-gemini-en-zh","18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636583869-5rox.png","2026-06-16T19:02:23.356505+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"4c04ff19-06b6-4917-92df-189e6a34886b","exact-posterior-scores-inverse-problems-zh","精確後驗分數解線性反問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781591581223-cx37.png","2026-06-16T06:32:31.505084+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]