[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-neuron-selectivity-changes-with-scale-zh":3,"article-related-neuron-selectivity-changes-with-scale-zh":31,"series-research-5fca9fe5-af66-47ce-85f0-0ffe1bee30b9":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","\u003Cp data-speakable=\"summary\">這篇研究指出，Rosetta Neurons 會隨\u003Ca href=\"\u002Fnews\u002F7-minimax-models-for-agentic-apps-zh\">模型\u003C\u002Fa>變大而變得更選擇性，且共享神經元的增長是次線性的。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：語言模型最高 30B 參數、視覺模型最高 5B 參數\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：量化 Rosetta Neurons 規模律\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文把「模型變大會變強」這句老話，往更細的地方推了一步。它不是只看 loss 或最終表現，而是去看模型裡的單一神經元，尤其是那些在不同獨立訓練模型中都能對應上的 Rosetta Neurons。作者想知道，當模型規模往上加，這些神經元的數量、比例和選擇性，會不會也跟著出現規律。\u003C\u002Fp>\u003Cp>這個問題對做模型解釋、除錯、資料挑選的人都很實際。因為如果內部表徵真的有規模律，那就代表大模型不是只在外部指標上變化，裡面的功能分工也可能會重新排列。這會影響你怎麼找特徵、怎麼切資料、怎麼理解模型為\u003Ca href=\"\u002Fnews\u002Fwhy-perfect-match-season-4-couples-are-not-still-together-zh\">什麼\u003C\u002Fa>會做出某種判斷。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>作者要處理的痛點很直接：規模律研究大多盯著表面結果，像是 loss、準確率、吞吐量這些指標，但很少系統性地看模型內部的神經元結構。問題是，模型的內部組織方式，往往才是理解行為的關鍵。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png\" alt=\"神經元選擇性會隨規模改變\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>他們選 Rosetta Neurons 當切入點。這類神經元的特徵是，在不同獨立訓練的模型裡，激活模式很相似。也就是說，它們像是一組跨模型能對得上的共享表徵。這讓它們很適合拿來當探針，看共享結構到底會不會隨規模擴大而增加、碎裂，還是維持穩定。\u003C\u002Fp>\u003Cp>如果這種共享神經元真的有規律可循，那對做模型檢視、特徵發現、甚至資料篩選的人都很有用。因為你不只是知道模型變大了，還能預測它裡面的表示方式會怎麼變。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>這篇研究分別分析語言模型和視覺模型中的 Rosetta Neurons。語言模型規模最高到 30B 參數，視覺模型最高到 5B 參數。作者接著比較不同規模下，這群神經元的絕對數量與整體占比如何變化。\u003C\u002Fp>\u003Cp>這裡有個很重要的觀察角度：絕對數量和相對比例不是同一件事。某個神經元族群即使數量變多，也可能在整個網路裡占更小比例。這篇論文就是抓住這個差異，去看 Rosetta Neurons 是否真的呈現出規模相關的變化。\u003C\u002Fp>\u003Cp>除了數量，作者也看選擇性、monosemanticity，以及 domain specialization。白話說，就是這些神經元是不是越來越只對單一類特徵或概念有反應，還是仍然混雜在一起。這些指標直接關係到神經元是否容易被人理解，也關係到它們是不是更能代表某個特定領域。\u003C\u002Fp>\u003Cp>論文還放了一個分析模型。它把 feature utility 和有限的神經元容量放在一起考慮，試著解釋為什麼會出現次線性成長，以及作者觀察到的 polarization effect。也就是說，這不只是描述現象，還想給出一個能說明現象的機制框架。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>第一個\u003Ca href=\"\u002Fnews\u002F5-backrooms-spoilers-ending-monster-sequel-zh\">重點\u003C\u002Fa>結果，是 Rosetta Neurons 呈現次線性成長。模型變大時，這類神經元的絕對數量確實增加，但它們在整體神經元中的占比卻下降。換句話說，大模型裡共有的這種神經元更多了，但它們不是以跟參數量一樣快的速度擴張。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467493418-l2rr.png\" alt=\"神經元選擇性會隨規模改變\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>第二個重點，是作者稱為 Neuron Polarization Effect 的現象。隨著規模增加，Rosetta Neurons 變得更選擇性，也更 monosemantic；相對地，另一群非 Rosetta 神經元則維持較低的選擇性。作者把這看成內部表徵開始分化：一部分變得更像可解釋的共享族群，另一部分則保留較不專一的狀態。\u003C\u002Fp>\u003Cp>第三個結果，是 Rosetta Neurons 會隨規模增加而更具 domain specialization。論文用 continued pretraining 的資料過濾案例來展示這件事，說明這種選擇性不只是理論上的性質，還能被拿來做資料選擇。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節。裡面沒有 downstream task 的準確率表，也沒有 loss 改善數字，更沒有完整 ablation。也就是說，從摘要本身只能確認規模趨勢、選擇性變化與案例展示，不能直接把它解讀成某種可量化的任務提升。\u003C\u002Fp>\u003Ch2>這對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做大模型訓練、微調或分析，這篇論文提醒你一件事：模型變大，不只是能力變強，內部結構也可能重組。這代表你看模型時，不能只盯著輸出結果，還要考慮它裡面的特徵是不是正在變得更集中、更專一。\u003C\u002Fp>\u003Cp>對做 interpretability 的人來說，這很重要。因為如果少數神經元族群會隨規模累積更多共享、可解釋的結構，那你在追蹤概念、找 feature、或做 neuron tracing 時，可能要把注意力放在更小但更關鍵的區域。反過來說，網路裡其他比較不專一的部分，可能會更難直接拿來當解釋入口。\u003C\u002Fp>\u003Cp>對資料工程和 continued pretraining 也有啟發。論文提到的資料過濾案例，暗示可以用神經元選擇性來輔助挑資料。這不是說已經有一套通用流程，但至少顯示作者把這個結果往實作方向推，而不是只停在觀察層級。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這篇摘要的限制也很明顯。它沒有說清楚到底分析了多少模型，也沒有交代 Rosetta Neurons 在實作上是怎麼定義、怎麼對齊、怎麼抽取的。對想重現的人來說，這些細節很關鍵，但摘要裡沒有展開。\u003C\u002Fp>\u003Cp>另外，它只明確提到語言模型和視覺模型兩大族群。摘要沒有說這個規律是否也會出現在其他架構，或是其他種類的神經元族群上。若要把它升級成更一般的規則，這會是下一步必須回答的問題。\u003C\u002Fp>\u003Cp>分析模型也還有驗證空間。摘要沒有交代它如何排除其他解釋，也沒有說這個模型是否能預測更多細節。換句話說，現階段比較像是「觀察到一個規律，並提出一個合理機制」，還不到完全定論。\u003C\u002Fp>\u003Cp>最後，這篇研究把選擇性、monosemanticity、專一化都跟規模連起來，但摘要沒有證明這些性質會直接轉化成更好的產品效果、除錯效率或安全性提升。它比較像是在告訴你：模型內部確實有規模現象，而且這個現象值得被當成一個獨立研究對象。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>這篇論文的核心訊息很清楚：神經元本身也有規模律。Rosetta Neurons 會隨模型變大而增加，但占比變小，而且會變得更選擇性、更 monosemantic，也更具領域專一性。\u003C\u002Fp>\u003Cp>對開發者來說，這代表 scale 不只改變模型能做什麼，也改變模型怎麼把功能分配到內部神經元。摘要沒有給完整 benchmark 數字，但它提供了一個很實用的視角：未來談大模型規模，不只要看外部表現，也要看內部結構怎麼跟著長大。\u003C\u002Fp>\u003Cul>\u003Cli>Rosetta Neurons 是這篇研究用來觀察跨模型共享結構的探針。\u003C\u002Fli>\u003Cli>語言模型最高到 30B 參數，視覺模型最高到 5B 參數。\u003C\u002Fli>\u003Cli>作者把神經元選擇性、monosemanticity 和規模變化連成一條線。\u003C\u002Fli>\u003C\u002Ful>","這篇研究指出，Rosetta Neurons 會隨模型變大而變得更選擇性，且共享神經元的增長是次線性的。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.03990",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","research","zh","4515ce72-a5c8-4559-a345-f24f50d89d09",[17,18,19,20,21,22],"Rosetta Neurons","scaling laws","selectivity","monosemanticity","interpretability","model internals",[24,25,26],"Rosetta Neurons 會隨模型規模增加而變多，但占整體比例變小。","更大的模型裡，這些共享神經元會更選擇性，也更 monosemantic。","摘要沒有公開完整 benchmark 數字，重點在內部結構的規模律。",3,"2026-06-03T06:17:44.126547+00:00","2026-06-03T06:17:44.117+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":40,"relatedPosts":44},[33,35,36,37,39],{"name":17,"slug":34},"rosetta-neurons",{"name":19,"slug":19},{"name":20,"slug":20},{"name":18,"slug":38},"scaling-laws",{"name":21,"slug":21},{"id":15,"slug":41,"title":42,"language":43},"neuron-selectivity-changes-with-scale-en","How neuron selectivity changes as models scale","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]