[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llms-implicit-grammar-representations-zh":3,"tags-llms-implicit-grammar-representations-zh":34,"related-lang-llms-implicit-grammar-representations-zh":43,"related-posts-llms-implicit-grammar-representations-zh":47,"series-research-f07807ac-d51e-413e-a08a-42b6045d1e90":84},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":30,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":20},"f07807ac-d51e-413e-a08a-42b6045d1e90","LLM 學到文法了嗎？","\u003Cp data-speakable=\"summary\">這篇研究在看語言模型的隱藏層，發現它們能讀出比字串機率更接近文法正確性的訊號。\u003C\u002Fp>\u003Cp>對很多開發者來說，語言模型給一個句子的分數高，常常就被當成「這句話比較像人話」的證據。但這篇論文要拆開兩件事：模型是不是只是在算字串機率，還是真的在內部學到了某種文法正確性訊號。\u003C\u002Fp>\u003Cp>作者的答案是：有，但不是全部。從隱藏層抽出的線性 probe，確實能抓到一個和文法性相關的表示，而且這個表示不只在訓練情境有效，還能延伸到人類標註的文法判斷資料，以及其他語言。不過，這個訊號不是萬用解。當任務變成「語意是否合理」時，單看字串機率反而比較強。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>語言模型很會產生流暢文字，但「流暢」不等於「文法正確」，「機率高」也不等於「句子合語法」。這是研究一開始就點出的問題。對人類來說，文法性和可接受度本來就不是同一件事；對模型來說，輸出分數更可能混了很多因素，包括字詞常見度、語意搭配、上下文關聯等等。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778135468005-hzub.png\" alt=\"LLM 學到文法了嗎？\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這會讓實務上常見的一個捷徑變得不可靠：把模型的 li\u003Ca href=\"\u002Fnews\u002Foutlier-tokens-diffusion-transformers-dsr-zh\">ke\u003C\u002Fa>lihood 當作文法分數。若你想拿 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 做文字過濾、句子評分、或是建立評測工具，就會碰到一個核心問題：模型到底有沒有真的學到文法，還是只是機率分佈剛好在某些案例上看起來像懂文法。\u003C\u002Fp>\u003Cp>這篇論文想分辨的，就是這兩種可能性。它不是只看輸出分數，而是直接往模型內部看，檢查 hidden states 裡有沒有更直接的文法表示。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>作者用的是一個很典型、也很務實的做法：線性 probe。簡單講，probe 就是一個輕量分類器，專門用來從模型的隱藏表示裡讀出某種資訊。這裡要讀出的資訊，就是文法正確性。\u003C\u002Fp>\u003Cp>訓練資料來自自然語料，再透過 perturbation 產生合成的非文法句子。這樣就能得到一批成對的樣本：一邊是原本的文法句子，一邊是被改壞的版本。這種做法的好處很直接，不需要全部靠人工從頭標註，就能建立出可訓練 probe 的資料。\u003C\u002Fp>\u003Cp>probe 的任務，是根據語言模型內部 activations，判斷這個句子是文法還是非文法。若一個簡單的線性模型就能把這個差異讀出來，通常代表該資訊已經以相當可用的形式存在於 hidden layers 裡。\u003C\u002Fp>\u003Cp>接著，作者再把這個 probe 拿去測試其他情境，包括人類整理的 grammaticality judgment benchmarks，以及不同語言。這一步很重要，因為它不是只看在訓練資料上能不能分，而是看這個訊號能不能泛化。\u003C\u002Fp>\u003Cp>也要先講清楚，這篇不是在宣稱模型真的「理解」文法，更不是在提出一套完整語法理論。它的主張比較窄：模型內部似乎有一個和文法性相關、而且不完全等同於字串機率的表示。\u003C\u002Fp>\u003Ch2>論文證明了什麼\u003C\u002Fh2>\u003Cp>最重要的結果，是這個 grammaticality probe 在人類標註的文法判斷基準上能泛化，而且比單純用語言模型的機率分數來判斷文法更好。換句話說，如果你的目標是分辨一句話是不是合語法，讀 hidden states 的 probe 會比直接看 likelihood 更有用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778135462793-y7hp.png\" alt=\"LLM 學到文法了嗎？\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但論文也刻意指出一個界線。當任務換成 sema\u003Ca href=\"\u002Fnews\u002Fhow-to-build-agentic-rag-with-langgraph-zh\">ntic\u003C\u002Fa> plausibility，也就是兩句都合語法，但其中一句比較合理、比較符合常識時，probe 的表現反而不如字串機率。這代表 probe 不是一個泛用的「好句子分數器」。它更像是在抓形式或句法層面的訊號，而 likelihood 仍然保留了更多和語意合理性有關的資訊。\u003C\u002Fp>\u003Cp>這個對比很關鍵。因為它說明 probe 不是單純學到一個「越像人寫的越高分」的抽象分數，而是比較接近文法正確性本身。換句話說，模型內部的確存在某種和 syntax 或 form 有關的表示，只是這個表示並不能取代所有與語言品質相關的判斷。\u003C\u002Fp>\u003Cp>論文也提到跨語言泛化。用英文訓練的 probe，對多種其他語言的文法基準，也比字串機率表現更好。這對多語系應用很有意思，因為它暗示這個訊號不完全被英文表面形式綁住。\u003C\u002Fp>\u003Cp>另外一個值得注意的點，是 probe 分數和字串機率之間只有弱相關。這是支持作者主張的關鍵證據之一：文法性和 likelihood 在模型內部並不是同一條軸線。模型似乎有學到一部分獨立的文法訊號，只是這個訊號並不完整，也不等於模型整體的生成偏好。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 benchmark 數字、資料集大小，或具體模型名稱，所以這些細節無法從原始摘要補出來。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 LLM 相關產品，這篇研究最直接的提醒是：不要把 likelihood 當成萬用代理指標。模型給出一個高分，可能反映的是很多東西的混合結果，不只是文法。這篇研究把這件事拆得更清楚：文法性和機率分數可以部分分離。\u003C\u002Fp>\u003Cp>這對幾種工作流程特別有影響：\u003C\u002Fp>\u003Cul>\u003Cli>文法檢查與文字過濾：你可能會想要更接近 well-formedness 的訊號，而不是泛用流暢度。\u003C\u002Fli>\u003Cli>評測設計：只看 likelihood 可能會把文法性和語意合理性混在一起。\u003C\u002Fli>\u003Cli>多語應用：英文上學到的訊號，可能比想像中更能跨語言使用。\u003C\u002Fli>\u003Cli>可解釋性分析：probe 可以幫你看模型 hidden states 內到底存了什麼資訊。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>但限制也很明顯。這篇沒有證明 probe 是完美的文法偵測器，只是它在測試情境裡比 probability-based judgments 更好。它在 plausibility 任務上又輸給 likelihood，所以不能把它直接當成所有場景的替代方案。\u003C\u002Fp>\u003Cp>還有一個實作上的保留：linear probe 只能告訴你某個資訊是否能從表示中被線性讀出，不能告訴你模型怎麼算出來，也不能保證不同架構、不同規模、不同訓練資料下都一樣穩。摘要裡也沒有說，這個結果對 perturbation 的設計有多敏感。\u003C\u002Fp>\u003Cp>所以，這篇論文比較像是把一個常見假設戳破一點：LLM 的輸出機率不等於文法分數，但 hidden layers 裡確實藏著一個更接近文法性的訊號。對要做文字評分、句子過濾、或多語評測的人來說，這代表你可能得開始看內部表示，而不是只盯著 raw likelihood。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>這篇研究的核心訊息很清楚：預訓練語言模型的 hidden layers 裡，存在一個可被線性 probe 讀出的文法性訊號。這個訊號在文法判斷任務上，比直接看字串機率更有效，也能跨語言泛化；但在語意合理性判斷上，likelihood 仍然更有用。\u003C\u002Fp>\u003Cp>換句話說，LLM 不是只會算機率。它們內部確實學到了一部分文法結構，只是這不代表你可以把所有語言品質問題都交給同一個分數處理。對開發者來說，這篇比較像是一個方法提醒：如果你在意的是文法，別只看輸出，去看模型裡面讀得到\u003Ca href=\"\u002Fnews\u002Fwhy-openai-microsoft-breakup-good-for-everyone-zh\">什麼\u003C\u002Fa>。\u003C\u002Fp>","這篇研究用線性 probe 讀取語言模型隱藏層，發現模型對「文法正確性」有獨立於字串機率的訊號，但在語意合理性上仍不如 likelihood。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.05197",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778135468005-hzub.png",[13,14,15,16,17],"language models","linear probe","grammaticality","likelihood","hidden representations","zh",1,false,"2026-05-07T06:30:33.906328+00:00","2026-05-07T06:30:33.667+00:00","done","d02e9f8f-f2c0-4251-b671-619e1ec2c8d9","llms-implicit-grammar-representations-zh","research","22c43f4e-8be9-4440-bd1b-74a00b60dfa3","published","2026-05-07T09:00:17.973+00:00",[31,32,33],"隱藏層能讀出比字串機率更接近文法正確性的訊號。","這個訊號在文法判斷上有效，但不適合拿來取代所有 likelihood 用途。","英文訓練的 probe 也能跨語言泛化，但摘要沒有公開完整 benchmark 數字。",[35,37,38,40,41],{"name":13,"slug":36},"language-models",{"name":16,"slug":16},{"name":14,"slug":39},"linear-probe",{"name":15,"slug":15},{"name":17,"slug":42},"hidden-representations",{"id":27,"slug":44,"title":45,"language":46},"llms-implicit-grammar-representations-en","Do LLMs Learn Grammar Beyond Likelihood?","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]