[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-grounded-token-initialization-new-vocabulary-zh":3,"article-related-grounded-token-initialization-new-vocabulary-zh":25,"series-blockchain-1d6cf1d5-8fc4-41f5-9802-68b115639cee":77},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":22,"created_at":23,"published_at":24,"topic_cluster_id":11},"1d6cf1d5-8fc4-41f5-9802-68b115639cee","grounded-token-initialization-new-vocabulary-zh","新詞初始化別再只取平均","\u003Cp>語言模型一直在擴 vocab。問題是，新加進去的 token 通常沒有預訓練基礎，只能靠後續微調慢慢學。這篇論文要修的，就是這個看起來很小、實際上很關鍵的起點：新 token 到底該怎麼初始化。\u003C\u002Fp>\u003Cp>作者鎖定的是生成式推薦（generative recommenda\u003Ca href=\"\u002Fnews\u002Factionparty-multi-subject-action-binding-zh\">tion\u003C\u002Fa>）場景，像 Semantic-ID 這類新詞彙會被加進語言模型，拿來表示領域內的物件或概念。業界常見做法很直接：把新 token 初始化成既有詞向量的平均值，再交給 supervised fine-tuning。論文認為，這種做法雖然方便，卻可能把新 token 的差異直接抹平。\u003C\u002Fp>\u003Cp>這篇工作的核心，不是再發明一個更大的模型，而是把「新詞怎麼站上起跑線」這件事講清楚。作者主張，若新 token 在微調前先被放到一個有語意基礎的位置，模型後面就比較能沿用預訓練時學到的結構，而不是從一個過度扁平的起點重新掙扎。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>在生成式推薦裡，新 token 不是一般\u003Ca href=\"\u002Fnews\u002Fsteerable-vi-vision-representations-zh\">文字\u003C\u002Fa>。它們常常代表商品、項目、實體，或某種領域內的離散符號。這些 token 的角色很像模型和資料庫、商品庫之間的介面。介面如果一開始就太粗糙，後面再怎麼訓練，模型都得先花力氣把它們拆開。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775196588195-1xuy.png\" alt=\"新詞初始化別再只取平均\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>作者指出，常見的平均初始化有一個隱性代價：所有新 token 一開始都被放到差不多的位置。從幾何上看，這會把它們壓進一個退化的子空間。白話講，就是 token 彼此太像，原本應該保留的區別被消掉了。\u003C\u002Fp>\u003Cp>論文用光譜與幾何診斷來看這件事，結論是平均初始化不只是「不夠好」，而是可能直接限制新 token 後續能學到多少東西。因為微調要先把這些 token 從同一團裡拆開，才有辦法學到真正有用的區分。\u003C\u002Fp>\u003Cp>這個觀點對開發者很實際。很多時候大家會把初始化視為工程細節，覺得反正最後都會 fine-tune，差一點沒關係。但這篇論文的訊息很明確：起點本身就會改變模型後面能不能把新詞學好。\u003C\u002Fp>\u003Ch2>GTI 到底怎麼做\u003C\u002Fh2>\u003Cp>作者提出的想法叫做 Grounded Token Initialization Hypothesis。重點是：如果新 token 在微調前先被「語言上錨定」到預訓練 embedding 空間裡，模型就能更好地重用原本的通用知識。這不是重新設計整個訓練流程，而是先把新 token 放進一個比較有結構的位置。\u003C\u002Fp>\u003Cp>實作方法叫 GTI，Grounded Token Initialization。論文把它描述成一個輕量的 grounding 階段，會在 fine-tuning 之前先跑一次，把新 token 映射到 pretrained embedding space 裡不同、而且有語意意義的位置。它使用的監督訊號是 paired linguistic supervision。\u003C\u002Fp>\u003Cp>和平均初始化相比，GTI 的差別很直觀。平均初始化是把每個新 token 都放到一個模糊、沒有區別的平均點；GTI 則希望每個 token 都先站到一個能反映其語意關係的位置。換句話說，GTI 不是只求「能用」，而是先讓 token 之間的相對結構存在。\u003C\u002Fp>\u003Cp>這種設計的重點在於，它把「新 token 的表示學習」拆成兩段。第一段先做 grounding，第二段才是 supervised fine-tuning。作者的假設是，只要第一段把幾何結構保住，第二段訓練就比較不會把所有差異磨平。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇摘要沒有公開完整 benchmark 數字，所以不能從 abstract 直接列出具體提升幅度。不過作者明確表示，GTI 在多數評估設定中，表現都優於平均初始化，也優於現有的 auxiliary-task adaptation 方法。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775196589671-ujv7.png\" alt=\"新詞初始化別再只取平均\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>評估範圍涵蓋多個 generative recommendation benchmarks，而且同時包含 industry-scale 與 public datasets。這點很重要，因為它代表作者不是只在單一資料集上做局部優化，而是在不同規模的推薦場景裡檢驗同一個觀念：新詞初始化會不會真的影響結果。\u003C\u002Fp>\u003Cp>除了效能比較，論文還特別看了 embedding 的內部幾何。作者報告說，grounded embeddings 會形成更豐富的 token 間結構，而且這種結構在 fine-tuning 後仍然保留下來。這表示 GTI 的價值不只是在起跑時比較漂亮，而是它建立的結構真的撐到了訓練後期。\u003C\u002Fp>\u003Cp>對實作的人來說，這是很關鍵的訊號。很多方法看起來有效，但只在初始化那一瞬間有差，幾個 batch 之後就被訓練沖掉。這篇論文想傳達的是，GTI 不是短暫的裝飾，而是會影響後續學習路徑的前置步驟。\u003C\u002Fp>\u003Ch2>這對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 LM-based recommendation，或任何需要把新詞塞回既有 vocab 的系統，這篇論文的提醒很直接：初始化不是可有可無的細節。它會影響新 token 的可分性，也會影響模型到底能不能有效利用這些 token。\u003C\u002Fp>\u003Cp>特別是在推薦系統裡，token 往往不只是分類標籤，而是承載了 item、entity、cata\u003Ca href=\"\u002Fnews\u002Fcloudflare-mastercard-cyber-defense-partnership-zh\">lo\u003C\u002Fa>g structure 之類的資訊。一旦新 token 在表示空間裡太擠、太像，模型就更難把候選項目拉開，也更難保留細粒度差異。\u003C\u002Fp>\u003Cp>GTI 還有一個工程上的吸引力：論文把它描述成 lightweight。從摘要看起來，它不像是要把整個訓練架構翻掉，也不像是要多掛一個很重的輔助系統。它比較像是微調前的一個 grounding 步驟，先把 vocab extension 的品質拉高。\u003C\u002Fp>\u003Cul>\u003Cli>平均初始化可能會讓新 token 的差異被過度壓縮。\u003C\u002Fli>\u003Cli>先把 token 錨定到 pretrained embedding space，有機會保留更有用的結構。\u003C\u002Fli>\u003Cli>作者聲稱這個效果在多個 generative recommendation benchmark 都看得到。\u003C\u002Fli>\u003Cli>摘要沒有提供完整 benchmark 數字，所以無法從這裡判斷實際提升幅度。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這篇摘要給了很清楚的高層故事，但也留下不少開發者會在意的細節。首先，沒有 benchmark 數字，就沒辦法直接比較 GTI 到底贏多少。其次，摘要沒有交代訓練成本、實作複雜度，或 grounding 階段需要多少額外資源。\u003C\u002Fp>\u003Cp>另外，GTI 依賴 paired linguistic supervision，但摘要沒有說這種監督訊號的品質、數量，或來源會不會影響效果。這對實務很重要，因為如果 supervision 不穩，grounding 的品質也可能跟著波動。\u003C\u002Fp>\u003Cp>還有一個關鍵問題是泛化範圍。這篇論文的動機很明顯是針對 generative recommendation 與 Semantic-ID tokens，摘要沒有直接證明它能無痛移植到其他 LM 擴 vocab 的場景。它可能有啟發性，但不能只看 abstract 就當成通用解法。\u003C\u002Fp>\u003Cp>不過，論文傳達的主軸仍然很有價值：當你替 pretrained LM 加新 token 時，初始化不是小事。它會影響 embedding geometry、token separability，以及 fine-tuning 能不能把新詞的結構保留下來。\u003C\u002Fp>\u003Cp>對台灣做推薦、搜尋、或任何需要擴充 vocab 的團隊來說，這篇 paper 的實用訊息很簡單：別只把新 token 當成「等一下再學」的東西。它們從一開始站在哪裡，會直接影響模型後面能學到多少。\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.02324\">A Better Way to Seed New LM Tokens\u003C\u002Fa> 想講的，就是這個被很多 pipeline 默默略過的起點，其實可能是整個效果差距的來源。\u003C\u002Fp>","GTI 在微調前先把新詞錨定到有意義的嵌入位置，避免平均初始化讓 token 擠成一團，進而影響生成式推薦的表現。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.02324",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775196588195-1xuy.png","blockchain","zh","e487e7c6-aa22-484d-9555-46261cc7a91d",[17,18,19,20,21],"Grounded Token Initialization","generative recommendation","Semantic-ID tokens","embedding space","fine-tuning",7,"2026-04-03T06:09:29.631723+00:00","2026-04-03T06:09:29.601+00:00",{"tags":26,"relatedLang":36,"relatedPosts":40},[27,28,30,32,34],{"name":21,"slug":21},{"name":19,"slug":29},"semantic-id-tokens",{"name":18,"slug":31},"generative-recommendation",{"name":17,"slug":33},"grounded-token-initialization",{"name":20,"slug":35},"embedding-space",{"id":15,"slug":37,"title":38,"language":39},"grounded-token-initialization-new-vocabulary-en","A Better Way to Seed New LM Tokens","en",[41,47,53,59,65,71],{"id":42,"slug":43,"title":44,"cover_image":45,"image_url":45,"created_at":46,"category":13},"24f3ab93-82fa-4410-99da-909a0ea3b417","solana-apis-cut-weeks-off-integration-zh","7 款最省整合時間的 Solana API","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781019180168-gy47.png","2026-06-09T15:32:30.454604+00:00",{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"e64dd8d0-aa54-479d-bb94-254a94fefa9e","solana-unchained-token-sale-nears-phase-1-close-en-zh","Solana Unchained 預售 Phase 1 進入倒數","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781018282067-4d9s.png","2026-06-09T15:17:27.445517+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"1a666fb4-9ee7-495d-b45b-199959460e42","june-2026-web3-signals-founders-use-now-zh","2026年6月 Web3 創業者該看什麼","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781003893042-b5h0.png","2026-06-09T11:17:28.227544+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"aa802f2e-4eae-4536-b1a0-c814320963c0","bitcoin-defi-will-grow-but-not-by-copying-ethereum-zh","比特幣 DeFi 會成長，但不是靠複製以太坊","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780922875348-91e3.png","2026-06-08T12:47:26.064023+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"9dca2375-a42a-4d13-9756-dc681328369d","ai-blockchain-projects-need-real-utility-not-token-theater-zh","AI 與區塊鏈要靠真實效用，不靠代幣表演","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780918380855-iy7d.png","2026-06-08T11:32:16.63163+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e5f1b20c-c4c6-43c6-a8db-be965cdd566e","dmg-50mw-ai-loi-miners-power-assets-zh","DMG 的 50MW AI LOI 證明礦工最該賣的是電力資產，不是算力敘事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780917487712-0z92.png","2026-06-08T11:17:28.647982+00:00",[78,83,88,93,98,103,108,113,118,123],{"id":79,"slug":80,"title":81,"created_at":82},"e1b4b518-f86b-410c-8c82-8cfb787ff2ef","moonpay-open-wallet-standard-ai-payments-zh","MoonPay 推 OWS，瞄準 AI 付款","2026-03-28T03:08:33.379969+00:00",{"id":84,"slug":85,"title":86,"created_at":87},"e72bae29-ddbd-437b-aaa4-cd662605394b","next-gen-crypto-simulators-ai-web3-training-zh","新一代加密模擬器更聰明了","2026-04-01T09:36:33.917023+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"b8e39b58-6b9d-4714-92d3-26df18a3e0f4","rtk-cuts-claude-code-token-spend-zh","RTK 讓 Claude Code 少燒 Token","2026-04-01T10:24:29.259497+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"7ff10146-4ca0-4670-a02c-384dde04f610","trm-labs-ai-agents-crypto-investigations-zh","TRM Labs 將 AI agent 帶進加密調查","2026-04-01T10:33:30.166266+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"00668dea-9f0e-4019-b861-03817d5a8877","how-web3-marketing-changed-in-2026-zh","2026 Web3 行銷怎麼變了","2026-04-02T01:36:34.973322+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"e7992274-42ee-40bc-bb05-97250098c56c","ai-agentic-defi-web3-grants-march-2026-zh","AI、Agentic DeFi 與 Web3 補助案","2026-04-02T05:51:36.857954+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"5cef810b-af3d-467a-8b41-627769eca895","why-crypto-is-fixated-on-ai-agents-zh","為何加密圈盯上 AI Agent","2026-04-02T05:54:28.919864+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"d30e6203-d522-41a1-b529-fcf4499cd985","web3-explained-what-it-is-why-it-matters-zh","Web3 是什麼，為何重要","2026-04-02T06:15:32.580114+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"f29e65ae-64df-463b-ba22-afd9dcbd0f8f","trust-wallet-agent-kit-ai-trade-25-chains-zh","Trust Wallet 讓 AI 幫你交易","2026-04-02T06:27:33.183404+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"91022b4c-b53e-4c18-abfe-914a8eca6e28","blockchain-in-ai-real-use-cases-zh","區塊鏈加 AI，真實落地在哪裡","2026-04-02T06:30:44.026286+00:00"]