標籤

MoE

MoE（Mixture of Experts）是一種讓模型按需啟用部分專家的架構，常用來在總參數、推理成本與效果之間取得平衡。從開源寫碼模型到長上下文 agent 系統，MoE 正成為大模型工程化的重要路線。

10 篇文章

UniPool：共享 MoE 專家池

UniPool 把 MoE 的分層專家改成全域共享池，減少重複參數，並在五個 LLaMA 規模模型上改善驗證損失。

TIDE 針對 diffusion LLM 的跨架構蒸餾，加入噪聲感知權重與 tokenizer 感知目標，讓 0.6B 學生模型更接近大模型表現。

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性，直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

2026 年 4 月的開源 AI 很熱鬧。GitHub 的 agent 工具、Hugging Face 的模型下載數都很猛，這篇整理最值得看的專案、數據和實際影響。

Moonshot AI 的 Kimi K2.5 在 2026/1/27 上線，主打 256K context、Agent Swarm、MIT 授權，還把多項 benchmark 拉到和 GPT、Claude 同一張桌子。

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

Moonshot AI 推出 Kimi K2.5，主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

MiMo 2026 三款模型分工很清楚：Flash 主打開源與 coding，Pro 提供 1M context，Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。

小米推出 MiMo-V2-Pro，總參數超過 1T、每 token 啟用 42B，還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6，價格卻低很多。

NVIDIA 在 CES 2026 端出 Rubin 平台，主打推論 Token 成本最高可比 Blackwell 低 10 倍，MoE 訓練可少用 4 倍 GPU。重點不只是一顆新 GPU，而是把 CPU、網路、DPU、交換器整包賣成機櫃級 AI 系統。