返回首頁

標籤

MoE

MoE(Mixture of Experts)是一種讓模型按需啟用部分專家的架構,常用來在總參數、推理成本與效果之間取得平衡。從開源寫碼模型到長上下文 agent 系統,MoE 正成為大模型工程化的重要路線。

10 篇文章

UniPool:共享 MoE 專家池
技術研究/5月8日

UniPool:共享 MoE 專家池

UniPool 把 MoE 的分層專家改成全域共享池,減少重複參數,並在五個 LLaMA 規模模型上改善驗證損失。

TIDE 讓跨架構蒸餾可行
技術研究/4月30日

TIDE 讓跨架構蒸餾可行

TIDE 針對 diffusion LLM 的跨架構蒸餾,加入噪聲感知權重與 tokenizer 感知目標,讓 0.6B 學生模型更接近大模型表現。

Qwen3.6-35B-A3B 打開開源寫碼新路線
模型發布/4月20日

Qwen3.6-35B-A3B 打開開源寫碼新路線

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性,直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

2026年4月值得追的開源 AI 專案
產業動態/4月15日

2026年4月值得追的開源 AI 專案

2026 年 4 月的開源 AI 很熱鬧。GitHub 的 agent 工具、Hugging Face 的模型下載數都很猛,這篇整理最值得看的專案、數據和實際影響。

Kimi K2.5 上線:開源模型打進第一梯隊
模型發布/4月4日

Kimi K2.5 上線:開源模型打進第一梯隊

Moonshot AI 的 Kimi K2.5 在 2026/1/27 上線,主打 256K context、Agent Swarm、MIT 授權,還把多項 benchmark 拉到和 GPT、Claude 同一張桌子。

Unsloth 讓 Qwen3.5 可分層微調
工具應用/4月3日

Unsloth 讓 Qwen3.5 可分層微調

Unsloth 新增 Qwen3.5 視覺模型分層微調,能只訓練 vision、language、attention 或 MLP。VRAM 更省,訓練也更快,對多模態團隊很實用。

Kimi K2.5 把視覺、程式碼和 Agent 放一起
模型發布/4月3日

Kimi K2.5 把視覺、程式碼和 Agent 放一起

Moonshot AI 推出 Kimi K2.5,主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

MiMo V2 Pro、Omni、Flash 怎麼選
模型發布/4月2日

MiMo V2 Pro、Omni、Flash 怎麼選

MiMo 2026 三款模型分工很清楚:Flash 主打開源與 coding,Pro 提供 1M context,Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。

小米 MiMo-V2-Pro 登場:1T MoE 模型
模型發布/3月28日

小米 MiMo-V2-Pro 登場:1T MoE 模型

小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。

NVIDIA Rubin 把六顆晶片塞進 AI 機櫃
模型發布/3月26日

NVIDIA Rubin 把六顆晶片塞進 AI 機櫃

NVIDIA 在 CES 2026 端出 Rubin 平台,主打推論 Token 成本最高可比 Blackwell 低 10 倍,MoE 訓練可少用 4 倍 GPU。重點不只是一顆新 GPU,而是把 CPU、網路、DPU、交換器整包賣成機櫃級 AI 系統。