Meta Llama 4 分數風波又擴大
Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。

Llama 4 在 2025 年 4 月登場時,很多人原本很期待。畢竟 Llama 這條線,前幾代真的累積了不少開發者好感。結果才過沒多久,社群就開始吵:官方講得很強,實際跑起來卻像另一回事。
到了 2026 年初,事情又更難看。英國《Financial Times》報導,Meta 首席 AI 科學家 Yann LeCun 表示,公司曾在發布前的不同 benchmark 項目中,使用不同模型來拉高整體成績。講白了就是,圖表上的那個「Llama 4」,可能不是你真的下載到的那個 Llama 4。
這件事麻煩的點,不只是一次發表翻車。Benchmark 分數會影響開發者要不要接 API、企業要不要採購、媒體怎麼寫、主管怎麼分預算。分數如果灌水,傷的不是一篇新聞,而是整個 AI 評測體系的可信度。
發布前到底出了什麼事
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
爭議核心其實很直白。Meta 在宣傳 Llama 4 時,秀出一批看起來很能打的 benchmark 成績。但模型一開放,很多開發者自己上手測,發現 coding、推理、指令遵循都沒有宣傳那麼漂亮。

這種落差在開放模型圈很難藏。因為用戶不是只看發表會投影片。大家會自己跑 eval、測量化版本、比輸出、貼失敗案例,還會直接開 GitHub issue 或在 X 上公開對照。你如果只是文案寫太滿,可能還能被酸幾天;你如果拿不同模型拼成一張成績單,那就不是行銷失手而已。
根據這次報導,Meta 一開始對外界質疑有過反駁。後來 LeCun 在受訪時承認,確實有針對不同評測項目使用不同模型的情況。如果報導內容沒問題,那代表公開成績反映的不是單一可下載模型,而是多個系統拼起來的最佳畫面。
- Llama 4 於 2025 年 4 月發布。
- 新一波爭議在 2026 年 1 月的報導中擴大。
- 核心指控是不同 benchmark 類別用了不同模型。
- 開發者在公開取得模型後,很快發現實測表現落差。
我覺得這比一般模型翻車更傷。因為開放模型最大的賣點之一,就是可驗證。你可以下載、微調、部署,甚至自己拆解權重與 tokenizer。現在如果連最基本的「圖表對不對得上產品」都出問題,那整個信任基礎就鬆掉了。
而且這件事還有一個很現實的後果。很多團隊會根據 benchmark 決定 GPU 預算、微調方向、RAG 架構,甚至決定要不要把某個模型放進產品線。你用一張不準的表,別人可能就多花幾十萬到幾百萬台幣在錯的方向上。
為什麼這次對 Meta 特別傷
說真的,Meta 不是第一次做模型,也不是第一次遇到質疑。但 Llama 系列前幾代,的確在開放權重市場建立了不錯口碑。Llama 2 和 Llama 3 讓不少新創、研究團隊、獨立開發者有了能自己掌控的選項,不用什麼都綁在封閉 API 上。
也因為前面累積的信用夠高,這次反彈才會更大。模型不夠強,大家可以接受。版本更新失誤,社群也看過很多次。可是一旦牽涉到評測展示和實際產品不一致,問題就變成「你是不是故意讓大家誤判」。這個層級完全不同。
Andrej Karpathy 以前談模型評估時講過一句很準的話:benchmark 很有用,但還不夠。這句話剛好打中這次事件。Benchmark 本來就只是抽樣,它能幫你快速比較,但前提是測的東西要真的等於你賣的東西。
“Benchmarks are useful, but they are not enough.”
— Andrej Karpathy
一旦公司開始優化的是「展示方式」,不是「公開版本」,benchmark 就失去測量意義了。它會從工程訊號變成行銷素材。這也是為什麼很多資深開發者現在看到漂亮排行榜,第一反應不是佩服,而是先懷疑測法。
報導裡還提到,Mark Zuckerberg 對這次發布結果很不滿,甚至對相關團隊失去信心,GenAI 團隊在內部地位也受到影響。這部分外界比較難完整驗證,我不會把它當成鐵證。但從大公司運作邏輯看,AI 發表翻車通常不會只停在研究部門,後面常會牽動招募、產品節奏、資源分配。
你可能會想問,Meta 這種體量,真的會因為一次 benchmark 爭議就受重傷嗎?短期財報不一定。可是在 AI 市場,人才和開發者信任很值錢。尤其是頂尖研究員和基礎設施工程師,他們很在意技術敘事有沒有站得住腳。
Llama 4 放在市場裡看有多尷尬
時間點也對 Meta 很不友善。到了 2025 年,市場已經不是「你只要比開源前代強就夠了」。大家拿來比的是 GPT、Claude、Gemini,還有一票更新很快的開放模型。每幾個月就有新版本,大家耐心變少很多。

Llama 3 70B 在 2024 年其實把門檻拉得很高。它不一定每項都第一,但整體平衡、社群支持、部署可行性都很不錯。很多人原本期待 Llama 4 至少能延續這種穩定表現,結果卻是宣傳很滿,實測不穩。
這種落差在今天的市場會被放大。因為企業採購不只看單一分數。他們會看長上下文穩定性、工具調用能力、多輪對話一致性、程式碼品質、延遲、記憶體需求,還有授權限制。只要其中兩三項掉鏈子,整體採用意願就會快速下降。
- Llama 3 70B 在 2024 年建立了很高的開放模型期待值。
- Llama 4 面對的是更強的封閉模型與更快的開放模型迭代。
- 排行榜能帶來流量,但實測通常一週內就會拆穿問題。
- 企業若根據錯誤分數選型,成本可能是數十萬到數百萬台幣。
這也是 AI 產業一直逃不掉的老問題:benchmark gaming。實驗室知道排行榜會上新聞,採購方知道排行榜不完整,但市場還是會先看排行榜。這種結構天生就會誘發挑題、調參、包裝最佳情境。
Meta 當然不是唯一有壓力的公司。OpenAI、Google、Anthropic、Mistral,誰不想在發表當天拿高分?但 Meta 的位置比較特殊。Llama 幾乎是開放模型世界的招牌之一,所以它一出事,大家會順手懷疑其他模型卡、技術報告、宣傳圖表是不是也有類似水分。
如果你是企業端,這種懷疑會直接變成流程變動。以前可能看公開 benchmark 前五名就先 shortlist,現在多半得自己補一輪內部測試。這會拖慢導入速度,也會讓供應商銷售週期變長。講白了,這不是只有 Meta 難看,整個市場都得多付驗證成本。
對 2026 年開放模型生態代表什麼
更大的問題,其實不是 Meta 單一事件。是整個 AI 產業的激勵機制本來就有點歪。研究團隊想要漂亮數字,產品團隊想要發表聲量,高層想要簡單敘事,開發者想要可重現結果。這四件事常常互相打架。
開放模型圈原本被期待可以比較透明。因為權重能下載,社群能驗證,理論上比較難亂講。但這次事件提醒大家,透明不只是在 GitHub 放檔案。評測流程、測試版本、prompt 設定、硬體條件、後處理方式,全部都要講清楚,不然還是能把數字修得很好看。
我覺得接下來一年,大家會更在意 model card 的細節。不是只看參數量和 context window,而是看:你拿哪個 checkpoint 跑的?有沒有 task-specific tuning?公開版和內部版是不是同一個?有沒有提供可重現的 eval script?這些以前像附錄,現在會變主戰場。
對 Meta 來說,下一代 Llama 如果還想拿回社群信任,至少要做幾件事。第一,公開更完整的評測 protocol。第二,把研究 demo 和正式產品聲明切乾淨。第三,讓外部測試者更早接觸接近正式版的模型。少一項都會被盯。
對開發者來說,結論其實很實用。不要把 launch benchmark 當採購指南。把它當起點就好。真正要做的是拿自己的資料、自己的工作流、自己的延遲要求去測。你做客服代理、寫程式助手、文件搜尋、資料摘要,需求都不一樣,別人的排行榜不會替你回答。
產業背景:為什麼 benchmark 一直出事
如果你長期看機器學習,這種事其實不陌生。從 ImageNet 到 GLUE,再到各種 LLM leaderboard,大家都看過同一個循環:先有一個公開評測,接著大家瘋狂優化,最後分數越來越高,但真實使用感受不一定同步上升。
原因很簡單。公開題庫一旦成為名聲指標,團隊就會想辦法往那裡衝。有些做法是正常工程優化,有些則踩在灰色地帶。像是特定資料清洗、針對題型調 prompt、用不同版本跑不同項目、挑最漂亮的結果上台。每一項單看都可能有理由,合起來就會讓外界失去判斷基準。
LLM 時代這個問題更嚴重。因為模型夠大、任務夠多,表現很容易受 system prompt、sampling 參數、工具接入方式影響。你今天把 temperature 從 0.7 改成 0.2,結果就可能差一截。再加上不同公司對「正式版本」定義也不一樣,外界要公平比較其實很難。
所以現在越來越多團隊開始推私有 eval。也就是用自己公司的真實任務資料來測,而不是只看公開榜單。這做法比較麻煩,但比較接近產品現實。你如果是台灣團隊,尤其做繁中客服、法規文件、電商搜尋,公開 benchmark 常常根本沒測到你的痛點。
講白了,benchmark 不會消失。因為市場需要簡單指標,媒體也需要容易寫的數字。但成熟團隊不能只看那個。你至少要補上人工評估、失敗案例分析、長時間穩定性測試,還有成本和延遲的實際觀察。
下一關不是分數,是信任
Meta 當然有機會修補這次傷害。大公司資源多,研究人才也還在,下一版模型依舊可能很強。但下一次大家盯的,恐怕不是「你拿了幾分」,而是「圖表裡那個模型,是不是我真的能下載、能部署、能重現的那個模型」。
我自己的預測是,下一次大型 Llama 發布時,社群前 72 小時的焦點會很明確。第一,看第三方能不能快速重現官方結果。第二,看 coding 和 agent 任務是不是一上手就露餡。第三,看 Meta 有沒有把評測設定交代清楚。只要其中一項含糊,質疑聲量就會比以前大很多。
如果你是開發者,最實際的做法很簡單。先別急著因為一張排行榜改整條技術路線。抓 20 到 50 個你最常見的真實任務,自己做小型 eval。量延遲、量 Token 成本、看拒答率、看長對話是否漂移。這些資料雖然土法煉鋼,但比任何發表會投影片都可靠。
如果你是模型供應商,這次事件也很像警報。現在市場已經沒那麼吃包裝了。你給的數字越漂亮,大家越會想拆。與其把簡報修到發亮,不如把流程寫清楚,把可重現性做好。因為在 2026 年,信任本身就是產品規格的一部分。