Meta Llama 4 分數風波又擴大

OraCore Editors

返回首頁

[IND] 2026年3月26日9 分鐘閱讀OraCore 編輯部

Meta Llama 4 分數風波又擴大

Meta 的 Llama 4 原本要延續開放模型聲勢，結果卻陷入評測分數爭議。最新報導指出，Meta 在發布前可能用不同模型跑不同 benchmark，讓分數看起來更好，信任問題也跟著擴大。

Llama 4 人工智慧 Yann LeCun 研究整理模型評測 benchmark LLM 開發者

分享 LinkedIn

Llama 4 在 2025 年 4 月登場時，很多人原本很期待。畢竟 Llama 這條線，前幾代真的累積了不少開發者好感。結果才過沒多久，社群就開始吵：官方講得很強，實際跑起來卻像另一回事。

到了 2026 年初，事情又更難看。英國《Financial Times》報導，Meta 首席 AI 科學家 Yann LeCun 表示，公司曾在發布前的不同 benchmark 項目中，使用不同模型來拉高整體成績。講白了就是，圖表上的那個「Llama 4」，可能不是你真的下載到的那個 Llama 4。

這件事麻煩的點，不只是一次發表翻車。Benchmark 分數會影響開發者要不要接 API、企業要不要採購、媒體怎麼寫、主管怎麼分預算。分數如果灌水，傷的不是一篇新聞，而是整個 AI 評測體系的可信度。

發布前到底出了什麼事

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

爭議核心其實很直白。Meta 在宣傳 Llama 4 時，秀出一批看起來很能打的 benchmark 成績。但模型一開放，很多開發者自己上手測，發現 coding、推理、指令遵循都沒有宣傳那麼漂亮。

這種落差在開放模型圈很難藏。因為用戶不是只看發表會投影片。大家會自己跑 eval、測量化版本、比輸出、貼失敗案例，還會直接開 GitHub issue 或在 X 上公開對照。你如果只是文案寫太滿，可能還能被酸幾天；你如果拿不同模型拼成一張成績單，那就不是行銷失手而已。

根據這次報導，Meta 一開始對外界質疑有過反駁。後來 LeCun 在受訪時承認，確實有針對不同評測項目使用不同模型的情況。如果報導內容沒問題，那代表公開成績反映的不是單一可下載模型，而是多個系統拼起來的最佳畫面。

Llama 4 於 2025 年 4 月發布。
新一波爭議在 2026 年 1 月的報導中擴大。
核心指控是不同 benchmark 類別用了不同模型。
開發者在公開取得模型後，很快發現實測表現落差。

我覺得這比一般模型翻車更傷。因為開放模型最大的賣點之一，就是可驗證。你可以下載、微調、部署，甚至自己拆解權重與 tokenizer。現在如果連最基本的「圖表對不對得上產品」都出問題，那整個信任基礎就鬆掉了。

而且這件事還有一個很現實的後果。很多團隊會根據 benchmark 決定 GPU 預算、微調方向、RAG 架構，甚至決定要不要把某個模型放進產品線。你用一張不準的表，別人可能就多花幾十萬到幾百萬台幣在錯的方向上。

為什麼這次對 Meta 特別傷

說真的，Meta 不是第一次做模型，也不是第一次遇到質疑。但 Llama 系列前幾代，的確在開放權重市場建立了不錯口碑。Llama 2 和 Llama 3 讓不少新創、研究團隊、獨立開發者有了能自己掌控的選項，不用什麼都綁在封閉 API 上。

也因為前面累積的信用夠高，這次反彈才會更大。模型不夠強，大家可以接受。版本更新失誤，社群也看過很多次。可是一旦牽涉到評測展示和實際產品不一致，問題就變成「你是不是故意讓大家誤判」。這個層級完全不同。

Andrej Karpathy 以前談模型評估時講過一句很準的話：benchmark 很有用，但還不夠。這句話剛好打中這次事件。Benchmark 本來就只是抽樣，它能幫你快速比較，但前提是測的東西要真的等於你賣的東西。

“Benchmarks are useful, but they are not enough.”
— Andrej Karpathy

一旦公司開始優化的是「展示方式」，不是「公開版本」，benchmark 就失去測量意義了。它會從工程訊號變成行銷素材。這也是為什麼很多資深開發者現在看到漂亮排行榜，第一反應不是佩服，而是先懷疑測法。

報導裡還提到，Mark Zuckerberg 對這次發布結果很不滿，甚至對相關團隊失去信心，GenAI 團隊在內部地位也受到影響。這部分外界比較難完整驗證，我不會把它當成鐵證。但從大公司運作邏輯看，AI 發表翻車通常不會只停在研究部門，後面常會牽動招募、產品節奏、資源分配。

你可能會想問，Meta 這種體量，真的會因為一次 benchmark 爭議就受重傷嗎？短期財報不一定。可是在 AI 市場，人才和開發者信任很值錢。尤其是頂尖研究員和基礎設施工程師，他們很在意技術敘事有沒有站得住腳。

Llama 4 放在市場裡看有多尷尬

時間點也對 Meta 很不友善。到了 2025 年，市場已經不是「你只要比開源前代強就夠了」。大家拿來比的是 GPT、Claude、Gemini，還有一票更新很快的開放模型。每幾個月就有新版本，大家耐心變少很多。

Llama 3 70B 在 2024 年其實把門檻拉得很高。它不一定每項都第一，但整體平衡、社群支持、部署可行性都很不錯。很多人原本期待 Llama 4 至少能延續這種穩定表現，結果卻是宣傳很滿，實測不穩。

這種落差在今天的市場會被放大。因為企業採購不只看單一分數。他們會看長上下文穩定性、工具調用能力、多輪對話一致性、程式碼品質、延遲、記憶體需求，還有授權限制。只要其中兩三項掉鏈子，整體採用意願就會快速下降。

Llama 3 70B 在 2024 年建立了很高的開放模型期待值。
Llama 4 面對的是更強的封閉模型與更快的開放模型迭代。
排行榜能帶來流量，但實測通常一週內就會拆穿問題。
企業若根據錯誤分數選型，成本可能是數十萬到數百萬台幣。

這也是 AI 產業一直逃不掉的老問題：benchmark gaming。實驗室知道排行榜會上新聞，採購方知道排行榜不完整，但市場還是會先看排行榜。這種結構天生就會誘發挑題、調參、包裝最佳情境。

Meta 當然不是唯一有壓力的公司。OpenAI、Google、Anthropic、Mistral，誰不想在發表當天拿高分？但 Meta 的位置比較特殊。Llama 幾乎是開放模型世界的招牌之一，所以它一出事，大家會順手懷疑其他模型卡、技術報告、宣傳圖表是不是也有類似水分。

如果你是企業端，這種懷疑會直接變成流程變動。以前可能看公開 benchmark 前五名就先 shortlist，現在多半得自己補一輪內部測試。這會拖慢導入速度，也會讓供應商銷售週期變長。講白了，這不是只有 Meta 難看，整個市場都得多付驗證成本。

對 2026 年開放模型生態代表什麼

更大的問題，其實不是 Meta 單一事件。是整個 AI 產業的激勵機制本來就有點歪。研究團隊想要漂亮數字，產品團隊想要發表聲量，高層想要簡單敘事，開發者想要可重現結果。這四件事常常互相打架。

開放模型圈原本被期待可以比較透明。因為權重能下載，社群能驗證，理論上比較難亂講。但這次事件提醒大家，透明不只是在 GitHub 放檔案。評測流程、測試版本、prompt 設定、硬體條件、後處理方式，全部都要講清楚，不然還是能把數字修得很好看。

我覺得接下來一年，大家會更在意 model card 的細節。不是只看參數量和 context window，而是看：你拿哪個 checkpoint 跑的？有沒有 task-specific tuning？公開版和內部版是不是同一個？有沒有提供可重現的 eval script？這些以前像附錄，現在會變主戰場。

對 Meta 來說，下一代 Llama 如果還想拿回社群信任，至少要做幾件事。第一，公開更完整的評測 protocol。第二，把研究 demo 和正式產品聲明切乾淨。第三，讓外部測試者更早接觸接近正式版的模型。少一項都會被盯。

對開發者來說，結論其實很實用。不要把 launch benchmark 當採購指南。把它當起點就好。真正要做的是拿自己的資料、自己的工作流、自己的延遲要求去測。你做客服代理、寫程式助手、文件搜尋、資料摘要，需求都不一樣，別人的排行榜不會替你回答。

產業背景：為什麼 benchmark 一直出事

如果你長期看機器學習，這種事其實不陌生。從 ImageNet 到 GLUE，再到各種 LLM leaderboard，大家都看過同一個循環：先有一個公開評測，接著大家瘋狂優化，最後分數越來越高，但真實使用感受不一定同步上升。

原因很簡單。公開題庫一旦成為名聲指標，團隊就會想辦法往那裡衝。有些做法是正常工程優化，有些則踩在灰色地帶。像是特定資料清洗、針對題型調 prompt、用不同版本跑不同項目、挑最漂亮的結果上台。每一項單看都可能有理由，合起來就會讓外界失去判斷基準。

LLM 時代這個問題更嚴重。因為模型夠大、任務夠多，表現很容易受 system prompt、sampling 參數、工具接入方式影響。你今天把 temperature 從 0.7 改成 0.2，結果就可能差一截。再加上不同公司對「正式版本」定義也不一樣，外界要公平比較其實很難。

所以現在越來越多團隊開始推私有 eval。也就是用自己公司的真實任務資料來測，而不是只看公開榜單。這做法比較麻煩，但比較接近產品現實。你如果是台灣團隊，尤其做繁中客服、法規文件、電商搜尋，公開 benchmark 常常根本沒測到你的痛點。

講白了，benchmark 不會消失。因為市場需要簡單指標，媒體也需要容易寫的數字。但成熟團隊不能只看那個。你至少要補上人工評估、失敗案例分析、長時間穩定性測試，還有成本和延遲的實際觀察。

下一關不是分數，是信任

Meta 當然有機會修補這次傷害。大公司資源多，研究人才也還在，下一版模型依舊可能很強。但下一次大家盯的，恐怕不是「你拿了幾分」，而是「圖表裡那個模型，是不是我真的能下載、能部署、能重現的那個模型」。

我自己的預測是，下一次大型 Llama 發布時，社群前 72 小時的焦點會很明確。第一，看第三方能不能快速重現官方結果。第二，看 coding 和 agent 任務是不是一上手就露餡。第三，看 Meta 有沒有把評測設定交代清楚。只要其中一項含糊，質疑聲量就會比以前大很多。

如果你是開發者，最實際的做法很簡單。先別急著因為一張排行榜改整條技術路線。抓 20 到 50 個你最常見的真實任務，自己做小型 eval。量延遲、量 Token 成本、看拒答率、看長對話是否漂移。這些資料雖然土法煉鋼，但比任何發表會投影片都可靠。

如果你是模型供應商，這次事件也很像警報。現在市場已經沒那麼吃包裝了。你給的數字越漂亮，大家越會想拆。與其把簡報修到發亮，不如把流程寫清楚，把可重現性做好。因為在 2026 年，信任本身就是產品規格的一部分。

// 相關文章

Meta Llama 4 分數風波又擴大

發布前到底出了什麼事

訂閱 AI 趨勢週報

為什麼這次對 Meta 特別傷

Llama 4 放在市場裡看有多尷尬

對 2026 年開放模型生態代表什麼

產業背景：為什麼 benchmark 一直出事

下一關不是分數，是信任

為什麼 Nebius 的 AI 轉型比炒作更真實

Nvidia 出資 Corning 工廠擴產

為什麼 Anthropic 和 Gates Foundation 應該投資 A…

為什麼可觀測性是雲原生系統的生存條件

資料中心推升房主裝太陽能

怎麼選《异环》GPU