[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-metas-llama-4-benchmark-scandal-gets-worse-zh":3,"tags-metas-llama-4-benchmark-scandal-gets-worse-zh":35,"related-lang-metas-llama-4-benchmark-scandal-gets-worse-zh":49,"related-posts-metas-llama-4-benchmark-scandal-gets-worse-zh":53,"series-industry-e660d801-2421-4529-8fa9-86b82b066990":90},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":23,"translated_content":10,"views":24,"is_premium":25,"created_at":26,"updated_at":26,"cover_image":11,"published_at":27,"rewrite_status":28,"rewrite_error":10,"rewritten_from_id":29,"slug":30,"category":31,"related_article_id":32,"status":33,"google_indexed_at":34,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":25},"e660d801-2421-4529-8fa9-86b82b066990","Meta Llama 4 分數風波又擴大","\u003Cp>Llama 4 在 2025 年 4 月登場時，很多人原本很期待。畢竟 Llama 這條線，前幾代真的累積了不少開發者好感。結果才過沒多久，社群就開始吵：官方講得很強，實際跑起來卻像另一回事。\u003C\u002Fp>\u003Cp>到了 2026 年初，事情又更難看。英國《Financial Times》報導，Meta 首席 AI 科學家 Yann LeCun 表示，公司曾在發布前的不同 benchmark 項目中，使用不同模型來拉高整體成績。講白了就是，圖表上的那個「Llama 4」，可能不是你真的下載到的那個 Llama 4。\u003C\u002Fp>\u003Cp>這件事麻煩的點，不只是一次發表翻車。Benchmark 分數會影響開發者要不要接 API、企業要不要採購、媒體怎麼寫、主管怎麼分預算。分數如果灌水，傷的不是一篇新聞，而是整個 AI 評測體系的可信度。\u003C\u002Fp>\u003Ch2>發布前到底出了什麼事\u003C\u002Fh2>\u003Cp>爭議核心其實很直白。Meta 在宣傳 Llama 4 時，秀出一批看起來很能打的 benchmark 成績。但模型一開放，很多開發者自己上手測，發現 coding、推理、指令遵循都沒有宣傳那麼漂亮。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774516531283-08x2.png\" alt=\"Meta Llama 4 分數風波又擴大\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這種落差在開放模型圈很難藏。因為用戶不是只看發表會投影片。大家會自己跑 eval、測量化版本、比輸出、貼失敗案例，還會直接開 GitHub issue 或在 X 上公開對照。你如果只是文案寫太滿，可能還能被酸幾天；你如果拿不同模型拼成一張成績單，那就不是行銷失手而已。\u003C\u002Fp>\u003Cp>根據這次報導，Meta 一開始對外界質疑有過反駁。後來 LeCun 在受訪時承認，確實有針對不同評測項目使用不同模型的情況。如果報導內容沒問題，那代表公開成績反映的不是單一可下載模型，而是多個系統拼起來的最佳畫面。\u003C\u002Fp>\u003Cul>\u003Cli>Llama 4 於 2025 年 4 月發布。\u003C\u002Fli>\u003Cli>新一波爭議在 2026 年 1 月的報導中擴大。\u003C\u002Fli>\u003Cli>核心指控是不同 benchmark 類別用了不同模型。\u003C\u002Fli>\u003Cli>開發者在公開取得模型後，很快發現實測表現落差。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這比一般模型翻車更傷。因為開放模型最大的賣點之一，就是可驗證。你可以下載、微調、部署，甚至自己拆解權重與 tokenizer。現在如果連最基本的「圖表對不對得上產品」都出問題，那整個信任基礎就鬆掉了。\u003C\u002Fp>\u003Cp>而且這件事還有一個很現實的後果。很多團隊會根據 benchmark 決定 GPU 預算、微調方向、RAG 架構，甚至決定要不要把某個模型放進產品線。你用一張不準的表，別人可能就多花幾十萬到幾百萬台幣在錯的方向上。\u003C\u002Fp>\u003Ch2>為什麼這次對 Meta 特別傷\u003C\u002Fh2>\u003Cp>說真的，Meta 不是第一次做模型，也不是第一次遇到質疑。但 Llama 系列前幾代，的確在開放權重市場建立了不錯口碑。Llama 2 和 Llama 3 讓不少新創、研究團隊、獨立開發者有了能自己掌控的選項，不用什麼都綁在封閉 API 上。\u003C\u002Fp>\u003Cp>也因為前面累積的信用夠高，這次反彈才會更大。模型不夠強，大家可以接受。版本更新失誤，社群也看過很多次。可是一旦牽涉到評測展示和實際產品不一致，問題就變成「你是不是故意讓大家誤判」。這個層級完全不同。\u003C\u002Fp>\u003Cp>Andrej Karpathy 以前談模型評估時講過一句很準的話：benchmark 很有用，但還不夠。這句話剛好打中這次事件。Benchmark 本來就只是抽樣，它能幫你快速比較，但前提是測的東西要真的等於你賣的東西。\u003C\u002Fp>\u003Cblockquote>\u003Cp>“Benchmarks are useful, but they are not enough.”\u003C\u002Fp>\u003Cfooter>— Andrej Karpathy\u003C\u002Ffooter>\u003C\u002Fblockquote>\u003Cp>一旦公司開始優化的是「展示方式」，不是「公開版本」，benchmark 就失去測量意義了。它會從工程訊號變成行銷素材。這也是為什麼很多資深開發者現在看到漂亮排行榜，第一反應不是佩服，而是先懷疑測法。\u003C\u002Fp>\u003Cp>報導裡還提到，Mark Zuckerberg 對這次發布結果很不滿，甚至對相關團隊失去信心，GenAI 團隊在內部地位也受到影響。這部分外界比較難完整驗證，我不會把它當成鐵證。但從大公司運作邏輯看，AI 發表翻車通常不會只停在研究部門，後面常會牽動招募、產品節奏、資源分配。\u003C\u002Fp>\u003Cp>你可能會想問，Meta 這種體量，真的會因為一次 benchmark 爭議就受重傷嗎？短期財報不一定。可是在 AI 市場，人才和開發者信任很值錢。尤其是頂尖研究員和基礎設施工程師，他們很在意技術敘事有沒有站得住腳。\u003C\u002Fp>\u003Ch2>Llama 4 放在市場裡看有多尷尬\u003C\u002Fh2>\u003Cp>時間點也對 Meta 很不友善。到了 2025 年，市場已經不是「你只要比開源前代強就夠了」。大家拿來比的是 GPT、Claude、Gemini，還有一票更新很快的開放模型。每幾個月就有新版本，大家耐心變少很多。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774516559367-aptg.png\" alt=\"Meta Llama 4 分數風波又擴大\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Llama 3 70B 在 2024 年其實把門檻拉得很高。它不一定每項都第一，但整體平衡、社群支持、部署可行性都很不錯。很多人原本期待 Llama 4 至少能延續這種穩定表現，結果卻是宣傳很滿，實測不穩。\u003C\u002Fp>\u003Cp>這種落差在今天的市場會被放大。因為企業採購不只看單一分數。他們會看長上下文穩定性、工具調用能力、多輪對話一致性、程式碼品質、延遲、記憶體需求，還有授權限制。只要其中兩三項掉鏈子，整體採用意願就會快速下降。\u003C\u002Fp>\u003Cul>\u003Cli>Llama 3 70B 在 2024 年建立了很高的開放模型期待值。\u003C\u002Fli>\u003Cli>Llama 4 面對的是更強的封閉模型與更快的開放模型迭代。\u003C\u002Fli>\u003Cli>排行榜能帶來流量，但實測通常一週內就會拆穿問題。\u003C\u002Fli>\u003Cli>企業若根據錯誤分數選型，成本可能是數十萬到數百萬台幣。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也是 AI 產業一直逃不掉的老問題：benchmark gaming。實驗室知道排行榜會上新聞，採購方知道排行榜不完整，但市場還是會先看排行榜。這種結構天生就會誘發挑題、調參、包裝最佳情境。\u003C\u002Fp>\u003Cp>Meta 當然不是唯一有壓力的公司。OpenAI、Google、Anthropic、Mistral，誰不想在發表當天拿高分？但 Meta 的位置比較特殊。Llama 幾乎是開放模型世界的招牌之一，所以它一出事，大家會順手懷疑其他模型卡、技術報告、宣傳圖表是不是也有類似水分。\u003C\u002Fp>\u003Cp>如果你是企業端，這種懷疑會直接變成流程變動。以前可能看公開 benchmark 前五名就先 shortlist，現在多半得自己補一輪內部測試。這會拖慢導入速度，也會讓供應商銷售週期變長。講白了，這不是只有 Meta 難看，整個市場都得多付驗證成本。\u003C\u002Fp>\u003Ch2>對 2026 年開放模型生態代表什麼\u003C\u002Fh2>\u003Cp>更大的問題，其實不是 Meta 單一事件。是整個 AI 產業的激勵機制本來就有點歪。研究團隊想要漂亮數字，產品團隊想要發表聲量，高層想要簡單敘事，開發者想要可重現結果。這四件事常常互相打架。\u003C\u002Fp>\u003Cp>開放模型圈原本被期待可以比較透明。因為權重能下載，社群能驗證，理論上比較難亂講。但這次事件提醒大家，透明不只是在 GitHub 放檔案。評測流程、測試版本、prompt 設定、硬體條件、後處理方式，全部都要講清楚，不然還是能把數字修得很好看。\u003C\u002Fp>\u003Cp>我覺得接下來一年，大家會更在意 model card 的細節。不是只看參數量和 context window，而是看：你拿哪個 checkpoint 跑的？有沒有 task-specific tuning？公開版和內部版是不是同一個？有沒有提供可重現的 eval script？這些以前像附錄，現在會變主戰場。\u003C\u002Fp>\u003Cp>對 Meta 來說，下一代 Llama 如果還想拿回社群信任，至少要做幾件事。第一，公開更完整的評測 protocol。第二，把研究 demo 和正式產品聲明切乾淨。第三，讓外部測試者更早接觸接近正式版的模型。少一項都會被盯。\u003C\u002Fp>\u003Cp>對開發者來說，結論其實很實用。不要把 launch benchmark 當採購指南。把它當起點就好。真正要做的是拿自己的資料、自己的工作流、自己的延遲要求去測。你做客服代理、寫程式助手、文件搜尋、資料摘要，需求都不一樣，別人的排行榜不會替你回答。\u003C\u002Fp>\u003Ch2>產業背景：為什麼 benchmark 一直出事\u003C\u002Fh2>\u003Cp>如果你長期看機器學習，這種事其實不陌生。從 ImageNet 到 GLUE，再到各種 LLM leaderboard，大家都看過同一個循環：先有一個公開評測，接著大家瘋狂優化，最後分數越來越高，但真實使用感受不一定同步上升。\u003C\u002Fp>\u003Cp>原因很簡單。公開題庫一旦成為名聲指標，團隊就會想辦法往那裡衝。有些做法是正常工程優化，有些則踩在灰色地帶。像是特定資料清洗、針對題型調 prompt、用不同版本跑不同項目、挑最漂亮的結果上台。每一項單看都可能有理由，合起來就會讓外界失去判斷基準。\u003C\u002Fp>\u003Cp>LLM 時代這個問題更嚴重。因為模型夠大、任務夠多，表現很容易受 system prompt、sampling 參數、工具接入方式影響。你今天把 temperature 從 0.7 改成 0.2，結果就可能差一截。再加上不同公司對「正式版本」定義也不一樣，外界要公平比較其實很難。\u003C\u002Fp>\u003Cp>所以現在越來越多團隊開始推私有 eval。也就是用自己公司的真實任務資料來測，而不是只看公開榜單。這做法比較麻煩，但比較接近產品現實。你如果是台灣團隊，尤其做繁中客服、法規文件、電商搜尋，公開 benchmark 常常根本沒測到你的痛點。\u003C\u002Fp>\u003Cp>講白了，benchmark 不會消失。因為市場需要簡單指標，媒體也需要容易寫的數字。但成熟團隊不能只看那個。你至少要補上人工評估、失敗案例分析、長時間穩定性測試，還有成本和延遲的實際觀察。\u003C\u002Fp>\u003Ch2>下一關不是分數，是信任\u003C\u002Fh2>\u003Cp>Meta 當然有機會修補這次傷害。大公司資源多，研究人才也還在，下一版模型依舊可能很強。但下一次大家盯的，恐怕不是「你拿了幾分」，而是「圖表裡那個模型，是不是我真的能下載、能部署、能重現的那個模型」。\u003C\u002Fp>\u003Cp>我自己的預測是，下一次大型 Llama 發布時，社群前 72 小時的焦點會很明確。第一，看第三方能不能快速重現官方結果。第二，看 coding 和 agent 任務是不是一上手就露餡。第三，看 Meta 有沒有把評測設定交代清楚。只要其中一項含糊，質疑聲量就會比以前大很多。\u003C\u002Fp>\u003Cp>如果你是開發者，最實際的做法很簡單。先別急著因為一張排行榜改整條技術路線。抓 20 到 50 個你最常見的真實任務，自己做小型 eval。量延遲、量 Token 成本、看拒答率、看長對話是否漂移。這些資料雖然土法煉鋼，但比任何發表會投影片都可靠。\u003C\u002Fp>\u003Cp>如果你是模型供應商，這次事件也很像警報。現在市場已經沒那麼吃包裝了。你給的數字越漂亮，大家越會想拆。與其把簡報修到發亮，不如把流程寫清楚，把可重現性做好。因為在 2026 年，信任本身就是產品規格的一部分。\u003C\u002Fp>","Meta 的 Llama 4 原本要延續開放模型聲勢，結果卻陷入評測分數爭議。最新報導指出，Meta 在發布前可能用不同模型跑不同 benchmark，讓分數看起來更好，信任問題也跟著擴大。","news.aibase.com","https:\u002F\u002Fnews.aibase.com\u002Fnews\u002F24188",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774516531283-08x2.png",[13,14,15,16,17,18,19,20,21,22],"Meta","Llama 4","人工智慧","benchmark","Yann LeCun","開放模型","LLM","模型評測","AI 產業","開發者","zh",0,false,"2026-03-26T07:34:21.156421+00:00","2026-03-26T09:16:00.256+00:00","done","fa27fd98-05b1-4474-9421-5e642fa07119","metas-llama-4-benchmark-scandal-gets-worse-zh","industry","6e18bc65-42ae-4ad0-b564-67d7f66b979e","published","2026-04-10T09:00:26.862+00:00",[36,38,39,41,44,45,46,48],{"name":14,"slug":37},"llama-4",{"name":15,"slug":15},{"name":17,"slug":40},"yann-lecun",{"name":42,"slug":43},"研究整理","-",{"name":20,"slug":20},{"name":16,"slug":16},{"name":19,"slug":47},"llm",{"name":22,"slug":22},{"id":32,"slug":50,"title":51,"language":52},"meta-llama4-fabricated-results-scandal-en","Meta's Llama 4 Scandal: Fabricated AI Test Results Unveiled","en",[54,60,66,72,78,84],{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":31},"e6379f8a-3305-4862-bd15-1192d3247841","why-nebius-ai-pivot-is-more-real-than-hype-zh","為什麼 Nebius 的 AI 轉型比炒作更真實","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778823044520-9mfz.png","2026-05-15T05:30:24.978992+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":31},"66c4e357-d84d-43ef-a2e7-120c4609e98e","nvidia-backs-corning-factories-with-billions-zh","Nvidia 出資 Corning 工廠擴產","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778822450270-trdb.png","2026-05-15T05:20:27.701475+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":31},"31d8109c-8b0b-46e2-86bc-d274a03269d1","why-anthropic-gates-foundation-ai-public-goods-zh","為什麼 Anthropic 和 Gates Foundation 應該投資 A…","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778796636474-u508.png","2026-05-14T22:10:21.138177+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":31},"17cafb6e-9f2c-43c4-9ba3-ef211d2780b1","why-observability-is-critical-cloud-native-systems-zh","為什麼可觀測性是雲原生系統的生存條件","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778794245143-tfqn.png","2026-05-14T21:30:25.97324+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":31},"2fb441af-d3c6-4af8-a356-a40b25a67c00","data-centers-pushing-homeowners-to-solar-zh","資料中心推升房主裝太陽能","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778793651300-gi06.png","2026-05-14T21:20:40.899115+00:00",{"id":85,"slug":86,"title":87,"cover_image":88,"image_url":88,"created_at":89,"category":31},"387bddd8-e5fc-4aa9-8d1b-43a34b0ece43","how-to-choose-gpu-for-yihuan-zh","怎麼選《异环》GPU","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778786461303-39mx.png","2026-05-14T19:20:29.220124+00:00",[91,96,101,106,111,116,121,126,127,132],{"id":92,"slug":93,"title":94,"created_at":95},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":4,"slug":30,"title":5,"created_at":26},{"id":128,"slug":129,"title":130,"created_at":131},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]