[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-blind-human-votes-beat-demo-reels-ai-video-ranking-zh":3,"article-related-blind-human-votes-beat-demo-reels-ai-video-ranking-zh":30,"series-research-f73642ff-e0d0-4748-a27a-c6c1f2ad837c":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"f73642ff-e0d0-4748-a27a-c6c1f2ad837c","blind-human-votes-beat-demo-reels-ai-video-ranking-zh","為什麼盲測人類投票比示範片更適合排名 AI 影片模型","\u003Cp data-speakable=\"summary\">盲測人類比較才是 AI 影片模型排名的正解，因為它衡量的是實際觀感，不是廠商精心挑選的示範片。\u003C\u002Fp>\u003Cp>我站在盲測人類投票這一邊，因為 AI 影片的成敗不在簡報，而在觀眾是否相信畫面。\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> Stats 的影片榜單在 \u003Ca href=\"\u002Fnews\u002F2026-ai-zh\">2026\u003C\u002Fa> 年 5 月顯示，Kling v3 以 2127 分領先 WAN 2.7 的 1998 分與 Seedance 2.0 Fast 的 1993 分，背後是 729 票、14 個模型的盲比對。這種做法直接對準 temporal consistency、object permanence 和 motion physics 這些最常出錯的地方，也正是華麗 demo 最會遮掩的地方。\u003C\u002Fp>\u003Ch2>第一個論點：盲測才對應產品現實\u003C\u002Fh2>\u003Cp>影片是感知型產品，不是規格表產品。模型可以靠一支完美示範片拿下發表聲量，卻在使用者要求它固定臉部、維持鏡頭路徑或保住身體比例時全面失手。LLM Stats 的做法是把四支隨機抽樣的影片放在一起比，隱藏模型名稱，再用 TrueSkill 計分。這樣做把品牌光環和挑選過的 prompt 都拿掉，留下的是最接近真實採購決策的問題：現在到底哪個模型產出的片子更好看。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780185781613-xfkv.png\" alt=\"為什麼盲測人類投票比示範片更適合排名 AI 影片模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>更重要的是樣本量不是裝飾品，而是判斷穩定性的基礎。729 票的盲測，不是一次性的觀感投票，而是足以拉開「偶爾驚艷」與「持續更好」差距的重複判斷。Kling v3 能守住領先，不是因為廠商說它先進，而是因為它在直接比較中贏了對手。對工程師或 PM 來說，這代表你選到的是能贏工作流程的工具，不只是能贏發表會的工具。\u003C\u002Fp>\u003Ch2>第二個論點：影片品質的核心是連貫性，盲測正好抓住這個失敗模式\u003C\u002Fh2>\u003Cp>多數人談 AI 影片時，還停留在「單幀夠不夠漂亮」的層次，但真正困難的是 temporal coherence。畫面要在幀與幀之間維持光線、主體和運動邏輯一致，不能突然切換、漂移或崩壞。LLM Stats 的說明明確點出常見失敗，包括 artifacts、突然斷裂與主體漂移，這些正是讓生成影片失去可信度、最後逼人回到後製修補的原因。榜單若不抓這些問題，就只是把美術圖連播而已。\u003C\u002Fp>\u003Cp>目前的排名順序也支持這個判斷。Kling v3 排在 WAN 2.7 與 Seedance 2.0 Fast 前面，說明市場獎勵的是更能處理物理與運動的模型，而不是只會產出漂亮靜態帧序列的模型。網站的簡述也指出，Kling 在 motion physics 和 object permanence 上表現強，且成本還低於部分西方前沿\u003Ca href=\"\u002Fnews\u002F6-manus-alternatives-for-ai-agent-workflows-zh\">替代\u003C\u002Fa>品。這種組合才是真正可用的產品條件，因為你需要的是既能拍得像樣，又不會把預算燒穿的模型。\u003C\u002Fp>\u003Ch2>反方可能怎麼說\u003C\u002Fh2>\u003Cp>最強的反對意見是，盲測人類投票主觀、耗時，而且可能不穩定。\u003Ca href=\"\u002Ftag\u002Fbenchmark\">Benchmark\u003C\u002Fa> 可以測 prompt following、解析度或片長，指標可重複；人類 arena 則可能受口味、 novelty，或比較用 prompt 的選擇影響。如果你在做受監管流程，或需要可重現的技術系統，單靠感知投票並不完整。它也不會告訴你編輯控制、\u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 穩定性、吞吐量這些部署層面的問題。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780185771979-r2x0.png\" alt=\"為什麼盲測人類投票比示範片更適合排名 AI 影片模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個批評是成立的，但它只是在界定盲測的職責，不是推翻它。AI 影片本來就是感知媒介，所以主評估也必須是感知評估。Benchmark 可以補充，但\u003Ca href=\"\u002Fnews\u002Fwhy-grok-build-is-not-ready-to-replace-claude-code-zh\">不能取代\u003C\u002Fa>對實際輸出影片的直接比較，因為使用者買的不是數字，而是能不能讓人信服的畫面。LLM Stats 透過盲比對與保守計分，已經盡量降低 cherry-picking 和單次爆表的干擾。對於選影片模型來說，這就是最合理的中心。\u003C\u002Fp>\u003Ch2>你能做什麼\u003C\u002Fh2>\u003Cp>如果你是工程師、PM 或創辦人，把榜單當第一道篩選，再用你自己的 prompt 做第二道驗證。先選你實際工作流需要的高排名模型，再拿最難的案例測它：多主體運動、鏡頭移動、object permanence、品牌資產，以及你真正要交付的片長。如果預算是限制，就先看 quality-vs-price 的視圖，再決定要不要上更貴的模型。不要先追最便宜的生成成本，除非你已經證明它能通過審核。AI 影片裡，最好的排名方式就是最能預測你會不會重做那一鏡的方式。\u003C\u002Fp>","盲測人類比較才是 AI 影片模型排名的正解，因為它衡量的是實際觀感，不是廠商精心挑選的示範片。","llm-stats.com","https:\u002F\u002Fllm-stats.com\u002Fleaderboards\u002Fbest-ai-for-video-generation",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780185781613-xfkv.png","research","zh","04c7fc35-00f8-4ed6-8c28-51521e4b8b82",[17,18,19,20,21],"AI 影片模型","盲測投票","LLM Stats","TrueSkill","影片排名",[23,24,25],"盲測人類比較比廠商 demo 更能反映 AI 影片的真實品質。","影片模型的關鍵不是單幀漂亮，而是時間一致性與運動物理。","先用盲測榜單篩選，再用自己的工作流測試與成本約束做決策。",3,"2026-05-31T00:02:22.071642+00:00","2026-05-31T00:02:22.047+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":40,"relatedPosts":44},[32,34,35,37,39],{"name":19,"slug":33},"llm-stats",{"name":21,"slug":21},{"name":17,"slug":36},"ai-影片模型",{"name":20,"slug":38},"trueskill",{"name":18,"slug":18},{"id":15,"slug":41,"title":42,"language":43},"blind-human-votes-beat-demo-reels-ai-video-ranking-en","Why blind human votes beat demo reels for AI video ranking","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]