5 個 LLM 的半年轉變

OraCore Editors

返回首頁

[IND] 2026年5月19日5 分鐘閱讀OraCore 編輯部

5 個 LLM 的半年轉變

5 個轉變說明 LLM 為何在 6 個月內快速改變：更強的 coding agents、開放模型與本地工作流。

LLM Claude

分享 LinkedIn

這篇整理六個月內 LLM 的五個關鍵轉變，幫你判斷該用雲端前沿模型、開放模型，還是本地工作流。

在短短 6 個月內，LLM 的使用方式明顯改變。讀完這 5 項，你可以更快決定：該把預算放在 coding agent、開放模型，還是本地部署。

項目	代表規格	實際意義
Coding agents	從「常常要修」變成「大多可直接用」	適合日常開發、重構、測試
最佳模型更替	數月內多次換位	不能只看靜態排行榜
本地／開放模型	20.9GB 到 1.5TB	可在筆電到大型伺服器間選擇
個人 AI 助手	Mac mini 常見	適合長期、持續性任務
Benchmark demos	像 pelican test 這類測試	更能看出多模態與工具鏈能力

1. Coding agents 夠日常使用了

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

最大的變化，不是某一個模型單獨升級，而是 agentic coding 的整體品質跳了一級。像 Codex 和 Claude Code 這類工具，開始能在可驗證的回饋下持續優化，結果就是輸出不再像展示品，而是真的能幫忙做事。

這代表工作流也變了。以前你花大部分時間在修錯，現在可以把完整任務交出去，再回來檢查結果。重點不是完美，而是「大多可用」已經足夠進入日常開發。

之前：常常要手動修補
之後：大多能直接接手
適合：寫程式、重構、補測試、小型功能

2. 「最佳模型」換位變得很頻繁

另一個明顯現象，是領先位置在幾個大廠之間快速輪替。短短幾個月，冠軍從 Claude Sonnet 4.5、到 GPT-5.1、到 Gemini 3、再到 GPT-5.1 Codex Max，最後又回到 Anthropic 的 Claude Opus 4.5。

這種變動說明競爭已經非常接近。對實際使用者來說，最好的做法不是相信固定排名，而是拿自己的任務去測。擅長寫 code 的模型，不一定最會做長流程規劃，也不一定最適合影像或工具調用。

Claude Sonnet 4.5：前段時間的領先者
GPT-5.1 與 GPT-5.1 Codex Max：中段強勢競爭者
Gemini 3：在特定測試上表現突出
Claude Opus 4.5：後段重新奪回優勢

3. 開放模型和本地模型進步很大

開放模型這邊也跑得很快。像 Gemma 4、GLM-5.1、Qwen3.6-35B-A3B 這些模型，證明 local 或 self-hosted 已經不只是退而求其次，而是可行選項。

真正改變的是「能力對尺寸」的比值。20.9GB 的模型在筆電上就能跑出超乎預期的結果，而 1.5TB 的大模型則能在足夠硬體下展現很強表現。現在的問題不再是能不能本地跑，而是你要選哪種成本與能力的平衡。

Gemma 4：作者認為最強的美系開放模型之一
GLM-5.1：體積大、吃硬體，但能力強
Qwen3.6-35B-A3B：相對筆電友善

4. 個人 AI 助手開始成形

原本不起眼的 Warelay repo，後來變成 OpenClaw，到 2 月時已經吸引大量關注。更重要的是，這類工具開始有了更通用的稱呼：Claws，也就是以 agentic pattern 為核心的個人 AI 助手。

這件事重要在於，它把互動模式從一次性的聊天，推進到持續存在的助手。有人甚至會特地買 Mac mini 來跑這些系統。概念很簡單：準備一台專門的機器，讓助手長期處理任務，不要占用主力電腦。

Warelay：最初的 repo 名稱
OpenClaw：後來定名並被廣泛注意
Claws：逐漸形成的類別名稱
常見配置：一台 Mac mini 當助手主機

5. Benchmark demo 變得更怪，也更有參考價值

Simon Willison 的 pelican-riding-a-bicycle 測試，會一直被拿來比較模型，因為它荒謬得剛剛好。它難畫、容易辨識，而且不太可能被各家模型專門優化，所以很適合用來看多模態表現。

同一時期也出現很多有趣但有意義的 demo，例如用 Pyodide 在瀏覽器裡跑 WebAssembly，再用 Python 包住 JavaScript。這些例子看起來像玩具，但其實證明了工具鏈已經成熟到足以支持奇怪的實驗。

browser → JavaScript → WebAssembly → Pyodide → Python → micro-javascript

Pelican test：快速檢查模型品質
Micro-javascript：小型但很有說服力的實驗
重點：工具夠成熟，才會有這些怪但有用的 demo

怎麼挑

如果你最在意寫程式效率，先試 OpenAI 和 Anthropic 的 agentic 工具，再用自己的 repo 測。若你重視隱私、成本或離線使用，就看 Google、GLM 和 Qwen 的開放模型。若你在做產品，核心判斷已經不是「能不能做」，而是「哪個模型最適合這個任務、這台機器和這個預算」。

對多數人來說，最實際的組合是保留一個前沿模型，再配一個本地模型。前者處理難題，後者處理日常工作，會最穩。

// 相關文章

5 個 LLM 的半年轉變

1. Coding agents 夠日常使用了

訂閱 AI 趨勢週報

2. 「最佳模型」換位變得很頻繁

3. 開放模型和本地模型進步很大

4. 個人 AI 助手開始成形

5. Benchmark demo 變得更怪，也更有參考價值

怎麼挑

WebX 2026 把聲量拆成會議簡報

AI 週報：2026-07-06 ~ 2026-07-13

AI Act 應被視為歐洲 AI 的作業系統

Booz Allen 的 OpenAI 合作是真優勢，不是噱頭

OpenSearch 向量搜尋基準的 5 種跑法

4 種能上線的向量資料庫選擇