[IND] 5 分鐘閱讀OraCore 編輯部

5 個 LLM 的半年轉變

5 個轉變說明 LLM 為何在 6 個月內快速改變:更強的 coding agents、開放模型與本地工作流。

分享 LinkedIn
5 個 LLM 的半年轉變

這篇整理六個月內 LLM 的五個關鍵轉變,幫你判斷該用雲端前沿模型、開放模型,還是本地工作流。

在短短 6 個月內,LLM 的使用方式明顯改變。讀完這 5 項,你可以更快決定:該把預算放在 coding agent、開放模型,還是本地部署。

項目代表規格實際意義
Coding agents從「常常要修」變成「大多可直接用」適合日常開發、重構、測試
最佳模型更替數月內多次換位不能只看靜態排行榜
本地/開放模型20.9GB 到 1.5TB可在筆電到大型伺服器間選擇
個人 AI 助手Mac mini 常見適合長期、持續性任務
Benchmark demos像 pelican test 這類測試更能看出多模態與工具鏈能力

1. Coding agents 夠日常使用了

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

最大的變化,不是某一個模型單獨升級,而是 agentic coding 的整體品質跳了一級。像 CodexClaude Code 這類工具,開始能在可驗證的回饋下持續優化,結果就是輸出不再像展示品,而是真的能幫忙做事。

5 個 LLM 的半年轉變

這代表工作流也變了。以前你花大部分時間在修錯,現在可以把完整任務交出去,再回來檢查結果。重點不是完美,而是「大多可用」已經足夠進入日常開發。

  • 之前:常常要手動修補
  • 之後:大多能直接接手
  • 適合:寫程式、重構、補測試、小型功能

2. 「最佳模型」換位變得很頻繁

另一個明顯現象,是領先位置在幾個大廠之間快速輪替。短短幾個月,冠軍從 Claude Sonnet 4.5、到 GPT-5.1、到 Gemini 3、再到 GPT-5.1 Codex Max,最後又回到 Anthropic 的 Claude Opus 4.5。

這種變動說明競爭已經非常接近。對實際使用者來說,最好的做法不是相信固定排名,而是拿自己的任務去測。擅長寫 code 的模型,不一定最會做長流程規劃,也不一定最適合影像或工具調用。

  • Claude Sonnet 4.5:前段時間的領先者
  • GPT-5.1 與 GPT-5.1 Codex Max:中段強勢競爭者
  • Gemini 3:在特定測試上表現突出
  • Claude Opus 4.5:後段重新奪回優勢

3. 開放模型和本地模型進步很大

開放模型這邊也跑得很快。像 Gemma 4GLM-5.1Qwen3.6-35B-A3B 這些模型,證明 local 或 self-hosted 已經不只是退而求其次,而是可行選項。

5 個 LLM 的半年轉變

真正改變的是「能力對尺寸」的比值。20.9GB 的模型在筆電上就能跑出超乎預期的結果,而 1.5TB 的大模型則能在足夠硬體下展現很強表現。現在的問題不再是能不能本地跑,而是你要選哪種成本與能力的平衡。

  • Gemma 4:作者認為最強的美系開放模型之一
  • GLM-5.1:體積大、吃硬體,但能力強
  • Qwen3.6-35B-A3B:相對筆電友善

4. 個人 AI 助手開始成形

原本不起眼的 Warelay repo,後來變成 OpenClaw,到 2 月時已經吸引大量關注。更重要的是,這類工具開始有了更通用的稱呼:Claws,也就是以 agentic pattern 為核心的個人 AI 助手。

這件事重要在於,它把互動模式從一次性的聊天,推進到持續存在的助手。有人甚至會特地買 Mac mini 來跑這些系統。概念很簡單:準備一台專門的機器,讓助手長期處理任務,不要占用主力電腦。

  • Warelay:最初的 repo 名稱
  • OpenClaw:後來定名並被廣泛注意
  • Claws:逐漸形成的類別名稱
  • 常見配置:一台 Mac mini 當助手主機

5. Benchmark demo 變得更怪,也更有參考價值

Simon Willison 的 pelican-riding-a-bicycle 測試,會一直被拿來比較模型,因為它荒謬得剛剛好。它難畫、容易辨識,而且不太可能被各家模型專門優化,所以很適合用來看多模態表現。

同一時期也出現很多有趣但有意義的 demo,例如用 Pyodide 在瀏覽器裡跑 WebAssembly,再用 Python 包住 JavaScript。這些例子看起來像玩具,但其實證明了工具鏈已經成熟到足以支持奇怪的實驗。

browser → JavaScript → WebAssembly → Pyodide → Python → micro-javascript
  • Pelican test:快速檢查模型品質
  • Micro-javascript:小型但很有說服力的實驗
  • 重點:工具夠成熟,才會有這些怪但有用的 demo

怎麼挑

如果你最在意寫程式效率,先試 OpenAI 和 Anthropic 的 agentic 工具,再用自己的 repo 測。若你重視隱私、成本或離線使用,就看 Google、GLM 和 Qwen 的開放模型。若你在做產品,核心判斷已經不是「能不能做」,而是「哪個模型最適合這個任務、這台機器和這個預算」。

對多數人來說,最實際的組合是保留一個前沿模型,再配一個本地模型。前者處理難題,後者處理日常工作,會最穩。