標籤

LLM

LLM 指的是能理解與生成自然語言的大型語言模型，涵蓋訓練、推論、提示設計、agents、RAG 與工具調用。這個主題關係到聊天助理、程式碼生成、企業知識檢索與多模態應用的落地方式。

55 篇文章

技術研究/4月24日

LLM 評測 ASR 不只看 WER

這篇論文把 decoder-based LLM 拿來當 ASR 評測器，結果在人工一致性上明顯贏過 WER；在 HATS 的二選一任務，最佳模型達 92–94%。

技術研究/4月21日

AI 工作為何需要提示標準

Springer 新章節主張提示工程需要共通標準，才能減少 Token 浪費、降低錯誤，並讓 AI 工作更好追蹤與審核。

技術研究/4月20日

知識圖譜加 LLM 讓製造業 XAI 更好懂

這篇論文把知識圖譜和 LLM 接起來，讓製造業的機器學習結果能被轉成更好懂的解釋。重點不是亂編答案，而是先抓相關圖譜事實，再交給語言模型整理。

AI Agent/4月20日

多代理寫程式像分散式系統

Hacker News 一篇討論把多代理寫程式比作分散式系統。重點不是模型多聰明，而是怎麼用階段、檢查點、共享狀態，把不穩定的 LLM 變成可控流程。

模型發布/4月20日

Qwen3.6-35B-A3B 打開開源寫碼新路線

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性，直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

技術研究/4月17日

LLM 會看地圖，卻撐不住長度

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看，結果發現 LLM 能跨地圖泛化，卻在長度變長時因遞迴推理不穩而失手。

產業動態/4月16日

Novo Nordisk 找 OpenAI 做藥研

Novo Nordisk 與 OpenAI 合作，把生成式 AI 放進藥物研發、全球營運與病患服務。這筆合作重點不是噱頭，而是資料治理、研究效率與法規流程。

產業動態/4月11日

OpenAI 的混合架構與 Microsoft 合作

OpenAI 在 2019 年改成混合架構，讓它能拿外部資金。之後和 Microsoft 綁得更深，ChatGPT 也從研究工具變成真正的商業產品。

AI Agent/4月8日

OpenClaw 記憶體檢索怎麼跑

OpenClaw 的記憶體系統靠檔案監看、非同步去抖更新索引，還能依 API key 決定是否啟用搜尋。這種做法很務實，也方便除錯。

區塊鏈/4月4日

用 Bankr 和 Zerion 打造 Crypto AI…

Bankr 和 Zerion 讓 AI agent 能讀錢包、下單交易，還能用自己的鏈上錢包付 API 費用。這套組合把執行、資料和付款串在一起，適合想做 onchain agent 的開發者。

產業動態/4月3日

AI 地圖怎麼改變導航

MCP 讓地圖變成 AI 可呼叫的工具。百度、高德、騰訊把路線、POI、即時資料接進同一協定，導航開始像工作流。

產業動態/4月3日

OpenAI找顧問助攻企業落地

OpenAI 與 Accenture、BCG、Capgemini、McKinsey 簽下多年合作，想把 Frontier 更快塞進企業流程。這場 AI 競賽，現在比的是落地能力，不只是模型本身。

技術研究/4月3日

AI 代理失控已經在傷人

AI 代理已開始刪郵件、偷算力，甚至忽略停止指令。問題不再是會不會說話，而是它能不能自己做事、出事後還停不下來。

產業動態/4月3日

Apple 花 10 億美元救 Siri

Apple 傳出每年付 Google 10 億美元，讓 Gemini 幫 Siri 升級到 2026。這筆錢很大，也很誠實：蘋果自家 AI 進度沒追上，才會找外援補洞。

AI Agent/4月3日

Tap 把瀏覽器操作變成程式

Tap 把一次性的 AI 瀏覽器操作，轉成可重播的程式。重跑不用再付模型費，適合重複登入、抓資料、跑表單的工作流。

技術研究/4月3日

AIME 2026 排行榜：Qwen 先拿下數學測試

AIME 2026 排行榜只有 8 個模型，但分數差很大。Qwen3.6 Plus 以 0.953 領先，最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。

模型發布/4月3日

Grok 4.20 怎麼看

xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

工具應用/4月3日

OpenRAG 在企業 AI 的用途

IBM OpenRAG 把檢索、索引和模型協調包成一套。適合用公司內部資料做 RAG，讓回答更貼近文件，也更好追查來源。

產業動態/4月2日

OpenAI內容過濾器的標註工廠

OpenAI把數萬條有害文本交給人工標註，再訓練內容過濾器。這篇拆開它的流程、成本、誤殺率與產業脈絡。

模型發布/4月2日

GLM-5 登場：Z.AI 的寫程式旗艦

GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2，直接挑戰頂級 coding 模型。

模型發布/4月2日

Apple Siri 大改版可能落在 iOS 27

Apple 傳出要在 iOS 27 重寫 Siri，加入聊天介面、跨 App 操作，背後還可能用上 Google Gemini。這次不是小修小補，而是把 Siri 重新做成系統層 AI。

技術研究/4月2日

重複提示詞，準確率真的會上升

Google Research 研究發現，提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率，NameIndex 甚至從 21.33% 衝到 97.33%。

工具應用/4月2日

Qodo 募資 7000 萬美元盯 AI 程式碼品質

Qodo 募資 7000 萬美元，主打 AI 程式碼驗證。它押注的不是生成速度，而是企業能不能放心把 AI 寫的 code 丟進 production。

工具應用/4月2日

Claude Code 的 Harness 工程思路

Claude Code 把 MCP、Skills、Hooks 和 Subagents 直接端上檯面，讓人看到 Anthropic 怎麼把 Harness Engineering 做進產品。

AI Agent/4月2日

2026 最強 5 款開源 Agentic AI 框架

2,000 次測試顯示，LangGraph 最快、LangChain 最省 Token、AutoGen 最能扛錯、CrewAI 最耗資源。選框架前，先看你的失敗模式。

AI Agent/4月1日

OpenClaw：一人多代理的工作流

一位獨立開發者用 OpenClaw 在 homelab 跑 8 個 orchestrator 與 35 個 persona，把寫作、研究、維運拆成平行工作流。

產業動態/4月1日

Agent 基礎設施正在重寫 AI

SWE-agent、Anthropic 與 MCP 讓人看見，Agent 表現越來越取決於介面、狀態與排程，不再只看模型大小。

工具應用/4月1日

Claude Code 3月更新修掉一堆 bug

Anthropic 的 Claude Code 2.1.88 這次主打穩定性。新增 --console 登入、turn duration 切換，還修了 CLI、voice、VS Code 與 Windows 的一串問題。

工具應用/4月1日

2026 AI 路線圖：從 ML 到 Agent

一個只有 1 顆星的 GitHub repo，卻把 2026 年從 ML 基礎、GenAI 到 agentic AI 的學習路線排得很完整。

AI Agent/4月1日

Amazon Bedrock Agents 進入多代理工作流

AWS 為 Amazon Bedrock Agents 加入記憶、程式執行與多代理協作，目標是處理更複雜的企業工作流。

產業動態/3月28日

小米 MiMo 盯上代理式軟體

小米推出 MiMo-V2-Pro、Omni、TTS，主打 1T+ 參數與低價 API，直接瞄準代理式 AI 工作流。

AI Agent/3月28日

OpenAI 挺 Isara 的 agent swarm …

OpenAI 參與 Isara 的 9,400 萬美元募資，這家成立 9 個月的新創估值達 6.5 億美元，主打多代理 AI 協作。

模型發布/3月28日

Cursor Composer 2 走向代理式寫碼

Cursor 推出 Composer 2，CursorBench 61.3、Terminal-Bench 2.0 61.7，主打代理式寫碼與高量產團隊的成本效率。

模型發布/3月28日

小米 MiMo-V2-Pro 登場：1T MoE 模型

小米推出 MiMo-V2-Pro，總參數超過 1T、每 token 啟用 42B，還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6，價格卻低很多。

產業動態/3月28日

MiniMax首份財報：收入年增159%

MiniMax首份港股財報顯示收入年增158.9%，海外收入占73%，毛利率升至25.4%。這家公司正把模型、應用和平台一起做，Agent業務也開始放大商業化。

工具應用/3月27日

AI Cookbook 讓 Python 開發更快上手

AI Cookbook 收錄 3,887 星的 Python 範例，涵蓋 agents、Anthropic、OpenAI 與 LLM 工作流，適合想直接抄來改的開發者。

AI Agent/3月27日

Kimi K2.5 評測：更強，但還不是神作

Kimi K2.5 加入視覺、寫碼和多代理工具，長文理解更強，但長跑慢、設計感弱、付費牆明顯，還沒到頂級行列。

產業動態/3月27日

OpenAI 2026 燒錢壓力變難忽視

OpenAI 可能在 2026 年衝出高營收，但算力、推論成本、廣告計畫與競爭壓力也一起放大。問題不在成長夠不夠快，而是收入能不能追上 GPU、資料中心與企業銷售的帳單。

工具應用/3月27日

2026 機器學習入門 GitHub 實用指南

Louis Bouchard 整理的 GitHub 專案把機器學習與人工智慧入門資源集中在一起，從 Python、數學、課程到求職建議都有，適合 2026 想自學 ML 的初學者。

技術研究/3月27日

每週 ML 論文清單，為何紅到 GitHub

DAIR.AI 的 ML Papers of the Week 在 GitHub 拿下 12,265 顆星。它做的事很單純：每週整理值得讀的機器學習論文，幫工程師少逛一堆來源，多花時間真的把論文看完。

技術研究/3月26日

DeepMind 押注 2026 連續學習 AI

Google DeepMind 認為 2026 年，AI 可能從定期重訓走向連續學習。重點不在更長的 Token 視窗，而在模型能否安全吸收新資料、保留能力，並真的用在寫程式、研究與自動化系統。

產業動態/3月26日

Anthropic 成立 AI 社會影響研究所

Anthropic 宣布成立 The Anthropic Institute，專門研究人工智慧對工作、法律、安全與治理的影響。重點不只在模型更強，而是企業、法院與政府準備好了沒。

產業動態/3月26日

2026 提示工程：技能、工具，還是工作？

提示工程還有用，但已經不是單靠幾句 Prompt 就能拿高薪的神話。從工具鏈、評估流程到職缺變化，2026 年更像是把 Prompt 納進產品、軟體與營運流程的一項實用技能。

工具應用/3月26日

2026 提示工程，真正有用的是什麼

2026 年的提示工程更吃模型差異。資料顯示，38.5% 對話要靠反覆修正才成功。真正有效的方法不是花式 wording，而是把提示寫成精簡規格，配合限制條件、格式要求與驗證流程。

產業動態/3月26日

2026 年企業 AI 為何更靠 RAG

RAG 已從展示用技術走進企業預算。原因很直接：公司要的是能讀取最新內部資料、可追溯、可控權限的 AI，而不是只會背舊訓練資料的聊天模型。到了 2026 年，真正有用的重點在檢索品質、權限治理、即時資料連接與合規設計。

產業動態/3月26日

2026 科技趨勢：AI 進入實戰

IBM 對 2026 的觀察很直接：多代理系統會開始進入正式環境，AI 硬體焦點從堆算力轉向效率，量子運算也要面對一次可驗證的實際考驗。重點不再是最大模型，而是能不能在企業裡穩定、便宜、可治理地跑起來。

產業動態/3月26日

2026 年 AI 產量暴增，生活照舊？

2026 年的 AI 很可能先淹沒數位工作，而不是立刻改寫你的通勤、看病與育兒日常。文字、程式、圖片、影片會變多，企業流程會先變，普通人的離線生活反而只會小幅調整。

產業動態/3月26日

微軟重整 Copilot，押注自研模型

微軟把商用與消費版 Copilot 團隊整併，讓 Mustafa Suleyman 抽身回到模型研發。背後原因很直接：Copilot 日活只有 600 萬，遠落後 ChatGPT 的 4.4 億、Gemini 的 8200 萬。

產業動態/3月26日

Cursor 衝上 300 億美元後的壓力測試

Cursor 四年內估值逼近 300 億美元，年化營收衝破 20 億美元，還打進 67% 的 Fortune 500。但 AI 寫程式市場沒空讓它喘口氣，Anthropic 的 Claude Code 與 OpenAI 正直接貼身競爭。

產業動態/3月26日

Accenture 攜手 Mistral AI 賣主權 AI

Accenture 與 Mistral AI 簽下多年合作，主打企業可控、可落地的主權 AI。重點放在歐洲市場，涵蓋部署、訓練、認證與內部導入，瞄準金融、醫療、公部門等高合規產業。

產業動態/3月26日

Meta Llama 4 分數風波又擴大

Meta 的 Llama 4 原本要延續開放模型聲勢，結果卻陷入評測分數爭議。最新報導指出，Meta 在發布前可能用不同模型跑不同 benchmark，讓分數看起來更好，信任問題也跟著擴大。

模型發布/3月26日

2026 年 3 月 AI 模型新聞重點

2026 年 3 月的 AI 圈看起來很安靜，其實重點早就不在新模型。真正有料的是推論速度、KV cache 壓縮、Agent 權限控制，還有 OpenAI 內部重組。對開發者來說，這些變化比排行榜多 1 分更實際。

產業動態/3月26日

Gap 把結帳搬進 Gemini

Gap 準備讓消費者直接在 Google Gemini 內買衣服，並用 Google Pay 完成付款。重點不是合作新聞本身，而是品牌開始把 AI 助理當成新店面，搶先掌握商品資料、庫存訊號與結帳流程。

產業動態/3月26日

OpenClaw 逼問 AI 模型價值

OpenClaw 從開發者 side project 竄進 Nvidia GTC 主舞台，讓市場開始正視一件事：AI 的價值可能正從大型模型本身，轉向代理軟體、在地部署與權限控制。對 OpenAI、Anthropic 與 Nvidia，這題都很硬。

產業動態/3月26日

Claude 用戶更分散，也更會用

Anthropic 2026 年 2 月資料顯示，Claude.ai 的個人用途占比從 35% 升到 42%，寫程式任務占比則降到 19%。另一個重點更實際：用得久的人，真的比較會用，也更常把 Claude 用在高價值工作。