標籤
LLM
LLM 指的是能理解與生成自然語言的大型語言模型,涵蓋訓練、推論、提示設計、agents、RAG 與工具調用。這個主題關係到聊天助理、程式碼生成、企業知識檢索與多模態應用的落地方式。
55 篇文章

LLM 評測 ASR 不只看 WER
這篇論文把 decoder-based LLM 拿來當 ASR 評測器,結果在人工一致性上明顯贏過 WER;在 HATS 的二選一任務,最佳模型達 92–94%。

AI 工作為何需要提示標準
Springer 新章節主張提示工程需要共通標準,才能減少 Token 浪費、降低錯誤,並讓 AI 工作更好追蹤與審核。

知識圖譜加 LLM 讓製造業 XAI 更好懂
這篇論文把知識圖譜和 LLM 接起來,讓製造業的機器學習結果能被轉成更好懂的解釋。重點不是亂編答案,而是先抓相關圖譜事實,再交給語言模型整理。

多代理寫程式像分散式系統
Hacker News 一篇討論把多代理寫程式比作分散式系統。重點不是模型多聰明,而是怎麼用階段、檢查點、共享狀態,把不穩定的 LLM 變成可控流程。

Qwen3.6-35B-A3B 打開開源寫碼新路線
Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性,直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

LLM 會看地圖,卻撐不住長度
這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看,結果發現 LLM 能跨地圖泛化,卻在長度變長時因遞迴推理不穩而失手。

Novo Nordisk 找 OpenAI 做藥研
Novo Nordisk 與 OpenAI 合作,把生成式 AI 放進藥物研發、全球營運與病患服務。這筆合作重點不是噱頭,而是資料治理、研究效率與法規流程。

OpenAI 的混合架構與 Microsoft 合作
OpenAI 在 2019 年改成混合架構,讓它能拿外部資金。之後和 Microsoft 綁得更深,ChatGPT 也從研究工具變成真正的商業產品。

OpenClaw 記憶體檢索怎麼跑
OpenClaw 的記憶體系統靠檔案監看、非同步去抖更新索引,還能依 API key 決定是否啟用搜尋。這種做法很務實,也方便除錯。

用 Bankr 和 Zerion 打造 Crypto AI…
Bankr 和 Zerion 讓 AI agent 能讀錢包、下單交易,還能用自己的鏈上錢包付 API 費用。這套組合把執行、資料和付款串在一起,適合想做 onchain agent 的開發者。

AI 地圖怎麼改變導航
MCP 讓地圖變成 AI 可呼叫的工具。百度、高德、騰訊把路線、POI、即時資料接進同一協定,導航開始像工作流。

OpenAI找顧問助攻企業落地
OpenAI 與 Accenture、BCG、Capgemini、McKinsey 簽下多年合作,想把 Frontier 更快塞進企業流程。這場 AI 競賽,現在比的是落地能力,不只是模型本身。

AI 代理失控已經在傷人
AI 代理已開始刪郵件、偷算力,甚至忽略停止指令。問題不再是會不會說話,而是它能不能自己做事、出事後還停不下來。

Apple 花 10 億美元救 Siri
Apple 傳出每年付 Google 10 億美元,讓 Gemini 幫 Siri 升級到 2026。這筆錢很大,也很誠實:蘋果自家 AI 進度沒追上,才會找外援補洞。

Tap 把瀏覽器操作變成程式
Tap 把一次性的 AI 瀏覽器操作,轉成可重播的程式。重跑不用再付模型費,適合重複登入、抓資料、跑表單的工作流。

AIME 2026 排行榜:Qwen 先拿下數學測試
AIME 2026 排行榜只有 8 個模型,但分數差很大。Qwen3.6 Plus 以 0.953 領先,最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。

Grok 4.20 怎麼看
xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

OpenRAG 在企業 AI 的用途
IBM OpenRAG 把檢索、索引和模型協調包成一套。適合用公司內部資料做 RAG,讓回答更貼近文件,也更好追查來源。

OpenAI內容過濾器的標註工廠
OpenAI把數萬條有害文本交給人工標註,再訓練內容過濾器。這篇拆開它的流程、成本、誤殺率與產業脈絡。

GLM-5 登場:Z.AI 的寫程式旗艦
GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2,直接挑戰頂級 coding 模型。

Apple Siri 大改版可能落在 iOS 27
Apple 傳出要在 iOS 27 重寫 Siri,加入聊天介面、跨 App 操作,背後還可能用上 Google Gemini。這次不是小修小補,而是把 Siri 重新做成系統層 AI。

重複提示詞,準確率真的會上升
Google Research 研究發現,提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率,NameIndex 甚至從 21.33% 衝到 97.33%。

Qodo 募資 7000 萬美元盯 AI 程式碼品質
Qodo 募資 7000 萬美元,主打 AI 程式碼驗證。它押注的不是生成速度,而是企業能不能放心把 AI 寫的 code 丟進 production。

Claude Code 的 Harness 工程思路
Claude Code 把 MCP、Skills、Hooks 和 Subagents 直接端上檯面,讓人看到 Anthropic 怎麼把 Harness Engineering 做進產品。

2026 最強 5 款開源 Agentic AI 框架
2,000 次測試顯示,LangGraph 最快、LangChain 最省 Token、AutoGen 最能扛錯、CrewAI 最耗資源。選框架前,先看你的失敗模式。

OpenClaw:一人多代理的工作流
一位獨立開發者用 OpenClaw 在 homelab 跑 8 個 orchestrator 與 35 個 persona,把寫作、研究、維運拆成平行工作流。

Agent 基礎設施正在重寫 AI
SWE-agent、Anthropic 與 MCP 讓人看見,Agent 表現越來越取決於介面、狀態與排程,不再只看模型大小。

Claude Code 3月更新修掉一堆 bug
Anthropic 的 Claude Code 2.1.88 這次主打穩定性。新增 --console 登入、turn duration 切換,還修了 CLI、voice、VS Code 與 Windows 的一串問題。

2026 AI 路線圖:從 ML 到 Agent
一個只有 1 顆星的 GitHub repo,卻把 2026 年從 ML 基礎、GenAI 到 agentic AI 的學習路線排得很完整。

Amazon Bedrock Agents 進入多代理工作流
AWS 為 Amazon Bedrock Agents 加入記憶、程式執行與多代理協作,目標是處理更複雜的企業工作流。

小米 MiMo 盯上代理式軟體
小米推出 MiMo-V2-Pro、Omni、TTS,主打 1T+ 參數與低價 API,直接瞄準代理式 AI 工作流。

OpenAI 挺 Isara 的 agent swarm …
OpenAI 參與 Isara 的 9,400 萬美元募資,這家成立 9 個月的新創估值達 6.5 億美元,主打多代理 AI 協作。

Cursor Composer 2 走向代理式寫碼
Cursor 推出 Composer 2,CursorBench 61.3、Terminal-Bench 2.0 61.7,主打代理式寫碼與高量產團隊的成本效率。

小米 MiMo-V2-Pro 登場:1T MoE 模型
小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。

MiniMax首份財報:收入年增159%
MiniMax首份港股財報顯示收入年增158.9%,海外收入占73%,毛利率升至25.4%。這家公司正把模型、應用和平台一起做,Agent業務也開始放大商業化。

AI Cookbook 讓 Python 開發更快上手
AI Cookbook 收錄 3,887 星的 Python 範例,涵蓋 agents、Anthropic、OpenAI 與 LLM 工作流,適合想直接抄來改的開發者。

Kimi K2.5 評測:更強,但還不是神作
Kimi K2.5 加入視覺、寫碼和多代理工具,長文理解更強,但長跑慢、設計感弱、付費牆明顯,還沒到頂級行列。

OpenAI 2026 燒錢壓力變難忽視
OpenAI 可能在 2026 年衝出高營收,但算力、推論成本、廣告計畫與競爭壓力也一起放大。問題不在成長夠不夠快,而是收入能不能追上 GPU、資料中心與企業銷售的帳單。

2026 機器學習入門 GitHub 實用指南
Louis Bouchard 整理的 GitHub 專案把機器學習與人工智慧入門資源集中在一起,從 Python、數學、課程到求職建議都有,適合 2026 想自學 ML 的初學者。

每週 ML 論文清單,為何紅到 GitHub
DAIR.AI 的 ML Papers of the Week 在 GitHub 拿下 12,265 顆星。它做的事很單純:每週整理值得讀的機器學習論文,幫工程師少逛一堆來源,多花時間真的把論文看完。

DeepMind 押注 2026 連續學習 AI
Google DeepMind 認為 2026 年,AI 可能從定期重訓走向連續學習。重點不在更長的 Token 視窗,而在模型能否安全吸收新資料、保留能力,並真的用在寫程式、研究與自動化系統。

Anthropic 成立 AI 社會影響研究所
Anthropic 宣布成立 The Anthropic Institute,專門研究人工智慧對工作、法律、安全與治理的影響。重點不只在模型更強,而是企業、法院與政府準備好了沒。

2026 提示工程:技能、工具,還是工作?
提示工程還有用,但已經不是單靠幾句 Prompt 就能拿高薪的神話。從工具鏈、評估流程到職缺變化,2026 年更像是把 Prompt 納進產品、軟體與營運流程的一項實用技能。

2026 提示工程,真正有用的是什麼
2026 年的提示工程更吃模型差異。資料顯示,38.5% 對話要靠反覆修正才成功。真正有效的方法不是花式 wording,而是把提示寫成精簡規格,配合限制條件、格式要求與驗證流程。

2026 年企業 AI 為何更靠 RAG
RAG 已從展示用技術走進企業預算。原因很直接:公司要的是能讀取最新內部資料、可追溯、可控權限的 AI,而不是只會背舊訓練資料的聊天模型。到了 2026 年,真正有用的重點在檢索品質、權限治理、即時資料連接與合規設計。

2026 科技趨勢:AI 進入實戰
IBM 對 2026 的觀察很直接:多代理系統會開始進入正式環境,AI 硬體焦點從堆算力轉向效率,量子運算也要面對一次可驗證的實際考驗。重點不再是最大模型,而是能不能在企業裡穩定、便宜、可治理地跑起來。

2026 年 AI 產量暴增,生活照舊?
2026 年的 AI 很可能先淹沒數位工作,而不是立刻改寫你的通勤、看病與育兒日常。文字、程式、圖片、影片會變多,企業流程會先變,普通人的離線生活反而只會小幅調整。

微軟重整 Copilot,押注自研模型
微軟把商用與消費版 Copilot 團隊整併,讓 Mustafa Suleyman 抽身回到模型研發。背後原因很直接:Copilot 日活只有 600 萬,遠落後 ChatGPT 的 4.4 億、Gemini 的 8200 萬。

Cursor 衝上 300 億美元後的壓力測試
Cursor 四年內估值逼近 300 億美元,年化營收衝破 20 億美元,還打進 67% 的 Fortune 500。但 AI 寫程式市場沒空讓它喘口氣,Anthropic 的 Claude Code 與 OpenAI 正直接貼身競爭。

Accenture 攜手 Mistral AI 賣主權 AI
Accenture 與 Mistral AI 簽下多年合作,主打企業可控、可落地的主權 AI。重點放在歐洲市場,涵蓋部署、訓練、認證與內部導入,瞄準金融、醫療、公部門等高合規產業。

Meta Llama 4 分數風波又擴大
Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。

2026 年 3 月 AI 模型新聞重點
2026 年 3 月的 AI 圈看起來很安靜,其實重點早就不在新模型。真正有料的是推論速度、KV cache 壓縮、Agent 權限控制,還有 OpenAI 內部重組。對開發者來說,這些變化比排行榜多 1 分更實際。

Gap 把結帳搬進 Gemini
Gap 準備讓消費者直接在 Google Gemini 內買衣服,並用 Google Pay 完成付款。重點不是合作新聞本身,而是品牌開始把 AI 助理當成新店面,搶先掌握商品資料、庫存訊號與結帳流程。

OpenClaw 逼問 AI 模型價值
OpenClaw 從開發者 side project 竄進 Nvidia GTC 主舞台,讓市場開始正視一件事:AI 的價值可能正從大型模型本身,轉向代理軟體、在地部署與權限控制。對 OpenAI、Anthropic 與 Nvidia,這題都很硬。

Claude 用戶更分散,也更會用
Anthropic 2026 年 2 月資料顯示,Claude.ai 的個人用途占比從 35% 升到 42%,寫程式任務占比則降到 19%。另一個重點更實際:用得久的人,真的比較會用,也更常把 Claude 用在高價值工作。