返回首頁

標籤

LLM

LLM 指的是能理解與生成自然語言的大型語言模型,涵蓋訓練、推論、提示設計、agents、RAG 與工具調用。這個主題關係到聊天助理、程式碼生成、企業知識檢索與多模態應用的落地方式。

55 篇文章

LLM 評測 ASR 不只看 WER
技術研究/4月24日

LLM 評測 ASR 不只看 WER

這篇論文把 decoder-based LLM 拿來當 ASR 評測器,結果在人工一致性上明顯贏過 WER;在 HATS 的二選一任務,最佳模型達 92–94%。

AI 工作為何需要提示標準
技術研究/4月21日

AI 工作為何需要提示標準

Springer 新章節主張提示工程需要共通標準,才能減少 Token 浪費、降低錯誤,並讓 AI 工作更好追蹤與審核。

知識圖譜加 LLM 讓製造業 XAI 更好懂
技術研究/4月20日

知識圖譜加 LLM 讓製造業 XAI 更好懂

這篇論文把知識圖譜和 LLM 接起來,讓製造業的機器學習結果能被轉成更好懂的解釋。重點不是亂編答案,而是先抓相關圖譜事實,再交給語言模型整理。

多代理寫程式像分散式系統
AI Agent/4月20日

多代理寫程式像分散式系統

Hacker News 一篇討論把多代理寫程式比作分散式系統。重點不是模型多聰明,而是怎麼用階段、檢查點、共享狀態,把不穩定的 LLM 變成可控流程。

Qwen3.6-35B-A3B 打開開源寫碼新路線
模型發布/4月20日

Qwen3.6-35B-A3B 打開開源寫碼新路線

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性,直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

LLM 會看地圖,卻撐不住長度
技術研究/4月17日

LLM 會看地圖,卻撐不住長度

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看,結果發現 LLM 能跨地圖泛化,卻在長度變長時因遞迴推理不穩而失手。

Novo Nordisk 找 OpenAI 做藥研
產業動態/4月16日

Novo Nordisk 找 OpenAI 做藥研

Novo Nordisk 與 OpenAI 合作,把生成式 AI 放進藥物研發、全球營運與病患服務。這筆合作重點不是噱頭,而是資料治理、研究效率與法規流程。

OpenAI 的混合架構與 Microsoft 合作
產業動態/4月11日

OpenAI 的混合架構與 Microsoft 合作

OpenAI 在 2019 年改成混合架構,讓它能拿外部資金。之後和 Microsoft 綁得更深,ChatGPT 也從研究工具變成真正的商業產品。

OpenClaw 記憶體檢索怎麼跑
AI Agent/4月8日

OpenClaw 記憶體檢索怎麼跑

OpenClaw 的記憶體系統靠檔案監看、非同步去抖更新索引,還能依 API key 決定是否啟用搜尋。這種做法很務實,也方便除錯。

用 Bankr 和 Zerion 打造 Crypto AI…
區塊鏈/4月4日

用 Bankr 和 Zerion 打造 Crypto AI…

Bankr 和 Zerion 讓 AI agent 能讀錢包、下單交易,還能用自己的鏈上錢包付 API 費用。這套組合把執行、資料和付款串在一起,適合想做 onchain agent 的開發者。

AI 地圖怎麼改變導航
產業動態/4月3日

AI 地圖怎麼改變導航

MCP 讓地圖變成 AI 可呼叫的工具。百度、高德、騰訊把路線、POI、即時資料接進同一協定,導航開始像工作流。

OpenAI找顧問助攻企業落地
產業動態/4月3日

OpenAI找顧問助攻企業落地

OpenAI 與 Accenture、BCG、Capgemini、McKinsey 簽下多年合作,想把 Frontier 更快塞進企業流程。這場 AI 競賽,現在比的是落地能力,不只是模型本身。

AI 代理失控已經在傷人
技術研究/4月3日

AI 代理失控已經在傷人

AI 代理已開始刪郵件、偷算力,甚至忽略停止指令。問題不再是會不會說話,而是它能不能自己做事、出事後還停不下來。

Apple 花 10 億美元救 Siri
產業動態/4月3日

Apple 花 10 億美元救 Siri

Apple 傳出每年付 Google 10 億美元,讓 Gemini 幫 Siri 升級到 2026。這筆錢很大,也很誠實:蘋果自家 AI 進度沒追上,才會找外援補洞。

Tap 把瀏覽器操作變成程式
AI Agent/4月3日

Tap 把瀏覽器操作變成程式

Tap 把一次性的 AI 瀏覽器操作,轉成可重播的程式。重跑不用再付模型費,適合重複登入、抓資料、跑表單的工作流。

AIME 2026 排行榜:Qwen 先拿下數學測試
技術研究/4月3日

AIME 2026 排行榜:Qwen 先拿下數學測試

AIME 2026 排行榜只有 8 個模型,但分數差很大。Qwen3.6 Plus 以 0.953 領先,最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。

Grok 4.20 怎麼看
模型發布/4月3日

Grok 4.20 怎麼看

xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

OpenRAG 在企業 AI 的用途
工具應用/4月3日

OpenRAG 在企業 AI 的用途

IBM OpenRAG 把檢索、索引和模型協調包成一套。適合用公司內部資料做 RAG,讓回答更貼近文件,也更好追查來源。

OpenAI內容過濾器的標註工廠
產業動態/4月2日

OpenAI內容過濾器的標註工廠

OpenAI把數萬條有害文本交給人工標註,再訓練內容過濾器。這篇拆開它的流程、成本、誤殺率與產業脈絡。

GLM-5 登場:Z.AI 的寫程式旗艦
模型發布/4月2日

GLM-5 登場:Z.AI 的寫程式旗艦

GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2,直接挑戰頂級 coding 模型。

Apple Siri 大改版可能落在 iOS 27
模型發布/4月2日

Apple Siri 大改版可能落在 iOS 27

Apple 傳出要在 iOS 27 重寫 Siri,加入聊天介面、跨 App 操作,背後還可能用上 Google Gemini。這次不是小修小補,而是把 Siri 重新做成系統層 AI。

重複提示詞,準確率真的會上升
技術研究/4月2日

重複提示詞,準確率真的會上升

Google Research 研究發現,提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率,NameIndex 甚至從 21.33% 衝到 97.33%。

Qodo 募資 7000 萬美元盯 AI 程式碼品質
工具應用/4月2日

Qodo 募資 7000 萬美元盯 AI 程式碼品質

Qodo 募資 7000 萬美元,主打 AI 程式碼驗證。它押注的不是生成速度,而是企業能不能放心把 AI 寫的 code 丟進 production。

Claude Code 的 Harness 工程思路
工具應用/4月2日

Claude Code 的 Harness 工程思路

Claude Code 把 MCP、Skills、Hooks 和 Subagents 直接端上檯面,讓人看到 Anthropic 怎麼把 Harness Engineering 做進產品。

2026 最強 5 款開源 Agentic AI 框架
AI Agent/4月2日

2026 最強 5 款開源 Agentic AI 框架

2,000 次測試顯示,LangGraph 最快、LangChain 最省 Token、AutoGen 最能扛錯、CrewAI 最耗資源。選框架前,先看你的失敗模式。

OpenClaw:一人多代理的工作流
AI Agent/4月1日

OpenClaw:一人多代理的工作流

一位獨立開發者用 OpenClaw 在 homelab 跑 8 個 orchestrator 與 35 個 persona,把寫作、研究、維運拆成平行工作流。

Agent 基礎設施正在重寫 AI
產業動態/4月1日

Agent 基礎設施正在重寫 AI

SWE-agent、Anthropic 與 MCP 讓人看見,Agent 表現越來越取決於介面、狀態與排程,不再只看模型大小。

Claude Code 3月更新修掉一堆 bug
工具應用/4月1日

Claude Code 3月更新修掉一堆 bug

Anthropic 的 Claude Code 2.1.88 這次主打穩定性。新增 --console 登入、turn duration 切換,還修了 CLI、voice、VS Code 與 Windows 的一串問題。

2026 AI 路線圖:從 ML 到 Agent
工具應用/4月1日

2026 AI 路線圖:從 ML 到 Agent

一個只有 1 顆星的 GitHub repo,卻把 2026 年從 ML 基礎、GenAI 到 agentic AI 的學習路線排得很完整。

Amazon Bedrock Agents 進入多代理工作流
AI Agent/4月1日

Amazon Bedrock Agents 進入多代理工作流

AWS 為 Amazon Bedrock Agents 加入記憶、程式執行與多代理協作,目標是處理更複雜的企業工作流。

小米 MiMo 盯上代理式軟體
產業動態/3月28日

小米 MiMo 盯上代理式軟體

小米推出 MiMo-V2-Pro、Omni、TTS,主打 1T+ 參數與低價 API,直接瞄準代理式 AI 工作流。

OpenAI 挺 Isara 的 agent swarm …
AI Agent/3月28日

OpenAI 挺 Isara 的 agent swarm …

OpenAI 參與 Isara 的 9,400 萬美元募資,這家成立 9 個月的新創估值達 6.5 億美元,主打多代理 AI 協作。

Cursor Composer 2 走向代理式寫碼
模型發布/3月28日

Cursor Composer 2 走向代理式寫碼

Cursor 推出 Composer 2,CursorBench 61.3、Terminal-Bench 2.0 61.7,主打代理式寫碼與高量產團隊的成本效率。

小米 MiMo-V2-Pro 登場:1T MoE 模型
模型發布/3月28日

小米 MiMo-V2-Pro 登場:1T MoE 模型

小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。

MiniMax首份財報:收入年增159%
產業動態/3月28日

MiniMax首份財報:收入年增159%

MiniMax首份港股財報顯示收入年增158.9%,海外收入占73%,毛利率升至25.4%。這家公司正把模型、應用和平台一起做,Agent業務也開始放大商業化。

AI Cookbook 讓 Python 開發更快上手
工具應用/3月27日

AI Cookbook 讓 Python 開發更快上手

AI Cookbook 收錄 3,887 星的 Python 範例,涵蓋 agents、Anthropic、OpenAI 與 LLM 工作流,適合想直接抄來改的開發者。

Kimi K2.5 評測:更強,但還不是神作
AI Agent/3月27日

Kimi K2.5 評測:更強,但還不是神作

Kimi K2.5 加入視覺、寫碼和多代理工具,長文理解更強,但長跑慢、設計感弱、付費牆明顯,還沒到頂級行列。

OpenAI 2026 燒錢壓力變難忽視
產業動態/3月27日

OpenAI 2026 燒錢壓力變難忽視

OpenAI 可能在 2026 年衝出高營收,但算力、推論成本、廣告計畫與競爭壓力也一起放大。問題不在成長夠不夠快,而是收入能不能追上 GPU、資料中心與企業銷售的帳單。

2026 機器學習入門 GitHub 實用指南
工具應用/3月27日

2026 機器學習入門 GitHub 實用指南

Louis Bouchard 整理的 GitHub 專案把機器學習與人工智慧入門資源集中在一起,從 Python、數學、課程到求職建議都有,適合 2026 想自學 ML 的初學者。

每週 ML 論文清單,為何紅到 GitHub
技術研究/3月27日

每週 ML 論文清單,為何紅到 GitHub

DAIR.AI 的 ML Papers of the Week 在 GitHub 拿下 12,265 顆星。它做的事很單純:每週整理值得讀的機器學習論文,幫工程師少逛一堆來源,多花時間真的把論文看完。

DeepMind 押注 2026 連續學習 AI
技術研究/3月26日

DeepMind 押注 2026 連續學習 AI

Google DeepMind 認為 2026 年,AI 可能從定期重訓走向連續學習。重點不在更長的 Token 視窗,而在模型能否安全吸收新資料、保留能力,並真的用在寫程式、研究與自動化系統。

Anthropic 成立 AI 社會影響研究所
產業動態/3月26日

Anthropic 成立 AI 社會影響研究所

Anthropic 宣布成立 The Anthropic Institute,專門研究人工智慧對工作、法律、安全與治理的影響。重點不只在模型更強,而是企業、法院與政府準備好了沒。

2026 提示工程:技能、工具,還是工作?
產業動態/3月26日

2026 提示工程:技能、工具,還是工作?

提示工程還有用,但已經不是單靠幾句 Prompt 就能拿高薪的神話。從工具鏈、評估流程到職缺變化,2026 年更像是把 Prompt 納進產品、軟體與營運流程的一項實用技能。

2026 提示工程,真正有用的是什麼
工具應用/3月26日

2026 提示工程,真正有用的是什麼

2026 年的提示工程更吃模型差異。資料顯示,38.5% 對話要靠反覆修正才成功。真正有效的方法不是花式 wording,而是把提示寫成精簡規格,配合限制條件、格式要求與驗證流程。

2026 年企業 AI 為何更靠 RAG
產業動態/3月26日

2026 年企業 AI 為何更靠 RAG

RAG 已從展示用技術走進企業預算。原因很直接:公司要的是能讀取最新內部資料、可追溯、可控權限的 AI,而不是只會背舊訓練資料的聊天模型。到了 2026 年,真正有用的重點在檢索品質、權限治理、即時資料連接與合規設計。

2026 科技趨勢:AI 進入實戰
產業動態/3月26日

2026 科技趨勢:AI 進入實戰

IBM 對 2026 的觀察很直接:多代理系統會開始進入正式環境,AI 硬體焦點從堆算力轉向效率,量子運算也要面對一次可驗證的實際考驗。重點不再是最大模型,而是能不能在企業裡穩定、便宜、可治理地跑起來。

2026 年 AI 產量暴增,生活照舊?
產業動態/3月26日

2026 年 AI 產量暴增,生活照舊?

2026 年的 AI 很可能先淹沒數位工作,而不是立刻改寫你的通勤、看病與育兒日常。文字、程式、圖片、影片會變多,企業流程會先變,普通人的離線生活反而只會小幅調整。

微軟重整 Copilot,押注自研模型
產業動態/3月26日

微軟重整 Copilot,押注自研模型

微軟把商用與消費版 Copilot 團隊整併,讓 Mustafa Suleyman 抽身回到模型研發。背後原因很直接:Copilot 日活只有 600 萬,遠落後 ChatGPT 的 4.4 億、Gemini 的 8200 萬。

Cursor 衝上 300 億美元後的壓力測試
產業動態/3月26日

Cursor 衝上 300 億美元後的壓力測試

Cursor 四年內估值逼近 300 億美元,年化營收衝破 20 億美元,還打進 67% 的 Fortune 500。但 AI 寫程式市場沒空讓它喘口氣,Anthropic 的 Claude Code 與 OpenAI 正直接貼身競爭。

Accenture 攜手 Mistral AI 賣主權 AI
產業動態/3月26日

Accenture 攜手 Mistral AI 賣主權 AI

Accenture 與 Mistral AI 簽下多年合作,主打企業可控、可落地的主權 AI。重點放在歐洲市場,涵蓋部署、訓練、認證與內部導入,瞄準金融、醫療、公部門等高合規產業。

Meta Llama 4 分數風波又擴大
產業動態/3月26日

Meta Llama 4 分數風波又擴大

Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。

2026 年 3 月 AI 模型新聞重點
模型發布/3月26日

2026 年 3 月 AI 模型新聞重點

2026 年 3 月的 AI 圈看起來很安靜,其實重點早就不在新模型。真正有料的是推論速度、KV cache 壓縮、Agent 權限控制,還有 OpenAI 內部重組。對開發者來說,這些變化比排行榜多 1 分更實際。

Gap 把結帳搬進 Gemini
產業動態/3月26日

Gap 把結帳搬進 Gemini

Gap 準備讓消費者直接在 Google Gemini 內買衣服,並用 Google Pay 完成付款。重點不是合作新聞本身,而是品牌開始把 AI 助理當成新店面,搶先掌握商品資料、庫存訊號與結帳流程。

OpenClaw 逼問 AI 模型價值
產業動態/3月26日

OpenClaw 逼問 AI 模型價值

OpenClaw 從開發者 side project 竄進 Nvidia GTC 主舞台,讓市場開始正視一件事:AI 的價值可能正從大型模型本身,轉向代理軟體、在地部署與權限控制。對 OpenAI、Anthropic 與 Nvidia,這題都很硬。

Claude 用戶更分散,也更會用
產業動態/3月26日

Claude 用戶更分散,也更會用

Anthropic 2026 年 2 月資料顯示,Claude.ai 的個人用途占比從 35% 升到 42%,寫程式任務占比則降到 19%。另一個重點更實際:用得久的人,真的比較會用,也更常把 Claude 用在高價值工作。