DeepMind 押注 2026 連續學習 AI

OraCore Editors

返回首頁

[RSCH] 2026年3月26日9 分鐘閱讀OraCore 編輯部

DeepMind 押注 2026 連續學習 AI

Google DeepMind 認為 2026 年，AI 可能從定期重訓走向連續學習。重點不在更長的 Token 視窗，而在模型能否安全吸收新資料、保留能力，並真的用在寫程式、研究與自動化系統。

軟體開發 OpenAI 人工智慧研究整理連續學習 LLM Claude 研究自動化

分享 LinkedIn

Google DeepMind 幫一個老題目訂了時間表。答案是 2026 年。講白了，就是他們認為 AI 可能在那時候，從「訓練完就先凍住」走到「上線後還能繼續學」。

這件事很重要，因為現在多數 LLM 都有同一個毛病。訓練一停，知識大致就停。要更新，通常得等下一輪大規模訓練或後訓練流程。這種模式其實很笨，也很花錢。

如果 DeepMind 的判斷沒偏太多，2026 年你看到的 AI，可能不只是會讀更多 Token。它會開始把新資料、新錯誤、新回饋，慢慢變成比較穩定的能力。說真的，這比單純把 context window 拉到 100 萬 Token 還有意思。

DeepMind 說的連續學習，到底是什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先把名詞講清楚。連續學習，continuous learning，指的是 AI 可以在運作過程中持續吸收新資訊，不用每次都從頭重訓。它要能記住有用的東西，也要能在任務變動時調整行為。

這跟現在常見的做法差很多。現在的模型，多半靠定期重訓、RAG、外部資料庫、工具呼叫，或是人工整理後再做 fine-tuning。這些方法很有用，但本質上還是在模型外面補洞，不是模型自己穩定長出新能力。

原始內容提到 Google 內部進展，還提到一個在 NeurIPS 2025 發表的「nested method」。但這裡要踩一下煞車。因為沒有論文標題，也沒有 benchmark 表格。沒有數字，就很難判斷實際進度。研究方向合理，不代表產品已經快做好。

現在最大的技術難點，不是讓模型看更多文字。那個大家都在做。難的是模型能不能把新經驗轉成穩定技能，而且不把舊能力搞壞。這裡卡到的問題很多，像是 catastrophic forgetting、資料漂移、錯誤回饋累積，還有安全控管。

現在前沿模型多半還是靠週期性重訓，不是即時、可持續的學習。
更大的 context window，不等於模型真的更新了內部知識。
連續學習要處理遺忘舊能力的風險。
它也得處理新資料品質不穩的問題。
如果這些問題壓得住，AI agent 在長週期寫程式和研究任務會更實用。

所以，DeepMind 押 2026，不是因為模型突然變聰明。重點是工程系統有沒有可能把「學習」這件事，從離線流程搬到線上環境。你可能會想問，這是不是只是換個說法包裝記憶系統？我覺得不完全是。記憶是記住，連續學習是記住後還能穩定改善表現。兩者差很大。

為什麼大家一直提 2026

2026 這個年份不是憑空掉下來。近兩年，大型 AI 實驗室一直在丟短時間表。尤其在寫程式、自動研究、agent workflow 這幾塊，大家都覺得進展會很快。快到有點讓人懷疑是不是又在先喊再補貨。

原文也提到 Anthropic 執行長 Dario Amodei。這個人對 AI 進度一向講得很直接。他多次公開表示，AI 在未來幾年可能會快速接手大量知識工作。這種說法跟 DeepMind 的 2026 判斷，在氣氛上是同一條線。

有一段引述很有代表性。它講的是寫程式，不是嚴格定義下的連續學習。但兩者確實有關。因為如果模型已經能寫大部分程式，再加上更好的記憶、適應能力和自我修正，軟體工作流程就會更自動化。

“I think we will be there in three to six months, where AI is writing 90% of the code. And then in 12 months, we may be in a world where AI is writing essentially all of the code.” — Dario Amodei, CEO of Anthropic, at the World Economic Forum in Davos, January 2025

但我得潑個冷水。AI 寫出 90% 的程式碼，跟 AI 能從每次 bug、每次部署失敗、每次 code review 裡穩定學到東西，完全不是同一級難度。前者比較像輸出能力。後者牽涉到長期穩定性、品質控制、權限邊界，還有很多麻煩的工程細節。

講白了，demo 很容易看起來很猛。真的放進公司內部 repo，讓它連續 6 個月自己學，還不能把系統弄爛，這才是考試。2026 若真的有進展，我猜也會先出現在受控環境，不會一開始就全面開放。

跟現在的 AI 系統比，差在哪裡

要看懂這件事，先別被大字報帶走。現在主流 AI 產品的進步方式，主要還是幾種組合。更大的基礎模型、更長的 context、更好的檢索、更強的工具使用，再加上後訓練和人類回饋。這些都有效，但還不是「持續自己學」。

拿 context window 來說，Google 在 2024 年談過 Gemini 1.5 Pro 可支援最高 100 萬 Token，部分情境還往 200 萬 Token 走。這數字很大，對長文件分析、多檔案程式碼理解都有幫助。但你一次塞 100 萬 Token 給模型，不代表它下次就真的記得。

Claude 3.5 Sonnet 在開發者圈也很有存在感。它在程式任務、工具整合、互動品質上都不錯。可它主要還是靠 session context、外部工具和工作流設計來維持表現。模型權重本身不會因為你今天糾正它 10 次，明天就自然變得更懂你的系統。

OpenAI、Anthropic、Google 都在做 reinforcement learning、post-training、tool use、memory 機制。可到目前為止，沒有哪一家公開提供一個通用型、可大規模商用、會從開放世界互動中穩定連續學習的模型。這個缺口，就是 DeepMind 想補的地方。

Gemini 1.5 Pro：2024 年公布最高 100 萬 Token，部分情境談到 200 萬 Token。
Claude 3.5 Sonnet：程式能力進步明顯，但仍依賴 session 與工具鏈。
OpenAI、Anthropic、Google：都有後訓練與工具整合，還沒有公開通用連續學習模型。
SWE-bench 等基準進步很快，但 benchmark 分數不等於能維護真實產品 6 個月。

這裡還有一個常被混淆的點。很多人看到 AI 在 benchmark 上衝分，就直接推論「工程師快沒了」。我覺得這種跳法太粗暴。軟體工作不是只有吐程式碼。還有需求釐清、架構取捨、資安審查、跨部門溝通、事故處理，還有凌晨 2 點被 call 起來背鍋。

AI 會吃掉很多 routine implementation。這點我相信。而且速度可能比很多公司預期更快。但要說「人類程式設計師」整類工作會被整包替換，這就誇張了。至少在 2030 前，我看比較像角色重組，不是職位直接蒸發。

真正有意思的，其實是科研和自動化實驗室

如果你只把這件事看成寫程式工具升級，那有點可惜。連續學習更有殺傷力的地方，我覺得在科研。因為研究工作本來就很像一個長週期回饋系統。你讀論文、提假設、做實驗、失敗、修正，再試一次。這流程很適合讓 AI 累積經驗。

想像一個研究助理型 AI。它可以連續讀新論文，記住某個實驗室過去 8 個月試過哪些條件，知道哪些試劑組合老是失敗，也能根據儀器輸出調整下一輪實驗設計。這時候，記憶不是附加功能，而是核心能力。

原文提到一個更遠的說法，像是到 2050 年，AI 可能做出接近諾貝爾獎等級的科學成果。這種預測可以討論，但不能當成確定路線圖。科學發現不是單靠模式配對就能完成。很多時候，真正難的是定義問題、排除假象、確認因果，還有知道什麼結果不能信。

不過，近一點的變化已經看得到。AI 已經在蛋白質設計、材料搜尋、文獻整理、實驗規劃這些領域開始幫忙。再加上機器人、自動化儀器、模擬系統，整個實驗流程會越來越像軟體 pipeline。人類研究員還在，但很多中間步驟會被 AI 接走。

這裡最大的瓶頸不是算力，是信任。會連續學習的模型，如果放進實驗室，它每次更新都要可追蹤。每個結論都要能重現。每次改變策略，都得留下 audit trail。科學不是誰先生成 100 個假說就贏，重點是你要證明哪一個是真的。

產業脈絡：為什麼現在大家急著做這題

連續學習會突然變熱門，背後其實是成本和產品壓力。訓練一個大模型很貴。重訓一次，燒掉的 GPU、電力、資料整理成本都很驚人。如果模型能在上線後持續吸收高品質回饋，理論上能減少部分重訓頻率，或至少讓更新更細緻。

另一個原因是企業客戶的需求變了。公司不想要一個只會聊天的 AI。公司要的是懂自己內部資料、懂流程、懂規則，而且下個月比這個月更好用的系統。你今天教它 30 次，明天還要再教一次，這種產品很難長期收高價。

還有 agent 熱潮。現在很多團隊都在做 coding agent、research agent、customer support agent。問題是 agent 一旦要跑長任務，就會撞到記憶和適應能力的天花板。沒有連續學習，它就像每次上班都失憶一半。這種東西 demo 好看，進 production 常常翻車。

所以你會看到，大家表面上在比模型誰更會答題，實際上都在補同一個洞。怎麼讓 AI 對真實世界變化有反應，又不至於越學越歪。這題很硬，也很現實。因為只要模型會自我更新，安全問題就直接升級。

2026 真正要看什麼

我對 2026 的看法比較保守。那一年很可能看到「局部可用」的連續學習系統，而不是全面成熟。先出現的場景，八成是高價值、資料密集、回饋明確、權限可控的環境。像公司內部程式碼庫、企業知識助理、研究工作流，這些都很合理。

如果 DeepMind 或其他實驗室真的端出東西，別先看宣傳片。先看四個問題。第一，它能不能把改進保留 3 到 6 個月。第二，它能不能安全吸收新資料。第三，它有沒有明顯 catastrophic forgetting。第四，這些改進有沒有出現在真實 production 指標，不只是漂亮 benchmark。

對台灣開發者來說，最實際的做法很簡單。現在就開始把工作流資料化。把 bug、修正紀錄、code review 意見、部署失敗原因整理乾淨。因為一旦連續學習 agent 真的能用，先受益的不是喊最大聲的人，而是資料最完整、流程最標準化的團隊。

最後給一個具體預測。2026 年底前，我覺得我們會看到至少 1 到 2 種商用系統，在受控環境中做到「持續學習且 90 天內可驗證提升」。範圍不會很廣，但已經足以改變軟體團隊和研究團隊的工具選擇。到時候你該問的不是 AI 會不會學，而是你的系統，有沒有準備好讓它學。

// 相關文章

DeepMind 押注 2026 連續學習 AI

DeepMind 說的連續學習，到底是什麼

訂閱 AI 趨勢週報

為什麼大家一直提 2026

跟現在的 AI 系統比，差在哪裡

真正有意思的，其實是科研和自動化實驗室

產業脈絡：為什麼現在大家急著做這題

2026 真正要看什麼

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維

LLM 評審也會不穩

黑箱 LLM 排程更聰明了