DeepMind 押注 2026 連續學習 AI
Google DeepMind 認為 2026 年,AI 可能從定期重訓走向連續學習。重點不在更長的 Token 視窗,而在模型能否安全吸收新資料、保留能力,並真的用在寫程式、研究與自動化系統。

Google DeepMind 幫一個老題目訂了時間表。答案是 2026 年。講白了,就是他們認為 AI 可能在那時候,從「訓練完就先凍住」走到「上線後還能繼續學」。
這件事很重要,因為現在多數 LLM 都有同一個毛病。訓練一停,知識大致就停。要更新,通常得等下一輪大規模訓練或後訓練流程。這種模式其實很笨,也很花錢。
如果 DeepMind 的判斷沒偏太多,2026 年你看到的 AI,可能不只是會讀更多 Token。它會開始把新資料、新錯誤、新回饋,慢慢變成比較穩定的能力。說真的,這比單純把 context window 拉到 100 萬 Token 還有意思。
DeepMind 說的連續學習,到底是什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
先把名詞講清楚。連續學習,continuous learning,指的是 AI 可以在運作過程中持續吸收新資訊,不用每次都從頭重訓。它要能記住有用的東西,也要能在任務變動時調整行為。

這跟現在常見的做法差很多。現在的模型,多半靠定期重訓、RAG、外部資料庫、工具呼叫,或是人工整理後再做 fine-tuning。這些方法很有用,但本質上還是在模型外面補洞,不是模型自己穩定長出新能力。
原始內容提到 Google 內部進展,還提到一個在 NeurIPS 2025 發表的「nested method」。但這裡要踩一下煞車。因為沒有論文標題,也沒有 benchmark 表格。沒有數字,就很難判斷實際進度。研究方向合理,不代表產品已經快做好。
現在最大的技術難點,不是讓模型看更多文字。那個大家都在做。難的是模型能不能把新經驗轉成穩定技能,而且不把舊能力搞壞。這裡卡到的問題很多,像是 catastrophic forgetting、資料漂移、錯誤回饋累積,還有安全控管。
- 現在前沿模型多半還是靠週期性重訓,不是即時、可持續的學習。
- 更大的 context window,不等於模型真的更新了內部知識。
- 連續學習要處理遺忘舊能力的風險。
- 它也得處理新資料品質不穩的問題。
- 如果這些問題壓得住,AI agent 在長週期寫程式和研究任務會更實用。
所以,DeepMind 押 2026,不是因為模型突然變聰明。重點是工程系統有沒有可能把「學習」這件事,從離線流程搬到線上環境。你可能會想問,這是不是只是換個說法包裝記憶系統?我覺得不完全是。記憶是記住,連續學習是記住後還能穩定改善表現。兩者差很大。
為什麼大家一直提 2026
2026 這個年份不是憑空掉下來。近兩年,大型 AI 實驗室一直在丟短時間表。尤其在寫程式、自動研究、agent workflow 這幾塊,大家都覺得進展會很快。快到有點讓人懷疑是不是又在先喊再補貨。
原文也提到 Anthropic 執行長 Dario Amodei。這個人對 AI 進度一向講得很直接。他多次公開表示,AI 在未來幾年可能會快速接手大量知識工作。這種說法跟 DeepMind 的 2026 判斷,在氣氛上是同一條線。
有一段引述很有代表性。它講的是寫程式,不是嚴格定義下的連續學習。但兩者確實有關。因為如果模型已經能寫大部分程式,再加上更好的記憶、適應能力和自我修正,軟體工作流程就會更自動化。
“I think we will be there in three to six months, where AI is writing 90% of the code. And then in 12 months, we may be in a world where AI is writing essentially all of the code.” — Dario Amodei, CEO of Anthropic, at the World Economic Forum in Davos, January 2025
但我得潑個冷水。AI 寫出 90% 的程式碼,跟 AI 能從每次 bug、每次部署失敗、每次 code review 裡穩定學到東西,完全不是同一級難度。前者比較像輸出能力。後者牽涉到長期穩定性、品質控制、權限邊界,還有很多麻煩的工程細節。
講白了,demo 很容易看起來很猛。真的放進公司內部 repo,讓它連續 6 個月自己學,還不能把系統弄爛,這才是考試。2026 若真的有進展,我猜也會先出現在受控環境,不會一開始就全面開放。
跟現在的 AI 系統比,差在哪裡
要看懂這件事,先別被大字報帶走。現在主流 AI 產品的進步方式,主要還是幾種組合。更大的基礎模型、更長的 context、更好的檢索、更強的工具使用,再加上後訓練和人類回饋。這些都有效,但還不是「持續自己學」。

拿 context window 來說,Google 在 2024 年談過 Gemini 1.5 Pro 可支援最高 100 萬 Token,部分情境還往 200 萬 Token 走。這數字很大,對長文件分析、多檔案程式碼理解都有幫助。但你一次塞 100 萬 Token 給模型,不代表它下次就真的記得。
Claude 3.5 Sonnet 在開發者圈也很有存在感。它在程式任務、工具整合、互動品質上都不錯。可它主要還是靠 session context、外部工具和工作流設計來維持表現。模型權重本身不會因為你今天糾正它 10 次,明天就自然變得更懂你的系統。
OpenAI、Anthropic、Google 都在做 reinforcement learning、post-training、tool use、memory 機制。可到目前為止,沒有哪一家公開提供一個通用型、可大規模商用、會從開放世界互動中穩定連續學習的模型。這個缺口,就是 DeepMind 想補的地方。
- Gemini 1.5 Pro:2024 年公布最高 100 萬 Token,部分情境談到 200 萬 Token。
- Claude 3.5 Sonnet:程式能力進步明顯,但仍依賴 session 與工具鏈。
- OpenAI、Anthropic、Google:都有後訓練與工具整合,還沒有公開通用連續學習模型。
- SWE-bench 等基準進步很快,但 benchmark 分數不等於能維護真實產品 6 個月。
這裡還有一個常被混淆的點。很多人看到 AI 在 benchmark 上衝分,就直接推論「工程師快沒了」。我覺得這種跳法太粗暴。軟體工作不是只有吐程式碼。還有需求釐清、架構取捨、資安審查、跨部門溝通、事故處理,還有凌晨 2 點被 call 起來背鍋。
AI 會吃掉很多 routine implementation。這點我相信。而且速度可能比很多公司預期更快。但要說「人類程式設計師」整類工作會被整包替換,這就誇張了。至少在 2030 前,我看比較像角色重組,不是職位直接蒸發。
真正有意思的,其實是科研和自動化實驗室
如果你只把這件事看成寫程式工具升級,那有點可惜。連續學習更有殺傷力的地方,我覺得在科研。因為研究工作本來就很像一個長週期回饋系統。你讀論文、提假設、做實驗、失敗、修正,再試一次。這流程很適合讓 AI 累積經驗。
想像一個研究助理型 AI。它可以連續讀新論文,記住某個實驗室過去 8 個月試過哪些條件,知道哪些試劑組合老是失敗,也能根據儀器輸出調整下一輪實驗設計。這時候,記憶不是附加功能,而是核心能力。
原文提到一個更遠的說法,像是到 2050 年,AI 可能做出接近諾貝爾獎等級的科學成果。這種預測可以討論,但不能當成確定路線圖。科學發現不是單靠模式配對就能完成。很多時候,真正難的是定義問題、排除假象、確認因果,還有知道什麼結果不能信。
不過,近一點的變化已經看得到。AI 已經在蛋白質設計、材料搜尋、文獻整理、實驗規劃這些領域開始幫忙。再加上機器人、自動化儀器、模擬系統,整個實驗流程會越來越像軟體 pipeline。人類研究員還在,但很多中間步驟會被 AI 接走。
這裡最大的瓶頸不是算力,是信任。會連續學習的模型,如果放進實驗室,它每次更新都要可追蹤。每個結論都要能重現。每次改變策略,都得留下 audit trail。科學不是誰先生成 100 個假說就贏,重點是你要證明哪一個是真的。
產業脈絡:為什麼現在大家急著做這題
連續學習會突然變熱門,背後其實是成本和產品壓力。訓練一個大模型很貴。重訓一次,燒掉的 GPU、電力、資料整理成本都很驚人。如果模型能在上線後持續吸收高品質回饋,理論上能減少部分重訓頻率,或至少讓更新更細緻。
另一個原因是企業客戶的需求變了。公司不想要一個只會聊天的 AI。公司要的是懂自己內部資料、懂流程、懂規則,而且下個月比這個月更好用的系統。你今天教它 30 次,明天還要再教一次,這種產品很難長期收高價。
還有 agent 熱潮。現在很多團隊都在做 coding agent、research agent、customer support agent。問題是 agent 一旦要跑長任務,就會撞到記憶和適應能力的天花板。沒有連續學習,它就像每次上班都失憶一半。這種東西 demo 好看,進 production 常常翻車。
所以你會看到,大家表面上在比模型誰更會答題,實際上都在補同一個洞。怎麼讓 AI 對真實世界變化有反應,又不至於越學越歪。這題很硬,也很現實。因為只要模型會自我更新,安全問題就直接升級。
2026 真正要看什麼
我對 2026 的看法比較保守。那一年很可能看到「局部可用」的連續學習系統,而不是全面成熟。先出現的場景,八成是高價值、資料密集、回饋明確、權限可控的環境。像公司內部程式碼庫、企業知識助理、研究工作流,這些都很合理。
如果 DeepMind 或其他實驗室真的端出東西,別先看宣傳片。先看四個問題。第一,它能不能把改進保留 3 到 6 個月。第二,它能不能安全吸收新資料。第三,它有沒有明顯 catastrophic forgetting。第四,這些改進有沒有出現在真實 production 指標,不只是漂亮 benchmark。
對台灣開發者來說,最實際的做法很簡單。現在就開始把工作流資料化。把 bug、修正紀錄、code review 意見、部署失敗原因整理乾淨。因為一旦連續學習 agent 真的能用,先受益的不是喊最大聲的人,而是資料最完整、流程最標準化的團隊。
最後給一個具體預測。2026 年底前,我覺得我們會看到至少 1 到 2 種商用系統,在受控環境中做到「持續學習且 90 天內可驗證提升」。範圍不會很廣,但已經足以改變軟體團隊和研究團隊的工具選擇。到時候你該問的不是 AI 會不會學,而是你的系統,有沒有準備好讓它學。