Bessemer 看準的 5 個 AI 基礎設施前線
Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型,而是讓 AI 真正進到生產環境。

AI 基礎設施這兩年變很快。Bessemer Venture Partners 在 2024 年押過 Anthropic、Fal AI、Cursor、Vapi。到了 2026,它看的是另一件事。AI 不只要會答題,還要會記、會學、會做事。
這個轉向很現實。第一代 AI infra,重點是更大模型、更多資料、更多訓練算力。第二代開始看模型上線後怎麼活。它有沒有記憶。它會不會從使用中變聰明。它能不能做延遲回饋的決策。它能不能便宜地跑在大量請求上。
講白了,重心正在從 model building,移到 model operation。這也是為什麼 Bessemer 看的五個方向,會更像記憶系統、評測平台、RL 堆疊、推論優化層,還有 world model 基礎設施。這些東西聽起來沒那麼炫,但更接近真實產品。
1. 新 AI 堆疊先要記憶,不只要模型
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
第一個前線,是 Bessemer 說的 harness infra。意思很直白。AI 系統越做越像複合系統後,難題不再是回答一個 prompt。難題是讓模型拿到對的上下文、對的記憶、對的護欄。你要的是像員工,不是像很會接話的 autocomplete。

這件事對企業很重要。模型常見的錯,不是完全答錯,而是答得很像真的。它可能語氣對,事實錯。它可能偏離原本任務。它甚至會產出一段看起來合理,卻沒人立刻抓得出來的內容。Bessemer 的分析裡,約 78% 的 AI failure 是看不見的。這數字很刺眼。
傳統監控工具只看 latency、error code、timeout。它看不到客服機器人默默誤解客戶。它也看不到內部 agent 一本正經地亂編 policy。這就是為什麼 memory、retrieval、context management、semantic eval,現在都在變成獨立類別。
- 78% 的 AI failure 被 Bessemer 描述成不可見
- 93% 的失敗型態,就算模型更強也還在
- 生產環境需要跨 session memory,不只是單輪 retrieval
- Semantic eval 正取代單純的讚和倒讚
這也解釋了工具市場的變化。團隊不再只靠手刻 vector database,或自己寫一套 retrieval 邏輯。大家開始要專門的長期記憶、觀測、judge-based evaluation。說真的,這比「再加一層 RAG」實際多了。
如果你在做產品,這裡的訊號很清楚。AI 不缺會講話的模型。缺的是能把對話串起來的系統。誰能把上下文、記憶、權限、評測串好,誰就比較接近真正可用的 AI。
2. 持續學習,才不是凍結權重
第二個前線,是 continual learning。現在的大型 foundation model,訓練完就凍住了。它可以在 context 裡適應,但不會真的從使用中學習。這對長壽命產品是硬傷。客戶每天都在用同一個 agent,系統卻永遠像第一天上班。
更現實的是成本。context window 一直變大,KV cache 也越來越貴。你可以把記憶塞滿,但帳單也會跟著塞滿。continual learning 想解這題。它讓模型能隨時間更新,還盡量不忘掉舊技能。
Bessemer 提到的做法很多。有人做 inference-time learning。有人把長上下文壓成可重用的 memory structure。有人做更細的回饋迴路。核心想法都一樣。學習不該在訓練結束時停掉。
“Finally, AI is able to do productive work, and therefore the inflection point of inference has arrived.” — Jensen Huang, NVIDIA GTC 2026 keynote
這句話很有意思。因為 continual learning 只有在 AI 真正進到工作流後,才會變得重要。當系統開始天天做事,大家就會逼它變更準。靜態模型撐不久。你不用太浪漫,也能看出這件事。
但這條路也很麻煩。模型如果能自己學,就得有 rollback、lineage tracking、隔離實驗、正式 benchmark。沒有這些控制,learning 很容易變成 silent regression。表面上有變聰明,實際上只是亂改。
3. RL 正從研究室走進產品
第三個前線,是 reinforcement learning 平台。這一段很實際。人類標註資料對第一波 AI 很有用,但它不擅長教 agent 做多步驟決策。尤其是那種延遲回饋的任務。像訂旅行、處理客服、跨工具跑流程,單次標註根本不夠。

所以 Bessemer 把 RL 看成下一階段的核心 infra。它提到的堆疊,包含 environment building、experience curation、RL-as-a-service、平台層工具。目標很簡單。讓模型透過互動學,不只是看例子學。
和 supervised learning 比起來,RL infra 更髒,也更難。你要先做出像真的環境。你要設 reward function。你還要處理長 trajectory。這類東西很吃系統能力,也很吃耐心。說白了,這市場比較適合能扛複雜度的團隊。
- 人類標註還有用,但不夠教 agent 做決策
- RL 是透過互動學,不是看靜態例子學
- infra 範圍包含環境、reward、trajectory 工具
- 生產 RL 需要比真實試錯更安全的實驗方式
這也是為什麼我覺得,RL 會先從工具層出現機會。市場要的不是更漂亮的 demo。市場要的是能模擬經驗、評分結果、降低出錯率的系統。這種東西一旦做對,黏性通常不低。
你可以把它想成 AI 的駕訓班。不是只會背考題。是要上路,還要在不同路況下學會不撞車。這種能力,才會把 agent 從玩具拉進工作流程。
4. 推論,開始變成最貴的那一筆
第四個前線,是 inference。這一段其實最接地氣。前幾年 AI infra 花最多錢的地方,多半是 training。那時大家都在拼更大的模型。可是一旦 AI agent 開始進到 production,算力支出就會往 inference 偏。
原因很簡單。推論決定 latency、throughput、每個任務的成本。模型再強,如果每次回應都太貴,產品數學就壞掉了。你不能只看 benchmark。你還得看帳單。這點很多團隊一開始都會忽略,後面才痛。
Bessemer 提到 Baseten、Fireworks AI、Together AI 這些早期玩家。後面還有像 TensorMesh、RadixArk、Inferact 這類新名字在往更深的最佳化走。重點不是誰永遠贏。重點是 inference 已經變成一級產品問題。
- 很多 AI 產品的 compute 支出,推論已接近訓練
- 更低 latency 直接影響體驗和 unit economics
- routing、caching、scheduling 比單純放大模型更重要
- Edge 與 on-device inference 也越來越重要
這裡的訊號對開發者很直接。模型品質不是全部。你的 app 如果每問一次就燒一次錢,遲早會卡住。現在很多真正有價值的工程工作,都藏在 serving、routing、cache、batching 裡面。
台灣團隊如果在做 AI 產品,我會很在意這件事。你可以先做出能跑的功能,但別忘了算每次請求的成本。很多產品不是輸在模型不夠強,是輸在每次呼叫都太貴。
5. World models 把 AI 推進模擬與實體
第五個前線,是 world models。這一段比較野,也比較有野心。前面幾段是在讓 AI 更會做軟體工作。world models 則是讓 AI 理解環境、物理、動作之間的關係。這對機器人、模擬、自治系統都很重要。
這是另一種 infra 問題。你不再只問模型答得對不對。你要問它能不能預測結果、吸收回饋、在有後果的環境裡做事。這就需要更好的 simulator、更好的訓練迴圈,還有把 perception 接到 planning 的工具。
Bessemer 的整體論點很清楚。AI infra 正從「腦」走向「經驗」。第一階段讓模型能說。下一階段要讓模型記得發生過什麼,從中學習,然後少一點手工規則。這個方向不浪漫,但很務實。
如果你要找比較點,可以看 NVIDIA GTC 這類大會對 inference 和機器人堆疊的重視。再看 OpenAI Research、Google DeepMind Research 對 agent 與 world simulation 的投入。方向很像,但落地節奏不一樣。
產業脈絡:為什麼現在是這五個方向
這波變化不是突然冒出來的。模型能力先到一個門檻,大家才發現真正難的是上線後的系統工程。從 2023 到 2025,市場一路把焦點放在更大的 model、更長的 context、更快的訓練。到了現在,瓶頸開始轉到運作層。
這也很符合企業採用的節奏。POC 很容易。真正難的是 production。你要權限控管、資料隔離、觀測、成本控管、回滾機制。只要 AI 真進到工作流,這些問題就全冒出來。Bessemer 看的五個方向,剛好都踩在這些痛點上。
我自己的判斷很簡單。memory 和 inference 會先出現明顯贏家。因為它們已經有需求、有預算、有買家。continual learning 和 RL 會慢一點,但如果做對,會很有黏性。world models 則比較像長線賽道,適合有研究與系統能力的團隊。
結尾:先看哪裡會先變現
如果你在做 AI infra,我會先盯 memory 和 inference。這兩塊最接近真實痛點,也最容易算出 ROI。再來才是 continual learning 和 RL。它們比較難,但一旦進到企業流程,價值會很硬。
接下來 12 到 18 個月,我會看兩件事。第一,哪個方向先長出可重複的商業模式。第二,哪個方向能把 demo 變成 production。你如果正在選題,別只問模型多強。先問它能不能記、能不能學、能不能便宜地跑。