Tensormesh 募資 2000 萬美元,省下 LLM 重算成本
Tensormesh 募得 2000 萬美元,主打用 KV caching 減少 LLM 重算,讓代理式 AI 與長上下文應用少燒 GPU。

Tensormesh 募得 2000 萬美元,主打用 KV caching 減少 LLM 重算,讓同樣的上下文不用一直重跑。
Tensormesh 這輪拿到 2000 萬美元。Tensormesh 目前累計募資到 2450 萬美元。它要解的問題很直白。LLM 在生產環境裡,常常一直重算同一段上下文。
這種浪費,開發者很有感。聊天機器人、RAG、代理式工作流,都會重複吃掉 GPU。Tensormesh 這次也推出 Tensormesh Inference。它把 KV caching 直接包成產品。
| 指標 | 數值 | 意義 |
|---|---|---|
| 新募資 | 2000 萬美元 | 代表 AI 基礎設施圈願意下注 |
| 累計募資 | 2450 萬美元 | 不是剛起步的小團隊 |
| 快取命中率 | 70% 以上 | 多數請求可少做重算 |
| 延遲與 GPU 成本 | 最高可降 10 倍 | 對代理式工作流最有感 |
LLM 為什麼一直浪費算力
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
講白了,問題在流程設計。很多推理服務把每次請求都當新案子。就算前文幾乎一樣,模型還是會再算一次。

這代表 GPU 在重做已經做過的事。Token 越多,浪費越明顯。對長對話、文件問答、工具調用來說,成本很快就爆上去。
Tensormesh 的做法是用 KV caching。它會保存模型中間狀態。下一次相似請求來了,就直接拿來用,不必整段重算。
- 快取命中率超過 70%。
- 部分工作負載延遲可降 10 倍。
- 底層建立在 LMCache 開源專案上。
- 特別適合長上下文與多步驟代理。
為什麼 Nvidia、AMD、CoreWeave 願意投
投資名單很有意思。Nvidia、AMD、CoreWeave 都在賣算力。Tensormesh 做的事,是讓算力更省。
這種生意邏輯很現實。它不跟 GPU 硬碰硬。它是把現有硬體榨出更多有效工作。對雲端供應商來說,這種工具反而能提高客戶黏著度。
創辦人兼 CEO Junchen Jiang 的說法也很直接。他把重點放在 LLM 產生的中間資料上。這不是單純的快取,而是把中間狀態變成可管理資產。
“Tensormesh offers a new vision on the significance of the intermediate data that LLMs generate when processing a prompt.” — Junchen Jiang, founder and CEO of Tensormesh
我覺得這句話很準。因為很多團隊只盯著模型輸出。其實真正燒錢的,常常是中間那堆重複計算。
產品到底給開發者什麼
Tensormesh Inference 不只是加一層 cache。它還提供 dashboard,讓團隊看到命中率和省下多少錢。這很務實。沒有數字,優化通常只是感覺良好。

它也給了不同部署方式。小團隊可以先用 serverless API。大公司可以上專屬 GPU。需要合約與 SLA 的企業,也有保留部署。
這種分層很重要。因為不同應用,cache 策略差很多。客服機器人和企業文件代理,根本不是同一種流量型態。
- Serverless API,支援 OpenAI 相容介面。
- 可用專屬 GPU 做 on-demand 部署。
- 企業版可談 SLA。
- 可調整 cache storage 配額。
它跟一般推理優化差在哪
一般人想到推理優化,常先想到量化、batching、或 serving framework。那些當然有用。但它們多半是在壓縮模型成本,或提高吞吐。
Tensormesh 盯的是另一層。它想避開重複上下文。這種省法很直接。模型少做一次,就是少燒一次 GPU。
如果它的數字成立,效果會很快反映在帳單上。尤其是代理式 AI。一次任務可能連打好幾輪 API。每輪都重算,真的很傷。
- 傳統推理:每次都重算完整上下文。
- Tensormesh:重用中間狀態。
- 官方稱部分場景命中率超過 70%。
- 代理式工作流最容易吃到效益。
這筆錢也會拿去做 LMCache 的整合。這點我覺得加分。因為它不是把社群工具關起來,而是沿著開源路線往前推。
這波募資放在產業裡怎麼看
AI 基礎設施現在很現實。大家不再只問模型多強。更常問的是,每 1000 個 Token 要花多少錢。這種問題,會直接決定產品能不能活。
從這個角度看,Tensormesh 的位置很清楚。它卡在推理層。這一層的優化,往往比換模型版本更快看到效果。尤其是長上下文應用,省下來的都是實打實的 GPU 時間。
如果你是做產品的人,該看的不是新聞熱度。你要看自己的請求裡,有多少上下文其實一直重複。只要重複率夠高,KV caching 就不是小修小補。
我會把它跟幾種常見做法一起看。像 OpenAI 的 API 生態、Anthropic 的長上下文路線、還有各家雲端的推理服務。大家都在拚效率,但切入點不一樣。
接下來該看什麼
接下來最重要的,不是募資金額本身。是它進到真實流量後,命中率還能不能守住。早期 demo 很漂亮,正式上線後常常就走鐘。
如果 Tensormesh 真的能在代理式工作流維持高命中率,它很可能會變成標配。特別是文件密集、上下文很長、又很常重複查詢的產品。
對台灣開發團隊來說,現在最實際的動作很簡單。先量你的 prompt 重複率。再看 GPU 成本。只要重複資料夠多,KV caching 就值得試。
我自己的判斷是,這類工具接下來會越來越常見。不是因為模型變神了。是因為大家終於開始認真算帳。