Matei Zaharia 拿下 2025 ACM Pri…
Matei Zaharia 以 Spark 和 Ray 拿下 2025 ACM Prize。這兩套系統撐起大型資料處理、機器學習與 AI 基礎設施,也反映 AI 競爭已轉向系統層。

2025 年 ACM Prize in Computing 給了 Matei Zaharia。這件事很有份量。不是因為獎項名稱很長,而是因為他做的 Apache Spark 和 Ray,早就卡進很多 AI 團隊的工作流。
講白了,現在大家都在聊模型。可是真正決定成本和速度的,常常是資料搬運、任務排程、失敗復原,還有 GPU 有沒有吃滿。這些看起來很無聊的東西,才是 AI 伺服器的地基。
Berkeley AI Research 和 ACM 的公告都提到,他的貢獻在分散式資料系統與運算基礎設施。換成白話,就是讓大規模分析、機器學習、AI 工作更容易在很多機器上跑起來。這種東西不會上短影音熱搜,但會直接影響產品能不能上線。
為什麼這個獎現在很重要
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
AI 團隊現在碰到的痛點,早就不是只有演算法。資料前處理、特徵工程、訓練、部署,哪一段都可能卡住。很多公司最後不是輸在模型,而是輸在系統太慢,或者雲端帳單太兇。

這也是 Zaharia 的價值所在。他沒有只做一個漂亮的研究 demo,而是把分散式運算變成可用的軟體工具。這種工具一旦進入產線,就會一直被用下去,直到下一代系統把它替掉。
Databricks 是最直接的案例。它從 Spark 長出來,後來一路往資料平台、ML、AI 工作流擴張。你可以不喜歡這家公司,但很難否認它抓到企業需求的核心。
- Spark 2010 年公開後,迅速成為分散式資料處理常用工具。
- Ray 於 2017 年推出,主打 Python 與 AI 分散式工作。
- Databricks 在 2023 年融資後,估值達 430 億美元。
- ACM 明確點出,他的工作支撐大規模分析與 AI 基礎設施。
這些數字放在一起看,意思很清楚。AI 不是只有模型參數在比大。誰能把資料流、計算資源、容錯機制和部署流程串好,誰就比較有機會把產品做穩。
我覺得這也是現在產業很現實的一面。大家都愛談 LLM,但真正讓 LLM 變成服務的,是後面那整套系統。沒有那一層,模型再強也只是實驗室玩具。
Spark 怎麼改變資料工程
在 Spark 出現前,很多團隊還在用很笨重的批次流程。資料一大,跑一次就要等很久。對需要反覆試驗的機器學習來說,這種節奏很痛苦。
Spark 的關鍵之一,是把更多運算放進記憶體。這讓迭代速度快很多。對資料工程師來說,這代表 ETL、SQL、特徵管線可以在同一套框架裡跑,少掉很多東拆西補。
另一個核心概念是 RDD,也就是 Resilient Distributed Dataset。名字很學術,但效果很直接。某台機器掛了,工作還能從容錯機制接回來,不用整批重跑。對大叢集來說,這能省下很多時間,也省下很多錢。
Apache 自己的專案歷史,加上整個資料工程社群的採用狀況,都說明 Spark 不是學院派玩具。它變成很多雲端資料平台的底層工具。你今天看到的很多分析產品,背後都能找到 Spark 的影子。
- 記憶體運算減少了大量磁碟 I/O。
- RDD 讓分散式工作更能容錯。
- 同一套框架能兼顧批次分析和 ML 管線。
- 雲端廠商常把 Spark 當成資料產品的核心元件。
這對 AI 很直接。模型訓練前,資料通常要清洗、切分、抽特徵。這些步驟越快,團隊就能越快試新想法。講白了,資料處理慢,AI 開發就慢。
所以 Spark 的價值不只是「跑得快」。它改變的是工程團隊怎麼安排工作。以前可能一個 job 跑半天,現在可以多做幾輪實驗。這種差距,最後會反映在產品迭代速度上。
Ray 怎麼把分散式 AI 帶進 Python
如果說 Spark 解的是大資料問題,Ray 解的就是 Python AI 工作的分散式需求。這件事很重要,因為現在大部分 ML 團隊都活在 Python 裡。訓練、調參、強化學習、Agent 系統,幾乎都離不開它。

Ray 的好處,是讓工程師不用把整個系統重寫成很硬派的分散式框架。你還是可以用熟悉的 Python 寫法,把工作切成小任務,丟到很多節點上跑。這降低了上手門檻,也讓團隊比較容易把研究轉成產線。
Anyscale 是 Ray 背後的重要公司。它想做的事很明確,就是把 Ray 從開源框架往可上線的基礎設施推。這也說明一件事:AI 基礎設施不是只有雲主機而已,還包括排程、資源管理、訓練和推論的協同。
"The great thing about open source is that it gives you the ability to take something and build on it." — Matei Zaharia,2018 年 Databricks 訪談
這句話很像他的風格。不是在講空話,而是在講開源工具的實際價值。你拿到一個可擴充的底座,就能在上面疊出更多產品。
Ray 也反映出 AI 產業的另一個現實。很多團隊想要同一套系統同時處理訓練、調校、推論、實驗。理論上很美,實作上很吵。能把這些東西整合起來的團隊,通常比較有機會省下人力和機器成本。
和現在主流 AI 堆疊比一比
看 Zaharia 的影響,最簡單的方法就是把舊流程和現在的流程放在一起比。差別不是只有工具名稱不同,而是成本結構完全不一樣。
以前很多資料工作都很吃磁碟,也很吃人工維護。現在像 Spark 這類工具把資料處理往記憶體和叢集調度推進,讓迭代速度快很多。對需要快速試錯的團隊,這種差距很要命。
Ray 則把 Python 的便利性和分散式運算接起來。這讓很多 AI 團隊不用先學一套很硬的底層系統,就能開始做大規模訓練。對新創來說,這種門檻差異,常常就是能不能活下來的分界線。
- 傳統批次處理常要跑數小時到數天。
- Spark 把很多迭代工作縮短到可接受的時間。
- 舊式 ML 管線常分成多套工具。
- Spark 和 Ray 讓資料處理、訓練、排程更容易串接。
- GPU 成本很高,分散式排程能減少閒置時間。
再往下看,商業差異也很明顯。資料處理快,代表可以更快重訓模型。重訓快,代表產品可以更快跟上使用者行為變化。這不是保證成功,但會提高試錯效率。
另外還有合規和安全問題。資料一旦跨叢集、跨區域、跨服務,權限控管和稽核紀錄就不能亂來。尤其金融、醫療、政府案子,這些都不是可有可無的附加功能。
最後是能源。大型模型訓練和推論都很吃電。這代表下一階段的競爭,不只看誰堆得大,也看誰把算力用得更省。這點很現實,雲端帳單不會跟你客氣。
這個獎也在提醒產業一件事
Zaharia 拿下 ACM Prize,等於把焦點拉回 AI 的系統層。第一波大家看的是模型能力。第二波開始看的是資料流、排程、容錯、成本控制。
這對新創、雲端廠商、企業軟體公司都很重要。誰能少搬資料、少等機器、少浪費 GPU,誰就比較容易把 AI 做進產品裡。Spark 和 Ray 其實都在往這個方向走。
我自己的判斷很直接。接下來幾年,AI 競爭的重點會更偏向基礎設施團隊。能把訓練迴圈縮短 20%,或把推論成本壓低 30%,這種改善比單純秀 demo 更有商業價值。
這也是為什麼這個獎值得看。它不是在表揚某個漂亮論文而已,而是在承認一件很務實的事:AI 產業真正的瓶頸,很多時候在系統,不在模型。
接下來該看什麼
如果你是做資料平台、MLOps、雲端服務,接下來很值得盯兩件事。第一,Spark 和 Ray 的整合會不會更緊。第二,企業會不會把更多 AI 工作流收斂到少數幾套核心基礎設施。
我猜 2025 到 2026 年,最有價值的不是單一模型,而是能穩定跑大規模資料和 AI 工作的系統。你如果正在做相關產品,現在就該問自己:你的瓶頸是模型,還是資料和排程?這題答錯,成本會很痛。