Matei Zaharia 拿下 2025 ACM Pri…

OraCore Editors

返回首頁

[RSCH] 2026年4月10日7 分鐘閱讀OraCore 編輯部

Matei Zaharia 拿下 2025 ACM Pri…

Matei Zaharia 以 Spark 和 Ray 拿下 2025 ACM Prize。這兩套系統撐起大型資料處理、機器學習與 AI 基礎設施，也反映 AI 競爭已轉向系統層。

分散式運算 Ray ACM Prize 資料工程 MLOps Apache Spark Matei Zaharia

分享 LinkedIn

2025 年 ACM Prize in Computing 給了 Matei Zaharia。這件事很有份量。不是因為獎項名稱很長，而是因為他做的 Apache Spark 和 Ray，早就卡進很多 AI 團隊的工作流。

講白了，現在大家都在聊模型。可是真正決定成本和速度的，常常是資料搬運、任務排程、失敗復原，還有 GPU 有沒有吃滿。這些看起來很無聊的東西，才是 AI 伺服器的地基。

Berkeley AI Research 和 ACM 的公告都提到，他的貢獻在分散式資料系統與運算基礎設施。換成白話，就是讓大規模分析、機器學習、AI 工作更容易在很多機器上跑起來。這種東西不會上短影音熱搜，但會直接影響產品能不能上線。

為什麼這個獎現在很重要

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

AI 團隊現在碰到的痛點，早就不是只有演算法。資料前處理、特徵工程、訓練、部署，哪一段都可能卡住。很多公司最後不是輸在模型，而是輸在系統太慢，或者雲端帳單太兇。

這也是 Zaharia 的價值所在。他沒有只做一個漂亮的研究 demo，而是把分散式運算變成可用的軟體工具。這種工具一旦進入產線，就會一直被用下去，直到下一代系統把它替掉。

Databricks 是最直接的案例。它從 Spark 長出來，後來一路往資料平台、ML、AI 工作流擴張。你可以不喜歡這家公司，但很難否認它抓到企業需求的核心。

Spark 2010 年公開後，迅速成為分散式資料處理常用工具。
Ray 於 2017 年推出，主打 Python 與 AI 分散式工作。
Databricks 在 2023 年融資後，估值達 430 億美元。
ACM 明確點出，他的工作支撐大規模分析與 AI 基礎設施。

這些數字放在一起看，意思很清楚。AI 不是只有模型參數在比大。誰能把資料流、計算資源、容錯機制和部署流程串好，誰就比較有機會把產品做穩。

我覺得這也是現在產業很現實的一面。大家都愛談 LLM，但真正讓 LLM 變成服務的，是後面那整套系統。沒有那一層，模型再強也只是實驗室玩具。

Spark 怎麼改變資料工程

在 Spark 出現前，很多團隊還在用很笨重的批次流程。資料一大，跑一次就要等很久。對需要反覆試驗的機器學習來說，這種節奏很痛苦。

Spark 的關鍵之一，是把更多運算放進記憶體。這讓迭代速度快很多。對資料工程師來說，這代表 ETL、SQL、特徵管線可以在同一套框架裡跑，少掉很多東拆西補。

另一個核心概念是 RDD，也就是 Resilient Distributed Dataset。名字很學術，但效果很直接。某台機器掛了，工作還能從容錯機制接回來，不用整批重跑。對大叢集來說，這能省下很多時間，也省下很多錢。

Apache 自己的專案歷史，加上整個資料工程社群的採用狀況，都說明 Spark 不是學院派玩具。它變成很多雲端資料平台的底層工具。你今天看到的很多分析產品，背後都能找到 Spark 的影子。

記憶體運算減少了大量磁碟 I/O。
RDD 讓分散式工作更能容錯。
同一套框架能兼顧批次分析和 ML 管線。
雲端廠商常把 Spark 當成資料產品的核心元件。

這對 AI 很直接。模型訓練前，資料通常要清洗、切分、抽特徵。這些步驟越快，團隊就能越快試新想法。講白了，資料處理慢，AI 開發就慢。

所以 Spark 的價值不只是「跑得快」。它改變的是工程團隊怎麼安排工作。以前可能一個 job 跑半天，現在可以多做幾輪實驗。這種差距，最後會反映在產品迭代速度上。

Ray 怎麼把分散式 AI 帶進 Python

如果說 Spark 解的是大資料問題，Ray 解的就是 Python AI 工作的分散式需求。這件事很重要，因為現在大部分 ML 團隊都活在 Python 裡。訓練、調參、強化學習、Agent 系統，幾乎都離不開它。

Ray 的好處，是讓工程師不用把整個系統重寫成很硬派的分散式框架。你還是可以用熟悉的 Python 寫法，把工作切成小任務，丟到很多節點上跑。這降低了上手門檻，也讓團隊比較容易把研究轉成產線。

Anyscale 是 Ray 背後的重要公司。它想做的事很明確，就是把 Ray 從開源框架往可上線的基礎設施推。這也說明一件事：AI 基礎設施不是只有雲主機而已，還包括排程、資源管理、訓練和推論的協同。

"The great thing about open source is that it gives you the ability to take something and build on it." — Matei Zaharia，2018 年 Databricks 訪談

這句話很像他的風格。不是在講空話，而是在講開源工具的實際價值。你拿到一個可擴充的底座，就能在上面疊出更多產品。

Ray 也反映出 AI 產業的另一個現實。很多團隊想要同一套系統同時處理訓練、調校、推論、實驗。理論上很美，實作上很吵。能把這些東西整合起來的團隊，通常比較有機會省下人力和機器成本。

和現在主流 AI 堆疊比一比

看 Zaharia 的影響，最簡單的方法就是把舊流程和現在的流程放在一起比。差別不是只有工具名稱不同，而是成本結構完全不一樣。

以前很多資料工作都很吃磁碟，也很吃人工維護。現在像 Spark 這類工具把資料處理往記憶體和叢集調度推進，讓迭代速度快很多。對需要快速試錯的團隊，這種差距很要命。

Ray 則把 Python 的便利性和分散式運算接起來。這讓很多 AI 團隊不用先學一套很硬的底層系統，就能開始做大規模訓練。對新創來說，這種門檻差異，常常就是能不能活下來的分界線。

傳統批次處理常要跑數小時到數天。
Spark 把很多迭代工作縮短到可接受的時間。
舊式 ML 管線常分成多套工具。
Spark 和 Ray 讓資料處理、訓練、排程更容易串接。
GPU 成本很高，分散式排程能減少閒置時間。

再往下看，商業差異也很明顯。資料處理快，代表可以更快重訓模型。重訓快，代表產品可以更快跟上使用者行為變化。這不是保證成功，但會提高試錯效率。

另外還有合規和安全問題。資料一旦跨叢集、跨區域、跨服務，權限控管和稽核紀錄就不能亂來。尤其金融、醫療、政府案子，這些都不是可有可無的附加功能。

最後是能源。大型模型訓練和推論都很吃電。這代表下一階段的競爭，不只看誰堆得大，也看誰把算力用得更省。這點很現實，雲端帳單不會跟你客氣。

這個獎也在提醒產業一件事

Zaharia 拿下 ACM Prize，等於把焦點拉回 AI 的系統層。第一波大家看的是模型能力。第二波開始看的是資料流、排程、容錯、成本控制。

這對新創、雲端廠商、企業軟體公司都很重要。誰能少搬資料、少等機器、少浪費 GPU，誰就比較容易把 AI 做進產品裡。Spark 和 Ray 其實都在往這個方向走。

我自己的判斷很直接。接下來幾年，AI 競爭的重點會更偏向基礎設施團隊。能把訓練迴圈縮短 20%，或把推論成本壓低 30%，這種改善比單純秀 demo 更有商業價值。

這也是為什麼這個獎值得看。它不是在表揚某個漂亮論文而已，而是在承認一件很務實的事：AI 產業真正的瓶頸，很多時候在系統，不在模型。

接下來該看什麼

如果你是做資料平台、MLOps、雲端服務，接下來很值得盯兩件事。第一，Spark 和 Ray 的整合會不會更緊。第二，企業會不會把更多 AI 工作流收斂到少數幾套核心基礎設施。

我猜 2025 到 2026 年，最有價值的不是單一模型，而是能穩定跑大規模資料和 AI 工作的系統。你如果正在做相關產品，現在就該問自己：你的瓶頸是模型，還是資料和排程？這題答錯，成本會很痛。

// 相關文章

Matei Zaharia 拿下 2025 ACM Pri…

為什麼這個獎現在很重要

訂閱 AI 趨勢週報

Spark 怎麼改變資料工程

Ray 怎麼把分散式 AI 帶進 Python

和現在主流 AI 堆疊比一比

這個獎也在提醒產業一件事

接下來該看什麼

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維