[RSCH] 7 分鐘閱讀OraCore 編輯部

Matei Zaharia 拿下 2025 ACM Pri…

Matei Zaharia 以 Spark 和 Ray 拿下 2025 ACM Prize。這兩套系統撐起大型資料處理、機器學習與 AI 基礎設施,也反映 AI 競爭已轉向系統層。

分享 LinkedIn
Matei Zaharia 拿下 2025 ACM Pri…

2025 年 ACM Prize in Computing 給了 Matei Zaharia。這件事很有份量。不是因為獎項名稱很長,而是因為他做的 Apache SparkRay,早就卡進很多 AI 團隊的工作流。

講白了,現在大家都在聊模型。可是真正決定成本和速度的,常常是資料搬運、任務排程、失敗復原,還有 GPU 有沒有吃滿。這些看起來很無聊的東西,才是 AI 伺服器的地基。

Berkeley AI Research 和 ACM 的公告都提到,他的貢獻在分散式資料系統與運算基礎設施。換成白話,就是讓大規模分析、機器學習、AI 工作更容易在很多機器上跑起來。這種東西不會上短影音熱搜,但會直接影響產品能不能上線。

為什麼這個獎現在很重要

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

AI 團隊現在碰到的痛點,早就不是只有演算法。資料前處理、特徵工程、訓練、部署,哪一段都可能卡住。很多公司最後不是輸在模型,而是輸在系統太慢,或者雲端帳單太兇。

Matei Zaharia 拿下 2025 ACM Pri…

這也是 Zaharia 的價值所在。他沒有只做一個漂亮的研究 demo,而是把分散式運算變成可用的軟體工具。這種工具一旦進入產線,就會一直被用下去,直到下一代系統把它替掉。

Databricks 是最直接的案例。它從 Spark 長出來,後來一路往資料平台、ML、AI 工作流擴張。你可以不喜歡這家公司,但很難否認它抓到企業需求的核心。

  • Spark 2010 年公開後,迅速成為分散式資料處理常用工具。
  • Ray 於 2017 年推出,主打 Python 與 AI 分散式工作。
  • Databricks 在 2023 年融資後,估值達 430 億美元。
  • ACM 明確點出,他的工作支撐大規模分析與 AI 基礎設施。

這些數字放在一起看,意思很清楚。AI 不是只有模型參數在比大。誰能把資料流、計算資源、容錯機制和部署流程串好,誰就比較有機會把產品做穩。

我覺得這也是現在產業很現實的一面。大家都愛談 LLM,但真正讓 LLM 變成服務的,是後面那整套系統。沒有那一層,模型再強也只是實驗室玩具。

Spark 怎麼改變資料工程

在 Spark 出現前,很多團隊還在用很笨重的批次流程。資料一大,跑一次就要等很久。對需要反覆試驗的機器學習來說,這種節奏很痛苦。

Spark 的關鍵之一,是把更多運算放進記憶體。這讓迭代速度快很多。對資料工程師來說,這代表 ETL、SQL、特徵管線可以在同一套框架裡跑,少掉很多東拆西補。

另一個核心概念是 RDD,也就是 Resilient Distributed Dataset。名字很學術,但效果很直接。某台機器掛了,工作還能從容錯機制接回來,不用整批重跑。對大叢集來說,這能省下很多時間,也省下很多錢。

Apache 自己的專案歷史,加上整個資料工程社群的採用狀況,都說明 Spark 不是學院派玩具。它變成很多雲端資料平台的底層工具。你今天看到的很多分析產品,背後都能找到 Spark 的影子。

  • 記憶體運算減少了大量磁碟 I/O。
  • RDD 讓分散式工作更能容錯。
  • 同一套框架能兼顧批次分析和 ML 管線。
  • 雲端廠商常把 Spark 當成資料產品的核心元件。

這對 AI 很直接。模型訓練前,資料通常要清洗、切分、抽特徵。這些步驟越快,團隊就能越快試新想法。講白了,資料處理慢,AI 開發就慢。

所以 Spark 的價值不只是「跑得快」。它改變的是工程團隊怎麼安排工作。以前可能一個 job 跑半天,現在可以多做幾輪實驗。這種差距,最後會反映在產品迭代速度上。

Ray 怎麼把分散式 AI 帶進 Python

如果說 Spark 解的是大資料問題,Ray 解的就是 Python AI 工作的分散式需求。這件事很重要,因為現在大部分 ML 團隊都活在 Python 裡。訓練、調參、強化學習、Agent 系統,幾乎都離不開它。

Matei Zaharia 拿下 2025 ACM Pri…

Ray 的好處,是讓工程師不用把整個系統重寫成很硬派的分散式框架。你還是可以用熟悉的 Python 寫法,把工作切成小任務,丟到很多節點上跑。這降低了上手門檻,也讓團隊比較容易把研究轉成產線。

Anyscale 是 Ray 背後的重要公司。它想做的事很明確,就是把 Ray 從開源框架往可上線的基礎設施推。這也說明一件事:AI 基礎設施不是只有雲主機而已,還包括排程、資源管理、訓練和推論的協同。

"The great thing about open source is that it gives you the ability to take something and build on it." — Matei Zaharia,2018 年 Databricks 訪談

這句話很像他的風格。不是在講空話,而是在講開源工具的實際價值。你拿到一個可擴充的底座,就能在上面疊出更多產品。

Ray 也反映出 AI 產業的另一個現實。很多團隊想要同一套系統同時處理訓練、調校、推論、實驗。理論上很美,實作上很吵。能把這些東西整合起來的團隊,通常比較有機會省下人力和機器成本。

和現在主流 AI 堆疊比一比

看 Zaharia 的影響,最簡單的方法就是把舊流程和現在的流程放在一起比。差別不是只有工具名稱不同,而是成本結構完全不一樣。

以前很多資料工作都很吃磁碟,也很吃人工維護。現在像 Spark 這類工具把資料處理往記憶體和叢集調度推進,讓迭代速度快很多。對需要快速試錯的團隊,這種差距很要命。

Ray 則把 Python 的便利性和分散式運算接起來。這讓很多 AI 團隊不用先學一套很硬的底層系統,就能開始做大規模訓練。對新創來說,這種門檻差異,常常就是能不能活下來的分界線。

  • 傳統批次處理常要跑數小時到數天。
  • Spark 把很多迭代工作縮短到可接受的時間。
  • 舊式 ML 管線常分成多套工具。
  • Spark 和 Ray 讓資料處理、訓練、排程更容易串接。
  • GPU 成本很高,分散式排程能減少閒置時間。

再往下看,商業差異也很明顯。資料處理快,代表可以更快重訓模型。重訓快,代表產品可以更快跟上使用者行為變化。這不是保證成功,但會提高試錯效率。

另外還有合規和安全問題。資料一旦跨叢集、跨區域、跨服務,權限控管和稽核紀錄就不能亂來。尤其金融、醫療、政府案子,這些都不是可有可無的附加功能。

最後是能源。大型模型訓練和推論都很吃電。這代表下一階段的競爭,不只看誰堆得大,也看誰把算力用得更省。這點很現實,雲端帳單不會跟你客氣。

這個獎也在提醒產業一件事

Zaharia 拿下 ACM Prize,等於把焦點拉回 AI 的系統層。第一波大家看的是模型能力。第二波開始看的是資料流、排程、容錯、成本控制。

這對新創、雲端廠商、企業軟體公司都很重要。誰能少搬資料、少等機器、少浪費 GPU,誰就比較容易把 AI 做進產品裡。Spark 和 Ray 其實都在往這個方向走。

我自己的判斷很直接。接下來幾年,AI 競爭的重點會更偏向基礎設施團隊。能把訓練迴圈縮短 20%,或把推論成本壓低 30%,這種改善比單純秀 demo 更有商業價值。

這也是為什麼這個獎值得看。它不是在表揚某個漂亮論文而已,而是在承認一件很務實的事:AI 產業真正的瓶頸,很多時候在系統,不在模型。

接下來該看什麼

如果你是做資料平台、MLOps、雲端服務,接下來很值得盯兩件事。第一,Spark 和 Ray 的整合會不會更緊。第二,企業會不會把更多 AI 工作流收斂到少數幾套核心基礎設施。

我猜 2025 到 2026 年,最有價值的不是單一模型,而是能穩定跑大規模資料和 AI 工作的系統。你如果正在做相關產品,現在就該問自己:你的瓶頸是模型,還是資料和排程?這題答錯,成本會很痛。