[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-matei-zaharia-2025-acm-prize-ai-infrastructure-zh":3,"tags-matei-zaharia-2025-acm-prize-ai-infrastructure-zh":33,"related-lang-matei-zaharia-2025-acm-prize-ai-infrastructure-zh":46,"related-posts-matei-zaharia-2025-acm-prize-ai-infrastructure-zh":50,"series-research-ae3d05a6-e02d-4126-a009-439b60a574ee":87},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":21,"translated_content":10,"views":22,"is_premium":23,"created_at":24,"updated_at":24,"cover_image":11,"published_at":25,"rewrite_status":26,"rewrite_error":10,"rewritten_from_id":27,"slug":28,"category":29,"related_article_id":30,"status":31,"google_indexed_at":32,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":23},"ae3d05a6-e02d-4126-a009-439b60a574ee","Matei Zaharia 拿下 2025 ACM Pri…","\u003Cp>2025 年 \u003Ca href=\"https:\u002F\u002Fwww.acm.org\u002F\" target=\"_blank\" rel=\"noopener\">ACM\u003C\u002Fa> Prize in Computing 給了 \u003Ca href=\"https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~matei\u002F\" target=\"_blank\" rel=\"noopener\">Matei Zaharia\u003C\u002Fa>。這件事很有份量。不是因為獎項名稱很長，而是因為他做的 \u003Ca href=\"https:\u002F\u002Fspark.apache.org\u002F\" target=\"_blank\" rel=\"noopener\">Apache Spark\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.ray.io\u002F\" target=\"_blank\" rel=\"noopener\">Ray\u003C\u002Fa>，早就卡進很多 \u003Ca href=\"\u002Fnews\u002Fscaling-agentic-ai-transactional-messaging-database-zh\">AI\u003C\u002Fa> 團隊的工作流。\u003C\u002Fp>\u003Cp>講白了，現在大家都在聊模型。可是真正決定成本和速度的，常常是資料搬運、任務排程、失敗復原，還有 GPU 有沒有吃滿。這些看起來很無聊的東西，才是 AI 伺服器的地基。\u003C\u002Fp>\u003Cp>Berkeley AI Research 和 ACM 的公告都提到，他的貢獻在分散式資料系統與運算基礎設施。換成白話，就是讓大規模分析、機器學習、AI 工作更容易在很多機器上跑起來。這種東西不會上短影音熱搜，但會直接影響產品能不能上線。\u003C\u002Fp>\u003Ch2>為什麼這個獎現在很重要\u003C\u002Fh2>\u003Cp>AI 團隊現在碰到的痛點，早就不是只有演算法。資料前處理、特徵工程、訓練、部署，哪一段都可能卡住。很多公司最後不是輸在模型，而是輸在系統太慢，或者雲端帳單太兇。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775823358164-tqif.png\" alt=\"Matei Zaharia 拿下 2025 ACM Pri…\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這也是 Zaharia 的價值所在。他沒有只做一個漂亮的研究 demo，而是把分散式運算變成可用的軟體工具。這種工具一旦進入產線，就會一直被用下去，直到下一代系統把它替掉。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fdatabricks.com\u002F\" target=\"_blank\" rel=\"noopener\">Databricks\u003C\u002Fa> 是最直接的案例。它從 Spark 長出來，後來一路往資料平台、ML、AI 工作流擴張。你可以不喜歡這家公司，但很難否認它抓到企業需求的核心。\u003C\u002Fp>\u003Cul>\u003Cli>Spark 2010 年公開後，迅速成為分散式資料處理常用工具。\u003C\u002Fli>\u003Cli>Ray 於 2017 年推出，主打 Python 與 AI 分散式工作。\u003C\u002Fli>\u003Cli>Databricks 在 2023 年融資後，估值達 430 億美元。\u003C\u002Fli>\u003Cli>ACM 明確點出，他的工作支撐大規模分析與 AI 基礎設施。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字放在一起看，意思很清楚。AI 不是只有模型參數在比大。誰能把資料流、計算資源、容錯機制和部署流程串好，誰就比較有機會把產品做穩。\u003C\u002Fp>\u003Cp>我覺得這也是現在產業很現實的一面。大家都愛談 LLM，但真正讓 LLM 變成服務的，是後面那整套系統。沒有那一層，模型再強也只是實驗室玩具。\u003C\u002Fp>\u003Ch2>Spark 怎麼改變資料工程\u003C\u002Fh2>\u003Cp>在 Spark 出現前，很多團隊還在用很笨重的批次流程。資料一大，跑一次就要等很久。對需要反覆試驗的機器學習來說，這種節奏很痛苦。\u003C\u002Fp>\u003Cp>Spark 的關鍵之一，是把更多運算放進記憶體。這讓迭代速度快很多。對資料工程師來說，這代表 ETL、SQL、特徵管線可以在同一套框架裡跑，少掉很多東拆西補。\u003C\u002Fp>\u003Cp>另一個核心概念是 RDD，也就是 Resilie\u003Ca href=\"\u002Fnews\u002Fanthropic-buys-coefficient-bio-400m-biotech-ai-zh\">nt\u003C\u002Fa> Distributed Dataset。名字很學術，但效果很直接。某台機器掛了，工作還能從容錯機制接回來，不用整批重跑。對大叢集來說，這能省下很多時間，也省下很多錢。\u003C\u002Fp>\u003Cp>Apache 自己的專案歷史，加上整個資料工程社群的採用狀況，都說明 Spark 不是學院派玩具。它變成很多雲端資料平台的底層工具。你今天看到的很多分析產品，背後都能找到 Spark 的影子。\u003C\u002Fp>\u003Cul>\u003Cli>記憶體運算減少了大量磁碟 I\u002FO。\u003C\u002Fli>\u003Cli>RDD 讓分散式工作更能容錯。\u003C\u002Fli>\u003Cli>同一套框架能兼顧批次分析和 ML 管線。\u003C\u002Fli>\u003Cli>雲端廠商常把 Spark 當成資料產品的核心元件。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這對 AI 很直接。模型訓練前，資料通常要清洗、切分、抽特徵。這些步驟越快，團隊就能越快試新想法。講白了，資料處理慢，AI 開發就慢。\u003C\u002Fp>\u003Cp>所以 Spark 的價值不只是「跑得快」。它改變的是工程團隊怎麼安排工作。以前可能一個 job 跑半天，現在可以多做幾輪實驗。這種差距，最後會反映在產品迭代速度上。\u003C\u002Fp>\u003Ch2>Ray 怎麼把分散式 AI 帶進 Python\u003C\u002Fh2>\u003Cp>如果說 Spark 解的是大資料問題，Ray 解的就是 Python AI 工作的分散式需求。這件事很重要，因為現在大部分 ML 團隊都活在 Python 裡。訓練、調參、強化學習、Agent 系統，幾乎都離不開它。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775823364990-2tfb.png\" alt=\"Matei Zaharia 拿下 2025 ACM Pri…\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Ray 的好處，是讓工程師不用把整個系統重寫成很硬派的分散式框架。你還是可以用熟悉的 Python 寫法，把工作切成小任務，丟到很多節點上跑。這降低了上手門檻，也讓團隊比較容易把研究轉成產線。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.anyscale.com\u002F\" target=\"_blank\" rel=\"noopener\">Anyscale\u003C\u002Fa> 是 Ray 背後的重要公司。它想做的事很明確，就是把 Ray 從開源框架往可上線的基礎設施推。這也說明一件事：AI 基礎設施不是只有雲主機而已，還包括排程、資源管理、訓練和推論的協同。\u003C\u002Fp>\u003Cblockquote>\"The great thing about open source is that it gives you the ability to take something and build on it.\" — Matei Zaharia，2018 年 \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=8gU3aZ2h0sA\" target=\"_blank\" rel=\"noopener\">Databricks 訪談\u003C\u002Fa>\u003C\u002Fblockquote>\u003Cp>這句話很像他的風格。不是在講空話，而是在講開源工具的實際價值。你拿到一個可擴充的底座，就能在上面疊出更多產品。\u003C\u002Fp>\u003Cp>Ray 也反映出 AI 產業的另一個現實。很多團隊想要同一套系統同時處理訓練、調校、推論、實驗。理論上很美，實作上很吵。能把這些東西整合起來的團隊，通常比較有機會省下人力和機器成本。\u003C\u002Fp>\u003Ch2>和現在主流 AI 堆疊比一比\u003C\u002Fh2>\u003Cp>看 Zaharia 的影響，最簡單的方法就是把舊流程和現在的流程放在一起比。差別不是只有工具名稱不同，而是成本結構完全不一樣。\u003C\u002Fp>\u003Cp>以前很多資料工作都很吃磁碟，也很吃人工維護。現在像 Spark 這類工具把資料處理往記憶體和叢集調度推進，讓迭代速度快很多。對需要快速試錯的團隊，這種差距很要命。\u003C\u002Fp>\u003Cp>Ray 則把 Python 的便利性和分散式運算接起來。這讓很多 AI 團隊不用先學一套很硬的底層系統，就能開始做大規模訓練。對新創來說，這種門檻差異，常常就是能不能活下來的分界線。\u003C\u002Fp>\u003Cul>\u003Cli>傳統批次處理常要跑數小時到數天。\u003C\u002Fli>\u003Cli>Spark 把很多迭代工作縮短到可接受的時間。\u003C\u002Fli>\u003Cli>舊式 ML 管線常分成多套工具。\u003C\u002Fli>\u003Cli>Spark 和 Ray 讓資料處理、訓練、排程更容易串接。\u003C\u002Fli>\u003Cli>GPU 成本很高，分散式排程能減少閒置時間。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>再往下看，商業差異也很明顯。資料處理快，代表可以更快重訓模型。重訓快，代表產品可以更快跟上使用者行為變化。這不是保證成功，但會提高試錯效率。\u003C\u002Fp>\u003Cp>另外還有合規和安全問題。資料一旦跨叢集、跨區域、跨服務，權限控管和稽核紀錄就不能亂來。尤其金融、醫療、政府案子，這些都不是可有可無的附加功能。\u003C\u002Fp>\u003Cp>最後是能源。大型模型訓練和推論都很吃電。這代表下一階段的競爭，不只看誰堆得大，也看誰把算力用得更省。這點很現實，雲端帳單不會跟你客氣。\u003C\u002Fp>\u003Ch2>這個獎也在提醒產業一件事\u003C\u002Fh2>\u003Cp>Zaharia 拿下 ACM Prize，等於把焦點拉回 AI 的系統層。第一波大家看的是模型能力。第二波開始看的是資料流、排程、容錯、成本控制。\u003C\u002Fp>\u003Cp>這對新創、雲端廠商、企業軟體公司都很重要。誰能少搬資料、少等機器、少浪費 GPU，誰就比較容易把 AI 做進產品裡。Spark 和 Ray 其實都在往這個方向走。\u003C\u002Fp>\u003Cp>我自己的判斷很直接。接下來幾年，AI 競爭的重點會更偏向基礎設施團隊。能把訓練迴圈縮短 20%，或把推論成本壓低 30%，這種改善比單純秀 demo 更有商業價值。\u003C\u002Fp>\u003Cp>這也是為什麼這個獎值得看。它不是在表揚某個漂亮論文而已，而是在承認一件很務實的事：AI 產業真正的瓶頸，很多時候在系統，不在模型。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>如果你是做資料平台、ML\u003Ca href=\"\u002Fnews\u002Fopenai-pauses-uk-data-centre-plan-costs-zh\">Op\u003C\u002Fa>s、雲端服務，接下來很值得盯兩件事。第一，Spark 和 Ray 的整合會不會更緊。第二，企業會不會把更多 AI 工作流收斂到少數幾套核心基礎設施。\u003C\u002Fp>\u003Cp>我猜 2025 到 2026 年，最有價值的不是單一模型，而是能穩定跑大規模資料和 AI 工作的系統。你如果正在做相關產品，現在就該問自己：你的瓶頸是模型，還是資料和排程？這題答錯，成本會很痛。\u003C\u002Fp>","Matei Zaharia 以 Spark 和 Ray 拿下 2025 ACM Prize。這兩套系統撐起大型資料處理、機器學習與 AI 基礎設施，也反映 AI 競爭已轉向系統層。","blockchain.news","https:\u002F\u002Fblockchain.news\u002Fainews\u002Facm-prize-in-computing-2025-matei-zaharia-s-distributed-systems-breakthroughs-power-large-scale-machine-learning-and-ai",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775823358164-tqif.png",[13,14,15,16,17,18,19,20],"Matei Zaharia","ACM Prize","Apache Spark","Ray","AI 基礎設施","分散式運算","資料工程","MLOps","zh",1,false,"2026-04-10T12:15:40.075062+00:00","2026-04-10T12:15:40.014+00:00","done","cefd73f0-90fb-4faa-83d9-8d203df6383d","matei-zaharia-2025-acm-prize-ai-infrastructure-zh","research","d8e6571b-a336-43aa-8c9f-05e6209b5e85","published","2026-04-11T09:00:07.318+00:00",[34,35,37,39,40,42,44],{"name":18,"slug":18},{"name":16,"slug":36},"ray",{"name":14,"slug":38},"acm-prize",{"name":19,"slug":19},{"name":20,"slug":41},"mlops",{"name":15,"slug":43},"apache-spark",{"name":13,"slug":45},"matei-zaharia",{"id":30,"slug":47,"title":48,"language":49},"matei-zaharia-2025-acm-prize-ai-infrastructure-en","Matei Zaharia Wins 2025 ACM Prize for AI Infra","en",[51,57,63,69,75,81],{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":29},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":29},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":29},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":29},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":29},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":82,"slug":83,"title":84,"cover_image":85,"image_url":85,"created_at":86,"category":29},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[88,93,98,103,108,113,118,123,128,133],{"id":89,"slug":90,"title":91,"created_at":92},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]