[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-cuda-in-2025-why-gpus-still-win-zh":3,"tags-cuda-in-2025-why-gpus-still-win-zh":35,"related-lang-cuda-in-2025-why-gpus-still-win-zh":51,"related-posts-cuda-in-2025-why-gpus-still-win-zh":55,"series-tools-e97caa94-b5de-452f-ae23-ac5c2b2854b3":92},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":23,"translated_content":10,"views":24,"is_premium":25,"created_at":26,"updated_at":26,"cover_image":11,"published_at":27,"rewrite_status":28,"rewrite_error":10,"rewritten_from_id":29,"slug":30,"category":31,"related_article_id":32,"status":33,"google_indexed_at":34,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":25},"e97caa94-b5de-452f-ae23-ac5c2b2854b3","2025 年 CUDA 為何還是強","\u003Cp>CUDA 已經 18 年了，還是很有存在感。NVIDIA 曾提到，全球有數億顆 CUDA 相容 GPU 在跑。現代叢集也能把數萬個 GPU 核心丟進同一個工作負載。\u003C\u002Fp>\u003Cp>講白了，這就是為什麼它會出現在氣象模型、蛋白質模擬，還有 LLM 訓練裡。你如果看過一個任務，從幾小時縮到幾分鐘，八成就懂這種吸引力。\u003C\u002Fp>\u003Cp>CUDA 的重點不是新。它厲害的是，在 2025 年，它幾乎成了加速運算的預設答案。從 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 資料中心硬體，到 \u003Ca href=\"https:\u002F\u002Fpytorch.org\" target=\"_blank\" rel=\"noopener\">PyTorch\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.tensorflow.org\" target=\"_blank\" rel=\"noopener\">TensorFlow\u003C\u002Fa> 內部的函式庫，都躲不掉它。\u003C\u002Fp>\u003Ch2>CUDA 怎麼走到今天\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-zone\" target=\"_blank\" rel=\"noopener\">CUDA\u003C\u002Fa> 在 2007 年公開。那時 NVIDIA 已經花了好幾年，把 GPU 從圖形晶片，改造成能直接寫程式的運算平台。更早以前，做通用 GPU 計算很麻煩。很多人只能硬拗 OpenGL 或 DirectX shader。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149438491-u7kw.png\" alt=\"2025 年 CUDA 為何還是強\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>CUDA 直接給開發者一個比較正常的模型。你可以用 C 或 C++ 寫程式，再把 kernel 丟到 GPU 上跑。幾千個 thread 同時處理資料，這件事終於不必靠圖形 API 繞路。\u003C\u002Fp>\u003Cp>時間點也很剛好。2007 年的 CPU 還在進步，但核心數增加不夠快。科學運算後來的深度學習，也都嫌 CPU 不夠力。GPU 本來就擅長平行運算，CUDA 只是把這件事變得好用。\u003C\u002Fp>\u003Cul>\u003Cli>首次公開時間：2007 年\u003C\u002Fli>\u003Cli>早期支援硬體：GeForce 8 系列\u003C\u002Fli>\u003Cli>目前工具鏈：CUDA 13.0\u003C\u002Fli>\u003Cli>支援架構包含 Hopper 與 Blackwell\u003C\u002Fli>\u003C\u002Ful>\u003Cp>真正讓它黏住市場的，是 NVIDIA 一直更新工具鏈。不是發完就放生。你一旦開始依賴 CUDA 函式庫，搬家成本就很高。這點很現實，也很殘酷。\u003C\u002Fp>\u003Cp>很多團隊不是因為喜歡 CUDA，才用 CUDA。是因為整個專案、測試、部署流程，都已經長在這套堆疊上了。要換，得先付出一筆很痛的工程費。\u003C\u002Fp>\u003Ch2>CUDA 到底做了什麼\u003C\u002Fh2>\u003Cp>CUDA 是一種異質運算模型。CPU 是 host，GPU 是 device。工作會被拆開。CPU 負責排程和控制，GPU 負責那些能拆成很多小塊、一起跑的部分。\u003C\u002Fp>\u003Cp>最重要的單位是 kernel。它是一個在 GPU 上執行的函式。很多 thread 會一起跑它。thread 會組成 block，block 再組成 grid。這種結構很重要，因為它讓開發者能直接控制工作怎麼分配。\u003C\u002Fp>\u003Cp>記憶體也很關鍵。CUDA 有 global memory、sh\u003Ca href=\"\u002Fnews\u002Fmarginlab-claude-code-opus-46-tracker-zh\">ar\u003C\u002Fa>ed memory、constant memory、texture memory，還有 unified memory。global memory 容量大，但慢。shared memory 快很多，但只給同一個 block 用。unified memory 讓 CPU 和 GPU 看起來像共用一個位址空間，但它不會魔法般修好爛掉的存取模式。\u003C\u002Fp>\u003Cblockquote>“The GPU is a very different kind of processor than the CPU. It is optimized for throughput, not latency.” — Ian Buck\u003C\u002Fblockquote>\u003Cp>這句話很直白。GPU 不是拿來拚單一請求延遲。它是拿來拚吞吐量。你的工作如果夠平行，GPU 就很猛。你的工作如果很串行，那它幫不上太多。\u003C\u002Fp>\u003Cp>所以 CUDA 程式設計，某種程度上像性能解謎。你要讓資料搬得少一點。你要讓 memory access 夠整齊。你也要避免 warp 裡面分支太亂。這些都很吃功力。\u003C\u002Fp>\u003Ch2>CUDA 在真實世界怎麼贏\u003C\u002Fh2>\u003Cp>最能說服人的，不是簡報。是大家真的在用什麼。像 \u003Ca href=\"https:\u002F\u002Fwww.gromacs.org\" target=\"_blank\" rel=\"noopener\">GROMACS\u003C\u002Fa> 這類分子動力學工具，就用 CUDA 跑生物分子模擬。規模可以到上百萬顆粒子。這種工作 CPU 跑得動，但會慢很多。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149440689-znfg.png\" alt=\"2025 年 CUDA 為何還是強\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>氣象預報也很吃 CUDA。像 \u003Ca href=\"https:\u002F\u002Fwww.mmm.ucar.edu\u002Fmodels\u002Fwrf\" target=\"_blank\" rel=\"noopener\">WRF\u003C\u002Fa> 這類模型，GPU 版在某些數值計算上可以到 10 倍速度提升。這不是小修小補。這是直接改變排程和算力成本。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Fnews\u002Fai-slop-flooding-streaming-services-musicians-fight-back-zh\">AI\u003C\u002Fa> 更不用說。訓練神經網路，本質上就是大量矩陣運算。\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcublas\" target=\"_blank\" rel=\"noopener\">cuBLAS\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcudnn\" target=\"_blank\" rel=\"noopener\">cuDNN\u003C\u002Fa> 幫忙扛掉很多底層工作。你看到很多 deep learning 框架跑得快，背後常常就是這些庫在撐。\u003C\u002Fp>\u003Cul>\u003Cli>GROMACS 可用 CUDA 做大規模分子模擬\u003C\u002Fli>\u003Cli>WRF 的 GPU 版本可達 10 倍速度提升\u003C\u002Fli>\u003Cli>PyTorch 與 TensorFlow 都深度依賴 CUDA 生態\u003C\u002Fli>\u003Cli>Python 也能透過 \u003Ca href=\"https:\u002F\u002Fnumba.pydata.org\" target=\"_blank\" rel=\"noopener\">Numba\u003C\u002Fa> 與 \u003Ca href=\"https:\u002F\u002Fcupy.dev\" target=\"_blank\" rel=\"noopener\">CuPy\u003C\u002Fa> 進入 CUDA 世界\u003C\u002Fli>\u003C\u002Ful>\u003Cp>CUDA 也不只出現在 \u003Ca href=\"\u002Fnews\u002Fai-music-streaming-labels-lawsuits-zh\">AI\u003C\u002Fa> 新聞裡。金融團隊拿它做風險分析。基因體學管線用它跑序列工作。自駕系統也靠它處理即時感知。共同點很簡單，就是資料量大，而且答案不能拖太久。\u003C\u002Fp>\u003Cp>我覺得這才是 CUDA 最強的地方。它不是只服務某一種熱門應用。它是把很多高算力需求，變成可以工程化落地的工具。\u003C\u002Fp>\u003Ch2>CUDA 跟替代方案比什麼\u003C\u002Fh2>\u003Cp>CUDA 最大的優勢，是成熟。它的函式庫最完整。開發者最多。從原型到正式上線的路也最清楚。這點很現實，因為性能優化本來就很燒工時。\u003C\u002Fp>\u003Cp>但它不是唯一選項。\u003Ca href=\"https:\u002F\u002Fwww.khronos.org\u002Fopencl\u002F\" target=\"_blank\" rel=\"noopener\">OpenCL\u003C\u002Fa> 比較強調跨廠牌。\u003Ca href=\"https:\u002F\u002Fwww.intel.com\u002Fcontent\u002Fwww\u002Fus\u002Fen\u002Fdeveloper\u002Ftools\u002Foneapi\u002Foverview.html\" target=\"_blank\" rel=\"noopener\">Intel oneAPI\u003C\u002Fa> 主要對準 Intel 軟硬體堆疊。\u003Ca href=\"https:\u002F\u002Frocm.docs.amd.com\" target=\"_blank\" rel=\"noopener\">AMD ROCm\u003C\u002Fa> 則是 AMD 在 GPU 計算上的主力方案。\u003C\u002Fp>\u003Cp>差別很直接。你要更好的可攜性，通常就得接受更少成熟函式庫，或更多移植工作。你要最高機率拿到穩定效能，CUDA 還是很難繞開。\u003C\u002Fp>\u003Cul>\u003Cli>CUDA：NVIDIA GPU 上最完整，AI 生態最深\u003C\u002Fli>\u003Cli>OpenCL：跨廠牌，適合硬體不固定的團隊\u003C\u002Fli>\u003Cli>Intel oneAPI：適合 Intel 為主的 CPU\u002FGPU 混合環境\u003C\u002Fli>\u003Cli>AMD ROCm：AMD GPU 的主要路線，研究圈較常見\u003C\u002Fli>\u003C\u002Ful>\u003Cp>實務上，很多團隊根本不是在選信仰。是在選採購單。機房如果已經是 NVIDIA，CUDA 幾乎就是最省事的路。若是混合硬體，移植和維護就會變得很煩。\u003C\u002Fp>\u003Cp>還有一個很現實的詞，叫 lock-in。CUDA 會把你綁住。不是只有 API 綁住。還有教學、範例、函式庫、團隊習慣，全都會把人往同一條路推。\u003C\u002Fp>\u003Ch2>2025 年還要怎麼看 CUDA\u003C\u002Fh2>\u003Cp>CUDA 不會消失，但它的角色在變。現在最大的問題，不是它能不能跑。是 AI 和 HPC 會不會繼續綁死在 NVIDIA 的工具鏈上。更多廠商都在推自己的堆疊，更多團隊也開始在意可攜性。\u003C\u002Fp>\u003Cp>對開發者來說，答案其實很務實。你的工作如果是平行運算、記憶體密集，而且已經在 NVIDIA GPU 上，那 CUDA 還是最快的路。你要的是結果，不是辯論。\u003C\u002Fp>\u003Cp>如果你現在要做新平台策略，我會建議你先想清楚。你是要吃下 NVIDIA-first 的最佳化，還是要留一層抽象，讓未來比較好搬？這題沒有標準答案，但拖著不想，通常最貴。\u003C\u002Fp>\u003Cp>我的判斷是，接下來幾年 CUDA 還會主導高效能 AI 和科學運算。只是更多團隊會在上層包一層薄抽象，降低對單一硬體的依賴。你該問的不是 CUDA 還重不重要，而是你的程式要不要直接講 CUDA。\u003C\u002Fp>\u003Cp>如果你正在評估 GPU 軟體堆疊，可以再看我們對 \u003Ca href=\"\u002Fnews\u002Fwhat-llm-inference-actually-costs\" target=\"_self\">LLM inference 成本\u003C\u002Fa> 的整理。硬體選擇，真的會直接寫進你的預算裡。\u003C\u002Fp>\u003Ch2>結論：先看工作負載，再看工具\u003C\u002Fh2>\u003Cp>結論很簡單。先看你的工作是不是平行。再看資料是不是夠大。最後才看要不要用 CUDA。順序搞反，通常就會花冤枉錢。\u003C\u002Fp>\u003Cp>如果你的團隊已經在 NVIDIA 上跑 AI、模擬或影像處理，那 CUDA 仍然是很實際的選擇。反過來說，如果你從第一天就想保留跨硬體彈性，那就該從抽象層開始設計，而不是事後補救。\u003C\u002Fp>\u003Cp>我會押注一件事：接下來 2 到 3 年，CUDA 還是會很強。真正的變化，不是它會不會被取代，而是更多團隊會把它藏在更上層的框架後面。你如果現在要開新案，最好直接決定：你要跟 GPU 說話到多底層。\u003C\u002Fp>","CUDA 已經 18 年，卻仍是 NVIDIA GPU 的核心軟體堆疊。從 AI 訓練、氣象模擬到蛋白質計算，這套工具鏈為何還是開發者首選？","grokipedia.com","https:\u002F\u002Fgrokipedia.com\u002Fpage\u002FCUDA",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149438491-u7kw.png",[13,14,15,16,17,18,19,20,21,22],"CUDA","NVIDIA GPU","GPU 加速","AI 訓練","科學運算","PyTorch","TensorFlow","ROCm","OpenCL","LLM","zh",1,false,"2026-04-02T17:03:37.713589+00:00","2026-04-02T17:03:37.567+00:00","done","dd1605a3-17b6-48f2-ac19-1116e2be9fab","cuda-in-2025-why-gpus-still-win-zh","tools","e05a606a-88b9-45cd-8c3e-7ad0b30b7b5d","published","2026-04-08T09:00:50.345+00:00",[36,38,40,42,43,45,47,49],{"name":21,"slug":37},"opencl",{"name":13,"slug":39},"cuda",{"name":14,"slug":41},"nvidia-gpu",{"name":17,"slug":17},{"name":22,"slug":44},"llm",{"name":20,"slug":46},"rocm",{"name":18,"slug":48},"pytorch",{"name":19,"slug":50},"tensorflow",{"id":32,"slug":52,"title":53,"language":54},"cuda-in-2025-why-gpus-still-win-en","CUDA in 2025: Why GPUs Still Win","en",[56,62,68,74,80,86],{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":31},"d058a76f-6548-4135-8970-f3a97f255446","why-gemini-api-pricing-is-cheaper-than-it-looks-zh","為什麼 Gemini API 定價其實比看起來更便宜","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778869845081-j4m7.png","2026-05-15T18:30:25.797639+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":31},"68e4be16-dc38-4524-a6ea-5ebe22a6c4fb","why-vidhub-huiyuan-hutong-bushi-quan-shebei-tongyong-zh","為什麼 VidHub 會員互通不是「買一次全設備通用」","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778789450987-advz.png","2026-05-14T20:10:24.048988+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":31},"7a1e174f-746b-4e82-a0e3-b2475ab39747","why-buns-zig-to-rust-experiment-is-right-zh","為什麼 Bun 的 Zig-to-Rust 實驗是對的","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778767879127-5dna.png","2026-05-14T14:10:26.886397+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":31},"e742fc73-5a65-4db3-ad17-88c99262ceb7","why-openai-api-pricing-is-product-strategy-zh","為什麼 OpenAI API 定價是產品策略，不是註腳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778749859485-chvz.png","2026-05-14T09:10:26.003818+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":31},"c757c5d8-eda9-45dc-9020-4b002f4d6237","why-claude-code-prompt-design-beats-ide-copilots-zh","為什麼 Claude Code 的提示設計贏過 IDE Copilot","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778742645084-dao9.png","2026-05-14T07:10:29.371901+00:00",{"id":87,"slug":88,"title":89,"cover_image":90,"image_url":90,"created_at":91,"category":31},"4adef3ab-9f07-4970-91cf-77b8b581b348","why-databricks-model-serving-is-right-default-zh","為什麼 Databricks Model Serving 是生產推論的正確預設","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778692245329-a2wt.png","2026-05-13T17:10:30.659153+00:00",[93,98,103,108,113,118,123,128,133,138],{"id":94,"slug":95,"title":96,"created_at":97},"de769291-4574-4c46-a76d-772bd99e6ec9","googles-biggest-gemini-launches-in-2026-zh","Google 2026 最大 Gemini 盤點","2026-03-26T07:26:39.21072+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":139,"slug":140,"title":141,"created_at":142},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00"]