[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-shared-memory":3},{"tag":4,"articles":11},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"a89d57f0-e626-434a-bfe6-d3127b7a034b","shared memory","shared-memory",4,"shared memory 是 GPU CUDA 效能調校的核心區塊，常和 warp、bank conflict、cp.async、pipeline 一起討論。它決定資料能否快速在執行緒間共享，也影響 HBM 延遲能否被有效隱藏。","Shared memory is a key CUDA performance lever on GPUs, shaping how warps exchange data, avoid bank conflicts, and overlap HBM latency with compute through features like cp.async and pipelined loading.",[12,21],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"65281366-d5a8-4cae-b397-5c0b839f3e01","nvidia-forum-su7-cuda-lattice-engine-zh","NVIDIA 論壇聊 SU(7) CUDA 晶格引擎","NVIDIA Developer Forums 一篇貼文把 7×7×7 晶格、shared memory、warp 與 bank conflict 放在一起談。重點不是 SU(7) 名字多炫，而是 CUDA 真的吃不吃這套。","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775178415223-azaq.png","zh","2026-04-03T01:06:28.438192+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":26,"image_url":27,"cover_image":27,"language":19,"created_at":28},"d458f7db-1e28-4cf1-9bd8-ad9c95dee997","cuda-cp-async-ampere-hbm-latency-zh","Ampere 的 cp.async 怎麼藏 HBM 延遲","A100 上一次 HBM2e 載入約要 450 到 600 cycles。Ampere 的 cp.async 讓資料直進 shared memory，搭配 pipeline 把等待時間藏進計算裡。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167621432-n9fo.png","2026-04-02T22:06:36.022671+00:00"]