[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-shared-memory":3},{"tag":4,"articles":11},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"a89d57f0-e626-434a-bfe6-d3127b7a034b","shared memory","shared-memory",4,"shared memory 是 GPU CUDA 效能調校的核心區塊，常和 warp、bank conflict、cp.async、pipeline 一起討論。它決定資料能否快速在執行緒間共享，也影響 HBM 延遲能否被有效隱藏。","Shared memory is a key CUDA performance lever on GPUs, shaping how warps exchange data, avoid bank conflicts, and overlap HBM latency with compute through features like cp.async and pipelined loading.",[12,21],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"a7f6594f-6643-4e71-b5c2-f0a5f44c0549","nvidia-forum-su7-cuda-lattice-engine-en","NVIDIA Forum Debates a SU(7) CUDA Lattice Engine","A CUDA forum thread on Anchor4 SU(7) mixes lattice theory, shared memory tuning, and warp-level tricks for GPU synchronization.","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775178407338-4vh2.png","en","2026-04-03T01:06:28.835722+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":26,"image_url":27,"cover_image":27,"language":19,"created_at":28},"68bfa04a-94c4-4c8a-921c-61e93ab207aa","cuda-cp-async-ampere-hbm-latency-en","cp.async on Ampere: Hide HBM Latency on A100","Ampere’s cp.async moves data without stalling warps, cutting HBM waits from 450–600 cycles into overlapped compute on A100.","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167612143-4qvu.png","2026-04-02T22:06:36.521272+00:00"]