標籤
1 篇文章
A100 上一次 HBM2e 載入約要 450 到 600 cycles。Ampere 的 cp.async 讓資料直進 shared memory,搭配 pipeline 把等待時間藏進計算裡。