![]() |
1
0
那些幻灯片太过时了。自从CUDA-3.0(IIRC)发明了warp shuffle指令以来,在单个warp中使用共享内存进行缩减还不是最先进的。甚至在这一点上,这些都已经过时了。
这些天你会使用
warp reduce functions
例如
至于为什么上面的模式会起作用:在Volta架构之前,warp中的线程是以锁步方式运行的。他们都会先加载值,然后存储它。因此,不需要同步。这已经改变了。请注意Nvidia的 Volta Tuning Guide
您可以在Github存储库中找到更新的示例代码: https://github.com/NVIDIA/cuda-samples 可能还有更新版本的幻灯片,但我不知道在哪里。 |
![]() |
Jacob Chang · 关于树约简中共享内存的问题 2 年前 |
![]() |
yuanyesjtu · CUDA gpu矢量[重复] 7 年前 |
![]() |
noobie2023 · 使用CUDA的前缀和 7 年前 |
![]() |
user3821901 · CUDA协作组:链接错误 7 年前 |
![]() |
Vandana · 将原始数据转换为推力中的复数向量 7 年前 |
![]() |
Farzad · 序列化CUfunction对象 7 年前 |
![]() |
Vandana · 在以下矩阵副本内核中合并访问 7 年前 |