1
1
或者,您可以尝试使用这样的本地内存:
更快的是什么-原子或本地内存-或可能的(本地内存的大小可能太大)取决于实际的内核,所以您需要基准测试并选择正确的解决方案。 更新:
或者可以尝试不引入本地缓冲区,直接写入全局缓冲区:
除此之外,我现在可以看到索引的问题。要使用我的答案中的代码,前面的代码应该如下所示:
如果你需要使用
|
2
1
如果我正确地理解了这个问题,我会做下一步。 通过使用偏移创建数组来消除ifs
并使用idx%2作为偏移量
|
tmlen · OpenCL死锁可能性 6 年前 |
A. Student · 如何读取结构数组(OpenCL内核) 6 年前 |
raaj · OpenCL:如何在上下文中选择GPU 6 年前 |
Dae · 在本地内存中只分配一次常量内存变量,并在其工作组中共享 6 年前 |
MishaOk · OpenCL-GPU和CPU总和不相同 6 年前 |
atr07 · 将std::string传递给OpenCL内核 7 年前 |
Zeta · 内存复制速度比较CPU 7 年前 |
Vuwox · Opencl-将全局内存工作组+边界转移到本地内存 7 年前 |