代码之家 › 专栏 › 技术社区 › Amiri

AVX-512中的压缩和扩展指令有什么区别?

avx512 simd x86 assembly

Amiri · 技术社区 · 6 年前

我在研究从 Intel intrinsics guide . 我对这两个概念感到困惑:

为了 __m128d _mm_mask_expand_pd (__m128d src, __mmask8 k, __m128d a) == vexpandpd

从中加载连续的活动双精度(64位)浮点元素(那些在掩码k中设置了各自位的元素),并使用writemask k k将结果存储在dst中(如果没有设置相应的掩码位,则从src复制元素)。

为了 __m128d _mm_mask_compress_pd (__m128d src, __mmask8 k, __m128d a) == vcompresspd

连续地将活动的双精度(64位)浮点元素存储到DST(那些在writemask k k中设置了各自位的元素),并从SRC传递其余元素。

有没有更清楚的描述或任何人可以解释更多?

事先谢谢。

1 回复 | 直到 6 年前

fuz 6 年前

这些指令实现APL运算符 \ (展开)和 / (压缩)。展开取一些掩模α 米 ± n 其中的一部分 n 集合和数组ω n 并返回向量米将ω中的数字插入α指示的位置,其余的设置为零。例如,

0 1 1 0 1 0 \ 2 3 4

退货

0 2 3 0 4 0

这个 _mm_mask_expand_pd 指令将此运算符实现为fixed 米 = 8。

这个压缩操作撤消扩大操作,即使用位掩码α从ω中选择条目,并将这些条目连续存储到内存中。

推荐文章

VP. · 我们是否可以添加并使用返回地址堆栈寄存器来防止堆栈溢出攻击?

6 年前

Anon. · 用汇编语言解释这一行?

6 年前

ineedahero · 英特尔X86汇编:如何判断多个位宽是一个参数?

6 年前

Dorian Niemiec · 32位引导加载程序是否与16位引导扇区兼容?[已关闭]

6 年前

wangt13 · 如何使用VMX暂停和恢复VM

6 年前

NGSBNC · 组件8086(IA32)在添加两个阵列的元素时出现问题

6 年前

Kay · Skylake和更新的环形巴士

6 年前

Kadir · Intel芯片上的半精度浮点算法

6 年前

Some_Dude · x86汇编牛顿平方根算法寄存器为1#IND

6 年前

Piepypye · 为什么x86汇编中的操作数必须在一行中有大小,而在另一行中没有大小

6 年前