代码之家 › 专栏 › 技术社区 › warunapww Krishna

PADDD指令的操作数

sse vectorization assembly c

warunapww Krishna · 技术社区 · 9 年前

我在C中使用向量内在运算编写了一个简单的向量加法程序。这里我加载2个向量并将它们相加,最后将结果向量存储回全局存储器。

当我检查汇编代码时,它有以下指令序列

movdqa  0(%rbp,%rax), %xmm7    
paddd (%r12,%rax), %xmm7
movdqa  %xmm7, (%rbx,%rax)

如您所见,它只移动 paddd 寄存器指令(xmm7)。在 有衬垫的 指令第1个操作数引用全局内存中的地址,而不是先将其移动到寄存器中。

这是否意味着当 有衬垫的 在执行时,它会从全局内存中执行mov,先注册,然后添加寄存器中的两个操作数?相当于以下代码序列

movdqa  0(%rbp,%rax), %xmm7
movdqa  0(%r12,%rax), %xmm8    
paddd %xmm8, %xmm7
movdqa  %xmm7, (%rbx,%rax)

如果您需要更多信息,如可编译程序,请告诉我,以便您可以自己生成程序集。

1 回复 | 直到 9 年前

Peter Cordes 9 年前

大多数x86指令可以与内存源操作数一起使用。不需要额外的寄存器。读取修改指令的速度与加载和操作的速度一样快。优点是它占用更少的指令字节,并且不需要额外的寄存器。

在某些情况下,它还可以在Intel CPU(uop micro fusion)上更高效地执行。因此,如果您不需要很快在该内存地址处再次存储数据,请选择将加载内容折叠到其他指令中。

看见 http://agner.org/optimize/ 有关CPU内部的文档,以及如何优化asm和C代码。

推荐文章

Community wiki · C中有哪些耗时的操作?

1 年前

Tintenfisch · 传递参数:array与C和C中的*&array和&array[0]之间的差异++

1 年前

daryldxn · Windows筛选平台计算通过TCP连接发送的字节和接收的字节

1 年前

Mike Balts · 它们将被打印多少次,为什么?我知道:“阿尔法”一次,“贝塔”两次,“欧米茄”两次但我不知道为什么

1 年前

Mohammed Eid · 数据类型“char”是否可以被视为数据类型“int”?

1 年前

Community wiki · 将所有处理器电源都投入到任务中

1 年前

Community wiki · 在C&数据结构中实现不同数据结构的聪明方法,应该更频繁地使用

1 年前

Community wiki · C++为C添加了什么?[已关闭]

1 年前

Abhinav Kumar · 如何将#define的数据类型设置为长双精度?

1 年前

Community wiki · 打印1到1000,不带循环或条件

1 年前