25112 Rev. 3.06 September 2005

Software Optimization Guide for AMD64 Processors

Table 19. SSE2 Instructions (Continued)

 

 

Encoding

 

 

Latency

Throughput

 

 

 

 

 

 

 

 

Syntax

 

 

 

 

Decode

FPU

 

 

Note

Prefix

First

2nd

 

 

 

ModRM byte

type

pipe(s)

 

 

 

 

 

 

 

byte

byte

byte

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PSHUFHW xmmreg,

F3h

0Fh

70h

 

Double

FADD/

4

1/1

 

mem128, imm8

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSHUFLW xmmreg1,

F2h

0Fh

70h

 

Double

FADD/

2

1/1

 

xmmreg2, imm8

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSHUFLW xmmreg,

F2h

0Fh

70h

 

Double

FADD/

4

1/1

 

mem128, imm8

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLD xmmreg1,

66h

0Fh

F2h

 

Double

FADD/

2

1/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLD xmmreg,

66h

0Fh

F2h

 

Double

FADD/

4

1/1

 

mem128

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLD xmmreg, imm8

66h

0Fh

72h

 

Double

FADD/

2

1/1

 

 

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLDQ xmmreg, imm8

66h

0Fh

73h

11-111-xxx

Double

FADD/

2

1/1

 

 

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLQ xmmreg1,

66h

0Fh

F3h

 

Double

FADD/

2

1/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLQ xmmreg,

66h

0Fh

F3h

 

Double

FADD/

4

1/1

 

mem128

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLQ xmmreg, imm8

66h

0Fh

73h

11-110-xxx

Double

FADD/

2

1/1

 

 

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLW xmmreg1,

66h

0Fh

F1h

 

Double

FADD/

2

1/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLW xmmreg,

66h

0Fh

F1h

 

Double

FADD/

4

1/1

 

mem128

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSLLW xmmreg, imm8

66h

0Fh

71h

11-110-xxx

Double

FADD/

2

1/1

 

 

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSRAD xmmreg1,

66h

0Fh

E2h

 

Double

FADD/

2

1/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSRAD xmmreg,

66h

0Fh

E2h

 

Double

FADD/

4

1/1

 

mem128

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSRAD xmmreg, imm8

66h

0Fh

72h

11-100-xxx

Double

FADD/

2

1/1

 

 

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

PSRAW xmmreg1,

66h

0Fh

E1h

 

Double

FADD/

2

1/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

Notes:

1. The low half of the result is available one cycle earlier than listed.

2. This is the execution latency for the instruction. The time to complete the external write depends on the memory speed and the hardware implementation.

Appendix C

Instruction Latencies

337

Page 353
Image 353
AMD 250 manual 337