25112 Rev. 3.06 September 2005

Software Optimization Guide for AMD64 Processors

Table 19. SSE2 Instructions (Continued)

 

 

Encoding

 

 

Latency

Throughput

 

 

 

 

 

 

 

 

Syntax

 

 

 

 

Decode

FPU

 

 

Note

Prefix

First

2nd

 

 

 

ModRM byte

type

pipe(s)

 

 

 

 

 

 

 

byte

byte

byte

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SQRTPD xmmreg,

66h

0Fh

51h

 

Double

FMUL

53

1/48

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SQRTSD xmmreg1,

F2h

0Fh

51h

 

DirectPath

FMUL

27

1/24

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SQRTSD xmmreg,

F2h

0Fh

51h

 

DirectPath

FMUL

29

1/24

 

mem64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SUBPD xmmreg1,

66h

0Fh

5Ch

 

Double

FADD

5

1/2

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SUBPD xmmreg,

66h

0Fh

5Ch

 

Double

FADD

7

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SUBSD xmmreg1,

F2h

0Fh

5Ch

 

DirectPath

FADD

4

1/1

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SUBSD xmmreg,

F2h

0Fh

5Ch

 

DirectPath

FADD

6

1/1

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

UCOMISD xmmreg1,

66h

0Fh

2Eh

 

VectorPath

FADD

4

1/1

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

UCOMISD xmmreg,

66h

0Fh

2Eh

 

VectorPath

FADD

5

1/1

 

mem64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

UNPCKHPD xmmreg1,

66h

0Fh

15h

 

Double

FADD/

2

1/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

UNPCKHPD xmmreg,

66h

0Fh

15h

 

Double

FADD/

4

1/1

 

mem128

 

 

 

 

 

FMUL/

 

 

 

 

 

 

 

 

 

FSTORE

 

 

 

 

 

 

 

 

 

 

 

 

 

UNPCKLPD xmmreg1,

66h

0Fh

14h

 

DirectPath

FADD/

2

2/1

 

xmmreg2

 

 

 

 

 

FMUL

 

 

 

 

 

 

 

 

 

 

 

 

 

UNPCKLPD xmmreg,

66h

0Fh

14h

 

DirectPath

FADD/

4

2/1

 

mem128

 

 

 

 

 

FMUL/

 

 

 

 

 

 

 

 

 

FSTORE

 

 

 

 

 

 

 

 

 

 

 

 

 

XORPD xmmreg1,

66h

0Fh

57h

 

Double

FMUL

3

1/2

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

XORPD xmmreg,

66h

0Fh

57h

 

Double

FMUL

5

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Notes:

1. The low half of the result is available one cycle earlier than listed.

2. This is the execution latency for the instruction. The time to complete the external write depends on the memory speed and the hardware implementation.

Appendix C

Instruction Latencies

341

Page 357
Image 357
AMD 250 manual 341, Fmul Fstore