Software Optimization Guide for AMD64 Processors

25112 Rev. 3.06 September 2005

Table 19. SSE2 Instructions (Continued)

 

 

Encoding

 

 

Latency

Throughput

 

 

 

 

 

 

 

 

Syntax

 

 

 

 

Decode

FPU

 

 

Note

Prefix

First

2nd

 

 

 

ModRM byte

type

pipe(s)

 

 

 

 

 

 

 

byte

byte

byte

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSD2SS xmmreg,

F2h

0Fh

5Ah

mm-xxx-xxx

Double

FSTORE

9

 

 

mem64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSI2SD xmmreg,

F2h

0Fh

2Ah

11-xxx-xxx

Double

FSTORE

11

1/1

 

reg32/64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSI2SD xmmreg,

F2h

0Fh

2Ah

mm-xxx-xxx

DirectPath

FSTORE

6

1/1

 

mem32/64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSS2SD xmmreg1,

F3h

0Fh

5Ah

11-xxx-xxx

DirectPath

FSTORE

2

1/1

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSS2SD xmmreg,

F3h

0Fh

5Ah

mm-xxx-xxx

DirectPath

FSTORE

4

1/1

 

mem32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSS2SI reg32/64,

F3h

0Fh

2Dh

11-xxx-xxx

Double

FSTORE

9

 

 

xmmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSS2SI reg32/64,

F3h

0Fh

2Dh

mm-xxx-xxx

VectorPath

~

10

 

 

mem32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTPD2DQ xmmreg1,

66h

0Fh

E6h

11-xxx-xxx

VectorPath

~

8

 

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTPD2DQ xmmreg,

66h

0Fh

E6h

mm-xxx-xxx

VectorPath

~

10

 

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTPD2PI mmreg,

66h

0Fh

2Ch

11-xxx-xxx

VectorPath

~

8

1/2

 

xmmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTPD2PI mmreg,

66h

0Fh

2Ch

mm-xxx-xxx

VectorPath

~

10

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTPS2DQ xmmreg1,

F3h

0Fh

5Bh

11-xxx-xxx

Double

FSTORE

5

1/2

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTPS2DQ xmmreg,

F3h

0Fh

5Bh

mm-xxx-xxx

Double

FSTORE

7

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTSD2SI reg32/64,

F2h

0Fh

2Ch

11-xxx-xxx

Double

FSTORE

9

1/1

 

xmmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTSD2SI reg32/64,

F2h

0Fh

2Ch

mm-xxx-xxx

VectorPath

FADD/

10

1/1

 

mem64

 

 

 

 

 

FMUL/

 

 

 

 

 

 

 

 

 

FSTORE

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTSS2SI reg32/64,

F3h

0Fh

2Ch

11-xxx-xxx

Double

FSTORE

9

 

 

xmmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTTSS2SI reg32/64,

F3h

0Fh

2Ch

mm-xxx-xxx

VectorPath

~

10

 

 

mem32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Notes:

1. The low half of the result is available one cycle earlier than listed.

2. This is the execution latency for the instruction. The time to complete the external write depends on the memory speed and the hardware implementation.

328

Instruction Latencies

Appendix C

Page 344
Image 344
AMD 250 manual 328