25112 Rev. 3.06 September 2005

Software Optimization Guide for AMD64 Processors

Table 19. SSE2 Instructions (Continued)

 

 

Encoding

 

 

Latency

Throughput

 

 

 

 

 

 

 

 

Syntax

 

 

 

 

Decode

FPU

 

 

Note

Prefix

First

2nd

 

 

 

ModRM byte

type

pipe(s)

 

 

 

 

 

 

 

byte

byte

byte

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTDQ2PS xmmreg1,

0Fh

5Bh

 

11-xxx-xxx

Double

FSTORE

5

1/2

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTDQ2PS xmmreg,

0Fh

5Bh

 

mm-xxx-xxx

Double

FSTORE

7

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPD2DQ xmmreg1,

F2h

0Fh

E6h

11-xxx-xxx

VectorPath

~

8

 

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPD2DQ xmmreg,

F2h

0Fh

E6h

mm-xxx-xxx

VectorPath

~

10

 

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPD2PI mmreg,

66h

0Fh

2Dh

11-xxx-xxx

VectorPath

~

8

1/2

 

xmmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPD2PI mmreg,

66h

0Fh

2Dh

mm-xxx-xxx

VectorPath

~

10

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPD2PS xmmreg1,

66h

0Fh

5Ah

11-xxx-xxx

VectorPath

~

8

 

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPD2PS xmmreg,

66h

0Fh

5Ah

mm-xxx-xxx

VectorPath

~

10

 

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPI2PD xmmreg,

66H

0FH

2Ah

11-xxx-xxx

Double

FSTORE

5

1/2

 

mmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPI2PD xmmreg,

66H

0FH

2Ah

mm-xxx-xxx

Double

FSTORE

7

1/2

 

mem64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPS2DQ xmmreg1,

66h

0Fh

5Bh

11-xxx-xxx

Double

FSTORE

5

1/2

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPS2DQ xmmreg,

66h

0Fh

5Bh

mm-xxx-xxx

Double

FSTORE

7

1/2

 

mem128

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPS2PD xmmreg1,

0Fh

5Ah

 

11-xxx-xxx

Double

~

3

1/2

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTPS2PD xmmreg,

0Fh

5Ah

 

mm-xxx-xxx

Double

~

5

1/2

 

mem64

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSD2SI reg32/64,

F2h

0Fh

2Dh

11-xxx-xxx

Double

FSTORE

9

1/1

 

xmmreg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSD2SI reg32/64,

F2h

0Fh

2Dh

mm-xxx-xxx

VectorPath

FADD/

10

1/1

 

mem64

 

 

 

 

 

FMUL/

 

 

 

 

 

 

 

 

 

FSTORE

 

 

 

 

 

 

 

 

 

 

 

 

 

CVTSD2SS xmmreg1,

F2h

0Fh

5Ah

11-xxx-xxx

VectorPath

FSTORE

12

 

 

xmmreg2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Notes:

1. The low half of the result is available one cycle earlier than listed.

2. This is the execution latency for the instruction. The time to complete the external write depends on the memory speed and the hardware implementation.

Appendix C

Instruction Latencies

327

Page 343
Image 343
AMD 250 manual 327, 0FH, Fmul Fstore