224

25112 Rev. 3.06 September 2005

mulps xmm2, xmm6		; xmm2=[x1iy1r,-x1iy1i,x0iy0r,-x0iy0i]
mulps xmm3, xmm7		; xmm3=[x3iy3r,-x3iy3i,x2iy2r,-x2iy2i]
addps xmm0, xmm2		; xmm0=[x1ry1i+x1iy1r,x1ry1r-x1iy1i,
		;	x0ry0i+x0iy0r,x0ry0r-x0iy0i]
addps xmm1, xmm3		; xmm1=[x3ry3i+x3iy3r,x3ry3r-x3iy3i,
		;	x2ry2i+x2iy2r,x2ry2r-x2iy2i]
movntps	[eax+ecx*8], xmm0	; Stream XMM0 and XMM1 to representative
movntps	[eax+ecx*8+16], xmm1	;	memory address of prod[].
add	ecx, 4	; ECX = ECX + 4
jnz	eight_cmplx_prod_loop
sfence	; Finish all memory writes.

;==============================================================================

;INSTRUCTIONS BELOW RESTORE THE REGISTER STATE WITH WHICH THIS ROUTINE WAS

;ENTERED

;REGISTERS EAX, ECX, AND EDX ARE CONSIDERED VOLATILE AND ASSUMED TO BE CHANGED

;WHILE THE REGISTERS BELOW MUST BE PRESERVED IF THE USER IS CHANGING THEM add esp, 32

pop edi pop esi

pop ebx

mov esp, ebp pop ebp

;============================================================================== ret

_cmplx_multiply_sse ENDP _TEXT ENDS

Listing 26. Complex Multiplication of Streams of Complex Numbers (3DNow!™ Technology)

;cmplx_multiply_3dnow(float *x, float *y, int num_cmplx_elem, float *prod);

;TO ASSEMBLE INTO *.obj DO THE FOLLOWING:

;ml.exe -coff -c cmplx_multiply_3dnow.asm

;

.586

.K3D

PUBLIC _cmplx_multiply_3dnow

;cmplx_multiply_3dnow(float *x, float *y, int num_cmplx_elem, float *prod);

;

;TO ASSEMBLE INTO *.obj DO THE FOLLOWING:

;ml.exe -coff -c cmplx_multiply_3dnow.asm

.586

.K3D

PUBLIC _cmplx_multiply_3dnow

Optimizing with SIMD Instructions

Chapter 9

AMD 250 manual 224