Hex Artifact Content
Not logged in

Artifact 417bfceea27cac9ef08fb2d7ad16f4699ebc7e4c:


0000: 64 6e 6c 20 20 50 65 6e 74 69 75 6d 2d 34 20 6d  dnl  Pentium-4 m
0010: 70 6e 5f 63 6f 70 79 69 20 2d 2d 20 63 6f 70 79  pn_copyi -- copy
0020: 20 6c 69 6d 62 20 76 65 63 74 6f 72 2c 20 69 6e   limb vector, in
0030: 63 72 65 6d 65 6e 74 69 6e 67 2e 0a 64 6e 6c 0a  crementing..dnl.
0040: 0a 64 6e 6c 20 20 43 6f 70 79 72 69 67 68 74 20  .dnl  Copyright 
0050: 31 39 39 39 2c 20 32 30 30 30 2c 20 32 30 30 31  1999, 2000, 2001
0060: 20 46 72 65 65 20 53 6f 66 74 77 61 72 65 20 46   Free Software F
0070: 6f 75 6e 64 61 74 69 6f 6e 2c 20 49 6e 63 2e 0a  oundation, Inc..
0080: 64 6e 6c 20 0a 64 6e 6c 20 20 54 68 69 73 20 66  dnl .dnl  This f
0090: 69 6c 65 20 69 73 20 70 61 72 74 20 6f 66 20 74  ile is part of t
00a0: 68 65 20 47 4e 55 20 4d 50 20 4c 69 62 72 61 72  he GNU MP Librar
00b0: 79 2e 0a 64 6e 6c 20 0a 64 6e 6c 20 20 54 68 65  y..dnl .dnl  The
00c0: 20 47 4e 55 20 4d 50 20 4c 69 62 72 61 72 79 20   GNU MP Library 
00d0: 69 73 20 66 72 65 65 20 73 6f 66 74 77 61 72 65  is free software
00e0: 3b 20 79 6f 75 20 63 61 6e 20 72 65 64 69 73 74  ; you can redist
00f0: 72 69 62 75 74 65 20 69 74 20 61 6e 64 2f 6f 72  ribute it and/or
0100: 0a 64 6e 6c 20 20 6d 6f 64 69 66 79 20 69 74 20  .dnl  modify it 
0110: 75 6e 64 65 72 20 74 68 65 20 74 65 72 6d 73 20  under the terms 
0120: 6f 66 20 74 68 65 20 47 4e 55 20 4c 65 73 73 65  of the GNU Lesse
0130: 72 20 47 65 6e 65 72 61 6c 20 50 75 62 6c 69 63  r General Public
0140: 20 4c 69 63 65 6e 73 65 20 61 73 0a 64 6e 6c 20   License as.dnl 
0150: 20 70 75 62 6c 69 73 68 65 64 20 62 79 20 74 68   published by th
0160: 65 20 46 72 65 65 20 53 6f 66 74 77 61 72 65 20  e Free Software 
0170: 46 6f 75 6e 64 61 74 69 6f 6e 3b 20 65 69 74 68  Foundation; eith
0180: 65 72 20 76 65 72 73 69 6f 6e 20 32 2e 31 20 6f  er version 2.1 o
0190: 66 20 74 68 65 0a 64 6e 6c 20 20 4c 69 63 65 6e  f the.dnl  Licen
01a0: 73 65 2c 20 6f 72 20 28 61 74 20 79 6f 75 72 20  se, or (at your 
01b0: 6f 70 74 69 6f 6e 29 20 61 6e 79 20 6c 61 74 65  option) any late
01c0: 72 20 76 65 72 73 69 6f 6e 2e 0a 64 6e 6c 20 0a  r version..dnl .
01d0: 64 6e 6c 20 20 54 68 65 20 47 4e 55 20 4d 50 20  dnl  The GNU MP 
01e0: 4c 69 62 72 61 72 79 20 69 73 20 64 69 73 74 72  Library is distr
01f0: 69 62 75 74 65 64 20 69 6e 20 74 68 65 20 68 6f  ibuted in the ho
0200: 70 65 20 74 68 61 74 20 69 74 20 77 69 6c 6c 20  pe that it will 
0210: 62 65 20 75 73 65 66 75 6c 2c 0a 64 6e 6c 20 20  be useful,.dnl  
0220: 62 75 74 20 57 49 54 48 4f 55 54 20 41 4e 59 20  but WITHOUT ANY 
0230: 57 41 52 52 41 4e 54 59 3b 20 77 69 74 68 6f 75  WARRANTY; withou
0240: 74 20 65 76 65 6e 20 74 68 65 20 69 6d 70 6c 69  t even the impli
0250: 65 64 20 77 61 72 72 61 6e 74 79 20 6f 66 0a 64  ed warranty of.d
0260: 6e 6c 20 20 4d 45 52 43 48 41 4e 54 41 42 49 4c  nl  MERCHANTABIL
0270: 49 54 59 20 6f 72 20 46 49 54 4e 45 53 53 20 46  ITY or FITNESS F
0280: 4f 52 20 41 20 50 41 52 54 49 43 55 4c 41 52 20  OR A PARTICULAR 
0290: 50 55 52 50 4f 53 45 2e 20 20 53 65 65 20 74 68  PURPOSE.  See th
02a0: 65 20 47 4e 55 0a 64 6e 6c 20 20 4c 65 73 73 65  e GNU.dnl  Lesse
02b0: 72 20 47 65 6e 65 72 61 6c 20 50 75 62 6c 69 63  r General Public
02c0: 20 4c 69 63 65 6e 73 65 20 66 6f 72 20 6d 6f 72   License for mor
02d0: 65 20 64 65 74 61 69 6c 73 2e 0a 64 6e 6c 20 0a  e details..dnl .
02e0: 64 6e 6c 20 20 59 6f 75 20 73 68 6f 75 6c 64 20  dnl  You should 
02f0: 68 61 76 65 20 72 65 63 65 69 76 65 64 20 61 20  have received a 
0300: 63 6f 70 79 20 6f 66 20 74 68 65 20 47 4e 55 20  copy of the GNU 
0310: 4c 65 73 73 65 72 20 47 65 6e 65 72 61 6c 20 50  Lesser General P
0320: 75 62 6c 69 63 0a 64 6e 6c 20 20 4c 69 63 65 6e  ublic.dnl  Licen
0330: 73 65 20 61 6c 6f 6e 67 20 77 69 74 68 20 74 68  se along with th
0340: 65 20 47 4e 55 20 4d 50 20 4c 69 62 72 61 72 79  e GNU MP Library
0350: 3b 20 73 65 65 20 74 68 65 20 66 69 6c 65 20 43  ; see the file C
0360: 4f 50 59 49 4e 47 2e 4c 49 42 2e 20 20 49 66 0a  OPYING.LIB.  If.
0370: 64 6e 6c 20 20 6e 6f 74 2c 20 77 72 69 74 65 20  dnl  not, write 
0380: 74 6f 20 74 68 65 20 46 72 65 65 20 53 6f 66 74  to the Free Soft
0390: 77 61 72 65 20 46 6f 75 6e 64 61 74 69 6f 6e 2c  ware Foundation,
03a0: 20 49 6e 63 2e 2c 20 35 39 20 54 65 6d 70 6c 65   Inc., 59 Temple
03b0: 20 50 6c 61 63 65 20 2d 0a 64 6e 6c 20 20 53 75   Place -.dnl  Su
03c0: 69 74 65 20 33 33 30 2c 20 42 6f 73 74 6f 6e 2c  ite 330, Boston,
03d0: 20 4d 41 20 30 32 31 31 31 2d 31 33 30 37 2c 20   MA 02111-1307, 
03e0: 55 53 41 2e 0a 0a 0a 64 6e 6c 20 20 54 68 65 20  USA....dnl  The 
03f0: 72 65 70 2f 6d 6f 76 73 6c 20 69 73 20 76 65 72  rep/movsl is ver
0400: 79 20 73 6c 6f 77 20 66 6f 72 20 73 6d 61 6c 6c  y slow for small
0410: 20 62 6c 6f 63 6b 73 20 6f 6e 20 70 65 6e 74 69   blocks on penti
0420: 75 6d 34 2e 20 20 49 74 73 20 73 74 61 72 74 75  um4.  Its startu
0430: 70 0a 64 6e 6c 20 20 74 69 6d 65 20 73 65 65 6d  p.dnl  time seem
0440: 73 20 74 6f 20 62 65 20 61 62 6f 75 74 20 31 31  s to be about 11
0450: 30 20 63 79 63 6c 65 73 2e 20 20 49 74 20 74 68  0 cycles.  It th
0460: 65 6e 20 63 6f 70 69 65 73 20 61 74 20 61 20 72  en copies at a r
0470: 61 74 65 20 6f 66 20 6f 6e 65 0a 64 6e 6c 20 20  ate of one.dnl  
0480: 6c 69 6d 62 20 70 65 72 20 63 79 63 6c 65 2e 20  limb per cycle. 
0490: 20 57 65 20 74 68 65 72 65 66 6f 72 65 20 66 61   We therefore fa
04a0: 6c 6c 20 62 61 63 6b 20 74 6f 20 61 6e 20 6f 70  ll back to an op
04b0: 65 6e 2d 63 6f 64 65 64 20 32 20 63 2f 6c 20 63  en-coded 2 c/l c
04c0: 6f 70 79 69 6e 67 0a 64 6e 6c 20 20 6c 6f 6f 70  opying.dnl  loop
04d0: 20 66 6f 72 20 73 6d 61 6c 6c 65 72 20 73 69 7a   for smaller siz
04e0: 65 73 2e 0a 0a 64 6e 6c 20 20 55 6c 74 69 6d 61  es...dnl  Ultima
04f0: 74 65 6c 79 2c 20 77 65 20 6d 61 79 20 77 61 6e  tely, we may wan
0500: 74 20 74 6f 20 75 73 65 20 36 34 2d 62 69 74 20  t to use 64-bit 
0510: 6d 6f 76 64 20 6f 72 20 31 32 38 2d 62 69 74 20  movd or 128-bit 
0520: 6d 6f 76 64 71 75 20 69 6e 20 73 6f 6d 65 0a 64  movdqu in some.d
0530: 6e 6c 20 20 6e 69 66 74 79 20 75 6e 72 6f 6c 6c  nl  nifty unroll
0540: 65 64 20 61 72 72 61 6e 67 65 6d 65 6e 74 2e 20  ed arrangement. 
0550: 20 43 6c 65 61 72 6c 79 2c 20 74 68 61 74 20 63   Clearly, that c
0560: 6f 75 6c 64 20 72 65 61 63 68 20 6d 75 63 68 20  ould reach much 
0570: 68 69 67 68 65 72 0a 64 6e 6c 20 20 73 70 65 65  higher.dnl  spee
0580: 64 73 2c 20 61 74 20 6c 65 61 73 74 20 66 6f 72  ds, at least for
0590: 20 6c 61 72 67 65 20 62 6c 6f 63 6b 73 2e 0a 0a   large blocks...
05a0: 69 6e 63 6c 75 64 65 28 60 2e 2e 2f 63 6f 6e 66  include(`../conf
05b0: 69 67 2e 6d 34 27 29 0a 0a 0a 64 65 66 66 72 61  ig.m4')...deffra
05c0: 6d 65 28 50 41 52 41 4d 5f 53 49 5a 45 2c 20 31  me(PARAM_SIZE, 1
05d0: 32 29 0a 64 65 66 66 72 61 6d 65 28 50 41 52 41  2).defframe(PARA
05e0: 4d 5f 53 52 43 2c 20 38 29 0a 64 65 66 66 72 61  M_SRC, 8).deffra
05f0: 6d 65 28 50 41 52 41 4d 5f 44 53 54 2c 20 20 34  me(PARAM_DST,  4
0600: 29 0a 0a 09 54 45 58 54 0a 09 41 4c 49 47 4e 28  )...TEXT..ALIGN(
0610: 38 29 0a 0a 50 52 4f 4c 4f 47 55 45 28 6d 70 6e  8)..PROLOGUE(mpn
0620: 5f 63 6f 70 79 69 29 0a 64 65 66 6c 69 74 28 60  _copyi).deflit(`
0630: 46 52 41 4d 45 27 2c 30 29 0a 0a 09 6d 6f 76 6c  FRAME',0)...movl
0640: 09 50 41 52 41 4d 5f 53 49 5a 45 2c 20 25 65 63  .PARAM_SIZE, %ec
0650: 78 0a 09 63 6d 70 6c 09 24 31 35 30 2c 20 25 65  x..cmpl.$150, %e
0660: 63 78 0a 09 6a 67 09 4c 28 72 65 70 6c 6d 6f 76  cx..jg.L(replmov
0670: 73 29 0a 0a 09 6d 6f 76 6c 09 50 41 52 41 4d 5f  s)...movl.PARAM_
0680: 53 52 43 2c 20 25 65 61 78 0a 09 6d 6f 76 6c 09  SRC, %eax..movl.
0690: 50 41 52 41 4d 5f 44 53 54 2c 20 25 65 64 78 0a  PARAM_DST, %edx.
06a0: 09 6d 6f 76 6c 09 25 65 62 78 2c 20 50 41 52 41  .movl.%ebx, PARA
06b0: 4d 5f 53 49 5a 45 0a 09 74 65 73 74 6c 09 25 65  M_SIZE..testl.%e
06c0: 63 78 2c 20 25 65 63 78 0a 09 6a 7a 09 4c 28 65  cx, %ecx..jz.L(e
06d0: 6e 64 29 0a 0a 4c 28 6c 6f 6f 70 29 3a 0a 09 6d  nd)..L(loop):..m
06e0: 6f 76 6c 09 28 25 65 61 78 29 2c 20 25 65 62 78  ovl.(%eax), %ebx
06f0: 0a 09 6c 65 61 6c 09 34 28 25 65 61 78 29 2c 20  ..leal.4(%eax), 
0700: 25 65 61 78 0a 09 61 64 64 6c 09 24 2d 31 2c 20  %eax..addl.$-1, 
0710: 25 65 63 78 0a 09 6d 6f 76 6c 09 25 65 62 78 2c  %ecx..movl.%ebx,
0720: 20 28 25 65 64 78 29 0a 09 6c 65 61 6c 09 34 28   (%edx)..leal.4(
0730: 25 65 64 78 29 2c 20 25 65 64 78 0a 0a 09 6a 6e  %edx), %edx...jn
0740: 7a 09 4c 28 6c 6f 6f 70 29 0a 0a 4c 28 65 6e 64  z.L(loop)..L(end
0750: 29 3a 0a 09 6d 6f 76 6c 09 50 41 52 41 4d 5f 53  ):..movl.PARAM_S
0760: 49 5a 45 2c 20 25 65 62 78 0a 09 72 65 74 0a 0a  IZE, %ebx..ret..
0770: 4c 28 72 65 70 6c 6d 6f 76 73 29 3a 0a 09 63 6c  L(replmovs):..cl
0780: 64 09 43 20 62 65 74 74 65 72 20 73 61 66 65 20  d.C better safe 
0790: 74 68 61 6e 20 73 6f 72 72 79 2c 20 73 65 65 20  than sorry, see 
07a0: 6d 70 6e 2f 78 38 36 2f 52 45 41 44 4d 45 0a 0a  mpn/x86/README..
07b0: 09 6d 6f 76 6c 09 25 65 73 69 2c 20 25 65 61 78  .movl.%esi, %eax
07c0: 0a 09 6d 6f 76 6c 09 50 41 52 41 4d 5f 53 52 43  ..movl.PARAM_SRC
07d0: 2c 20 25 65 73 69 0a 09 6d 6f 76 6c 09 25 65 64  , %esi..movl.%ed
07e0: 69 2c 20 25 65 64 78 0a 09 6d 6f 76 6c 09 50 41  i, %edx..movl.PA
07f0: 52 41 4d 5f 44 53 54 2c 20 25 65 64 69 0a 0a 09  RAM_DST, %edi...
0800: 72 65 70 0a 09 6d 6f 76 73 6c 0a 0a 09 6d 6f 76  rep..movsl...mov
0810: 6c 09 25 65 61 78 2c 20 25 65 73 69 0a 09 6d 6f  l.%eax, %esi..mo
0820: 76 6c 09 25 65 64 78 2c 20 25 65 64 69 0a 0a 09  vl.%edx, %edi...
0830: 72 65 74 0a 0a 45 50 49 4c 4f 47 55 45 28 29 0a  ret..EPILOGUE().