* device/include/pic16/pic18f*.h: add bit aliases in INTCONbits_t
[fw/sdcc] / device / lib / _fsmul.c
index 48c92ed5d0a26874f5bcdf4ace589b9848eaf66a..1f36d603d97830dabfec4971afcb8d40ea97b06f 100644 (file)
@@ -1,3 +1,208 @@
+/* Floating point library in optimized assembly for 8051
+ * Copyright (c) 2004, Paul Stoffregen, paul@pjrc.com
+ *
+ * This program is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Library General Public License
+ * as published by the Free Software Foundation; either version 2
+ * of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
+ * Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.
+ */
+
+
+#define SDCC_FLOAT_LIB
+#include <float.h>
+
+
+#ifdef FLOAT_ASM_MCS51
+
+// float __fsmul (float a, float b) __reentrant
+static void dummy(void) __naked
+{
+       __asm
+       .globl  ___fsmul
+___fsmul:
+       // extract the two inputs, placing them into:
+       //      sign     exponent   mantissa
+       //      ----     --------   --------
+       //  a:  sign_a   exp_a      r4/r3/r2
+       //  b:  sign_b   exp_b      r7/r6/r5
+
+       lcall   fsgetargs
+
+       // first check if either input is zero
+       cjne    r4, #0, 00002$
+00001$:
+       ljmp    fs_return_zero
+
+00002$:
+       mov     a, r7
+       jz      00001$
+
+       // compute final sign bit
+       jnb     sign_b, 00003$
+       cpl     sign_a
+00003$:
+
+       // check if either input is infinity
+       mov     a, exp_b
+       cjne    a, #0xFF, 00004$
+       ljmp    fs_return_inf
+00004$:
+       mov     a, exp_a
+       cjne    a, #0xFF, 00005$
+       ljmp    fs_return_inf
+00005$:
+
+       // add the exponents
+       add     a, exp_b
+       // if carry then no underflow
+       jc      00006$
+       add     a, #130
+       jc      00007$
+       ljmp    fs_return_zero
+
+00006$:
+       add     a, #131
+       dec     a
+       jnc     00007$
+       ljmp    fs_return_inf
+
+00007$:
+       mov     exp_a, a
+
+       // now we need to multipy r4/r3/r2 * r7/r6/r5
+       // ------------------------------------------
+       //                              r2 * r5         << 0
+       //                  r3 * r5  +  r2 * r6         << 8
+       //      r4 * r5  +  r3 * r6  +  r2 * r7         << 16
+       //      r4 * r6  +  r3 * r7                     << 24
+       //      r4 * r7                                 << 32
+       //
+       // This adds quite a bit of code, but it is a LOT faster
+       // than three calls to __mululong...
+
+       // output goes into r4/r3/r2/r1/r0/xx
+
+       mov     a, r2
+       mov     b, r5
+       mul     ab                      // r2 * r5
+       // discard lowest 8 bits
+       mov     r0, b
+       // range 0-FE
+
+       mov     a, r2
+       mov     b, r6
+       mul     ab                      // r2 * r6
+       add     a, r0
+       mov     r0, a
+       clr     a
+       addc    a, b
+       mov     r1, a
+       // range 0-FEFF
+
+       mov     a, r3
+       mov     b, r5
+       mul     ab                      // r3 * r5
+       add     a, r0
+       // discard lowest 8 bits
+       mov     a, r1
+       addc    a, b
+       mov     r1, a
+       clr     a
+       rlc     a
+       xch     a, r2
+       // range 0-1FD
+
+       mov     b, r7
+       mul     ab                      // r2 * r7
+       add     a, r1
+       mov     r1, a
+       mov     a, r2
+       addc    a, b
+       mov     r2, a
+       // range 0-FFFE
+
+       mov     a, r3
+       mov     r0, a
+       mov     b, r6
+       mul     ab                      // r3 * r6
+       add     a, r1
+       mov     r1, a
+       mov     a, r2
+       addc    a, b
+       mov     r2, a
+       clr     a
+       rlc     a
+       mov     r3, a
+       // range 0-1FDFF
+
+       mov     a, r4
+       mov     b, r5
+       mul     ab                      // r4 * r5
+       add     a, r1
+       mov     r1, a
+       mov     a, r2
+       addc    a, b
+       mov     r2, a
+       clr     a
+       addc    a, r3
+       mov     r3, a
+       // range 0-2FC00
+
+       mov     a, r0 // r3
+       mov     b, r7
+       mul     ab                      // r3 * r7
+       add     a, r2
+       mov     r2, a
+       mov     a, r3
+       addc    a, b
+       mov     r3, a
+       clr     a
+       rlc     a
+       xch     a, r4
+       // range 0-100FD00
+
+       mov     r5, a
+       mov     b, r6
+       mul     ab                      // r4 * r6
+       add     a, r2
+       mov     r2, a
+       mov     a, r3
+       addc    a, b
+       mov     r3, a
+       clr     a
+       addc    a, r4
+       mov     r4, a
+       // range 0-1FEFE00
+
+       mov     a, r5 // r4
+       mov     b, r7
+       mul     ab                      // r4 * r7
+       add     a, r3
+       mov     r3, a
+       mov     a, r4
+       addc    a, b
+       mov     r4, a
+       // range 40000000-FFFFFE00
+
+       jb      acc.7, 00010$
+       lcall   fs_normalize_a
+
+00010$:
+       ljmp    fs_round_and_return
+       __endasm;
+}
+
+#else
+
 /*
 ** libgcc support for software floating point.
 ** Copyright (C) 1991 by Pipeline Associates, Inc.  All rights reserved.
 ** I would appreciate receiving any updates/patches/changes that anyone
 ** makes, and am willing to be the repository for said changes (am I
 ** making a big mistake?).
-
-Warning! Only single-precision is actually implemented.  This file
-won't really be much use until double-precision is supported.
-
-However, once that is done, this file might eventually become a
-replacement for libgcc1.c.  It might also make possible
-cross-compilation for an IEEE target machine from a non-IEEE
-host such as a VAX.
-
-If you'd like to work on completing this, please talk to rms@gnu.ai.mit.edu.
-
-
 **
 ** Pat Wood
 ** Pipeline Associates, Inc.
 ** pipeline!phw@motown.com or
 ** sun!pipeline!phw or
 ** uunet!motown!pipeline!phw
-**
-** 05/01/91 -- V1.0 -- first release to gcc mailing lists
-** 05/04/91 -- V1.1 -- added float and double prototypes and return values
-**                  -- fixed problems with adding and subtracting zero
-**                  -- fixed rounding in truncdfsf2
-**                  -- fixed SWAP define and tested on 386
 */
 
-/*
-** The following are routines that replace the libgcc soft floating point
-** routines that are called automatically when -msoft-float is selected.
-** The support single and double precision IEEE format, with provisions
-** for byte-swapped machines (tested on 386).  Some of the double-precision
-** routines work at full precision, but most of the hard ones simply punt
-** and call the single precision routines, producing a loss of accuracy.
-** long long support is not assumed or included.
-** Overall accuracy is close to IEEE (actually 68882) for single-precision
-** arithmetic.  I think there may still be a 1 in 1000 chance of a bit
-** being rounded the wrong way during a multiply.  I'm not fussy enough to
-** bother with it, but if anyone is, knock yourself out.
-**
-** Efficiency has only been addressed where it was obvious that something
-** would make a big difference.  Anyone who wants to do this right for
-** best speed should go in and rewrite in assembler.
-**
-** I have tested this only on a 68030 workstation and 386/ix integrated
-** in with -msoft-float.
-*/
-
-/* the following deal with IEEE single-precision numbers */
-#define EXCESS         126
-#define SIGNBIT                ((unsigned long)0x80000000)
-#define HIDDEN         (unsigned long)(1 << 23)
-#define SIGN(fp)       ((fp >> (8*sizeof(fp)-1)) & 1)
-#define EXP(fp)                (((fp) >> 23) & (unsigned int) 0x00FF)
-#define MANT(fp)       (((fp) & (unsigned long)0x007FFFFF) | HIDDEN)
-#define PACK(s,e,m)    ((s) | ((e) << 23) | (m))
-
-/* the following deal with IEEE double-precision numbers */
-#define EXCESSD                1022
-#define HIDDEND                (1 << 20)
-#define EXPD(fp)       (((fp.l.upper) >> 20) & 0x7FF)
-#define SIGND(fp)      ((fp.l.upper) & SIGNBIT)
-#define MANTD(fp)      (((((fp.l.upper) & 0xFFFFF) | HIDDEND) << 10) | \
-                               (fp.l.lower >> 22))
+/* (c)2000/2001: hacked a little by johan.knol@iduna.nl for sdcc */
 
 union float_long
   {
     float f;
-    long l;
+    unsigned long l;
   };
 
 /* multiply two floats */
-float
-__fsmul (float a1, float a2)
-{
+float __fsmul (float a1, float a2) {
   volatile union float_long fl1, fl2;
   volatile unsigned long result;
   volatile int exp;
-  short sign;
+  char sign;
 
   fl1.f = a1;
   fl2.f = a2;
@@ -104,7 +253,7 @@ __fsmul (float a1, float a2)
   result += ((fl1.l & (unsigned long) 0xFF) * (fl2.l >> 8)) >> 8;
   result += ((fl2.l & (unsigned long) 0xFF) * (fl1.l >> 8)) >> 8;
 
-  if (result & (unsigned long)0x80000000)
+  if (result & SIGNBIT)
     {
       /* round */
       result += 0x80;
@@ -121,6 +270,13 @@ __fsmul (float a1, float a2)
   result &= ~HIDDEN;
 
   /* pack up and go home */
-  fl1.l = PACK (sign ? ((unsigned long) 0x80000000) : 0 , (unsigned long)exp, result);  
+  if (exp >= 0x100)
+    fl1.l = (sign ? SIGNBIT : 0) | __INFINITY;
+  else if (exp < 0)
+    fl1.l = 0;
+  else
+    fl1.l = PACK (sign ? SIGNBIT : 0 , exp, result);
   return (fl1.f);
 }
+
+#endif