• 1.摘要
  • 2.基本信息
  • 3.浮点数剖析
  • 3.1.本文表示比特的约定
  • 3.2.整体呈现
  • 3.3.浮点数的比较
  • 3.4.浮点数的舍入
  • 3.5.浮点数的运算与函数
  • 4.精度
  • 4.1.讨论一
  • 4.2.讨论二
  • 4.3.例子
  • 5.相关条目

IEEE 754

IEEE二进制浮点数算术标准IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denormal number)),一些特殊数值(无穷(Inf)与非数值(NaN)),以及这些数值的“浮点数运算符”;它也指明了四种数值舍入规则和五种例外状况(包括例外发生的时机与处理方式)。

IEEE 754规定了四种表示浮点数值的方式:单精确度(32位)、双精确度(64位)、延伸单精确度(43比特以上,很少使用)与延伸双精确度(79比特以上,通常以80位实现)。只有32位模式有强制要求,其他都是选择性的。大部分编程语言都有提供IEEE浮点数格式与算术,但有些将其列为非必需的。例如,IEEE 754问世之前就有的C语言,现在有包括IEEE算术,但不算作强制要求(C语言的float通常是指IEEE单精确度,而double是指双精确度)。

该标准的全称为IEEE二进制浮点数算术标准(ANSI/IEEE Std 754-1985),又称IEC 60559:1989,微处理器系统的二进制浮点数算术(本来的编号是IEC 559:1989)。后来还有“与基数无关的浮点数”的“IEEE 854-1987标准”,有规定基数为2跟10的状况。现在最新标准是“ISO/IEC/IEEE FDIS 60559:2010”。

基本信息

  • 中文名

    IEEE二进位浮点数算术标准

  • 外文名

    IEEE 754

  • 标准编号

    IEEE 754-2008

  • 等价标准

    ISO/IEC/IEEE 60559:2011

  • 标准名称

    IEEE浮点数算术标准

  • 制定机构

    微处理器标准委员会(MSC)

浮点数剖析

一个浮点数 (Value) 的表示其实可以这样表示:

image

也就是浮点数的实际值,等于符号位(sign bit)乘以指数偏移值(exponent bias)再乘以分数值(fraction)。

以下内文是IEEE 754对浮点数格式的描述。

本文表示比特的约定

把W个比特(bit)的数据,从内存地址低端到高端,以0到W−1编码。通常将内存地址低端的比特写在最右边,称作最低有效位(Least Significant Bit,LSB),代表最小的比特,改变时对整体数值影响最小的比特。声明这一点的必要性在于X86体系架构是小端序的数据存储。

对于十进制整数N,必要时表示为N10以与二进制的数的表示N2相区分。

对于一个数,其二进制科学计数法表示下的指数的值,下文称之为指数的实际值;而根据IEEE 754标准对指数部分的编码的值,称之为浮点数表示法指数域的编码值

整体呈现

图1

指数偏差

指数偏差(表示法中的指数为实际指数减掉某个值)为 ,其中的e为存储指数的比特的长度。减掉一个值因为指数必须是有号数才能表达很大或很小的数值,但是有号数通常的表示法——补码(two's complement),将会使比较变得困难。为了解决这个问题,指数在存储之前需要做偏差修正,将它的值调整到一个无符号数的范围内以便进行比较。此外,指数采用这种方法表示的优点还在于使得浮点数的正规形式和非正规形式之间有了一个平滑的转变。指数偏差

图2

指数偏移值

指数偏移值(exponent bias),是指浮点数表示法中的指数域的编码值为指数的实际值加上某个固定的值,IEEE 754标准规定该固定值为image,其中的image为存储指数的比特的长度。

以单精度浮点数为例,它的指数域是8个比特,固定偏移值是image。此为有号数的表示方式,单精度浮点数的指数部分实际取值是从-128到127。例如指数实际值为image,在单精度浮点数中的指数域编码值为image,即image

采用指数的实际值加上固定的偏移值的办法表示浮点数的指数,好处是可以用长度为image个比特的无符号整数来表示所有的指数取值,这使得两个浮点数的指数大小的比较更为容易,实际上可以按照字典序比较两个浮点表示的大小。

这种移码表示的指数部分,中文称作阶码