浮點運算是什麼意思

浮點運算(floating-point arithmetic)是計算機科學中的一個術語,用來描述對浮點數(floating-point number)進行運算的過程。浮點數是一種表示數字的方式,它允許在計算機中表示很大或很小的數字,並且具有一定的精確度。

在計算機中,數字通常以二進制形式儲存。對於整數,這通常很簡單,因為它們可以直接儲存在一個固定的位數中。但是,對於小數點位置不固定的數字,例如 1.23、0.123、123.0、1230.0 等,需要一種不同的表示法。這就是浮點數的用武之地。

浮點數由三部分組成:

  1. 符號位(sign bit):用來表示數字是正數還是負數。
  2. 指定位(exponent field):用來表示小數點的位置。
  3. 尾數位(mantissa or significand):實際的數字部分。

例如,在一個32位的浮點數格式中,可能有8位用於指定位,23位用於尾數位,1位用於符號位。這樣的浮點數格式稱為單精度浮點數(single-precision floating-point number)。還有另一種更精確的格式,稱為雙精度浮點數(double-precision floating-point number),它使用64位,其中11位用於指定位,52位用於尾數位。

浮點運算包括對浮點數的加法、減法、乘法和除法等運算。由於浮點數的表示和運算具有一定的局限性,例如精確度的限制和運算時可能發生的溢出或下溢,因此浮點運算可能會導致數字的不精確表示或運算結果的丟失精度。

為了處理這些問題,計算機科學家和工程師們制定了一系列的標準和規範,如IEEE 754標準,來確保浮點運算的一致性和可靠性。這些標準規定了浮點數的表示法,以及如何處理運算中的特殊情況,如數字為零、數字非常大或非常小、數字相等但指定位不同(即數字為 NaN,即非數字)等。