啞變數意思

在統計學和數據分析中,"啞變數"(Dummy Variable 或 Indicator Variable)是指用來代表分類變量的數字變量。這些變量通常取值為0或1,用來指示某個屬性或類別的存在或不存在。啞變數也被稱為虛擬變量、指示變量或代數變量。

例如,假設我們有一個分類變量"性別",可以分為"男"和"女"兩類。我們可以用兩個啞變數來代表這個分類變量:

在實踐中,啞變量通常用於將分類數據納入數學模型或統計分析中,例如在線性回歸、Logistic回歸或判別分析中。如果一個分類變量有K個類別,那麼通常會創建K-1個啞變量來代表它,這樣可以避免冗餘並保持模型的解析性。

需要注意的是,在使用啞變量時,通常會將其中一個類別作為參照類別(Reference Category),將其啞變量設置為0,其他類別的啞變量相對於這個參照類別會有不同的值。這樣做是為了在模型中保持唯一性,並且使得不同類別之間的比較成為可能。