分類變數意思

在統計學和數據分析中,分類變數(categorical variable)又稱為分類數據(categorical data)或定性變數(qualitative variable),它是一種變數類型,其值來自於有限的類別或類目(categories),而不是連續的數值範圍。分類變數的每個值都代表了一個特定的類別,這些類別通常是離散且不具備數量關係的。

分類變數可以進一步分為兩種類型:

  1. 二分變數(Binary variable):這種分類變數只有兩個類別,例如性別(男/女)、婚姻狀況(已婚/未婚)、存活狀態(生/死)等。

  2. 多類變數(Multicategory variable):這種分類變數有超過兩個類別,例如產品類別(電子產品、服飾、書籍等)、疾病類型(癌症、糖尿病、心臟病等)、教育水平(小學、中學、大學及以上等)。

在數據分析中,分類變數的值通常被編碼為數字,以便於計算和分析。例如,二分變數可以編碼為0和1,多類變數的每個類別可以編碼為獨特的整數。這種編碼方法有助於在計算機算法中處理分類變數,例如在機器學習模型中作為輸入特徵。

分類變數通常用於描述性統計、推斷統計和數據挖掘中,以幫助研究者了解數據的特徵、分類樣本、進行比較分析等。在實務應用中,分類變數的數據可以來自問卷調查、人口統計數據、市場研究、醫療記錄等各種來源。