Sunday, December 28, 2008

Data Mining Chap 3 ─ Data Exploration

首先,
為什麼要做資料探勘?

資料探勘主要是初步的來了解資料的特性、特徵。
這可以有助於選擇正確的工具來進行前置處理(Preprocessing)或分析。
而且可以發揮人類對於識別特徵的強大能力。

事實上這會與另一個領域有所重疊,
即是探勘資料分析(Exploratory Data Analysis, EDA)。
EDA主要是透過視覺化分析資料來偵測前提或假設的錯誤。
其中兩個主要的技巧是分群(Clustering)與異常偵測(Anomaly Detection)。
但是這兩個技巧對Data Mining而言並不只是用在探勘,
而是另外兩個大主題並且在本書Chap9,10中介紹。

本章介紹以下三個重點,
1. 統計總結(Summary statistics)
在描述性統計(Descriptive statistics)中的統計總結主要包含下面三種測量
(1) 中心 (location or central tendency) - mean, mdian, mode
(2) 分佈 (dispersion or spread) - range, variance
(3) 外型 (shape) - skewness
2. 圖形化(Visualization)
是指將資料轉換成圖形化或是表格化呈現,
對人類而言如此容易識別一般性的樣式或趨勢,
也可以區分出非一般樣式或離群值(outliers)。
3. 線上分析處理(Online Analytical Processing, OLAP)
是一套有許多彈性操作的多維度資料分析法,
常用於決策支持系統。
主要是透過選取想要觀測的測量值當作多維陣列的維度,
並計算陣列中各個欄位(cell)的目標值(target value)。