偽＊Hi Me: December 2008

首先,

為什麼要做資料探勘？

資料探勘主要是初步的來了解資料的特性、特徵。

這可以有助於選擇正確的工具來進行前置處理(Preprocessing)或分析。

而且可以發揮人類對於識別特徵的強大能力。

事實上這會與另一個領域有所重疊,

即是探勘資料分析(Exploratory Data Analysis, EDA)。

EDA主要是透過視覺化分析資料來偵測前提或假設的錯誤。

其中兩個主要的技巧是分群(Clustering)與異常偵測(Anomaly Detection)。

但是這兩個技巧對Data Mining而言並不只是用在探勘,

而是另外兩個大主題並且在本書Chap9,10中介紹。

本章介紹以下三個重點,

1. 統計總結(Summary statistics)

在描述性統計(Descriptive statistics)中的統計總結主要包含下面三種測量

(1) 中心 (location or central tendency) － mean, mdian, mode

(2) 分佈 (dispersion or spread) － range, variance

(3) 外型 (shape) - skewness

2. 圖形化(Visualization)

是指將資料轉換成圖形化或是表格化呈現,

對人類而言如此容易識別一般性的樣式或趨勢,

也可以區分出非一般樣式或離群值(outliers)。

3. 線上分析處理(Online Analytical Processing, OLAP)

是一套有許多彈性操作的多維度資料分析法，

常用於決策支持系統。

主要是透過選取想要觀測的測量值當作多維陣列的維度，

並計算陣列中各個欄位(cell)的目標值(target value)。

偽＊Hi Me