【基礎資料探勘】Ch1 & Ch2 Part1
Ch1 Introduction
- Data Mining之Def : 透過自動或半自動的手段,去探索與分析大量資料,進而去發現有意義的Patterns
- Prediction Models : 使用一變數去預測其他變數的未知或未來值
- Description Models : 找到人類可解讀的Patterns,以描述資料
- Regression(迴歸) : 根據其他變數值,去假設一個Dependency的線性/非線性模型,預測一個給定連續變數的值
Ch2 Data
Attributes and Objects
- 名詞定義 :
- Data : Data Object與其Attributes之集合
- Attribute為一Obejct的特性或特徵
即資料庫中的Attribute
- Attributes之一集合稱為Object
即資料庫中的Tuple/Record
- Attribute Values : 分配給特定Object之Attribute的數字或符號
- 差異 :
- 相同Attribute (e.g. 高度) $\iff$ 不同Attribute Values(e.g. 英尺 or 公尺)
- 不同Attribute (e.g. 表達特性不同) $\iff$ 相同Attribute Values(e.g. ID與年齡都是Integer)
- 差異 :
- Types of Attributes :

- Discrete Attribute vs Continuous Attribute :
- Discrete Attribute :
- Def : 只有有限的一組Value
- 通常用Integer表示
- e.g. 郵遞區號、counts
- Binary attributes為特例
- Continuous Attribute :
- Def : 實數作為Attribute Values
- 通常用Floating-point Values
- e.g. 溫度、高度
- Discrete Attribute :
Types of Data
- Data的重要特徵 :
- Dimensionality(維度)、Sparsity(稀疏性)、Resolution(解析度)、Size(尺寸)
- Record Data : 一系列的Records所組成,其中包含固定的Attribute Sets
- Data Matrix : $m \times n$的表格,e.g. 資料庫的Table

- Document Data : 每個OBject的Attribute Value為該文件中Term的出現次數

- Transaction Data : 每筆Records都包含一組Items之集合

- Data Matrix : $m \times n$的表格,e.g. 資料庫的Table
- Graph Data : e.g. Generic graph, Webpages, 分子結構…
- Ordered Data
Data Quality Problems
- Noise(雜訊) :
- For Object : 一種無關的Object
- For Attribute : 表示原始值的更動
- Outliers(離群值) : 在資料集中,與大部分資料的特徵不同的Object
- Missing Values :
- 處理方式 : 刪除整個Obejct、估算該值、分析時忽略
- 種類 :
- Missing completely at random (MCAR / 完全隨機) :
- 遺漏值與Attribute沒有相關性
- 對整體資料不會形成偏差
- Missing at Random (MAR / 部分隨機) :
- 遺漏值與其他Variables有關
- 對整體資料通常會形成偏差
- Missing Not at Random (MNAR / 非隨機) :
- 遺漏值與未觀測資料有關
- Missing completely at random (MCAR / 完全隨機) :
- Duplicate Data
本部落格所有文章除特別聲明外,均採用 CC BY-NC-SA 4.0 許可協議。轉載請註明來自 Robin's Tech Blog!


