Ch1 Introduction

  • Data Mining之Def : 透過自動或半自動的手段,去探索與分析大量資料,進而去發現有意義的Patterns
  • Prediction Models : 使用一變數去預測其他變數的未知或未來值
  • Description Models : 找到人類可解讀的Patterns,以描述資料
  • Regression(迴歸) : 根據其他變數值,去假設一個Dependency的線性/非線性模型,預測一個給定連續變數的值

Ch2 Data

Attributes and Objects

  • 名詞定義 :
    • Data : Data Object與其Attributes之集合
    • Attribute為一Obejct的特性或特徵

      即資料庫中的Attribute

    • Attributes之一集合稱為Object

      即資料庫中的Tuple/Record

    • Attribute Values : 分配給特定Object之Attribute的數字或符號
      • 差異 :
        • 相同Attribute (e.g. 高度) $\iff$ 不同Attribute Values(e.g. 英尺 or 公尺)
        • 不同Attribute (e.g. 表達特性不同) $\iff$ 相同Attribute Values(e.g. ID與年齡都是Integer)
  • Types of Attributes :
  • Discrete Attribute vs Continuous Attribute :
    • Discrete Attribute :
      • Def : 只有有限的一組Value
      • 通常用Integer表示
      • e.g. 郵遞區號、counts
      • Binary attributes為特例
    • Continuous Attribute :
      • Def : 實數作為Attribute Values
      • 通常用Floating-point Values
      • e.g. 溫度、高度

Types of Data

  • Data的重要特徵 :
    • Dimensionality(維度)、Sparsity(稀疏性)、Resolution(解析度)、Size(尺寸)
  • Record Data : 一系列的Records所組成,其中包含固定的Attribute Sets
    • Data Matrix : $m \times n$的表格,e.g. 資料庫的Table
    • Document Data : 每個OBject的Attribute Value為該文件中Term的出現次數
    • Transaction Data : 每筆Records都包含一組Items之集合
  • Graph Data : e.g. Generic graph, Webpages, 分子結構…
  • Ordered Data

Data Quality Problems

  • Noise(雜訊) :
    • For Object : 一種無關的Object
    • For Attribute : 表示原始值的更動
  • Outliers(離群值) : 在資料集中,與大部分資料的特徵不同的Object
  • Missing Values :
    • 處理方式 : 刪除整個Obejct、估算該值、分析時忽略
    • 種類 :
      • Missing completely at random (MCAR / 完全隨機) :
        • 遺漏值與Attribute沒有相關性
        • 對整體資料不會形成偏差
      • Missing at Random (MAR / 部分隨機) :
        • 遺漏值與其他Variables有關
        • 對整體資料通常會形成偏差
      • Missing Not at Random (MNAR / 非隨機) :
        • 遺漏值與未觀測資料有關
  • Duplicate Data