乾貨 | 數據挖掘中的十大實用方法，可能你並不一定都熟悉！

知識 10-01

微信公眾號

關鍵字全網搜索最新排名

【機器學習演算法】：排名第一

【機器學習】：排名第二

【Python】：排名第三

【演算法】：排名第四

基於歷史的MBR分析

購物籃分析

決策樹

遺傳演算法

聚類分析

連接分析

OLAP分析

神經網路

判別分析

邏輯回歸分析

1.基於歷史的MBR分析

基於歷史（Memory-Based Reasoning）的MBR分析方法最主要的概念是

用已知的案例（case）來預測未來案例的一些屬性（attribute），通常找尋最相似的案例來做比較。

MBR中有兩個主要的要素，分別為距離函數（distance function）與結合函數（combination function）。

距離函數的用意在找出最相似的案例

；

結合函數則將相似案例的屬性結合起來，以供預測之用。

MBR的

優點

是

它容許各種型態的數據，這些數據不需服從某些假設。

另一個優點是其

具備學習能力，它能藉由舊案例的學習來獲取關於新案例的知識

。較令人詬病的是它需要大量的歷史數據，有足夠的歷史數據方能做良好的預測。此外記憶基礎推理法在處理上亦較為費時，不易發現最佳的距離函數與結合函數。

其可應用的範圍包括欺騙行為的偵測、客戶反應預測、醫學診療、反應的歸類等方面。

2.購物籃分析

購物籃分析（Market Basket Analysis）

最主要的目的在於找出什麼樣的東西應該放在一起？

商業上的應用在藉由顧客的購買行為來了解是什麼樣的顧客以及這些顧客為什麼買這些產品，找出相關的聯想（association）規則，企業藉由這些規則的挖掘獲得利益與建立競爭優勢。

舉例來說，零售店可藉由此分析改變置物架上的商品排列或是設計吸引客戶的商業套餐等等。

購物籃分析基本運作過程包含下列三點：

選擇正確的品項：

這裡所指的正確乃是針對企業體而言，必須要在數以百計、千計品項中選擇出真正有用的品項出來。

2. 經由對共同發生矩陣（co-occurrence matrix）的

探討挖掘出聯想規則。

克服實際上的限制：

所選擇的品項愈多，計算所耗費的資源與時間愈久（呈現指數遞增），此時必須運用一些技術以降低資源與時間的損耗。

購物籃分析技術可以應用在下列問題上：

針對信用卡購物，能夠預測未來顧客可能購買什麼。

對於電信與金融服務業而言，經由購物籃分析能夠設計不同的服務組合以擴大利潤。

保險業能藉由購物籃分析偵測出可能不尋常的投保組合併作預防。

對病人而言，在療程的組合上，購物籃分析能作為是否這些療程組合會導致併發症的判斷依據。

3.決策樹

決策樹（Decision Trees）

在解決歸類與預測上有著極強的能力，

它以法則的方式表達，而這些法則則以一連串的問題表示出來，經由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根，底部有許多的樹葉，它將紀錄分解成不同的子集，每個子集中的欄位可能都包含一個簡單的法則。此外，決策樹可能有著不同的外型，例如二元樹、三元樹或混和的決策樹型態。

4.遺傳演算法

遺傳演算法（Genetic Algorithm）學習細胞演化的過程，細胞間可經由不斷的選擇、複製、交配、突變產生更佳的新細胞。

基因演算法的運作方式也很類似，它必須預先建立好一個模式，再經由一連串類似產生新細胞過程的運作，利用適合函數（fitness function）決定所產生的後代是否與這個模式吻合，最後僅有最吻合的結果能夠存活，這個程序一直運作直到此函數收斂到最佳解。

基因演算法在群集（cluster）問題上有不錯的表現，一般可用來輔助記憶基礎推理法與類神經網路的應用。

5.聚類分析

聚類分析（Cluster Detection）這個技術涵蓋範圍相當廣泛，包含基因演算法、類神經網路、統計學中的群集分析都有這個功能。它的

目標為找出數據中以前未知的相似群體，在許許多多的分析中，剛開始都運用到群集偵測技術，以作為研究的開端。

6.連接分析

連接分析（Link Analysis）是以數學中之圖形理論（graph theory）為基礎

，藉由記錄之間的關係發展出一個模式，它是以關係為主體，由人與人、物與物或是人與物的關係發展出相當多的應用。例如

電信服務業可藉連結分析收集到顧客使用電話的時間與頻率，進而推斷顧客使用偏好為何，提出有利於公司的方案。

除了電信業之外，愈來愈多的營銷業者亦利用連結分析做有利於企業的研究。

7.OLAP分析

嚴格說起來，

OLAP（On-Line Analytic Processing；OLAP）分析並不算特別的一個數據挖掘技術

，但是透過在線分析處理工具，使用者能更清楚的了解數據所隱藏的潛在意涵。如同一些視覺處理技術一般，透過圖表或圖形等方式顯現，對一般人而言，感覺會更友善。這樣的工具亦能輔助將數據轉變成信息的目標。

8.神經網路

神經網路是以重複學習的方法，將一串例子交與學習，使其歸納出一足以區分的樣式。若面對新的例證，神經網路即可根據其過去學習的成果歸納後，推導出新的結果，乃屬於機器學習的一種。數據挖掘的相關問題也可采類神經學習的方式，其學習效果十分正確並可做預測功能。

9.判別分析

當所遭遇問題它的因變數為定性（categorical），而自變數（預測變數）為定量（metric）時，判別分析為一非常適當之技術，通常應用在解決分類的問題上面。若因變數由兩個群體所構成，稱之為雙群體 —判別分析（Two-Group Discriminant Analysis）；若由多個群體構成，則稱之為多元判別分析（Multiple Discriminant Analysis；MDA）。

a. 找出預測變數的線性組合，使組間變異相對於組內變異的比值為最大，而每一個線性組合與先前已經獲得的線性組合均不相關。

b. 檢定各組的重心是否有差異。

c. 找出哪些預測變數具有最大的區別能力。

d. 根據新受試者的預測變數數值，將該受試者指派到某一群體。

10.邏輯回歸分析

當判別分析中群體不符合正態分布假設時，邏輯回歸分析是一個很好的替代方法。

邏輯回歸分析並非預測事件（event）是否發生，而是預測該事件的機率。它將自變數與因變數的關係假定是S行的形狀，當自變數很小時，機率值接近為零；當自變數值慢慢增加時，機率值沿著曲線增加，增加到一定程度時，曲線協率開始減小，故機率值介於0與1之間。

歡迎分享給他人讓更多的人受益