數據挖掘經典演算法之C4.5
如果想要成為一個合格的數據挖掘分析師及數據科學家?
必不可少的是學習數據挖掘演算法。
這就好比做菜的話,那這些演算法就相當於烹飪工具。對原始的食材進行預處理、加工、整合,選擇合適烹飪工具,以及對應的方法步驟,最後收穫舌尖上的美味。
那該從何學起?
國際權威的學術組織 ICDM 曾經評選出了數據挖掘領域的十大經典演算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。
今天我們就來談談排在第一的C4.5。
為什麼使用 C4.5演算法呢?
可以這麼說,決策樹最好的賣點是他們方便於翻譯和解釋。他們速度也很快,是種比較流行的演算法。輸出的結果簡單易懂。
C4.5演算法是機器學習演算法中的一種分類決策樹演算法......
等等,什麼是決策樹?
決策樹演算法
從數據產生決策樹的機器學習技術叫做決策樹學習, 通俗說就是決策樹。
決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關係。樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有複數輸出,可以建立獨立的決策樹以處理不同輸出。
決策樹學習也是數據挖掘中一個普通的方法。在這裡,每個決策樹都表述了一種樹型結構,由他的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源資料庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用於某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確
率。
決策樹是如何工作的?
1、決策樹一般都是自上而下的來生成的。
2、選擇分割的方法有好幾種,但是目的都是一致的:對目標類嘗試進行最佳的分割。
3、從根到葉子節點都有一條路徑,這條路徑就是一條―規則
4、決策樹可以是二叉的,也可以是多叉的。
對每個節點的衡量:
1) 通過該節點的記錄數
2) 如果是葉子節點的話,分類的路徑
3) 對葉子節點正確分類的比例。
了解過了決策樹演算法,我們再來看C4.5演算法。
C4.5核心演算法的核心是ID3 演算法,由於ID3演算法在實際應用中存在一些問題,於是Quilan提出了C4.5演算法,嚴格上說C4.5是ID3的一個改進演算法。
C4.5演算法繼承了ID3演算法的優點,並在以下幾方面對ID3演算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
綜合看來,C4.5演算法有如下優點:
產生的分類規則易於理解,準確率較高。
其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致演算法的低效。
此外,C4.5隻適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行。
很多人認為數據挖掘需要掌握複雜高深的演算法,需要掌握技術開發,才能把數據挖掘分析做好,實際上並非這樣。如果鑽入複雜演算法和技術開發,只能讓你走火入魔,越走越費勁,並且效果不大。在公司實際工作中,最好的大數據挖掘工程師一定是最熟悉和理解業務的人。對於大數據挖掘的學習心得,學習數據挖掘一定要結合實際業務背景、案例背景來學習,這樣才是以解決問題為導向的學習方法。
版權所有??德塔大數據研究院
轉載請註明出處
DaaS慧報(有溫度的大數據報告)
大數據落地方案
大數據思想
歡迎在下方留言,「塔塔」會在第一時間回復您!
TAG:德塔大數據研究院 |