當前位置:
首頁 > 最新 > 情人節單身汪的自救指南

情人節單身汪的自救指南

約會

2月

14日

單身汪不宜出門、不宜刷朋友圈,當心被虐。

今天是大年二十九,也是朋友圈秀恩愛大賽的情人節,這樣的節日對於單身汪而言無異於冬日裡胸口上的一團冰,拔涼拔涼的。

與其被人虐,不如快速翻身虐別人。今天我們就來教你如何使用決策樹來挑選另一半,讓廣大單身汪也能夠在這個節日里感受到應有的溫暖。

這裡再和大家稍微普及下:決策樹,顧名思義,就是基於樹結構來進行決策的,它採用自頂向下的貪婪演算法,在每個結點選擇分類的效果最好的屬性對樣本進行分類,然後繼續這一過程,直到這棵樹能準確地分類訓練樣本或所有的屬性都已被使用過。

決策樹分析的過程,就是我們不斷認識事物的過程,當我們構造出一棵決策樹,就意味著我們對於這一類事物總結出了識別模式,可以通過這些模式,我們就能將某一數據快速的推斷出它所屬的類別了。

舉個栗子,當一位女士來決定是否同男士進行約會的時候,她面臨的問題是「什麼樣的男士是適合我的、是我值得花時間去見面再進行深入了解的?」

這個時候,我們收集到了一些女士約會對象的相關屬性信息,包含了84個男士的相關數據記錄,涵蓋了年齡、收入、長相、是否公務員、身高以及是否見面等屬性,如下圖所示。

然後通過構建決策樹,層層分析,最終得出得到女生願意去近一步約會的男士標準,符合這些條件的男士們,你們將有機會獲得夢中女生的約會。

接下來,我們來看看這個決策的過程什麼樣的。

圖:利用決策樹確定約會對象的條件

本著掘地三尺認真嚴謹的鑽研精神,我們還想幫廣大女生朋友把把關,這樣的判斷到底是否有依據?怎樣才能構建這樣確定約會對象的決策樹呢?

所謂決策樹構建,就是要找到適合的結點,將不同類別的數據儘可能區分開來。

因此構造決策樹,我們有兩個任務要做:

一是判斷哪個屬性是我們當前需要裁剪的點;

其次就是整個裁剪的過程到何時結束。

接下來,我們來看看如何分布實現這兩個任務。

首先,我們來找到這樣一個對數據進行分割的點。在構造決策樹的過程中,我們希望決策樹的每一個分支結點所包含的樣本儘可能屬於同一類別,即結點的」純度」(Purity)越來越高。我們通過找到一個結點,在這個點上進行數據分割,也是希望通過分割後,使得分割後各個結點的同一類別數據佔比,比之前沒有分割之前結點的同一類型數據佔比要得以提升,在這裡把這個稱之為「信息增益Information Gain」。

在一個結點的裁剪過程中,出現信息增益最大的屬性就是最佳的裁剪點,在這個屬性上,我們將獲得了最大的信息增益,即信息純度提升的最大。

我們根據信息增益最大的標準來尋找一個適合的裁剪屬性和裁剪值就可以在每個結點上進行決策樹的裁剪,每一步我們都需要選擇信息增益最大的變數進行裁剪。

如下圖所示,此時,我們下一步將要裁剪的變數就是信息增益最大的變數「收入」。

圖:決策樹結點裁剪情況

根據信息增益的原理,我們一層一層地對屬性進行裁剪,但裁剪到何時,決策樹能夠達到一個最佳的結果,這也是我們關注的焦點。

一般我們通過預剪枝和後剪枝來判斷決策樹是否還需要進行近一步的裁剪。在後剪枝中,我們在裁剪點上,對裁剪前和裁剪後驗證集的同一數據類別佔比進行判斷,如果裁剪後的同一類別數據佔比更高,則該裁剪點是需要進行裁剪的,直到最後不能裁剪為止。

當我們基於裁剪規則最後完成決策樹之後,就可以基於決策樹的分枝情況找出這名女性確定約會對象的決策樹,如下圖所示。

圖:約會對象決策樹構造過程

此時,我們就可以利用決策樹識別出來的規則來進行是否需要同男士進行約會的判斷了。

2018/2/14

從這棵樹上,我們不難看出,在參與調查的女性里,可能是年輕女性的樣本,她們在約會對象的選擇上,主要是對男士的年齡,長相和收入等因素進行考慮。如果你是符合這些條件的男士,恭喜你,你將是很多女性約會的理想人選,可以大膽地向心中的她發出約會的邀請;而不在此列的男士也不要氣餒,這只是某一類女性的選擇標準,也許你的那個她也在茫茫人海中尋找著你。

好了,以上就是今天我們與你分享的基於決策樹的分類分析方法,決策樹也是一類最為常見的機器學習演算法。希望你可以基於決策樹的分析,找到自己心儀的那個TA.

最後,祝大家情人節快樂,新春快樂!年後我們還將帶來DOE相關內容的一些推送。敬請期待!

GIF

狗年吉祥

HAPPY CHINESE NEW YEAR

最後,想親自體驗JMP強大功能的

小夥伴,歡迎下載JMP免費試用30天,


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 JMP數據分析 的精彩文章:

TAG:JMP數據分析 |