當前位置:
首頁 > 科技 > 我是怎麼用機器學習技術找女票的

我是怎麼用機器學習技術找女票的

編輯 | 都保傑

微信 | ai_xingqiu

網址 | 51aistar.com

參考資料:《Learning to find a Girlfriend at the University of Waterloo by Logistic Regression》

https://medium.com/@uw_data_scientist/learning-to-find-a-girlfriend-at-the-university-of-waterloo-by-logistic-regression-18a0d22da896

AI時代,機器學習技術已經被廣泛應用,滲透到醫療、機器人、金融、客服、教育等各個領域,如此風風火火,但你聽說過用機器學習幫自己在學校找對象這種神操作么?

最近滑鐵盧大學一位叫Bai Li的留學生(李白?應是中國同胞)在medium上分享了如何用ML中的邏輯回歸方法幫自己找女朋友的方法,讓人不得不嘆服,碼農尋找愛情的方式果然別出心裁。

這個滑鐵盧大學位於加拿大,並不是讓拿破崙兵敗的那個滑鐵盧,滑鐵盧大學是北美地區最優大學之一,其數學、計算機科學和工程學科教學水平居世界前列,其中優勢專業計算機科學名列2017年usnews世界大學排行榜第18位。

不過,滑鐵盧大學也是出了名的缺少社交活動和很難找到對象,不少計算機專業的男生都覺得,在這裡找女票的幾率是微乎其微的,找也不知道該怎麼找,談戀愛又不會,只會敲代碼,大概畢業前都是光棍。

有些人覺得愛情這種東西是沒法量化的,你只管「做你自己」就好了。不過,作為滑鐵盧大學的一個數據科學家,我對此持不同意見。我就想了,既然是搞計算機的,幹嘛不試試藉助機器學習找女朋友呢?

方法論

於是心動不如行動,馬上著手研究如何用機器學習技術找女票。這個研究的核心問題是:具備哪些屬性,能在滑鐵盧大學眾多男生中脫穎而出找到女朋友?很多人覺得兜里有錢會更能吸引妹子,此外身高、有沒有肌肉這些指標也會起作用。我們下面就試著找出哪些是最有預測力的屬性,哪些假設沒有數據支撐。

我首先想到了下面這些屬性:

約會(目標變數):有女朋友,或者過去5年內曾有過至少維持了半年感情的女朋友。

國籍:留學生(因為我也是留學生)

專業:CS,SE和ECE專業

事業:在學術上很成功,找到了薪水優渥的實習工作

有趣性:能說會道,總能找到有趣的談資

社交性:外向性格,總想認識新朋友

自信:看著比較自信

身高:身高比我高(> 175 cm)

眼鏡:戴眼鏡(我也戴)

健身:定期去健身房,或者運動

時尚:注重外在形象,穿著有品位

加拿大:過去5年內基本生活在加拿大

亞洲人:來自東亞地區(因為我也是)

看到這裡你應該會發現,上面有些屬性非常主觀,比如怎麼證明一個人很有趣?

在上面這些情況中,我按照是否符合標準會賦予1或0這兩個值。所以,我們是在衡量人們的上述屬性和能找到對象之間的關係。

所以,假如你是想看那種超硬核又嚴格統計的研究,那麼後面的內容可能不是你的菜。

為了收集數據,我把自己能想到的每個人都列在表格里,在每個屬性里會以0或1給他們打分,最終,數據集有N=70行,如果你過去兩年待在滑大,和我認識,多半這個表格上有你。

分析

首先,我們將精確概率法(Fisher』s Exact Test)對目標約會變數和所有的說明變數進行分析,發現其中有3個變數影響最為顯著:

健身:定期去健身房或運動的人有女朋友的概率會高出兩倍以上(P值=0.02)

眼鏡:不戴眼鏡的人有女朋友的概率比戴眼鏡的人會高出 70%(P值=0.08)

自信:有自信心的人有朋友的概率更高(P 值=0.09)

和我預期的一樣,有肌肉有自信的小伙在這裡更有吸引力,不過我對戴眼鏡與否影響這麼大感到很意外,好奇是不是因為戴眼鏡一般會給人產生「書獃子」的印象。所以我又查了些資料,發現還真有這麼一回事,有篇研究論文講到大多數人認為不管男性還是女性,戴眼鏡會降低自身吸引力。

有些變數對於能否成功約會可能比較有預測力,不過很難確定,因為樣本較小:

留學生比加拿大本地學生的約會成功率要高;

亞洲人和其它人種相比約會機會更少;

縱覽其它因素,雖然女生很少,計算機專業的男生似乎並不處於劣勢;

剩下的變數(身高/事業/有趣性/社交性/時尚/居住地)這些和成功約會的關係不是很大。(感覺不太准啊~)

本次實驗的完整結果:

接著我們檢查各變數之間的關係,這可以幫我們識別出不正確的模型假設。紅色表示正相關,藍色表示負相關。我們只展示統計顯著性

從圖中看起來有相互關係。

在接著往下看之前,我得強調一下我的這些朋友不能代表滑鐵盧大學的整體情況,我平時都是在課堂上或工作中認識的他們,雖然什麼樣的人都有,但都是從事計算機相關的事情,雖然來自不同專業,但大部分來自東亞地區,在加拿大生活。

用這些數據訓練後的模型也會反應這些偏差,未來我也會擴大調查範圍,收集更多數據。

用邏輯回歸預測找女票

要是有個演算法能夠預測你有多大幾率可以找到女票,豈不美哉?我們試試!

我訓練了一個邏輯回歸廣義線性模型,根據我們前文列舉的這些說明變數預測是否會有女票。藉助R語言中的glmnet和caret包,我用彈性網路正則化訓練了這個廣義線性模型,然後用標準網格搜索法優化了超參數,在每次迭代中使用留一交叉驗證法,並優化kappa係數。

最終模型的交叉驗證ROC AUC分數為 0.673,也就是說模型在預測你找到女票的幾率方面,比你憑感覺亂猜還是更靠譜些,當然了,生活中總會有些偶然的不確定因素,人生也會有驚喜嘛。

好了不說了,我去健身房了,還要努力摘掉眼鏡!

如果你想了解最前沿的AI技術和場景應用

一網打盡AI世界的前瞻科技和深度報道

歡迎關注AI星球,並轉發朋友圈為我們打Call~~

你們的支持是我們創造優質內容的不竭動力


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI星球 的精彩文章:

成立一年半身價飆至20億美元,共享電動滑板車Bird會是下一個Uber嗎?
CV四小龍?依圖科技完成2億美元C+輪融資

TAG:AI星球 |