當前位置:
首頁 > 最新 > 讓我們八一八機器學習加基因檢測預測長相的這個刷屏貼的底

讓我們八一八機器學習加基因檢測預測長相的這個刷屏貼的底

論文故事 --赤腳跑步有助於記憶力前幾天,我被這樣的一個帖子刷屏了,題目一看就是標題黨,但其具體是怎麼一回事了,這篇小文就來給你八一八這到底說的是什麼?我們從這裡可以看出,知識靠不靠譜,是需要去挖細節的,可不能聽風就是雨。

在這個帖子中,我們看到了這樣的一副圖,圖中上面的是真實的面貌,下面的是機器學習的演算法基於基因檢測的結果預測出來的相貌,是不是很相似啊。

然而我們要問的第一個問題就是,這裡列出的三個樣本,有代表性嗎?要知道這項研究有1061名參與者,作者完全可以選擇三個看起來最好的結果放到這裡的。這麼想可不是我以小人之心度君子之腹,而是科學就是一個需要你來不斷的質疑權威的過程,只要你有證據。

那怎麼去找證據了,我們看一看作者是怎麼做到這一步的。首先要問自己一個問題,人的長相,該怎麼去量化。你會想到要對人臉進行掃描,但掃描之後,要怎麼去做數據壓縮了。這篇文章的作者給出的答案是在人臉的3D模型上標出36個點,如下圖所示。

作者在文章的附加材料中詳細的描述了這些點是按什麼規則標記出來的,比如有的點是下巴最低的地方,有的是兩眼的中間,而所有的這一千多個樣本,都是由人手動去做標記的,唉,也不知是那個倒霉的博士生做的。從這裡我們看到,當前的機器學習,還是大量的依賴人工去做數據清洗這類的體力活。

接著問題就轉化成了通過基因信息預測3D模型上這些點之間的距離,以及預測膚色,眼睛的顏色這樣的信息,這樣問題就變得好解決,也好量化了。既然是3D模型,那麼就有長寬高這三個維度,讓我們來看看在這三個維度上,機器預測出來的結果和真實結果的相差多少(學術上稱為皮爾森相關係數),這部分會有一些難,但不要怕,我會用很通俗的話來講解。

這裡展示的一張臉的三個維度上的投影,其中的顏色的不同代表不同區域預測結果和實際結果的相關係數,相關係數越高,預測就越准。注意這裡是集合了所有樣本的信息,我們看到,基因預測長相,預測最準的是鼻子的高矮,其次是尖下巴還是平下巴(這裡是紅色的,相關係數高),這符合我們的常識。但我們也要看到,圖片上大面積的區域都是藍色的,也就是說演算法預測的和實際的結果關係不大。而這作者在文章中自己也承認。

而這也是我為什麼在一開始的時候懷疑作者給出的那三幅圖有cherry picking的嫌疑,也就是挑好的來展示的意思。畢竟即使是再不準確的表,每天也會有兩次是對的。

說完了對臉形的預測,我們再來說說膚色是怎麼一回事。要拿到膚色的訓練數據,我們也需要找出一張臉上,那些像素點能夠代表這張臉的膚色。而這個問題就相比來說簡單多了,因為有現成的方法,機器視覺已經將這個問題解決的足夠好了,用卷積神經網路CNN就好了。從這裡也可以看出,任何一個領域的研究,都需要依賴其他領域的進展,未來如果要做幾十萬人的類似研究,可不能再像上面那樣手動的打標籤啊。(下圖所示是機器找出的代表眼睛顏色的像素點)

這篇文章中不止講了用基因去預測長相,還講了能用基因去預測年齡。在過好健康的一生 你需要守護你的端粒中,介紹了DNA序列末端的端粒會隨著人的衰老而變短,利用這一特性,可以從基因序列預測出受試者的年齡,但目前預測的不夠准,平均的誤差是8歲。不過這很正常,人不止有身份證上寫的年齡,還有生理年齡,也就是說那些生活方式健康,壓力又小的人生理年齡會比實際年齡要小,所以未來不管樣本增加多少,通過基因去預測實際年齡都不會變得很准,但若是增加樣本量,我們估計預測長相的準確度會提高。

除了長相,基因數據還被作者用來預測身高體重還有BMI這些指標,我們可以猜想,預測身高要更準確,預測體重要更難一些,而實際的數據也證實了我們最初的猜想,預測身高的平均誤差為4.9cm,按平均身高1米7來算,也就差了3%,而預測體重的平均誤差則為15.6KG,按一個人平均80公斤來算,查了接近20%了。

好了,這篇文章的主要內容就講到這裡,讓我們思考一下,我們之前說了預測年齡時,通過基因數據(DNA末端的端粒長度)來預測是生理年齡,而不是實際年齡,而生理年齡又受生活習慣的影響。那麼問題是,既然知道了受試者的體重,那麼能不能將體重這一信息利用在對年齡的預測中了? 再加上我們有了個體基因預測的BMI和實際觀察到的BMI,那麼我們能不能推測那些實際BMI要原大於基因預測的BMI的樣本,其超重是由於個人的生活習慣引起的,而這則會反映到其生理年齡要大於其實際年齡上了?這樣的問題,也是這份數據可以回答的。閱讀科學論文,就是要訓練自己去問出好問題的能力。

總結一下,今天我們詳細的看了看一篇爆款的科學新聞稿背後的故事,我們看到了不能盲目的相信,要有質疑精神,而是要自己去看數據,根據常識去提出假設,再來看數據是否驗證了自己的假設。最後,我們還要想從數據中還能問出什麼樣的問題,好問題永遠比好答案更有價值。

原創不易,隨喜讚賞

如果你沒有看過癮,可以看看下面的其他論文解讀

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

浙商銀行攜手邦盛科技 機器學習助力銀行智能營銷
AR、物聯網、Siri和機器學習:iPhone X將展示用戶體驗的變化嗎?
機器學習+全基因組測序,準確預測人體特徵
機器學習讓機器更智能
機器學習入門避坑指南

TAG:機器學習 |