數據驅動編程和機器學習的常見誤解以及如何優雅的跳這個坑
# 這費是法 投稿:看到前面這篇演算法之國:中國人工智慧的興起,寫了這篇原創
Receptive fields of single neurones in the cat"s striate cortex
D. H. Hubel and T. N. Wiesel(59年的論文,應該是公共領域了)
我們離真正的通用人工智慧還非常非常遠,但是進步的非常非常快。現在兩個極端,談AI色變,要被skynet幹掉了;AI是噱頭,沒用,過兩年就消停了。都不好,都源自不了解。所以原創一個簡單的介紹內容。以及說一說如果真的想跳這個坑,怎麼優雅而高效的跳進去。
現在所有的所謂AI都應該被稱為機器學習或者數據驅動編程。真正這個領域裡面的人極少會說自己是搞AI的,最多最多帶上學習兩個字,機器學習,或者模式識別這樣的。最熱門的圖像識別領域其實是一個非常細分的專業領域,但是其中卷積神經網路的思想在一定的範圍內可以被視為通用的機器學習技術。以貓圖為例,我們不再是通過結構化的代碼去實現分辨圖中是否有貓,而是實現一個機器學習的範式,用數據來驅動代碼對貓圖進行判斷。
這些工作需要大量的經過標註的數據集比如imageNet,通常的樣子是這張圖裡有貓,這張圖裡沒有貓,然後去訓練對應的學習結構。當然這樣的思想可以用在別的領域。但是需要注意的是,這裡的關鍵在於完全信息。簡單的判斷就是,如果你是個人,給你這個數據,你能不能判斷出來標記。給你看有貓的圖,你能說,這裡有貓。給你看沒有貓的圖,你能說,這裡沒有貓。給你看「學 小組」,你能知道很可能是「學習小組」。另一個領域是非完全信息的領域,那就會面臨其他的很多問題,最近打撲克的那個也是很厲害的。
前面說的都是監督學習,你需要提供有標記的數據集。那麼未來的方向一定是非監督學習。我們直接給圖,不再提供圖裡面「有什麼」這樣的標記。目前來看,最厲害的微軟研究院的resNet可以在圖像識別方面做到超越人類的識別正確率,但是需要注意的是,這只是圖像識別這樣一個非常細分的領域。這有巨大的價值,簡單的例子,把貓換成CT片,標記換成有惡性病變還是么有惡性病變,你就不用在拿著CT片子去找醫生看做診斷,訓練好的卷積神經網路能夠以比任何醫生還要高的準確率來作出診斷。
這個領域和神經生物學,認知理論,語義處理等領域有非常多的交叉;而且實踐起來相對的簡單,能夠迅速的轉化為經濟收益,所以大量的極其聰明的人加入其中。競爭極其激烈,以谷歌為例,最聰明的人,用著跑在自己開發的TPU(張量處理器)集群上TensorFlow構建的百多層深的卷積網路。任何嚴肅的想要加入這場競爭的人大概都需要想想在這些環境下自己客觀的定位是什麼。
接下來講講怎麼優雅的跳這個大坑。首先這個領域太熱,所以一定要專業,不要去吃二手糧,要直奔大牛。這個領域非常開放,大部分的論文和代碼都是開放的,耐心去看吧,看個半年,從開始到最前沿的東西也就看下來了。
按重要性排序的前提條件:
1、能科學的訪問某著名網路公司。
2、英文聽讀沒有問題,可以聽專業課的程度。
3、線性代數很重要。
4、Git和Github要會用,至少知道怎麼commit和怎麼回滾。
5、C++至少明白1分(要記住大神也就明白8分)。
6、Python要用好。
7、Linux要會用。
8、StackOverflow要善用。
9、朝死了搜索,找領域大牛的論文囫圇完了順著參考文獻擼。
入門很重要:
1、Coursera上面吳恩達的課程可以作為非常好的入門
2、接下來是多倫多大學Hinton大神的神經網路課程可以作為下一道菜
3、斯坦福李飛飛的CS231n課程是非常好的圖像識別的課程
上面套路下來基本就在坑裡面了,接下來你需要接著往下挖。這裡需要問一個問題,為什麼要接著往下挖?
數據!數據!數據!如果你的工作中接觸到大量的數據,而且原有的處理方式可以有優化空間,那你就使勁挖吧,將會帶來實實在在的收益。但是如果你純粹的想搭AI這班車,開頭已經說過了,這班車不存在。


※如果你總是沒時間,試著慢下來
※無厘頭研究:大麻會使牙齒脫落?
※對孩子來說,玩多少電子遊戲是「太多」?
※南極洲冰架崩裂,萬億噸冰山脫離
※演算法之國:中國人工智慧的興起
TAG:煎蛋 |
※從概念到應用:一文搞定數據科學和機器學習的最常見面試題
※如何理解和評價機器學習中的表達能力、訓練難度和泛化性能
※什麼是最小可行性數據產品?如何用它做機器學習?
※一文看懂機器學習流程
※圖解機器學習的常見演算法
※優秀的機器學習開發者都是這樣做的!
※機器學習演算法的使用以及實踐到應用
※居然被AI劇透了?可以看視頻講故事的機器學習模型來了
※機器學習模型的可視分析
※軟體機器人的驅動方式與製作材料解讀
※如何利用機器學習了解人體免疫系統?
※機器學習演算法性能比對分析流程
※數據產品必備技術知識:機器學習及常見演算法,看這一篇就夠了
※仔細看看ARM的機器學習硬體 它具有怎樣的優勢?
※機器學習或讓智能手機更智能:自動屏蔽用戶不感興趣的彈窗提示
※如何解決機器學習中出現的模型成績不匹配問題
※如何讓機器智能化,究竟是生物啟發還是數據驅動?
※機器學習如何解決複雜的5G基帶技術帶來的挑戰?
※何為量子機器學習?
※這種小小的機器人 可以用來進行觸控屏幕的測試