如無必要勿增實體——機器學習方法、應用與展望

最新 06-24

站在2018年，圖像分類準確率在95%以上的模型，已經遍地都是。回想2012年，被稱之為「深度學習教父」的Hinton帶著學生們以ImageNet16.4%的錯誤率震驚計算機視覺研究界，似乎已經是遠古時期的歷史。

通常認為機器學習是過去幾十年發展出來的一個新學科，但王立威教授看來，其實機器學習一直伴隨著人類文明的發展。從人類真正有文明、有科學那天，就有機器學習。

王立威

北京大學信息科學技術學院教授。主要從事機器學習理論研究。高水平論文100餘篇。2011年入選在機器學習國際權威期刊會議發表由人工智慧國際期刊IEEE Intelligence Systems評選的AI』s 10 to Watch，是該獎項自設立以來首位獲此榮譽的亞洲學者。2012年獲得首屆國家自然科學基金優秀青年基金。擔任國際機器學習旗艦會議NIPS領域主席。

從奧卡姆剃刀理論到機器學習

早在13世紀，威廉姆·奧卡姆就提出「奧卡姆剃刀理論」，這個原理稱為「如無必要，勿增實體」，即「簡單有效原理」。對這個理論的解釋，還有一位更著名的科學家和一段更著名的話——「Everything should be made as simple as possible but no simpler」，這句話出自愛因斯坦，意思是做理論的時候一定要儘可能的簡單，但又不能過於簡單。對應物理模型，一定要找到一些模型，允許存在一定的誤差，但又不能過於簡單，否則和觀測的數據誤差太大也不行，「奧卡姆剃刀理論」就是機器學習或者整個人類在獲取科學知識的歷程中，最核心、最本質的思想。

機器學習理論究竟有什麼意義？只為了證明界（bound），為了說明演算法在實際應用的錯誤率能小於多少，還是說它在傳達更高層的信息？王教授的觀點是，機器學習理論是後者，絕對不是為了證明一個演算法的邊界如何；機器學習理論的目的，在於提供對機器學習問題的洞察和理解。

而「泛化」則是學習理論最重要的概念之一。學習目的是希望學好一個模型，並且讓這個模型在未來的場景數據上有非常高的準確度。泛化的錯誤，就是指一個模型在未來的應用場景下的錯誤率，即泛化誤差。通常訓練模型時，可以拿到很多訓練數據，學一個分類器，在訓練數據上得到一個錯誤率。而這個訓練的錯誤率和泛化誤差實際上是有本質區別的。這個區別正是機器學習理論要研究的內容。

機器學習應用任重道遠

2012 年以來，不論是深度網路層數的不斷拓展，還是系統在數據集上的優異表現，都讓學術界對機器學習有了新的認識。彼時的王立威教授，已經在機器學習領域做了大量的研究，並憑藉突出的表現在2011年成為首位入選 AI"s 10 to Watch 的亞洲學者。

但王立威教授認為，這一切只是個開始。「機器學習在近年來取得了顯著的突破與發展，除了理論的研究外，更重要的是，學者們需要看清技術對生活產生的重大影響。」王立威教授身處人工智慧浪潮的前沿，自然也希望能在機器學習的應用領域有所作為。他認為有三個領域會與深度學習進行緊密的結合，並希望能夠選擇其中一個方面來進行深入研究：一個是無人駕駛；一個是金融領域；再一個則是醫療領域。王立威教授對機器學習在醫學影像領域的應用也頗有研究。一方面，醫學影像屬於靜態圖像識別，相對於視頻的處理技術要更加成熟；另一方面，依託北京大學的一系列附屬醫院，不論是從數據的獲取或是系統的測試落地上，王立威教授所在的北京大學研究團隊都有著得天獨厚的優勢。

王教授表示，如果開發者要執行的任務處於非常封閉的環境，和人的常識沒有什麼關係，這樣的任務非常適合機器來做，但是如果這項任務和常識掛鉤，例如對自然語言的理解，對於機器而言難度非常大。「醫學影像相對而言是具有一定封閉性的問題。」

當然，不是說醫學影像具有一定的封閉性，AI就能夠在醫學領域暢行無阻。王立威教授列舉了兩個AI對醫學影像產生重大影像的案例——斯坦福團隊在皮膚癌檢測以及Google的DeepMind的糖網篩查。

王教授的觀點是：

第一，醫學影像處理病種的數量非常龐大，上述兩個團隊的例子解決的都是單病種問題。醫學影像上一共可以分為兩千多個的病種。「解決一個單病種已經不是簡單的事情，斯坦福的團隊已經和頂級的醫學專家研究數年才得到目前的成果，要囊括兩千多個病種更是難上加難。此外，病種與病種之間的差異度也很大，所以，AI 醫學影像需要頂級醫學專家和頂級機器學習學者通力合作才有可能成功。」

第二，成像設備的差異會產生多種類型的圖像。CT、MRI、X光、超聲、內窺鏡、病理切片這些圖像缺乏一定的標準。「現在我們只是在一些病種上進行單點突破，整個醫學影像仍任重道遠。」

毫無疑問，機器學習已經成為人工智慧的主流研究方向之一。本次的CCAI2018大會，特別邀請北京大學信息科學技術學院教授王立威給我們呈現一場題為《機器學習簡介——方法、應用與展望》的講座。屆時王教授將對機器學習領域的主要技術方法，包括深度學習、概率圖模型、boosting、在線學習等進行簡要介紹，同時分析這些方法的優勢與局限。在本次大會的專題講座中，王立威教授還將對目前人工智慧領域最受關注的應用，包括人工智慧醫療、金融、無人駕駛等，從機器學習技術的角度進行分析。王教授還將展望機器學習未來技術的發展方向與趨勢，以及對產業應用可能帶來的影響。讓我們共同期待，共同迎接這場機器學習盛宴的到來吧！

繼2016年被加入國務院印發的《「十三五」國家科技創新規劃》，2017年人工智慧首次被寫入《政府工作報告》，今夏舉行的第四屆CCAI必將將為中國的科技創新發展再添新動力，增強新動能，壯大新經濟。願全球人工智慧界的機構和業界同仁與中國人工智慧學會一道，共赴這場科技與智慧的盛宴！

更多大會詳情、參會細節，請關注大會官網：

https://ccai2018.caai.cn/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習
※CIA 既不證實也不否認它有中本聰檔案；非京牌車新政：進京證每年最多辦 12 次；微軟聲稱利用機器學習加快部署

TAG:機器學習 |

如無必要 勿增實體——機器學習方法、應用與展望

如無必要勿增實體——機器學習方法、應用與展望