孫元浩：2018年人工智慧技術三大發展方向

最新 02-27

2017年AI成為最火熱的技術辭彙，大量資本湧入這個領域，在中國催生了一批創業公司，在美國催生了大量的收購。這意味著AI到了泡沫的頂峰，並且還將持續一兩年。

AI不是一個新的辭彙，而是已經發展幾十年的技術。從早期的邏輯推理階段，到專家系統/歸納學習，到機器學習階段，再到現在的深度學習階段，每個階段都產生一些技術突破，也創造過一系列泡沫。例如在2000年左右第一輪互聯網泡沫期，希望用AI讓機器能夠理解互聯網，由此催生了semantic web，目標是讓機器能夠自己理解信息並且機器間能夠自由溝通。隨著VR技術的發展，又出現了一批AI驅動的虛擬人/虛擬助理，可以與人自由交談，當時異常火爆的Second Life是這個階段的典型代表。在影視作品中，《黑客帝國》把機器智能想像到了極致，人完全淪為機器產生能源的電池，世界全部是由計算機創造和控制的；《人工智慧》和《我，機器人》則給機器人賦予了感情，並將引發新的革命。但是過去每一次技術進步，沒有帶來人們想像中的應用突破，我認為除了演算法缺乏突破外，重要原因是受限於計算力和數據。

2006年開始大數據技術得到迅猛發展，從早期的分散式存儲和計算系統（HDFS/Map/Reduce 2006-2009），到SQL on Hadoop （2010-2014是焦點階段）技術的逐漸成熟，已經解決了大規模數據的存儲和統計問題，當大數據技術發展到2015年時，業界的關注焦點轉向了機器學習，希望利用分散式計算能力，來解決機器學習演算法，尤其是神經網路演算法的計算能力問題，使之能夠完成高密集的迭代計算，從而提高演算法精度。記得2015年我去參加紐約的Hadoop World大會，當時就發現短短一年中誕生了近50家機器學習的創業公司，在提供分散式機器學習的產品或服務。計算框架也產生了分歧，Spark當時擅長統計機器學習，而Google當時剛剛開源的單機版Tensorflow則擅長深度學習。同時深度學習演算法上的突破，使得過去多個應用領域，包括計算機視覺、自然語言處理、語音交互、傳統機器學習、機器人等過去隔得很遠的領域，都能被統一成採用一類深度學習演算法，都能高效地得到處理，並且能夠輕易地超過過去各自領域積累多年的演算法。現在開源的人臉識別演算法都可以達到98%的精度，使用深度學習演算法，可以比較容易地在ImageNet的競賽中得到前幾名。充分說明了深度學習演算法已經成熟。

但是深度學習演算法的特性，要求強大的計算能力和大量的樣本數據。這兩個是深度學習演算法廣泛應用的兩大阻力。解決計算能力的方案之一是採用分散式計算，因此誕生了十多種深度學習的計算框架，例如Tensorflow，Caffe，MxNet等等；方案之二，也有一些公司設計專門的硬體，例如Google TPU，國內的地平線/深鑒科技/寒武紀等，有的將深度學習演算法寫入到FPGA中，有的設計帶特定指令集的處理器，來加速深度學習演算法的運行。同時為了提高演算法的精度，需要大量的標註數據，因此很多人工智慧創業公司都僱傭或外包上百人的團隊給他們做數據標註。雖說是障礙，這也是深度學習演算法的一個巨大的優勢，因為增大數據量就可以提高演算法精度，這是傳統機器學習演算法做不到的。因此對擁有大量樣本數據的公司來說，因為已經積累的多年的數據，就容易形成行業壁壘，其他公司，即使是大公司也很難進入與其競爭。

我們在實際應用深度學習演算法的過程中發現，隨著應用場景的變化，需要重新訓練演算法來得到合適的模型。我們在車牌識別和交易匹配應用中，發現即使是擁有優秀人工智慧科學家的歸國創業團隊，跟我們也在同一個起跑線上，也需要重頭開始重新訓練模型。我們利用現有的客戶資源和數據優勢，從現場視頻中製作了幾十萬張樣本，通過樣本的採集和演算法的優化，使得我們的車牌/車型演算法精度遠超過了業界知名的公司。

星環從創業之初就開始在機器學習方面進行投入，2015年初也推出了Discover開發工具。Discover產品推出後被幾百位客戶使用過，積累了大量的經驗。但是一方面當時的市場沒有這麼熱，當時的客戶仍然覺得機器學習無法發揮真正的價值；另一方面，我們選擇了提供編程語言和開發工具的方式，這使得我們產品的受眾面比較窄，只有高端的數據科學家才會使用這類產品。

進入2018年，我認為AI有三個發展趨勢：

1.AI in Production. AI從一門科學開始轉變成一個系統或產品，一句話，AI需要產品化，也必將產品化。隨著機器學習和深度學習演算法的不斷成熟，需要將AI來打造成產品和系統，並在各個領域尋找Killer Applications。但是深度學習仍然面臨著很大挑戰，需要大量計算能力（需要大量CPU, GPU，FPGA/ASIC的混合計算能力，以及分散式計算能力），需要大量樣本和數據，甚至需要大量人工來製作樣本（以傳遞知識給機器）。這就是為什麼Google的首席科學家Jeaf Dean最近召集了一個新的會議，叫做SysML (System and Machine Learning，www.sysml.cc)，試圖尋找計算系統和機器學習的結合點，來找到機器學習系統的最佳實現方式，以及開發新的機器學習演算法。這個會議的第一個受邀演講，是介紹如何通過編譯器技術，將機器學習演算法的運算元，編譯到不同的後端（CPU，GPU，FPGA等）上高效執行。這是區別於設計專有硬體的一個系統性方法，這個方法具備更好的靈活性，因此備受關注。

2.AI for everyone, 機器學習工具需要更加易用化，更普及，讓更多普通人能夠使用。目前的一個重要趨勢，是使用深度學習技術，來提升AI工具的智能化程度，包括自動建模，自動尋找最優參數，特徵工程半自動化等等，使得整個機器學習過程更加智能化/自動化。所有的機器學習工具廠商都開始往這個方向努力，例如DataRobot一直在宣傳自動建模（Auto-Modeling）的優勢。Google的Li Feifei團隊發布的AutoML，使得普通人都可以用這個工具來創建計算機視覺相關的應用。

3.AI in everywhere，AI演算法雖然核心，但只是整個系統的一部分，本身不能形成獨立的產品，更多地需要將演算法應用到各個應用領域中，賦能各個行業，以發揮演算法的價值。在2018年，我相信各個行業，各個領域，都在積極地做一些嘗試，利用AI來賦能已有的產品或應用，以提高現有產品或服務的智能化水平。自動駕駛是個典型的使用AI提升汽車智能水平的例子。

2018年已來，讓我們振奮精神，為AI的未來做好充足的準備。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 星環科技 的精彩文章:

※2017年大數據熱點總結與發展趨勢預測

TAG:星環科技 |