人工智慧——從科幻到現實

科技 06-04

若干年前，很難想像會有一樣技術工具是由人工智慧驅動的。若干年後，很難想像會有任何技術的背後沒有人工智慧的影子。

人工智慧將有能力為人類無邊的聰明才智錦上添花——增強人類已有的能力，並且幫助我們獲得更強的生產力。

人工智慧發展歷史

2010年，微軟XBox推出了Kinect，那個時候大家覺得計算機真的很了不起，能看到人的動作，並把動作融入到遊戲裡面。這是第一次工業界的產品能夠實時追蹤每個人的關節、動作，是一個很大的突破，就好像機器有眼睛，可以看到人是怎麼做動作的一樣。

2011年，IBM Watson在美國的Jeoparody!秀里做猜謎遊戲時擊敗了Ken Jennings和Brad Rutter。2012年，微軟研究院的創始人Rick Rashid在天津舉辦的「二十一世紀的計算」學術大會上展示了實時語音翻譯技術，造成了很大的震撼。

到了2014年，微軟把這個實時語音翻譯技術運用到了Skype Translator里。不管是iOS系統、安卓系統還是Window系統，你都可以下載安裝Skype，並使用Skype Translator實時語音翻譯技術。

接下來2016年不用多講了，AlphaGo在圍棋比賽中戰勝了李世石。今年5月AlphaGo還會再戰一場。而在2017年1月，CMU的一個團隊寫了一個AI程序，贏了德州撲克。

人工智慧發展三要素

從科學/技術的角度來說，人工智慧主要有三個非常重要的支柱點——大數據、新演算法、大系統

第一，大數據。一個人工智慧工具要獲得成功，就需要大量的數據來進行訓練和學習。大家現在用手機傳簡訊、在微信上和朋友聊天、搜索內容等等，這裡面所有的數據都會被記錄下來，從而使得我們有很大的數據。當有了很多你跟同學、朋友交互的過程，或者即使不看你和朋友間的聊天記錄，也可以在網上、微博上看到你發表的內容。而這些數據就可以讓機器看到人在對話的時候，可以講什麼，會講什麼。

所以，因為有大數據的關係，現在的機器可以把有些很難的事情變得簡單。因為機器知道你以前在什麼場合下講過什麼話。

第二，新演算法。如果要有人工智慧的一些想法、演算法，我們怎麼把它表達出來？用什麼樣的語言、用什麼樣的模式來表達？有些朋友會比較熟悉，如微軟的認知工具包（CNTK），TensorFlow，Caffe等現在叫深度學習的框架，各個公司也在這方面進行了重點的投資，也希望這些框架可以使得更多的人應用。這些框架一方面是表達的方向、語言，另一方面也是各種技術的優化和技術的支撐等。

第三，大系統。大的環境系統是我們能快速發展人工智慧的有力保障。微軟有一個公有雲的產品，叫Azure，在中國已經落地了，它支持各種各樣雲計算的平台，和雲計算的服務。在去年12月，我們宣布了含有GPU的虛擬機已經上線了。在Azure上我們提供了各種各樣大小不等的虛擬機，虛擬機可以根據用戶的需求進行調配。我們有比較小的虛擬機，也有比較大的，有數百G內存的，4塊非常強的GPU，可以用來訓練很大的神經網路。

Microsoft AI

微軟在人工智慧上的投入由來已久。從二十多年以前就已經在不斷地構建人工智慧的基礎，機器學習、語音識別、計算機視覺、圖像識別，在這些領域中的一個一個成就不斷地積累起來，最終促成了今天這一波引人注目的人工智慧的突破。

時至今日，微軟得以利用之前數十年的研究成果，利用Microsoft Graph讀取數據，利用Azure雲計算的強大計算力，以此為基礎打造出了新一代的人工智慧工具和產品，讓開發者和客戶能夠真正從中受益。

在微軟，人工智慧技術有四個方向，我們看看，微軟在這四方面都做了哪些事情。

第一，讓機器能看得到。視覺方面，我們在2015年做了一個152層的深層神經網路，它能夠在像素級別上知道一張圖上有一隻蜘蛛。甚至在有些醫學上的應用，比如判斷切片影像中是否有癌細胞，最新的消息是機器判斷的正確率已經比醫生更高了。

第二，讓機器能夠聽。學術界在評價技術的進步與否時都有一個標準的測試集。下圖的這些線，每個點都是一個語音識別測試數據的結果，線越往下就表示做得越好，錯誤率低。可以看到最右邊的這條線，微軟去年做的錯誤率在5.9%左右，5.9%已經達到了人類水平。

第三，語言，機器還要能讀。在語言方面微軟亞洲研究院也一直都有深入的研究，讓機器可以更好的閱讀、理解文字內容，並且我們在這方面也取得了十分優異的成績。

最後，機器要能夠對答如流，要有知識。知識方面有一個測試叫做Knowledge Base Acceleration（KBA）。為什麼我們說做一個像人一樣的人工智慧比較難？先舉個例子，今天我講了一些有關AI的內容，有些東西你可能知道，有些東西你可能不知道，但是你今天聽到的一些之前不知道的事情，明天你就應該知道了。也就是說，人是有學習能力的，機器有沒有學習能力呢？機器可以識別人臉，但是人要先告訴機器說這是我，學習了之後它才能找到圖片里哪個是我。

微軟在AI方面有一個比較重要的產品叫微軟認知服務，認知服務將微軟的演算法、數據、軟體一起包裝成一個API，能夠給用戶、給外面的開發者使用。開放的API已經從最開始的5大類21項增加到29項。

對應前文所述微軟在人工智慧領域四個方向的研究，下面我們將對應介紹微軟認知服務在這四個方面實現的功能都有哪些：

Vision：先進的圖像處理演算法可幫助自動審查內容，通過返回人臉、圖像和情緒等智能見解構建更人性化的應用。從圖像中提取豐富的信息，以便對視覺數據進行分類和處理，在計算機的輔助下審查圖像，為策展服務提供幫助。

拿分析圖像舉例，此功能可返回圖像中找到的視覺對象內容的相關信息。使用標記、描述和特定於域的模型來識別內容並標為可信。應用「成人/不雅」設置，啟用成人內容自動限制。識別圖片中的圖像類型和配色方案。

Speech：處理應用程序中的口述語言。

自定義語音服務API克服語音識別障礙，如說話風格、辭彙和背景噪音。

必應語音 API將音頻轉換為文本，了解目的，然後將文本轉換回語音，實現自然響應。

說話人識別 API識別單個說話人，或使用語音作為一種身份驗證方法。識別誰正在說話。該 API 可用於確定某個未知說話人的身份。未知說話人的輸入音頻與選中的說話人組配對，如果發現存在匹配，即返回說話人的身份。

例如，我們選擇了 5 位美國總統，並使用他們各自發表的一篇演講註冊這項服務。選擇一位總統的演講，測試如何自動識別正在說話的是哪位總統。

Language：讓應用能夠處理自然語言、評估觀點和主題，並了解如何識別用戶需求。根據上下文理解語言，讓你的應用以人類的說話方式與人交流。

語言理解智能服務教會應用理解用戶發出的命令。

必應拼寫檢查檢測並更正應用中的拼寫錯誤。

Web 語言模型利用就 Web 上的數據進行訓練的預測語言模型的功能。

Translator通過簡單的 REST API 調用即可輕鬆實現實時語音/機器翻譯。

文本分析輕鬆評估觀點和主題以理解用戶的需求。

人機交互的一個關鍵問題是計算機能否理解人類的想法，並找到與其目的相關的信息。語言理解智能服務 (LUIS) 提供了一些簡單工具，可讓用戶構建自己的語言模型（目的/實體）。例如控制檯燈開關的語音指令的定義，可以自定義或者進行關鍵字的選擇，以便能更好的對語音指令做出正確的反應。

Knowledge：詳細規劃複雜的信息和數據，以解決智能推薦和語義搜索等任務。

建議 API推薦客戶所需的商品。

知識探索服務通過自然語言輸入實現結構化數據的互動式搜索體驗。

實體鏈接智能服務 API為應用的數據鏈接提供命名實體識別並消除歧義。

學術知識 API利用 Microsoft Academic Graph 中豐富的學術內容。

QnA Maker API提取信息，並將其轉化為一目了然的對話式答案。

自定義決策服務一種日益成熟的基於雲的上下文決策。

拿建議API來舉例，根據歷史交易，預測客戶更可能感興趣或購買的商品。推薦引擎藉助 Azure 機器學習進行構建，利用客戶數據（所上傳的客戶歷史活動或直接從數字存儲中收集的數據）為客戶推薦商品並提高轉換率。

微軟認知服務除了上述的四個方面以外還在搜索方面提供了多個API，以及最新為開發者開放的實驗室。

將人工智慧帶給每個開發者

今天，在西雅圖召開的Build 2017大會上，我們分享了微軟關於人工智慧的願景：將人工智慧帶給每個人，從開發者到數據科學家，從技術愛好者到學生。

微軟認知服務能夠給用戶、給外面的開發者、給每一個人使用，他們可以直接調用微軟研發的先進技術，為自己的產品做服務。比如我們當初使用微軟認知服務非常快速的就生成了How-Old.net這個當時風靡全球的APP，而其實這個APP只用了幾行代碼就完成了。

微軟認知服務提供了業界數量最多的人工智慧服務，而微軟也是唯一在關鍵認知領域提供定製功能的主要技術供應商。自2015年在Build大會上首次發布以來，已經有來自60多個國家和地區的超過56.8萬名開發者註冊使用了這項服務。在微軟認知服務的幫助下，開發者可以讓自己的應用識別手勢、翻譯多種語言，通過解析視頻實現快速搜索、編輯、實時添加字幕，甚至可以通過定製數據來識別某種特定類別的畫面。

在Build2017大會上，我們宣布現在已經可以提供29種認知服務，這為開發者提供了廣泛的選擇，讓他們只要幾行代碼就能直接利用現成的人工智慧，或者是對其進行定製加工。我們還演示了開發者該如何定製訓練這些服務，而無需設計單獨的深度學習模型。這次新增的服務包括必應定製搜索(Bing Custom Search)、定製視覺服務(Custom Vision Service)、定製決策服務(Custom Decision Service)和視頻索引(Video Indexer)。我們還推出了微軟認知服務實驗室，讓開發者成為這個研究社區的一部分，共同探索和理解人工智慧的未來發展。認知服務實驗室提供的第一個人工智慧服務是手勢API，它允許用戶通過手勢進行控制和互動，從而創造出更加直觀和自然的操控體驗。

面向那些想要訓練自己的深度神經網路的開發者，微軟宣布了一項新功能Azure Batch AI Training的有限預覽。利用這項新服務，開發者可以使用他們選擇的任何框架來訓練他們的數據模型，包括微軟認知服務工具包、TensorFlow和Caffe等。在Build大會上，我們還演示了開發者該如何通過使用分析集成在數據所在的位置，如Azure Data Lake、Azure Cosmos DB或者SQL Server上，直接運行這些深度學習模型。