當前位置:
首頁 > 最新 > 人工智慧及機器學習與深度學習揭秘

人工智慧及機器學習與深度學習揭秘

21CTO社區導讀:本文向各位開發者全面揭示人工智慧,關於機器學習、監督學習、無監督學習、分類、決策樹、聚類、深度學習等相關演算法。

深度學習、機器學習、人工智慧,這些代表著未來技術的流行語。在本文中,我們將通過一些真實案例討論機器學習和高階的深度學習。在21世紀技術官社區未來的文章中,我們會持續探討垂直行業人工智慧的應用。

當然,本文的目的並不是讓你成為數據科學家,而是讓你更好的理解用機器學習都做什麼。

機器學習越來越被開發者所接受,數據科學家與相關領域專家,架構師,開發者和數據工程師一起愉快的協同工作。所以,我們每個人都需要對未來有一個清晰的理解。

互聯網產品所產生的每一條數據都會給業務增加價值。我們主要的目標就是自己要認真的進行數據審查,以確定未來的新機會他挑戰。

什麼是人工智慧?

在整個人工智慧(AI)的歷史中,其概念也在一直不斷重新定義。人工智慧是一個整體的概念(AI 技術始於50年代);機器學習ML是AI的子集,而深度學習是機器學習ML的子集。

1985年,我在美國國家安全局當實習生,那時人工智慧已是一個熱門話題。在國家安全局,我甚至還參加了麻省理工學院專家系統中關於人工智慧的視頻課程。系統在規則引擎中用於捕捉專家的知識,裡面的規則引擎後來被廣泛用於金融和醫療保健等行業,最近也用於突發事件處理。但是當數據發生變化時,規則卻比較難以更新維護。

機器學習可以從數據中學習,並且根據數據驅動的概率預測,這是它的優點。

根據 Ted Dunning 先生的建議,我們最好使用精確術語。如機器學習或深度學習,而不是用概念用語「人工智慧」或「AI」。我們在將某些工作完成前,可以稱為AI。之後就應該稱為別的精確東西。

如何分析過去10年中的變化趨勢?

根據 HBR 的 Thomas Davenport 的說法,分析技術在近十年來發生了大變化。包括商用伺服器、流式分析以及增強機器學習技術、分散式計算等功能越來越強大,而且成本更低。

在存儲層面能夠存儲和分析更多不同類型的數據。傳統做法,數據存儲在RAID系統里,然後發送到多核伺服器進行處理,然後再傳回存儲器,這樣會造成數據傳輸的瓶頸,並且代價昂貴。通過像MapR-XD和MapR-DB這樣的文件與表格存儲,數據分布在一個集群中,像MapReduce,Pig和Hive這樣的Hadoop技術將計算任務發送到數據所處的位置。

比如 Apache Spark 這樣的技術,它通過更新緩存內存中的數據,使用輕量級線程,通過迭代演算法加速分散式數據進行並行處理。

MapR Event Streams是一種新的分散式消息通信系統,用於大規模流式事件數據,並結合流處理(如Apache Spark流或Apache Flink)加快使用機器學習模型並行處理實時事件的速度。

最重要的是,圖形圖像處理器(GPU)加速了多核伺服器的並行處理。GPU具有大規模並行架構,由數千個更小,交率更高的內核組成,專為並行多任何而設計。而CPU是由幾個順序串列優化處理的內核組成。就潛在的性能而言,從Cray-1向擁有大量GPU集群的演變是全球最快計算機的一百萬倍,而成本變成很小的一部分。

什麼是機器學習

機器學習使用演算法來查找數據中的模式,然後使用識別這些模式的模型來預測新數據。

機器學習可以分為3類:有監督、無監督以及兩者之間的半監督機器學習。

監督學習演算法使用標籤化數據,無監督學習演算法在無標籤的數據中查找模式。

半監督學習使用標記和未標記的混合數據。強化學習訓練演算法根據反饋最大化獎勵。

監督機器學習

監督機器學習使用標籤型數據,其中輸入和目標結果或標籤都要提供給演算法。

監督機器學習也稱為預測建模或預測分析,我們可建立一個能夠預測的模型,預測建模的一些例子有分類建模與回歸建模。基於已知項目的標籤示例(例如,已知的欺詐交易),分類標識項目屬於哪個類別(例如交易是不是欺詐)。邏輯回歸預測概率,例如欺詐概率。

線性回歸預測一個數字值,例如欺詐的數量。

分類的一些實例,列舉部分如下:

1 信用卡欺詐預測(是否是欺詐)

2 信用卡申請(信用是否良好)

3 垃圾電子郵件檢測(是否是垃圾郵件)

4 預測患者疾病風險(高風險與低風險)

5 惡性腫瘤與良性腫瘤分類

邏輯回歸預測的一些實例。比如:

1 基於汽車保險欺詐和索賠特點的歷史記錄,比如索賠人的年齡,索賠年齡和事故的嚴重程度,預測是否是欺詐的量。

2 鑒於房地產銷售價格和房屋特徵(面積,卧室數量,位置),預測房屋出售價格。

3 鑒於鄰里犯罪統計數據,預測犯罪率。

另外,還有一些有監督和無監督的機器學習演算法。再來看一些演算法的的實例。

分類器示例:銀行卡欺詐

分類器機器學習篩選具有已知標籤和預先確定特徵的一組數據,並且根據這些數據標記新記錄。即特徵是問題的「if」,標籤就是這些問題的答案。

我們來看一下機器學習中借記卡欺詐的問題實例:

我們試圖預測哪些?

1)借記卡交易是否有欺詐行為

2)欺詐的標籤(真/假)

可用預測的「if」問題或屬性有哪些?

1)今天消費的金額 > 歷史平均值

2)今天在多個國家有交易嗎?

3)今天的交易數 > 歷史平均水平

4)今天新商戶類型的數量是否比過去3個月高?

5)今天是否有與多個採購風險的商家交易?

6)與歷史使用PIN相比,今天是否有不正常的簽名活動?

7)與過去 3 個月相比,是否有在新的地區購買行為?

8)與過去 3 個月相比,今天是否有海外採購記錄?

要構建分類器模型,需要提取最有助於分類的興趣特徵。

決策樹

使用決策樹創建模型,要根據多個輸入要素來預測類或標籤。決策樹通過在每個節點上評估包含特徵的問題,並根據答案選擇到下一個節點的分支來繼續工作。

下面展示了預測銀行卡欺詐的可能型決策樹。問題特徵稱為節點,答案「Yes」或「No」是樹中子節點的分支。(真正的這棵樹會有更多的節點)

問題1:24小時消費的金額 > 平均水平?

答案:是

問題2:今天是否從有風險的商家處購買多件商品?

答案:是欺詐 = 90%

不是欺詐 = 50%

決策樹學習模型很受歡迎,因為它們是可視化並容易解釋。通過將演算法與集成方法相結合,可以提高模型的準確性。一個集合的例子如隨機森林,它將決策樹的多個隨機子集組合在一起。

無監督學習

無監督學習,也被稱為描述性分析,即使用沒有提前提供標籤的數據。這些演算法發現輸入數據中的相似性或規律性。無監督學習的一個實例是根據購買數據對相似的用戶進行分組。

聚類

在聚類學習演算法中,演算法通過分析裝飾示例之間的相似性將輸入分類聚合為一個分類。一些聚類用例包括如下場景:

1)搜索結果分組

2)分組類似的客戶

3)分組類似的病患者

4)文本分類

5)網路安全異常檢測(找到與集群異常不相似的東西)

K均值演算法將觀測結果分成為K個群集,其中每個觀測屬於聚類中心最近平均值的集群。

我們來說聚類的一個例子。有一家公司要將客戶分組以更好的為其定製產品。用戶可以按照人口統計和購買歷史等選項進行分組。

無監督學習的聚類常常與監督學習相結合,從而能得到更有價值的結果。

例如,在一個銀行客戶服務360的使用案例中,先根據客戶的調查答案進行細分,然後根據客戶群體進行分析並打上角色標籤。這些標籤隨後通過客戶Id與帳戶類型、購買等選項相關聯。

最後,有監督的機器學習演算法開始應用,與有標籤的客戶開始學習測試,從而將參與調查的客戶與他們在銀行的行為聯繫起來,並開始提供推薦和建議。

深度學習

深度學習也是多層神經網路的別稱。它是由輸入和輸出之間的多個「隱藏層」組成的網路。神經網路有很多個變種和改進的演算法。GPU和大規模並行處理(MPP)已經產生了數千層網路。系每個節點獲取輸入的數據與權重,並向下一層的節點輸出置信度分數,直至達到輸出層,計算分數的誤差。

通過在稱為梯度下降的過程中進行反向傳播,通過網路再把錯誤發回,並調整權重以改善模型。該過程重複數千次,調整模型的權重以響應其產生的錯誤,直到錯誤不再減少。

在此過程中,各層學習模型的選擇最佳特徵。深度學習的優點是特徵不需要預先確定。但是,也就有模型的決定無解釋的缺點。解釋決定可能很重要,研究人員正在開發新的方法來理解深度學習的「黑匣子」。

深度學習演算法有多種不同的變體,可以與MapR的分散式深度學習快速入門解決方案一起使用,構建數據驅動的應用。請看如下所示:

(1)用於改進傳統演算法的深度神經網路。

1)金融:通過識別更複雜的模式來增強欺詐檢測。

2)製造:基於更深層的異常檢測,增強對缺陷的識別。

(2)用戶圖像的人工神經網路。

1)零售:用于衡量視頻流量的店內活動分析

2)衛星圖像:標記地形與物體分類

3)汽車:識別道路和障礙物

4)醫療保健:從X射線,掃描等方面取得診斷來源

5)保險:根據照片估算索賠嚴重性

(3)用於測序數據的遞歸神經網路

1)客戶滿意度:將語音數據轉換為文本進行NLP分析

2)社交媒體:實時翻譯社交平台和產品論壇上的帖子

3)照片索引:搜索圖片文件,取得新的隱藏信息

4)金融:通過時間序列分析預測行為,也是增強的推薦系統

(完)

作者:Carol McDonald

編譯:徐志強

編輯:21世紀技術官社區


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

谷歌利用機器學習刪除了Google Play中的70萬個垃圾應用,同比2016年增加了70%
2018年人工智慧和機器學習路在何方?聽聽美國公司怎麼做

TAG:機器學習 |