谷歌開源機器學習可視化工具 Facets:從全新角度觀察數據
選自Google Blog
機器之心編譯
參與:黃小天、李澤南
近日,出於支持 PAIR initiative的目的,谷歌發布了 Facets,一款開源的可視化工具。它可以幫助你理解、分析和調試 ML 數據集。Facets 包含兩個部分——Facets Overview 和 Facets Dive——允許用戶從不同的粒度觀看數據的全景圖,還可以輕易地被用在 Jupyter notebooks 之內,或者嵌入網頁之中。除了開放 Facets 源代碼,谷歌還創建了演示網站,Github 和網站地址見文中。
從機器學習(ML)模型中取得最佳結果需要你對有數據有真正的理解。然而,ML 數據集的數據點一般有數百萬種,每種包含數百個(甚至數千個)特徵,致使不可能直觀地理解整個數據集。可視化有助於解決大型數據集的這一難題。一圖勝千言,而一個互動式可視化不止勝千言。
出於支持 PAIR initiative,我們發布了 Facets,一款開源的可視化工具,幫助你理解和分析 ML 數據集。Facets 包含兩個部分——Facets Overview 和 Facets Dive——允許用戶從不同的粒度觀看其數據的全景圖。你可以使用 Facets Overview 可視化數據每一個特徵,或者使用 Facets Dive 探索個別的數據觀察集。這些可視化允許你調試數據,這在機器學習中和調試模型一樣重要;還可以輕易地被用在 Jupyter notebooks 之內,或者嵌入網頁之中。我們除了開放 Facets 源代碼,還創建了演示網站,允許任何人在瀏覽器中直接可視化數據集而無需安裝任何軟體或設置,也無需數據離開你的計算機。
Facets Overview
Facets Overview 自動地幫助用戶快速理解數據集中所有特徵的值分布。多個數據集(比如訓練集和測試集)可在同一個可視化中進行比較。束縛機器學習的一般性數據難題被推向最前端,比如出乎意料的特徵值、具有高比例遺失值的特徵、帶有不平衡分布的特徵,數據集之間的特徵分布偏態(distribution skew)。
加州大學爾灣分校(UCI)人口普查數據集 [1] 的 6 個數字特徵的 Facets Overview。
特徵按照不均勻性排序,帶有最大不均勻性分布的特徵排在頂部。標紅的數字表示可能的問題點,在這種情況下,帶有高比例值的數字特徵設置為 0。右邊的柱狀圖允許你比較訓練集(藍色)和測試集(橙色)之間的分布。
Facets Overview 展示了加州大學爾灣分校人口普查數據集 9 個分類特徵中的 2 個。
這些特徵通過分布間距被排序,把訓練集(藍色)和測試集(橙色)之間帶有最大偏態的特徵排在頂部。由於測試集中的尾隨時段(「
Facets Dive
Facets Dive 提供了一個易於定製的直觀界面,用於探索數據集中不同特徵數據點之間的關係。通過 Facets Dive,你可以控制位置、顏色和視覺表現。如果數據點有與其相關的圖像,則圖像可以用作視覺表示。
Facets Dive 可視化顯示了加州大學爾灣分校人口普查測試數據集中的 16281 個數據點。
動圖展示了通過對數據點顏色不同特徵「關係」進行分別著色,連續特徵「年齡」為一個維度,離散特徵「婚姻狀況」為另一個維度進行排列。
Facets Dive 從「Quick Draw」數據集中生成的可視化效果,它顯示了「Quick Draw」圖片中筆畫和點被正確地分類為人臉。
Fun Fact:在大數據集中(如 CIFAR-10 數據集),一個小小的標籤錯誤是很容易被忽視的。我們利用 Dive 檢查了 CIFAR-10 數據集,並發現了一隻青蛙貓——一隻被標記為貓的青蛙。
使用 Facets Dive 探索 CIFAR-10 數據集。在這裡,基本分類標籤為行,預測分類標籤為列。
這種組合就產生了混淆矩陣視圖,我們可以在其中找到特定類型的錯誤分類。在上面的例子中,我們可以看到機器學習模型錯誤地將一些貓的圖片分類為青蛙。把真實圖形放在混淆矩陣中讓我們發現的一個有趣現象是:這些「真貓」中的一隻被模型預測為青蛙是因為它在視覺檢查中被定義為青蛙,這是由於模型訓練的數據集中它被人為地錯誤分類了。
你能區分出貓和青蛙嗎?
在谷歌內部,Facets 已經展現出了巨大價值。現在,谷歌希望將這份便利分享到全世界,通過發現數據中更有趣的新特徵來創造更加強大和準確的機器學習模型。因為 Facets 已經開源,你可以根據自己的需求自定義可視化內容,或為項目作出貢獻
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※機器學習演算法實踐:決策樹 (Decision Tree)
※讓您的 iOS 應用加入到機器學習的浪潮中
※谷歌宣布將使用機器學習來檢測商店裡的惡意程序
※分子科學中的機器學習:不會燎原的星星之火?
TAG:機器學習 |
※Datalore:用於機器學習可視化的新Web方案!
※開源項目精選:機器學習開源框架 TensorFlow
※開源機器學習伺服器——PredictionIO
※二十大Python人工智慧與機器學習開源項目,TensorFlow升為榜首
※Kaggle 推出四門免費線上課程:機器學習、R語言、數據可視化、深度學習
※Databricks 開源 MLflow 平台,解決機器學習開發四大難點
※雲棲Techday:DataV大數據可視化與阿里巴巴機器智能
※用機器學習創造獨特聲音,谷歌開源NSynth Super
※Python與機器學習
※谷歌發布機器學習規則 (Rules of Machine Learning):關於機器學習工程的最佳實踐(上)
※谷歌發布機器學習規則 (Rules of Machine Learning):關於機器學習工程的最佳實踐(下)
※統一高效的機器學習開源庫——Shogun
※機器學習為Photoshop和Premiere帶來智能化突破
※Feature Tools:可自動構造機器學習特徵的Python庫
※全新的碟剎氣動機器——Scott Foil 20 Disc
※YouTube視頻機器學習推薦演算法探測
※Twitter 新科技,使用機器學習自動裁剪照片
※sklearn機器學習導論
※用Python進行機器學習
※FAIR開源Tensor Comprehensions,讓機器學習與數學運算高性能銜接