在增強現實中可視化多維數據

最新 01-15

關注AR醬，

和我們一起發現閃閃發光的AR從業者！

蘿蔔醬

嗶嗶嗶，翻得不好不要逼逼

作者

Benjamin Resnick

Augmented Reality Designer at IBM

想像一下，就在幾年後的某個周一早晨，你走進辦公室。

你給自己倒了一杯咖啡，看看新聞，然後戴上一副AR眼鏡。

你會發現自己被一大片閃閃發光的彩色小圓包圍著。

orbs代表了所有驅動你的業務的數據。

你很了解這些數據。

這些光點的圖案和顏色就像指紋一樣。

但在咖啡機上方漂浮的數據有一些非典型的東西。

你伸出手去選擇那些數據。

在附近的電腦屏幕上可以看到所有相關細節的摘要。

如果某件事對你的業務很重要，你的系統會跟蹤它。

當你想要消費所有這些信息時，你就會使用這種沉浸式的視覺效果;突破電腦屏幕的界限，信息密集、高效、美觀。

我在IBM的團隊正在努力使上述體驗成為現實。

沉浸式洞察是一款增強現實數據可視化應用。

概述

這篇文章概述了我的團隊最近一直在做的一項技術。

我們一直在試驗一種方法，用沉浸式的見解對高維度數據進行總結和可視化。

這種在複雜數據中總結重要關係的能力是我們長期願景的關鍵部分。

數據可以有很多屬性。

以Instacart的開源數據為例。

這個數據集中的每個人都可以被看作是一個數據點。

每一個數據點都可以用購買的產品列表來描述。

對於每個用戶來說，這一數字超過5萬種。

了解所有這些人之間的關係是非常有用的。

但我們如何才能開始理解如此多的數據呢？

通常情況下，當數據科學家第一次獲得數據集時，他們會使用一個2D散點矩陣來快速瀏覽內容。

2D散點圖顯示了成對屬性的關係。

但對於擁有大量屬性的數據，這種類型的分析並不會擴大規模。

將複雜的數據簡化為三個維度，總結重要的關係（在這個例子中應用PCA）

使用IBM沉浸式洞察可視化數據

根據對嵌入式關係的不斷演進的理解，迭代地對數據進行標籤和顏色編碼。

通過使用沉浸式的洞察來導航這一功能空間，我們可以更快地驗證假設，並對多維數據集實體之間的關係建立一種更好的直覺。

浸入式洞察與IBM DSX集成。

這使得使用沉浸式可視化技術成為典型的數據分析工作流的擴展成為可能。

在R、Python和沉浸式洞察之間來回切換相對容易。

適用於這種技術的數據集經常被用於訓練機器學習模型。

如果數據科學家利用這一過程來理解數據中嵌入的關係，那麼這將有助於他們改進自己的ML特性和模型。

這一技術還可以幫助人們更好地理解黑箱預測模型在幕後的作用。

在短期內，沉浸式洞察團隊正專註於為數據專家提供可視化技術，這些專家擅長編程。

我們正在為這些專家開發方法，讓他們能夠可視化時間序列、地理和網路數據。

從長遠來看，我們希望擴大產品的範圍，讓業務分析師也可以使用沉浸式的洞見！

Instacart分析代碼

我們是如何在附加的視頻中創建可視化的呢？

首先，數據是在python筆記本中準備的。

請查看這裡的代碼。

Instacart的用戶使用了一個矢量圖，描述了他們與每一款產品的關係。

這個向量的形式是0和1的稀疏數組。

每個1對應的是一種產品，該產品至少曾被該用戶購買過一次。

每一個0對應一個未購買的產品。

這種技術被稱為「一種熱編碼」。

然後，PCA（主要組件分析）在數據上執行，以便用三個數字來描述每個用戶，或者「主要組件」。

每個主要成分總結了數據中的一個差異方面。

在實踐中，在執行PCA時，我只能分析12萬個用戶的內存限制。

在執行PCA之後，預先準備好的數據將輸出到CSV。

接下來，數據被發送到一個頭戴設備，通過一個單獨的R筆記本進行可視化。

請查看這裡的代碼。

筆記本根據不同的標準對用戶進行顏色編碼，這些標準可能會影響潛在空間的用戶分布。

用戶根據他們最頻繁訂購東西的部門（如速凍食品、零食、農產品）按顏色進行編碼。

另一種顏色編碼方案顯示用戶是否購買了有機食品。

我還在沉浸式洞察中參考了不同用戶的id，然後在R筆記本中查找他們的購買歷史記錄。

這讓我能夠直觀地認識到，什麼樣的產品購買會導致用戶被放置在潛在空間的不同區域。

分析結果

沒有購買任何有機食品的用戶，在潛在的空間內緊密地聚集在一起。

這一發現是一個引人注目的證據，支持從可視化中得出的定性觀察：在購買高級商品的用戶和喜歡較低成本版本的同類產品的用戶之間，Instacart的購買模式有很大的差異。

成本謹慎與高級買家之間的這種差異，對Instacart的營銷、推廣和推薦策略有著深遠的影響。

我們還發現，Instacart的用戶購買的產品遠遠超過其他任何一種商品。

有許多不同類型的用戶喜歡產品。

幾乎每個人都買農產品！

當用戶根據他們購買商品的最常見的部門（mode department）進行分類時，他們不是線性可分的。

我們發現，雖然有助於理解用戶購買模式之間的某些關係，但這種類型的分類似乎忽略了數據集的三個主要組成部分所描述的大部分差異。

結論

這篇文章介紹了一種利用增強現實技術分析大數據的技術。

這項技術最適用於那些準備創建機器學習模型的數據科學家。

大數據、AR和ML正成為三種顛覆性技術，它們將塑造企業和社會的未來。

正如我們所展示的，這些顛覆性技術可以以創造性的、有用的方式相互促進。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AR醬 的精彩文章:

※超聲波方案能代表觸覺反饋的未來嗎？

TAG:AR醬 |