當前位置:
首頁 > 知識 > visdat-數據初步探索性可視化工具

visdat-數據初步探索性可視化工具

visdat - Preliminary Exploratory Visualisation of Data

byrOpenSci

如何安裝?

你可以在CRAN獲取visdat

如果您想使用開發版本,請從github安裝:

visdat能做什麼?

vis_dat最初受到csv-fingerprint的啟發,通過使用vis_dat將數據框中的變數類顯示為帶有vis_dat的繪圖,並使用vis_miss簡要查看丟失的數據模式,vis_dat將幫助你可視化數據框並「查看數據」。

visdat的六大特點如下:

你可以在「using visdat」小節中查看更多關於visdat的信息。

請注意,本項目隨著貢獻者行為準則一起發布。 參與此項目即表示同意遵守其條款。

示例

使用vis_dat()

讓我們看看基地R的airquality(空氣質量)數據集中的內容,其中包含有關1973年5月至9月紐約每日空氣質量測量的信息。有關數據集的更多信息可以在?airquality中找到。

上面的圖告訴我們,R讀取這個數據集時是數值和整數值,並在Ozone和Solar.R中顯示一些缺失的數據。類在圖例中表示,缺失的數據用灰色表示,列/變數名列在x軸上。

使用vis_miss()

我們可以使用vis_miss()進一步探索缺失的數據:

vis_miss中缺失/完成的百分比精確到小數點後1位。

你可以通過設置cluster = TRUE來對缺失進行聚類:

通過設置sort_miss = TRUE,數據列也可以按缺失最多的列進行排列:

vis_miss表示當缺失率

vis_miss還將提示何時沒有丟失數據:

為了進一步探索數據集中的缺失結構,我推薦使用naniar包,它為缺失值的圖形和數值探索提供了更多通用工具。

使用vis_compare()

有時你想要查看數據中發生了哪些變化。vis_compare()可以顯示兩個相同大小的數據幀的差異。 我們來看一個例子:

讓我們對chickwts做一些修改,並比較這個新的數據集:

這裡的差異會用藍色標出。

如果你嘗試在尺寸不同時比較差異,則會出現一個非常難看的錯誤:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

ACM對2018圖靈獎獲得者Geoffrey Hinton、Yann LeCun、Yoshua Bengio的專訪
NLP與NLU:從語言理解到語言處理

TAG:AI研習社 |