visdat-數據初步探索性可視化工具
visdat - Preliminary Exploratory Visualisation of Data
byrOpenSci
如何安裝?
你可以在CRAN獲取visdat
如果您想使用開發版本,請從github安裝:
visdat能做什麼?
vis_dat最初受到csv-fingerprint的啟發,通過使用vis_dat將數據框中的變數類顯示為帶有vis_dat的繪圖,並使用vis_miss簡要查看丟失的數據模式,vis_dat將幫助你可視化數據框並「查看數據」。
visdat的六大特點如下:
你可以在「using visdat」小節中查看更多關於visdat的信息。
請注意,本項目隨著貢獻者行為準則一起發布。 參與此項目即表示同意遵守其條款。
示例
使用vis_dat()
讓我們看看基地R的airquality(空氣質量)數據集中的內容,其中包含有關1973年5月至9月紐約每日空氣質量測量的信息。有關數據集的更多信息可以在?airquality中找到。
上面的圖告訴我們,R讀取這個數據集時是數值和整數值,並在Ozone和Solar.R中顯示一些缺失的數據。類在圖例中表示,缺失的數據用灰色表示,列/變數名列在x軸上。
使用vis_miss()
我們可以使用vis_miss()進一步探索缺失的數據:
vis_miss中缺失/完成的百分比精確到小數點後1位。
你可以通過設置cluster = TRUE來對缺失進行聚類:
通過設置sort_miss = TRUE,數據列也可以按缺失最多的列進行排列:
vis_miss表示當缺失率
vis_miss還將提示何時沒有丟失數據:
為了進一步探索數據集中的缺失結構,我推薦使用naniar包,它為缺失值的圖形和數值探索提供了更多通用工具。
使用vis_compare()
有時你想要查看數據中發生了哪些變化。vis_compare()可以顯示兩個相同大小的數據幀的差異。 我們來看一個例子:
讓我們對chickwts做一些修改,並比較這個新的數據集:
這裡的差異會用藍色標出。
如果你嘗試在尺寸不同時比較差異,則會出現一個非常難看的錯誤:
※ACM對2018圖靈獎獲得者Geoffrey Hinton、Yann LeCun、Yoshua Bengio的專訪
※NLP與NLU:從語言理解到語言處理
TAG:AI研習社 |