當前位置:
首頁 > 最新 > 數據的探索性分析

數據的探索性分析

探索性數據分析是一個讓我們逐步認識、理解、把握手中待處理數據集的過程。如果不進行數據探索,將無法知道對於某數據集我們應該採取何種預處理,又應使用何種演算法,以及相應演算法參數的大致取值範圍等。

一般來說,可以通過數字化統計指標,以及可視化圖形兩種方式相結合來展開數據探索性分析。數字化指標一般包括數字化的變數詳細情況(變數的個數、每個變數的最值均值等)、分布指標(偏度和峰度)、缺失值(哪些變數缺失、缺失了多少)、相關性(相關係數)。從中可以獲知各變數的取值範圍、是否有缺失值、分布是否有偏以及偏差程度、各變數間的相關性等,這些信息對於選擇合適的技術至關重要。比如有些演算法在數據集有偏情況下,效果很差,這時就需要考慮先進行不平衡數據的預處理再使用該演算法,或轉而使用對有偏分布不敏感的其他演算法。

一、理解數據(Data Understanding)的一般過程

Collect Initial data

1.收集數據

1.1 獲取和下載數據

1.2 將不同來源的數據結合到一起

Describe data

2. 描述數據

2.1 描述性統計分析

2.2 分析數據的結構

Explore data

3. 數據探索(初始數據分析、探索性數據分析)

3.1 通過對數據的探索性分析可以對數據有一個初步的認識;

3.2 可視化數據可以發現數據中的一些分布情況;

3.3 這一步中可以發現很多數據中存在的問題;

3.4 基於假設條件可能需要收集新的數據。

Verify Data Quality

4. 驗證數據的質量

4.1 誤差、異常值、缺失觀測值

二、數據探索之初始數據分析(IDA,Initial data analysis)

2.1 初始數據分析(IDA )是數據分析的很重要一部分,它可以分為:

(1)分析數據的結構

(2)分析數據的質量(包括誤差、異常點、缺失數據)

(3)描述性統計分析

(4)可視化

2.2 根據數據分析的結果對數據進行修正

(1)調整極值觀測值

(2)缺失值填充

(3)變數轉換

(4)二值化數據(Bin data)

(5)構造新變數

三、數據探索之探索性數據分析(EDA,Exploration Data Analysis)

3.1 探索性數據分析是一種數據分析的一種方法,目的是為了使得數據滿足演算法應用的假設

(1)我們經常用數據可視化的技巧

(2)探索性數據分析由John Tukey提出的,鼓勵統計人員探索數據,並根據假設,可能會收集新的數據並進行分析測試

(3)在很多參考書中探索性數據分析包括了原始數據分析的部分

3.2 在你要去評估你做的問題怎麼樣之前,你先要確定你能做什麼?

「 To learn about data analysis, it is right that each of us try many things that do not work – that we tackle more problems than we make expert analyses of. We often learn less from an expertly done analysis than from one where, by not trying something, we missed an opportunity to learn more.」

參考資料

[1] 黃文,王正林. R語言數據挖掘實戰

[2] Jim Liang. Getting Started with Machine Learning

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

身為李約瑟助手的王鈴先生
常見的操作系統介紹-Windows,UNIX,Linux,Mac OS?

TAG:全球大搜羅 |