當前位置:
首頁 > 最新 > 想學數據分析,先從哪裡入手?

想學數據分析,先從哪裡入手?

有很多人問道:

數據分析的基礎,當然是

統計學

剛好,這有一份《簡明統計學框架》

概率與分布

從可能性到獨立事件概率計算

從聯合概率到條件概率到貝葉斯公式

事件的發生空間到分布

多事件發生概率比較到標準化分布-z值

正態分布評價擬合

貝努利分布

二項分布,固定總數,成功概率,二項分布可用正態分布近似求值,也可用二項分布取精確值,求區間概率要擴大

負二項分布,固定成功次數概率

幾何分布,最後一次成功概率

超幾何分布,不放回抽樣,成功概率

泊松分布,實驗次數多,概率小,發生概率,泊松過程

統計量

總體到樣本

多個事件的描述到眾數 中位數 再到期望

描述多個事件的變動到方差

取樣方法:隨機,分層,分類

樣本獨立性:簡單隨機取樣,樣本數少於10%的總體可認為獨立樣本

估計的偏差為標準誤

點估計到區間估計

標準誤只針對樣本均值,理解為樣本均值的估計標準差

置信區間為對所有樣本進行區間估計,95%的區間包含真值,是對總體參數的估計,近似認為樣本符合某分布

中心極限法則:樣本均值的分布為正態分布

統計推斷

假設檢驗

不拒絕H0不代表H0是對的,拒絕H0代表HA可能正確,觀察數值的區間重疊狀況

使用雙重否定進行描述

type I 假陽性 type II 假陰性

置信水平反映兩種錯誤的可能性

p值描述某數值在H0(一般為等式)中出現的可能性,通常與置信水平對比,兩邊與單邊

構建符合某分布的統計量進行參數估計,通過標準誤計算p值,進行假設檢驗過程

功效表示HA拒絕H0的可能性,功效高,檢驗可靠

統計差異顯著不代表實際差異顯著,甚至沒有實際意義

均值比較(連續)

配對數據

均值比較

t分布與自由度及小樣本均值的標準誤估計

置信區間與p值

樣本均值的t檢驗

多組數據均值的方差分析與F檢驗

多重比較的假陽性問題

樣本數足夠可用統計模擬的方法進行檢驗,數據存在層級結構則不可直接模擬

比例比較(計數)

比例檢驗,計算基於H0的標準誤,計算z值,計算p值,可反推樣品量

比例差異檢驗,H0為比例相等,估計混合概率,計算標準誤進行檢驗

記分檢驗與Wald檢驗

優度擬合

分布檢驗到卡方檢驗

獨立性檢驗

精確檢驗

線性模型

變數關係到線性回歸到線性診斷

參數估計到關係解釋及誤差分析

多元回歸

模型選擇

方差分析

非線性模型與平滑

logistic模型到廣義線性模型

線性混合模型

主成分分析與因子分析

其他主題

非參數統計

貝葉斯統計

判別分析

嶺回歸與lasso

廣義加性模型

魯棒模型

決策樹到隨機森林

人工神經網路

支持向量機

蒙特卡洛分析到統計模擬

圖論

怎麼樣?

還想學嗎?

想學嗎?

學嗎?

嗎?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 決明子 的精彩文章:

山楂、枸杞、黃芪、丹參、決明子、菊花能在一起泡水喝嗎?

TAG:決明子 |