8張腦圖總結8種常用演算法 拿去不謝!
歡迎關注數據超市微信公眾號
聚類演算法Cluster
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要演算法。
聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。
聚類分析以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。
特徵選擇Feature Selection
特徵選擇( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化,是從原始特徵中選擇出一些最有效特徵以降低數據集維度的過程,是提高學習演算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習演算法來說,好的學習樣本是訓練模型的關鍵。[1]
此外,需要區分特徵選擇與特徵提取。特徵提取 ( Feature extraction )是指利用已有的特徵計算出一個抽象程度更高的特徵集,也指計算得到某個特徵的演算法。
特徵選擇過程一般包括產生過程,評價函數,停止準則,驗證過程,這4個部分。
PCAprincipal components analysis
PCA(principal components analysis)即主成分分析技術,又稱主分量分析。主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
在統計學中,主成分分析PCA是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特徵.這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面.但是,這也不是一定的,要視具體應用而定.
R-square
r^2是可決係數(coefficient of determination)也叫擬合優度,顧名思義,用來描述回歸直線對觀測值的擬合程度。R範圍是[0,1]。統計學上用回歸分析來發現一些變數之間隱藏的關係,回歸分析就是用來表達如何使用一個或多個自變數來預測另一個變數的值,也就是因變數的值。回歸模型確定了自變數和因變數之間的數學關係,是定量的。而且通過這個模型能確定哪個是無關變數。
LightGBM
在 histogram 演算法之上, LightGBM 進行進一步的優化。首先它拋棄了大多數 GBDT 工具使用的按層生長(level-wise) 的決策樹生長策略,而使用了帶有深度限制的按葉子生長 (leaf-wise) 演算法。 level-wise 過一次數據可以同時分裂同一層的葉子,容易進行多線程優化,不容易過擬合。但實際上level-wise是一種低效的演算法,因為它不加區分的對待同一層的葉子,帶來了很多沒必要的開銷。因為實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂。leaf-wise則是一種更為高效的策略,每次從當前所有葉子中,找到分裂增益最大(一般也是數據量最大)的一個葉子,然後分裂,如此循環。因此同 level-wise 相比,在分裂次數相同的情況下,leaf-wise 可以降低更多的誤差,得到更好的精度。leaf-wise 的缺點是可能會長出比較深的決策樹,產生過擬合。因此 LightGBM 在leaf-wise 之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。
熵entropy
熵的概念是由德國物理學家克勞修斯於1865年所提出。最初是用來描述「能量退化」的物質狀態參數之一,在熱力學中有廣泛的應用。但那時熵僅僅是一個可以通過熱量改變來測定的物理量,其本質仍沒有很好的解釋,直到統計物理、資訊理論等一系列科學理論發展,熵的本質才逐漸被解釋清楚,即,熵的本質是一個系統「內在的混亂程度」。它在控制論、概率論、數論、天體物理、生命科學等領域都有重要應用,在不同的學科中也有引申出的更為具體的定義,按照數理思維從本質上說,這些具體的引申定義都是相互統一的,熵在這些領域都是十分重要的參量。
監督學習方法supervised learning
監督學習是指:利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。訓練數據包括一套訓練示例。在監督學習中,每個實例都是由一個輸入對象(通常為矢量)和一個期望的輸出值(也稱為監督信號)組成。監督學習演算法是分析該訓練數據,併產生一個推斷的功能,其可以用於映射出新的實例。一個最佳的方案將允許該演算法來正確地決定那些看不見的實例的類標籤。這就要求學習演算法是在一種「合理」的方式從一種從訓練數據到看不見的情況下形成。
泛化誤差Generalization error
即真實情況下模型的誤差。模型訓練出來後,在測試集(抽樣)上測試會得出一個誤差,姑且叫E(in),但這個誤差是否能真實反應這個模型的預測的準確性呢?不一定。如果測試集(抽樣)不能很好地代表真實情況(總體),這個E(in)的值就不能很好地反應模型實際情況下的表現。而模型在真實情況(總體)上所表現出的誤差就稱為泛化誤差,這個誤差才能真正地反映模型的預測的準確性。
大數據科研平台
科研老師無需開發編程
數據挖掘、數據計算只需想法
豐富數據資源可直接調用
驗證封裝70餘種科學演算法
www.BIGDATA711.com

