機器學習基本概念總結

最新 01-30

機器學習主要通過計算的手段從數據中提取出相應的模型，也就是說，機器學習的輸入是數據，經由學習演算法，輸出相應的模型，以後我們就可以基於這個模型解決實際問題了。

在機器學習中，輸入數據被稱為數據集，數據集被分為訓練集和測試集。訓練集用來通過學習演算法訓練模型，而測試集則用來評估我們的模型性能。數據集中包含一條條樣本，樣本則是由屬性或特徵構成的。例如描述人的數據，其中包含特徵身高(cm)，體重(kg)，臉型(1-圓臉，2-方臉，3-瓜子臉)

[

[180， 80， 1],

[160， 60， 2],

[170， 70， 3],

......

]

按照數據集是否有標記(上面的是沒有標記的數據集)，可以將機器學習分為兩類，有標記的一類稱之為監督學習，另一類稱之為非監督學習。下面是上面數據集的有標記版本，讓用戶按照個人喜好作出評價(0-有好感，1-一般，2-討厭)，可以看到，標記就是對某一條樣本的說明：

[

[180， 80， 1，0],

[160， 60， 2，1],

[170， 70， 3，2],

......

]

機器學習的目的，就是希望基於訓練集，通過一定的學習演算法，使得訓練出的模型能夠適用於非訓練集的場合，也就是說，模型應該具有一定的泛化能力，測試集就是用來評估模型泛化能力的，因此，一般測試集應該是與訓練集不同的樣本數據。

那麼，是否訓練樣本越多，就能獲得更好的泛化能力呢？答案是否定的，訓練樣本過多，會引入過擬合的問題，說的直白點，就是機器將訓練樣本學習的太好了，導致其泛化能力變弱，就好比學生死記硬背數學題目，但是出現其他的題目就無法解答了。但是訓練樣本過少，又會出現欠擬合的問題，就好比是學生做題量不夠，沒有覆蓋所有的知識點。所以，訓練集的數據量是需要仔細考慮的。

現實中，最常使用機器學習處理的問題主要有分類和回歸問題。我們給定一個樣本，分類能夠對這個樣本的數據進行分析，然後給出我們該樣本可能屬於的類別。回歸主要用來預測趨勢。分類和回歸屬於監督學習。聚類是無監督學習的方法，聚類主要按照無標記的訓練集，生成數據統計值的密度估計。

有一些知識，我們無法總結出規律，但是隱含在數據中的信息卻無法欺騙我們。我們需要做的就是利用各種演算法，提取出這些隱含知識。總的看來，機器學習是我們利用數據發掘和歸納知識的一種手段之後，我們可以利用這些知識解決實際的問題。

蘋果用戶也可讚賞

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※機器學習演算法總覽

TAG:機器學習 |