Python手寫機器學習最簡單的KNN演算法

科技 06-09

作者｜蘇克1900

摘要：從零開始學習機器學習最簡單的 KNN 演算法。

今天開始，我打算寫寫機器學習教程。說實話，相比爬蟲，掌握機器學習更實用競爭力也更強些。

目前網上大多這類教程對新手都不友好，要麼直接調用 Sklearn 包，要麼滿篇抽象枯燥的演算法公式文字，看這些教程你很難入門，而真正適合入門的手寫 Python 代碼教程寥寥無幾。最近看了慕課網 bobo 老師的機器學習課程後，大呼過癮，最好的機器學習教程沒有之一。我打算以他的教程為基礎並結合自己的理解，從零開始更新機器學習系列推文。

第一篇推文先不扯諸如什麼是機器學習、機器學習有哪些演算法這些總結性的文章，在你沒有真正知道它是什麼之前，這些看了也不會有印象反而會增加心理負荷。

所以我將長驅直入直接從一個演算法實戰開始，就像以前爬蟲教程一樣，當你真正感受到它的趣味性後，才會有想去學它的慾望。

下面就從一個場景故事開始。

01 場景代入

在一個酒吧里，吧台上擺著十杯幾乎一樣的紅酒，老闆跟你打趣說想不想來玩個遊戲，贏了免費喝酒，輸了付 3 倍酒錢，贏的概率有 50%。你是個愛冒險的人，果斷說玩。

老闆接著道：你眼前的這十杯紅酒，每杯略不相同，前五杯屬於「赤霞珠」，後五杯屬於「黑皮諾」。現在，我重新倒一杯酒，你只需要根據剛才的十杯正確地告訴我它屬於哪一類。

聽完你有點心虛：根本不懂酒啊，光靠看和嘗根本區分辨不出來，不過想起自己是搞機器學習的，不由多了幾分底氣爽快地答應了老闆。

你沒有急著品酒而是問了老闆每杯酒的一些具體信息：酒精濃度、顏色深度等，以及一份紙筆。老闆一邊倒一杯新酒，你邊瘋狂打草稿。很快，你告訴老闆這杯新酒應該是「赤霞珠」。

老闆瞪大了眼下巴也差點驚掉，從來沒有人一口酒都不嘗就能答對，無數人都是反覆嘗來嘗去，最後以猶豫不定猜錯而結束。你神秘地笑了笑，老闆信守承諾讓你開懷暢飲。微醺之時，老闆終於忍不住湊向你打探是怎麼做到的。

你炫耀道：無他，但機器學習熟爾。

02 kNN 演算法介紹

接下來，我們就要從這個故事中開始接觸機器學習了，機器學習給很多人的感覺就是「難」，所以我編了上面這個故事，就是要引出機器學習的一個最簡單演算法：kNN 演算法（K-Nearest Neighbor），也叫 K 近鄰演算法。

別被「演算法」二字嚇到，我保證你只要有高中數學加上一點點 Python 基礎就能學會這個演算法。

學會 kNN 演算法，只需要三步：

了解 kNN 演算法思想

掌握它背後的數學原理（別怕，你初中就學過）

最後用簡單的 Python 代碼實現

在說 kNN 演算法前說兩個概念：樣本和特徵。

上面的每一杯酒稱作一個「樣本」，十杯酒組成一個樣本集。酒精濃度、顏色深度等信息叫作「特徵」。這十杯酒分布在一個多維特徵空間中。說到空間，我們最多能感知三維空間，為了理解方便，我們假設區分赤霞珠和黑皮諾，只需利用：酒精濃度和顏色深度兩個特徵值。這樣就能在二維坐標軸來直觀展示。

橫軸是酒精濃度值，縱軸是顏色深度值。十杯酒在坐標軸上形成十個點，綠色的 5 個點代表五杯赤霞珠，紅色的 5 個點代表五杯黑皮諾。可以看到兩類酒有明顯的界限。老闆新倒的一杯酒是圖中黃色的點。

記得我們的問題么？要確定這杯酒是赤霞珠還是黑皮諾，答案顯而易見，通過主觀距離判斷它應該屬於赤霞珠。

這就用到了 K 近鄰演算法思想。該演算法首先需要取一個參數 K，機器學習中給的經驗取值是 3，我們假設先取 3 ，具體取多少以後再研究。對於每個新來的點，K 近鄰演算法做的事情就是在所有樣本點中尋找離這個新點最近的三個點，統計三個點所屬類別然後投票統計，得票數最多的類別就是新點的類別。

上圖有綠色和紅色兩個類別。離黃色最近的 3 個點都是綠點，所以綠色和紅色類別的投票數是 3:0 ，綠色取勝，所以黃色點就屬於綠色，也就是新的一杯就屬於赤霞珠。

這就是K 近鄰演算法，它的本質就是通過距離判斷兩個樣本是否相似，如果距離夠近就覺得它們相似屬於同一個類別。當然只對比一個樣本是不夠的，誤差會很大，要比較最近的 K 個樣本，看這 K 個樣本屬於哪個類別最多就認為這個新樣本屬於哪個類別。

是不是很簡單？

再舉一例，老闆又倒了杯酒讓你再猜，你可以在坐標軸中畫出它的位置。離它最近的三個點，是兩個紅點和一個綠點。紅綠比例是 2:1，紅色勝出，所以 K 近鄰演算法告訴我們這杯酒大概率是黑皮諾。

可以看到 K 近鄰演算法就是通過距離來解決分類問題。這裡我們解決的二分類問題，事實上K 近鄰演算法天然適合解決多分類問題，除此之外，它也適合解決回歸問題，之後一一細講。

02 數學理論

K 近鄰演算法基本思想我們知道了，來看看它背後的數學原理。該演算法的「距離」在二維坐標軸中就是兩點之間的距離，計算距離的公式有很多，一般常用歐拉公式，這個我們中學就學過：

解釋下就是：空間中 m 和 n 兩個點，它們的距離等於 x y 兩坐標差的平方和再開根。

如果在三維坐標中，多了個 z 坐標，距離計算公式也相同：

當特徵數量有很多個形成多維空間時，再用 x y z 寫就不方便，我們換一個寫法，用 X 加下角標的方式表示特徵維度，這樣 n 維空間兩點之間的距離公式可以寫成：

公式還可以進一步精簡：

這就是 kNN 演算法的數學原理，不難吧？

只要計算出新樣本點與樣本集中的每個樣本的坐標距離，然後排序篩選出距離最短的 3 個點，統計這 3 個點所屬類別，數量佔多的就是新樣本所屬的酒類。

根據歐拉公式，我們可以用很基礎的 Python 實現。

03 Python 代碼實現

首先隨機設置十個樣本點表示十杯酒，我這裡取了 Sklearn 中的葡萄酒數據

集的部分樣本點，這個數據集在之後的演算法中會經常用到會慢慢介紹。

1importnumpyasnp

2X_raw = [[14.23,5.64],

3[13.2,4.38],

4[13.16,5.68],

5[14.37,4.80],

6[13.24,4.32],

7[12.07,2.76],

8[12.43,3.94],

9[11.79,3.],

10[12.37,2.12],

11[12.04,2.6]]

13y_raw = [,,,,,1,1,1,1,1]

X_raw 的兩列值分別是顏色深度和酒精濃度值，y_raw 中的 0 表示黑皮諾，1 表示赤霞珠。

新的一杯酒信息：

1x_test = np.array([12.8,4.1])

在機器學習中常使用 numpy 的 array 數組而不是列表 list，因為 array 速度快也能執行向量運算，所以在運算之前先把上面的列錶轉為數組：

1X_train = np.array(X_raw)

2y_train = np.array(y_raw)

有了 X Y 坐標就可以繪製出第一張散點圖：

1importmatplotlib.pyplotasplt

2plt.style.use("ggplot")

3plt.figure(figsize=(10,6))

5plt.scatter(X_train[y_train==1,],X_train[y_train==1,1],s=100,color=color_g,label="赤霞珠")

6plt.scatter(X_train[y_train==,],X_train[y_train==,1],s=100,color=color_r,label="黑皮諾")

7plt.scatter(x_test2[],x_test2[1],s=100,color=color_y)# x_test

9plt.xlabel("酒精濃度")

10plt.ylabel("顏色深度")

11plt.legend(loc="lower right")

13plt.tight_layout()

14plt.savefig("葡萄酒樣本.png")

接著，根據歐拉公式計算黃色的新樣本點到每個樣本點的距離：

1frommathimportsqrt

2distances = [sqrt(np.sum((x - x_test)**2))forxinX_train]# 列表推導式

3distances

5[out]：

6[1.7658142597679973,

71.5558920271021373,

82.6135799203391503,

91.9784084512557052,

101.5446682491719705,

110.540092584655631,

120.7294518489934753,

130.4172529209005018,

141.215113163454334,

150.7011419257183239]

上面用到了列表生成式，以前的爬蟲教程中經常用到，如果不熟悉可以在公眾號搜索「列表生成式」關鍵字複習。

這樣就計算出了黃色點到每個樣本點的距離，接著找出最近的 3 個點，可以使用 np.argsort 函數返回樣本點的索引位置：

1sort = np.argsort(distances)

2sort

4[out]：array([7,5,9,6,8,4,1,,3,2], dtype=int64)

通過這個索引值就能在 y_train 中找到對應酒的類別，再統計出排名前 3 的就行了：

1K =3

2topK = [y_train[i]foriinsort[:K]]

3topK

5[out]：[1,1,1]

可以看到距離黃色點最近的 3 個點都是綠色的赤霞珠，與剛才肉眼觀測的結果一致。

到這裡，距離輸出黃色點所屬類別只剩最後一步，使用 Counter 函數統計返回類別值即可：

1fromcollectionsimportCounter

2votes = Counter(topK)

3votes

4[out]：Counter({1:3})

6predict_y = votes.most_common(1)[][]

7predict_y

8[out]：1

最後的分類結果是 1 ，也就是新的一杯酒是赤霞珠。

我們使用 Python 手寫完成了一個簡易的 kNN 演算法，是不是不難？

如果覺得難，來看一個更簡單的方法：調用 sklearn 庫中的 kNN 演算法，俗稱調包，只要 5 行代碼就能得到同樣的結論。

04 sklearn 調包

1fromsklearn.neighborsimportKNeighborsClassifier

2kNN_classifier = KNeighborsClassifier(n_neighbors=3)

3kNN_classifier.fit(X_train,y_train )

4x_test = x_test.reshape(1,-1)

5kNN_classifier.predict(x_test)[]

7[out]：1

首先從 sklearn 中引入了 kNN 的分類演算法函數 KNeighborsClassifier 並建立模型，設置最近的 K 個樣本數量 n_neighbors 為 3。接下來 fit 訓練模型，最後 predict 預測模型得到分類結果 1，和我們剛才手寫的代碼結果一樣的。

你可以看到，sklearn 調包雖然簡單，不過作為初學者最好是懂得它背後的演算法原理，然後用 Python 代碼親自實現一遍，這樣入門機器學習才快。

下一篇推文來看看 sklearn 是如何封裝 kNN 演算法的，並用 Python 手寫一遍。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※Python處理文件系統的10種方法
※速度提升270倍！微軟和浙大聯合推出全新語音合成系統FastSpeech

TAG:AI科技大本營 |