kNN 演算法的 SQL 實現

最新 06-14

在 2008 年尾的時候，讀到一本非常有趣的書，叫做《Data Mining With SQL Server 2008》. 在遇到《Inside Sql Server》系列前夕，此時正值讀書的空檔期。為什麼會對這本書感興趣呢，畢竟是作為農學畢業的我，八竿子也打不到 Data Mining 的領域去，主要還是對於前途的擔憂。這話題說來，估計長的可以寫篇小說了。咱們不賣焦慮，所以簡而言之：做了兩年 C/S 的開發之後，深深感到數據才是靈魂，而這靈魂的操盤手，普天之下，Data Mining 穩穩得排在江湖兵器譜第一位！

在堅持了兩個月的研究之後，（為什麼這麼久，只有英語六級水平的人，看純英文版還是很吃力，當時這本書還沒中文本），搗鼓了一點彩票數據進 SQL Server Cube ，以為靠著深奧萬能的模型，從此可以財富自由，一時間豪氣四射，信心倍增，連蛋餅都加 2 個蛋的，後來才知其實那只是黃粱一夢。

在萬惡的資本思想驅使下，一遍遍修鍊決策樹，聚類，神經網路，貝葉斯模型，每一遍都用真金白銀去豪賭（2 塊錢一注，當時月薪 1200 吧，所以真是豪賭），收穫的卻是一遍遍的失望，那時的心，就像 911 下的五角大樓一樣，崩塌在即。直到把聚類的模型統統走完，一次都沒中！從此，Data Mining 與我是路人。

十年過來了，如今大火的數據挖掘，又加上了新玩法，美其名曰機器學習，人工智慧，深度學習等。再和朋友們談論的時候，閉口不談大數據，AI， ML, 大家都會帶著異樣的眼光看著你，「你丫也是在 IT 圈混的？」... 所以重新拾起來看看，與時俱進。其實內心的回答是，「08 年小哥我開始玩 Weka 的時候，你們連 Oracle 都不會玩吧，還談大數據，AI」

言歸正傳，今天的主題是 kNN ( top k nearest ) 最近鄰演算法。參考的書目是兩本《機器學習實戰》(Peter 著)與《機器學習》(周志華著). 這兩本書各有其優點，《實戰》這本書對於 Python 代碼實現演算法講的比較多，讓你很容易就寫出一個模型來完成一次實戰，跟玩王者一樣的，反饋很及時，而周志華教授的這本《機器學習》則是講的比較細緻了，用的是挑西瓜的例子，很有趣味。當然 Peter 這本書用的還是 Python 2.0 , 我費了很大的勁兒，才轉成 Python 3.0 的語法，以下的例子會有註解，而周教授的這本書，則是沒有數學底子根本看不懂在講啥，碰到 kNN , 會跟你詳細解釋權重，概率，線性矩陣，有多少種求解最短距離的演算法等，很開眼界，讓我瞬間覺得我活著都是在浪費社會資源。

用一幅圖來講解 kNN, 可以讓你瞬間秒懂：