GitHub最著名的20個Python機器學習項目，值得收藏！

知識 02-11

微信公眾號

關鍵字全網搜索最新排名

【機器學習演算法】

：排名第一

【機器學習】

：排名第二

【Python】

：排名第三

【演算法】

：排名第四

源

| kdnuggets|小象

開源是技術創新和快速發展的核心。這篇文章向你展示Python機器學習開源項目以及在分析過程中發現的非常有趣的見解和趨勢。

我們分析了GitHub上的前20名Python機器學習項目，發現scikit-Learn，PyLearn2和NuPic是貢獻最積極的項目。讓我們一起在Github上探索這些流行的項目！

Scikit-learn：Scikit-learn 是基於Scipy為機器學習建造的的一個Python模塊，他的特色就是多樣化的分類，回歸和聚類的演算法包括支持向量機，邏輯回歸，樸素貝葉斯分類器，隨機森林，Gradient Boosting，聚類演算法和DBSCAN。而且也設計出了Python numerical和scientific libraries Numpy and Scipy

https://github.com/scikit-learn/scikit-learn

Pylearn2：Pylearn是一個讓機器學習研究簡單化的基於Theano的庫程序。

https://github.com/lisa-lab/pylearn2

NuPIC：NuPIC是一個以HTM學習演算法為工具的機器智能平台。HTM是皮層的精確計算方法。HTM的核心是基於時間的持續學習演算法和儲存和撤銷的時空模式。NuPIC適合於各種各樣的問題,尤其是檢測異常和預測的流數據來源。

https://github.com/numenta/nupic

Nilearn：Nilearn 是一個能夠快速統計學習神經影像數據的Python模塊。它利用Python語言中的scikit-learn 工具箱和一些進行預測建模，分類，解碼，連通性分析的應用程序來進行多元的統計。

https://github.com/nilearn/nilearn

PyBrain：Pybrain是基於Python語言強化學習，人工智慧，神經網路庫的簡稱。它的目標是提供靈活、容易使用並且強大的機器學習演算法和進行各種各樣的預定義的環境中測試來比較你的演算法。

https://github.com/pybrain/pybrain

Pattern：Pattern 是Python語言下的一個網路挖掘模塊。它為數據挖掘，自然語言處理，網路分析和機器學習提供工具。它支持向量空間模型、聚類、支持向量機和感知機並且用KNN分類法進行分類。

https://github.com/clips/pattern

Fuel：Fuel為你的機器學習模型提供數據。他有一個共享如MNIST, CIFAR-10 (圖片數據集), Google"s One Billion Words (文字)這類數據集的介面。你使用他來通過很多種的方式來替代自己的數據。

http://www.github.com/mila-udem/fuel

Bob：Bob是一個免費的信號處理和機器學習的工具。它的工具箱是用Python和C++語言共同編寫的，它的設計目的是變得更加高效並且減少開發時間，它是由處理圖像工具,音頻和視頻處理、機器學習和模式識別的大量軟體包構成的。

www.github.com/idiap/bob

Skdata：Skdata是機器學習和統計的數據集的庫程序。這個模塊對於玩具問題，流行的計算機視覺和自然語言的數據集提供標準的Python語言的使用。

www.github.com/jaberg/skdata

MILK：MILK是Python語言下的機器學習工具包。它主要是在很多可得到的分類比如SVMS,K-NN,隨機森林，決策樹中使用監督分類法。它還執行特徵選擇。這些分類器在許多方面相結合,可以形成不同的例如無監督學習、密切關係金傳播和由MILK支持的K-means聚類等分類系統。

www.github.com/luispedro/milk

IEPY：IEPY是一個專註於關係抽取的開源性信息抽取工具。它主要針對的是需要對大型數據集進行信息提取的用戶和想要嘗試新的演算法的科學家。

www.github.com/machinalis/iepy

Quepy：Quepy是通過改變自然語言問題從而在資料庫查詢語言中進行查詢的一個Python框架。他可以簡單的被定義為在自然語言和資料庫查詢中不同類型的問題。所以，你不用編碼就可以建立你自己的一個用自然語言進入你的資料庫的系統。現在Quepy提供對於Sparql和MQL查詢語言的支持。並且計劃將它延伸到其他的資料庫查詢語言。

www.github.com/machinalis/quepy

Hebel：Hebel是在Python語言中對於神經網路的深度學習的一個庫程序，它使用的是通過PyCUDA來進行GPU和CUDA的加速。它是最重要的神經網路模型的類型的工具而且能提供一些不同的活動函數的激活功能，例如動力，涅斯捷羅夫動力，信號丟失和停止法。

www.github.com/hannes-brt/hebel

mlxtend：它是一個由有用的工具和日常數據科學任務的擴展組成的一個庫程序。

www.github.com/rasbt/mlxtend

nolearn：這個程序包容納了大量能對你完成機器學習任務有幫助的實用程序模塊。其中大量的模塊和scikit-learn一起工作，其它的通常更有用。

www.github.com/dnouri/nolearn

Ramp：Ramp是一個在Python語言下制定機器學習中加快原型設計的解決方案的庫程序。他是一個輕型的pandas-based機器學習中可插入的框架，它現存的Python語言下的機器學習和統計工具（比如scikit-learn,rpy2等）Ramp提供了一個簡單的聲明性語法探索功能從而能夠快速有效地實施演算法和轉換。

www.github.com/kvh/ramp

Feature Forge：這一系列工具通過與scikit-learn兼容的API，來創建和測試機器學習功能。這個庫程序提供了一組工具，它會讓你在許多機器學習程序使用中很受用。當你使用scikit-learn這個工具時，你會感覺到受到了很大的幫助。（雖然這隻能在你使用不同的演算法時起作用。）

www.github.com/machinalis/featureforge

REP：REP是以一種和諧、可再生的方式為指揮數據移動驅動所提供的一種環境。它有一個統一的分類器包裝來提供各種各樣的操作，例如TMVA, Sklearn, XGBoost, uBoost等等。並且它可以在一個群體以平行的方式訓練分類器。同時它也提供了一個互動式的情節。

www.github.com/yandex/rep

Python 學習機器樣本：用亞馬遜的機器學習建造的簡單軟體收集。

www.github.com/awslabs/machine-learning-samples

Python-ELM：這是一個在Python語言下基於scikit-learn的極端學習機器的實現。

www.github.com/dclambert/Python-ELM

近期熱文

資源 | 26份機器學習視頻資源，涵蓋入門->中級->項目的各個階段！（可直接下

載......）

機器學習（37）之矩陣分解在協同過濾推薦中的應用

資料 | 美圖區域鏈白皮書（附PDF鏈接）

手冊 | Linux 運維人員最常用 150 個命令匯總

機器學習(36)之協同過濾典型演算法概述【精華】

機器學習(35)之PrefixSpan演算法原理詳解

2017年度盤點：Github上十大有趣的機器學習項目（文末有驚喜......）

加入微信機器學習交流

群

請添加微信：guodongwe1991

備註姓名-單位-研究方向

廣告、商業合作

請添加微信：guodongwe1991

（備註：商務合作）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

TAG: |