當前位置:
首頁 > 最新 > 最全數據科學和機器學習工具清單

最全數據科學和機器學習工具清單

編程是數據科學的重要組成部分,理解編程邏輯、循環和函數的開發者也更容易成為數據科學家。但是,對於那些未在大學時期學習過軟體開發,或接觸過編程語言的人們來說,就真的沒辦法涉足這一領域?

近些年,隨著數據科學的蓬勃發展,許多公司(也包括很多創業公司)都推出了基於GUI(圖形用戶界面)的數據科學工具。即便不具備任何編程經驗或對演算法知之甚少,你都可以藉助這些工具來構建高質量的機器學習模型,進而成為一名合格的數據科學家。本文我們總結了目前最為簡單易用的數據科學工具清單,也希望你能儘早成為這一領域的專家。

RapidMiner

RapidMiner(RM)最初源自YALE(Yet Another Learning Environment)項目,2007年正式更名為RapidMiner。RM涵蓋了預測建模的整個生命周期,包括數據準備、數據建模、驗證和部署。藉助RM,你可以在沒有一行代碼的情況下運行各種各樣的機器演算法,同時,RM也支持R和Python腳本。

目前,RM被用於各行各業,包括汽車、銀行、保險、生命科學、製造業、石油和天然氣、零售、電信和公用事業等。2014年,RM正式進入中國預測性分析市場,主要為中國用戶提供預測性分析解決方案、技術支持、培訓及認證服務。

RM產品線包括:

RapidMiner Studio:一款可用於數據準備,可視化分析和統計建模的客戶端軟體。

RapidMiner Server:適用於企業級環境,具有中央存儲庫功能,可以輕鬆進行團隊協同,項目管理和模型部署,與RapidMiner Studio無縫集成。

RapidMiner Radoop:可以實現以Hadoop為中心的大數據分析功能。

RapidMiner Cloud:基於雲的存儲庫,可以輕鬆實現各種設備之間信息共享。

RapidMiner中文官網:

www.rapidminerchina.com/zh_CN/

DataRobot

DataRobot(DR)是一款高度自動化的機器學習平台,由全球最好的Kagglers創建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。在DR官網上我們可以看到這樣一句話,「數據科學需要數學、統計學、編程技能和商業認知。藉助DataRobot,你可以輕鬆獲得數據和業務見解,其餘部分由我們負責。」

DataRobot具備如下特性:

模型優化

通過採用文本挖掘,變數類型檢測、插補、縮放、轉換等手段自動檢測最佳數據預處理和特徵工程。

根據錯誤度量和驗證集合分數自動選擇超參數。

並行處理

計算被分為數千台多核伺服器。

使用分散式演算法擴展到大型數據集。

部署

只需點擊幾下即可完成部署(無需編寫任何代碼)

對於軟體工程師

Python SDK和API可用於將模型快速集成到工具和軟體中。

BigML

BigML平台旨在幫助客戶創建,快速實驗,全面自動化並管理機器學習工作流程。BigML提供了很好的可視化功能,並具備求解分類、回歸、聚類、異常檢測等演算法。該產品可以按照月、季度和年度進行訂閱,同時也提供免費版本(免費版本的數據集限制為16 MB)。

BigML的平台,私用部署和豐富的工具集將繼續幫助我們的客戶創建,快速實驗,全面自動化並管理機器學習工作流程,以提供同類中最佳的智能應用程序。基於圖形用戶界面,BigML提供了以下功能:

來源:使用各種信息來源

數據集:使用定義的源創建數據集

模型:製作預測模型

預測:基於模型生成預測

集成:創建各種模型的集成

評估:針對驗證集的非常模型

Google Cloud AutoML

Cloud AutoML是Google機器學習套件產品的一部分,可以幫助非ML專業人員構建高質量的機器學習模型。Cloud AutoML使得訓練圖像識別模型變得更加簡單,用戶只需要通過拖拽操作就可以上傳圖像、訓練模型和部署模型。

官方網站:cloud.google.com/automl/

Paxata

Paxata並不是一款機器學習或建模工具,其主要用於數據清洗和數據準備。Paxata提供了可視化指導,用戶可以輕鬆地將數據彙集到一起,並進行查詢、修復、清洗、共享等操作。與文中其他工具一樣,使用Paxata無需具備編碼或腳本能力。目前,Praxata已經開始涉足金融、消費品和互聯網領域。如果你的工作包含數據清理,那麼Paxata是一個很好的工具。

Paxata平台遵循以下流程:

添加數據:可以廣泛地獲取數據源。

探索:使用強大的可視化效果進行數據探索。

清理+更改:使用插補等步驟執行數據清理,使用NLP對相似值進行規範化,檢測重複項。

形狀:製作數據樞紐並執行分組和聚合。

分享+治理:允許在強大的身份驗證和授權的情況下進行分享和協作。

組合:通過專利技術SmartFusion,Paxata允許將數據幀與1次點擊組合在一起,並自動檢測出最佳組合,同時多個數據集可以組合成一個AnswerSet。

BI工具:可以在常用的BI工具中輕鬆實現數據可視化,還可以實現數據預處理與可視化之間的迭代。

Trifacta

Trifacta是另外一家專註於數據準備的創業公司,Trifacta提供了非常直觀的GUI來進行數據處理操作。對於每一列,Trifacta都會自動推薦一些可以通過單擊進行選擇的轉換,也可以使用一些預定義的函數對數據執行各種轉換,這些函數可以在界面中輕鬆調用。Trifacta主要用於金融、生命科學和電信行業。目前該產品提供了三個版本:

Wrangler:一款免費的獨立軟體,允許處理最大100MB的數據。

Wrangler Pro:上述的升級版本。允許單用戶和多用戶,數據量限制為40GB。

Wrangler Enterprise:Trifacta的最高級產品。其對處理的數據量沒有任何限制,並允許無限制的用戶,非常適合大型組織。

Trifacta平台遵循以下使用步驟:

發現:快速了解數據和分布情況。

結構:為數據分配合適的形狀和變數類型,並解決異常。

清理:進行插補、文本標準化等過程,這些都是使數據模型準備就緒所必需的。

充實:這一步有助於提高分析質量,通過添加更多來源的數據或對現有數據執行一些功能來完成。

驗證:對數據執行最終檢測。

發布:將數據導出以供進一步使用。

MLBase

MLBase是加州大學伯克利分校的AMP(演算法機器人)實驗室開發的一個開源項目。其背後的核心思想是為機器學習應用於大規模問題提供一個簡單的解決方案。

MLBase包含3個產品:

MLlib:Apache Spark中的核心分散式ML庫。 它最初是作為MLBase項目的一部分開發的,但現在Spark社區也在支持它。

MLI:用於特徵提取和演算法開發的實驗性API,它引入了高級ML抽象編程。

ML優化器:旨在自動執行ML管道構建任務。優化器通過包含在MLI和MLlib中的特徵提取器和ML演算法來解決搜索問題。

官方網站:mlbase.org

Auto-WEKA

Auto-WEKA是一個用Java編寫的數據挖掘軟體,由紐西蘭懷卡託大學的機器學習小組開發。這是一個基於GUI的工具,對數據科學初學者非常有用。最重要的是,Auto-WEKA是完全開源的,開發者已經提供了詳細的使用教程和論文幫助你更好的使用它。目前Auto-WEKA主要用於教育和學術研究。

官方網站:

www.cs.ubc.ca/labs/beta/Projects/autoweka/

Driverless AI

Driverless AI是由開源機器學習平台h2o.ai推出的最新產品,這一工具可以幫助非技術人員準備數據,審校參數,確定最優演算法,進而用機器學習來解決專門的企業問題。該產品旨在降低數據科學在企業環境下運行的門檻。

這些是Driverless AI的一些令人振奮的功能:

多GPU對XGBOOST,GLM和K-Means等的支持,即使對於大型複雜的數據集也能提供出色的訓練速度。

自動特徵工程,用於調整和綜合各種模型以產生高度準確的預測。

在訓練過程中,用於解釋模型以及實時特徵重要性的面板。

官方網站:www.h2o.ai/driverless-ai/

Microsoft Azure ML Studio

Azure ML Studio是一個簡單而強大的基於瀏覽器的ML平台,其擁有可視化的拖放環境,不需要編碼。微軟已經為新手準備了非常全面的教程和應用示例,以幫助用戶快速掌握該工具。Azure ML Studio的使用步驟非常簡單:

導入數據集

如有必要,執行數據清理和其他預處理步驟

將數據分解為訓練和測試集

內置的ML演算法來訓練模型

評分你的模型,並得到預測結果

MLJar

同Azure ML Studio一樣,MLJar也是一個基於瀏覽器的平台,用於快速構建和部署機器學習模型。MLJar的操作界面非常直觀,並允許用戶並行訓練模型。MLJar具有內置的超參數搜索功能,可以更輕鬆地部署模型。同時,MLJar提供了與NVIDIA的CUDA、Python以及TensorFlow等的集成。

MLJar的主要操作步驟:

上傳數據集

訓練和調整機器學習演算法,並選擇最佳演算法

使用最佳模型進行預測並分享您的結果

目前該工具採取訂閱付費模式,同時也提供免費版本(0.25GB的數據集限制)

官方網站:mljar.com

Amazon Lex

Amazon Lex提供了一個易於使用的控制台,可以幫助用戶在幾分鐘內構建屬於自己的聊天機器人。用戶可以使用Lex在自己的應用程序或網站中構建會話界面。你需要做的就是提供一些短語,剩下的都可以交給Amazon Lex!其構建了一個完整的自然語言模型,使用該模型,客戶可以使用語音和文本與應用程序進行交互。

Amazon Lex還與亞馬遜網路服務(AWS)平台進行了集成,Lex是一項完全託管服務,隨著用戶參與度的增加,您也無需擔心配置硬體和管理基礎架構。

官方網站:aws.amazon.com/cn/lex/

IBM Watson Studio

如何從這個清單中排除IBM?這個世界上最知名的IT品牌之一。IBM Watson Studio為構建和部署機器學習和深度學習模型提供了一個出色的平台。藉助Watson Studio,你可以輕鬆完成數據準備工作、使用RStudio等熟悉的開源工具、訪問最流行的庫、訓練深度神經網路等。對於機器學習的入門者來說,IBM提供了一系列的教程視頻幫助你入門Watson Studio。

官方網站:

www.ibm.com/cloud/watson-studio

更多工具

KNIME - 該工具非常適合訓練機器學習模型,而且GUI體驗很棒,更重要的是KNIME完全免費。

FeatureLab - 它允許使用GUI進行簡單的預測建模和部署。該產品最大的賣點之一是自動特徵工程。

MarketSwitch - 該工具更側重於優化,而非預測分析。

Logical Glue - 另一種基於GUI的機器學習平台,主要用於從原始數據處理到部署。

超級福利持續發放中......


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

專訪機器學習祖師爺 Tom Mitchell:帶著理性擁抱機器學習的熱潮
機器學習助力雜多酸鹽發現與表徵

TAG:機器學習 |