去年最火的機器學習開源項目集錦（上）

最新 01-11

名稱：FastText用於快速文本表示和分類的庫

作者：Facebook Research

Star數：11,786

Github：https://github.com/facebookresearch/fastText

簡介：

FastText 是 Facebook 開發的一款快速文本分類器，提供簡單而高效的文本分類和表徵學習的方法，性能比肩深度學習而且速度更快。Facebook 在此前的研究中宣稱人們可以使用一個標準多核 CPU 在十分鐘內完成 fastText 上 10 億多詞的訓練，並在一分鐘內將 50 萬個句子分成 31.2 萬個類別。2016年 8 月，Facebook 將這一技術開源。2017年，Facebook進一步拓展了 FastText 的應用範圍，他們發布了支持 294 種語言的預訓練矢量文件包，並配有兩個快速入門教程，為學生、軟體開發者和機器學習研究人員提供了更多支持。同時，隨著 FastText 模型內存使用量的減少，它現在已經可以裝進手機和樹莓派這樣的小型計算設備中了。

相關項目：Muse多語言無監督/監督詞嵌入，基於 FastText

Github：https://github.com/facebookresearch/MUSE

名稱：Deep-photo-styletransfer 深度圖片風格轉換

作者：康奈爾大學 Fujun Luan博士

Star數：9747

Github：https://github.com/luanfujun/deep-photo-styletransfer

簡介：

本項目開源了一種實現照片風格遷移的深度學習方法，這種方法可以處理很多不同種類的照片內容，同時還能如實遷移參考風格。現有的其他方法不適合圖像現實主義風格的遷移，即使輸入和參考圖片都是照片，但仍然會輸出畸變（distortions）的結果。本研究將輸入到輸入的變換限制為空間內的精確色彩變化，並將此約束表示為可以反向傳播的自定義 CNN 層。結果表明，這一方法成功地抑制了圖片在各種不同場景下（包括一天的各個時間段，各種天氣，季節以及藝術風格編輯）的風格扭曲，照片現實主義（photorealistic）風格遷移的效果也令人滿意。

名稱：face recognition：最簡單的 Python 命令行面部識別 API

作者：Adam Geitgey

Star數：8672

Github：https://github.com/ageitgey/face_recognition

簡介：

該庫基於 dlib 庫實現了頂尖的深度學習人臉識別技術，無需複雜的構建卷積神經網路。本項目在戶外的人臉檢測基準數據集LFW（Labeled Faces in the Wild benchmark）上獲得了高達 99.38%的準確率。整個過程可以離線完成，實時高效。項目對人臉的處理過程包含人臉檢測、人臉關鍵點定位、特徵提取、身份識別。同時，項目也提供了一個簡單的 face_recognition 命令行工具，你可以打開命令行中任意圖像文件夾，進行人臉識別。

名稱：Magenta：機器智能音樂與藝術生成器

作者：Google Brain

Star數：8113

Github：https://github.com/tensorflow/magenta

簡介：

Magenta是來自Google Brain團隊的一個項目，曾經有人問道：我們可以使用機器學習來創造引人注目的藝術和音樂嗎？如果可以，怎麼實現？如果不可以，又是為何？本項目中作者使用TensorFlow，控制MIDI介面。樂器數字介面（Musical Instrument Digital Interface/MIDI）誕生於20世紀80年代，已經成為音樂行業的技術標準。本項目中開源了控制模型和相關工具，並且提供了部分演示。

名稱：Sonnet：基於 TensorFlow 的神經網路庫

作者：DeepMind 成員 Malcolm Reynolds

Star數：5731

Github：https://github.com/deepmind/sonnet

簡介：

TensorFlow 的靈活性和自適應性使得為特定目的構建更高級的框架成為可能，DeepMind 內部開發了一個框架來用 TF 快速構建神經網路模塊，該框架即為 Sonnet。自從 2015 年 11 月首次推出以來，圍繞 TensorFlow 出現了許多更高級的庫，使得很多常用任務得以更快實現。除了和現存的一些神經網路庫具有許多相似性外，Sonnet 還具有一些根據 DeepMind 的研究需求設計的特性。

名稱：deeplearn.js：網頁端硬體加速機器學習庫

作者：Google Brain 團隊 Nikhil Thorat

Star數：5462

Github：https://github.com/PAIR-code/deeplearnjs

簡介：

deeplearn.js 是一個可用於機器智能並加速 WebGL 的開源 JavaScript 庫。deeplearn.js 提供高效的機器學習構建模塊，使我們能夠在瀏覽器中訓練神經網路或在推斷模式中運行預訓練模型。它提供構建可微數據流圖的 API，以及一系列可直接使用的數學函數。

名稱：Fast Style Transfer：基於TensorFlow 的快速風格轉換

作者：Logan Engstrom（來自MIT）

Star數：4843

Github：https://github.com/lengstrom/fast-style-transfer

簡介：

該項目實現了圖片及視頻的風格轉換，可以在很短的時間內將名畫大師的風格遷移到自己的圖像中。風格遷移也有很多其他的相關研究，但是遷移的效率和用時為人所詬病。本項目最大的特點如其題目，即快速和高效。感興趣的不妨一試。

名稱：Pysc2：星際爭霸 2 學習環境

作者：DeepMind Timo Ewalds 等

Star數：3683

Github：https://github.com/deepmind/pysc2

簡介：

PySC2是DeepMind的「星際爭霸II學習環境」（SC2LE）的Python組件。它使用了暴雪娛樂公司的星際爭霸II機器學習API作為Python RL環境。這是DeepMind和暴雪之間的合作，將星際爭霸II發展成為RL研究的豐富環境。 PySC2為RL代理提供了一個與星際爭霸2進行交互的介面，獲取觀察和發送動作。

名稱：AirSim：基於虛幻引擎的開源自動駕駛模擬器

作者：微軟研究院 Shital Shah 等

Star數：3861

Github：https://github.com/Microsoft/AirSim

簡介：

2017年2月16號，微軟開源了基於虛幻引擎的一款用於模擬無人機飛行的工具AirSim。AirSim是一個用於模擬無人機在全世界的飛行的工具，這個模擬器基於虛幻引擎（UnrealEngine）構建。通過AirSim平台可以理解自動駕駛儀在真實世界中是如何行駛的，同時可以在該平台使用深度學習技術來理解這些運輸工具在各種不同的環境下是如何反應的。目前，AirSim可以模擬MAVLink和DJI無人機的飛機，可以支持Pixhawk控制器。框架是模塊化的，支持添加其它類型的運輸工具和控制器。

名稱：Facets：機器學習數據集可視化工具

作者：Google Brain

Star數：3371

Github：https://github.com/PAIR-code/facets

簡介：

Facets是一款開源的可視化工具，幫助你理解和分析 ML 數據集。Facets 包含兩個部分——Facets Overview 和 Facets Dive——允許用戶從不同的粒度觀看其數據的全景圖。你可以使用 Facets Overview 可視化數據每一個特徵，或者使用 Facets Dive 探索個別的數據觀察集。這些可視化允許你調試數據，這在機器學習中和調試模型一樣重要；還可以輕易地被用在 Jupyter notebooks 之內，或者嵌入網頁之中。

名稱：Style2Paints：AI 漫畫線稿上色工具

作者：蘇州大學

Star數：3310

Github：https://github.com/lllyasviel/style2paints

簡介：

由於檔期限制，我們經常會看到動畫由於製作時間緊張而出現作畫崩壞的情況。來自蘇州大學的研究者們提出的 Style2paints 或許可以幫助我們緩解這樣的情況，這種工具可以使用 AI 技術為黑白線稿快速自動上色。在最近推出的 2.0 版中，研究人員使用了完全無監督的生成對抗網路（GAN）訓練方法大幅提高了上色的準確性。Style2paints 的作者表示，該工具在精細度、漫畫風格轉換等方面超越了目前其他所有工具。

名稱：Tensor2Tensor：用於廣義序列-序列模型的工具庫

作者：Google Brain 的Ryan Sepassi

Star數：3087

Github：https://github.com/tensorflow/tensor2tensor

簡介：

Tensor2Tensor（T2T）是由谷歌發布的一個用於在 TensorFlow 中訓練深度學習模型的開源系統。T2T 能夠幫助人們為各種機器學習程序創建最先進的模型，可應用於多個領域，如翻譯、語法分析、圖像信息描述等，大大提高了研究和開發的速度。T2T 中也包含一個數據集和模型庫，其中包括谷歌近期發布的幾篇論文中提出的最新模型（Attention Is All You Need、Depthwise Separable Convolutions for Neural Machine Translation 和 One Model to Learn Them All）

名稱：基於 PyTorch 的圖像-圖像轉換工具

作者：UC Berkeley 博士朱俊彥

Star數：2847

Github：https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

簡介：

本文是用Torch實現的圖像到圖像的轉換（pix2pix），而不用輸入輸出數據對。這個程序包包含CycleGAN，pix2pix，以及其他方法，例如：BiGAN/ALI以及蘋果的論文：S+U learning。該項目有很多種玩法，比如從油畫生成照片，將馬轉換成斑馬，進行風格轉換，目標轉換、風格遷移、圖像照片增強等。

名稱：Faiss：用密集向量高效相似性搜索與聚類的工具庫

作者：Facebook

Star數：2629

Github：https://github.com/facebookresearch/faiss

簡介：

Facebook AI實驗室開源的相似性搜索庫Faiss：性能高於理論峰值55%，提速8.5倍，可在GPU 上實現十億規模級的相似性搜索。該庫可用於有效的相似性搜索（similarity search）和稠密矢量聚類（clustering of dense vectors），它包含了可在任何大小向量集合里進行搜索的演算法，向量集合的大小甚至可達到RAM容納不下的地步。另外，它還包含了用於評估和參數調優的支持代碼。Faiss 用 C ++編寫，有 Python / numpy 的完整包裝。其中最有用的一些演算法則在 GPU 上實現。

名稱：Fashion-mnist：一個類似於 MNIST 的時尚產品數據集

作者：Zalando Tech 的 Han Xiao

Star數：2780

Github：https://github.com/zalandoresearch/fashion-mnist

簡介：

Fashion-MNIST是一個替代MNIST手寫數字集的圖像數據集，由Zalando的研究部門提供，涵蓋了來自10種類別的共7萬個不同商品的正面圖片。其大小、格式和訓練集/測試集劃分與原始MNIST完全一致，包含6萬個樣本的訓練集和1萬個樣本的測試集。每個樣本都是一個28x28灰度圖像，以及10個分類標籤，分別有：褲子、套衫、裙子、外套、涼鞋、汗衫、運動鞋、包、裸靴。Fashion - MNIST旨在作為用於基準機器學習演算法替換原始的MNIST資料庫。

* * *

英文原文：

https://medium.mybridge.co/30-amazing-machine-learning-projects-for-the-past-year-v-2018-b853b8621ac7

相關簡要翻譯：

機器之心：

https://www.jiqizhixin.com/articles/2018-01-06-5

騰訊雲社區：

https://cloud.tencent.com/developer/article/1015574

以上就是全部內容啦~關注「習悅智能」，獲取更多行業新鮮資訊~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！