當前位置:
首頁 > 知識 > 提供免費計算資源,開發平台AI Studio零門檻實現AI能力

提供免費計算資源,開發平台AI Studio零門檻實現AI能力

機器之心發布

機器之心編輯部

2018 年 7 月 4 日-5 日,百度在國家會議中心舉辦第二屆 AI 開發者大會。在今年的開發者大會上,百度發布了 PaddlePaddle3.0,既升級了核心框架,又提供了 EasyDL 快速應用平台、AutoDL 網路結構自動化設計,以及 AI Studio 在線實訓平台。本文從功能簡介,實戰建模及 AI 能力應用等角度介紹了 AI Studio。

據介紹,運用 AI Studio 開發者可以實現自定義的 AI 建模能力而無需考慮硬體成本、運維成本、人力成本。相比於在其他雲平台上花錢買計算資源和存儲空間跑模型來說,AI Studio 提供全套免費服務(計算資源免費,空間資源免費,項目託管免費,視頻教程也免費)。

1.功能簡介

第一次進入主頁,首先的感覺是這是個類似 Kaggle 的數據競賽平台,但是仔細看來,AI Studio 強化了工程項目的概念,一大亮點就是 AI 學習項目這個版塊,裡面包括大量真實場景的工程項目(圖像識別,情感分析,個性化推薦等);另一個重要組成就是比賽了,眾所周知構建良性循環的產、學、研社區是行業發展的重要組成部分,不過目前 AI Studio 組織的比賽還剛起步,希望後續比賽多多,大家在這裡都能學到知識,交到朋友,最重要的是,可以在學習的同時給自己賺點零用錢花花。

Figure 1 AI Studio 特性

AI Studio 主要功能有項目類的項目大廳,創建項目,樣例項目,共享項目等四大部分,有數據科學比賽,有各種經典數據集和自定義數據集,有詳盡的機器學習和深度學習的教程及視頻公開課等。下面就簡單的來介紹一下:

Figure 2 AI Studio 主要功能

1.1.菜單欄

1.1.1.項目大廳

作為 AI Studio 的主頁,集成百度積累的經典 AI 學習項目,自我的項目管理及共享項目列表。整個平台都是以項目為核心的,也凸顯了 AI Studio 的定位,就是以技術及資源輸出幫助個人開發者,中小企業快速擁有 AI 能力以更好的服務自身業務。

1.1.2.數據集

數據集包括一些經典的公開數據集, 像 MNIST,IMDB,CIFAR10,Penn Treebank,MovieLens 等;也包括一些開放的百度數據(中文短文本語料,信息抽取數據)。不過相比 Kaggle 近萬份數據集來說,仍然有很大的發展空間,但是個人感覺 AI Studio 的數據集還是要比 Tianchi 的數據集規整很多的。當然,用戶也可以上傳自定義數據進行模型開發。

1.1.3.比賽

這個模塊應該是所有玩數據的人最感興趣的了吧。我之前在 Kaggle 參加過一些項目,總的來說,Kaggle 在比賽這塊做的真的很好,賽制清晰,社區完善,每次參加比賽都能有很大的提高。相較 Kaggle,AI Studio 的比賽數量還不多,不過以上提到的功能都有,另外就是 AI Studio 提供雲端訓練平台,這樣大家的武器庫相對平衡,能夠更公平的進行競賽。

Figure 3 AI Studio 比賽頁面

1.2. 創建項目

AI Studio 以項目為單元進行開發。創建項目,添加數據集,運行開發環境(notebook kernel),就可以開始構建自己的模型進行開發生產了。目前,環境僅支持 Python2.7(期待更多的環境,Python3,R 等),演算法框架包括 PaddlePaddle 和 sklearn 等。

Figure 4 AI Studio 創建項目頁面

1.3. 教程&資訊

關於教程,PaddlePaddle 關於機器學習的教程應該是中文裡最好的教程之一,不僅有機器學習、深度學習的視頻公開課和教程文檔(獲取),而且包含了大量的各個方向的深度學習實例,比如圖像分類,詞向量,個性化推薦,情感分析,語義角色標註以及機器翻譯等,不僅從原理層面進行深入淺出的講解,更提供模型代碼逐行進行實操,可以說為 Everyone can AI 提供了強大的後盾。

1.3.1.樣例工程

樣例工程即是提供的機器學習經典應用場景及歷屆比賽的 notebook,我們可以把各個項目 fork 到自己的項目下進行開發學習。對於急於構建 AI 能力的中小企業,這個模塊是最大福音了,很久之前看過 Tensorflow 的文檔,只有幾個典型問題的教程及代碼,而這裡包括了大量的基於不同場景的 AI 模型可供拿來即用。

1.3.2.共享項目

顧名思義,AI Studio 也提供項目共享功能供大家互相學習。在開源的時代,能夠培育成熟活躍的社區是平台發展的必要因素,這也是 Tensorflow 能夠在深度學習領域中快速推廣的重要原因。

1.3.3.我的項目

這裡是開發者自己的項目列表,不再贅述。

2.實戰建模

AI Studio 以項目為核心,創建項目的同時可以自定義上傳數據,也可以選取平台已有數據集;目前,環境僅支持 Python2.7,演算法庫包括 sklearn 和 PaddlePaddle。不需要費心在開發環境上,能夠安心構造模型,將建模工程雲服務化應該是未來趨勢(能夠方便中小企業快速構建 AI 能力)。在 AI Studio 各項目之間是獨立分配資源的,可以同時調試多個項目模型,這點還是非常贊的。

我這裡創建了兩個共享項目,查看代碼直接 fork 項目開箱即用(需百度賬號登錄:Titanic 項目,個性化推薦項目),代碼詳見附錄及共享項目。第一個項目是最最基礎的數據科學的入門問題 titanic 預測是否生還(自主上傳數據,調用 sklearn 隨機森林模型);第二,利用已有數據(MovieLens)及 PaddlePaddle 構建個性化推薦模型。一個小問題就是創建項目後進入項目頁面,進入運行狀態還需要點擊運行項目,這裡感覺有點冗餘;運行的項目就是一個簡潔的 notebook 開發環境,該有的功能都有,個人感覺速度比 Kaggle 要好很多(不知是不是我的網速渣)。

Figure 5 AI Studio 項目界面

開發環境主體是由 notebook 形式組成,熟悉 jupyter 的同學可以無縫銜接,比 notebook 好的一點就是項目的數據集都會形成列表,簡單一鍵獲取數據路徑。菜單欄更簡潔,基本功能都有,可以保存 notebook,有個有意思的地方是在創建項目的時候環境只能選 Python2.7,但這裡 kernel 選擇會出現 Python3。

Figure 6 AI Studio 開發頁面

3.群雄逐鹿

作為一站式 AI 建模開發平台 AI Studio,如何在強手如雲的 AI 開發平台市場殺出一條血路呢?最重要的途徑就是完善比賽社區的理念,通過 PaddlePaddle+AI Studio 的方式搶佔數據科學競賽這個領域,這裡就簡要比較一下幾家數據競賽平台(AI Studio、Kaggle、天池、DataCastle 等)。以下將從對開發者的能力提升,平台比賽的公平性和比賽收穫等三個方面闡述。

3.1.能力提升

可以說參加數據建模比賽是最好的提升自身能力的方式了,在比賽中,不但能夠了解各行各業的業務形式,數據結構,也能真實的驗證我們對特徵和演算法的不同理解,而良好的社區環境和代碼共享機製為自身能力的提升提供了溫床。在這方面,Kaggle 因為成立最早有很強的人才和代碼沉澱,投靠 Google 後,更是愈發的體現了其中的優勢。天池和 DataCastle 在社區建設上也投入了大量的精力,但是與 Kaggle 還是有較大的差距,不過在中文社區中應該算是佼佼者。AI Studio 顯然有後來者的劣勢,不過看過他們的樣例項目,還是很佩服他們在教程和文檔方面的思考,可以說在 AI 中文教程里 AI Studio 大踏步的跨入了第一梯隊。

3.2.比賽的公平性

這裡的公平性體現在兩個方面,第一是賽題的數據量要有一定的規模以防止數據量過小導致的模型穩定性問題;第二則是計算資源的公平性,舉個栗子,假如阿里組隊以 P100 GPU 集群的算力來參賽的話,恐怕其他人的勝算只能寄託於奇蹟了,而對於 ImageNet 那樣量級的數據,我們只有 PC 機的話恐怕連一次迭代也完成不了,更不要說模型調優了。

在這方面,AI Studio 具有極大的優勢,平台不僅免費對參賽選手給予計算資源上的支持,更是提供最新版本的 PaddlePaddle 供選手調用。而天池在初賽階段是沒有集群算力支持的,只有進入複賽的選手才會有機會使用數加平台。Kaggle 和 DataCastle 更是沒有平台的支持。相比來說在比賽資源的公平性上 AI Studio 的優勢巨大。

3.3.比賽收穫

這裡的收穫是只除了能力以外的物質方面的獲得,比如現金獎勵和簡歷背書。這兩點對於初入職場的新人還是非常重要的。客觀來講,國際影響力的話 Kaggle 絕對是 No.1,致力於進入 Google、facebook 的同學最好還是在 Kaggle 上挑選優質的比賽;針對國內的話,AI Studio、天池和 DataCastle 在獎金方面相差不大,由於 AI Studi 推出最晚,所以獎金相對來說高一些。

綜合來看,AI Studio 作為數據科學競賽中的新人,背靠百度資源,憑藉更加公平的平台資源輸出,獎勵制度和完善的教程文檔體系將會在未來大規模的搶佔數據競賽市場。對開發者來說,免費使用 GPU 資源,更簡單的開發流程已經是很大的誘惑了。

4. 總結

AI Studio 是一個基於 PaddlePaddle 的集成了大量數據集、經典樣例項目及比賽項目的雲計算建模平台,也是一個機器學習、深度學習的交流社區。AI Studio 最大限度的解放了數據科學家需要環境配置的煩惱,在雲端集成計算資源,項目管理,代碼管理,比賽等多種功能,形成一站式兼顧學習和工作的建模平台。而且 AI Studio 提供計算資源,空間資源,視頻公開課都是免費的。最後,期待一下的更多比賽的推出。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

資源|這是一份收藏量超過2萬6的計算機科學學習筆記
剛剛賽靈思宣布收購深鑒科技,AI晶元領域收購整合可能已經開始

TAG:機器之心 |