高級演算法專家:拍拍信智能演算法平台實踐與思考
2018年3月31日由AICAMP主辦的 AICAMP人工智慧技術沙龍上海站,在上海徐匯舉行,拍拍信高級演算法專家受邀擔任分享嘉賓,為大家帶來主題為拍拍信智能演算法平台實踐與思考的AI純技術乾貨分享。
現場分享實錄:
以機器學習,特別是深度學習為代表的人工智慧迅速發展,將深刻改變人類社會生活、改變世界。而這都依賴於大數據及其數據分析能力,大規模機器學習和深度學習平台為其核心部分。能夠有效降低新技術壁壘,快速分析多模態數據,同時能夠完成機器學習、深度學習模型快速部署,在實際生產中得到快速應用。
設計目標及基礎架構
拍拍信智能演算法平台基於分散式架構、高度自動化、端到端數據流、可擴展、反饋循環的理念進行設計,完成從數據導入自動化特徵工程—自動化建模評估—自動化模型部署—自動化在線自學習流程。
1. 分散式架構(Distributed)
智能演算法平台採用Spark為核心計算引擎,對數據進行分散式處理,特徵工程建立,同時採用Spark ML 作為基礎演算法庫,支持邏輯回歸、Ensemble Tree等模型。同時構建支持Spark的深度學習參數伺服器,支持深度學習模型非同步訓練。支持多種深度學習模型 DNN(深度神經網路)、CNN(卷積神經網路)、 RNN(遞歸神經網路)基於Spark的分散式訓練。
2. 自動化(Automatic)
機器學習模型超參調優一般認為是一個黑盒優化問題,模型的訓練過程是相對耗時的,因此需要有更「準確和高效」的方法來調優超參數,進行模型的自動化優化迭代。拍拍信智能演算法平台支持Genetic algorithm(遺傳演算法)、Paticle Swarm Optimization(粒子群優化)、Bayesian Optimization(貝葉斯優化)、TPE等超參優化演算法,有效提高模型訓練效率。
3. 端到端(End2End)
經過模型訓練後會產生相應的模型,而最終目的是將模型應用到新的數據中。 此演算法平台支持在線調用及流式處理,能夠進行模型的自動化部署調用。
4. 可擴展(Scalable)
在模型上線後,在實際生產環境中如何進行快速擴容/資源回收是一個非常重要的問題。拍拍信只能演算法平台,支持模型容器化部署,將演算法模型直接打包成docker image 文件,直接部署於K8S集群上。
5. 反饋循環(Feedback Loop)
關於模型在線學習,拍拍信演算法平台支持實時模型在線更新以及定時模型在線更新。根據不同業務需求,對於能夠實時得到模型反饋的,可採用模型實時更新模塊,目前支持貝葉斯優化及FTRL演算法。
企業對平台建設和運用的是否重視,一定程度上會決定一個企業的技術高度和業務效率,高度自動化的演算法平台能夠有效降低新技術的門檻以及提高業務開發效率。 演算法平台的開發也面臨諸多挑戰,如何提供足夠的通用性以及高性能的數據處理挖掘是接下來要去研究的主要方向。
TAG:拍拍信 |