當前位置:
首頁 > 知識 > 對話工程師張瑞:知乎用深度學習改良推薦系統二三事!

對話工程師張瑞:知乎用深度學習改良推薦系統二三事!

前段時間發布的《2017年全球獨角獸企業榜單》引燃了萬千中國創業者的激情,因為躋身獨角獸的新公司中,中國獨佔了三分之一,而這些公司在2017年的獨角獸新秀中融資額佔比達44%,位居第一。

自從互聯網興起以來,整個商業變革的時間大大縮短,過去需要幾十年甚至上百年才能打造出的商業巨頭,現在依託互聯網可能只需要幾年時間,比如,知乎。還記得榜單剛出之時,很多人紛紛感嘆「知乎終於熬出頭了!」。面對眾多新秀,知乎確實更為成熟,如果你細細了解知乎對技術的精益求精和對產品的匠人之心,你就會發現這七年的時光每一分都少不得。

近日,筆者探訪了知乎總部,無意中與知乎機器學習團隊負責人張瑞相遇,就著一瓶礦泉水聊完了知乎對深度學習的態度和應用。從通信領域到機器學習,這位跨界工程師對深度學習市場又有哪些看法和預測呢?

對話工程師張瑞:知乎用深度學習改良推薦系統二三事!

▲知乎機器學習團隊負責人張瑞

深度學習應用:知乎推薦系統的七年變革!

近幾年,很多企業在布局深度學習,很多創業公司在聊深度學習,到底互聯網企業是如何用深度學習的呢?

作為一款用戶體驗導向的產品,知乎上大量的人工智慧以及機器學習技術,歸根結底是了為支撐用戶的使用體驗。知乎擁有 2300 萬日活用戶,每天有數以十萬計的高質量UGC內容產生,而其中很大一部分的信息分發是通過首頁推薦系統來實現的。張瑞透露,起初的推薦系統基於用戶興趣和社交關係,使用 GBDT 模型進行 Feed 召回和排序的優化,使知乎首頁的整體點擊率提升了70%左右,用戶瀏覽深度提升30%左右,用戶停留時長上漲了60%到70%。但對新用戶會出現冷啟動問題,因為新用戶可能還未形成任何關注和社交關係。要想應用這類淺層模型,就需要對特徵工程進行非常細緻的調整,而這類調整隻靠人力往往是達不到理想效果的。

張瑞團隊經過一番思考,決定將深度學習應用於推薦系統之中。整個團隊對當前的深度學習技術進行了深入調研,最終將整個深度學習系統構建在谷歌開源的TensorFlow之上,同時,在線內容和用戶更新等部分應用了一些大數據處理技術和框架。在這之上,整個團隊又對模型和策略進行了自主研發和調整。

知乎深度學習推薦系統根據大量用戶行為對神經網路模型進行訓練,基本策略是將用戶行為表示成一組機器可以讀懂的多維向量,這些向量包含著用戶的關注、興趣、點擊、閱讀甚至是手機型號等信息,通過與用戶歷史行為不斷對比,最終實現精準推薦。在離線評測中,這套系統的推薦準確率要比協同過濾等方法高出 2-3 倍。

未來,知乎將逐步完成整個推薦系統的更新換代,從基於協同過濾和排序整體過渡到基於深度學習,用戶指標也將更加細化,進一步滿足關乎用戶自我提升的優質信息獲取需求。

國內機器學習數據集匱乏,知乎決定做點什麼!

作為一家技術型互聯網公司,知乎在對技術精益求精的過程中,也同樣秉持著一顆技術分享的公益之心。相比國外的 ImageNet、Gigaword等高質量數據集,中文互聯網相關的高質量數據集是相對缺乏的。知乎作為一家擁有8400多萬註冊用戶的知識社交平台,累積了非常多高質量文本語料和數據。既然有能力,那就做吧!知乎就這麼開始了......

筆者造訪知乎之時,「2017知乎·看山杯機器學習挑戰賽」已經接近尾聲,想必機器學習領域的眾多愛好者已經觀摩或參與了整個過程,筆者就不再贅述詳情。在與張瑞的對話中,筆者知悉本次挑戰賽中應用到的數據集後期會在知乎「知識青年」和「Hacker』s Log」等專欄陸續發布,包括一些與知乎密切相關的數據集和機器學習任務,例如內容推薦、社交網路鏈接預測等,所有數據集都會經過嚴格脫敏和審核。

張瑞聊深度學習:對初學者的一些小建議!

越是深入了解,越是有話要說。對於該領域湧入的大量初學者,張瑞坦言,確實有開發者在不了解底層細節的情況下,通過調用API得到了不錯效果。谷歌也在開發類似系統,旨在降低深度學習領域的入門門檻。未來,這可能會成為一種趨勢,機器學習或許會變成工業界的基礎能力。但對於想深入了解並從事深度學習的工程師而言,要求將會變得更高。同時,隨著數據量的激增,演算法的不斷進步,現在與未來的深度學習複雜性不可同日而語。

對於最近正在籌備機器學習領域初學者指南的張瑞來說,對這個問題還是很有話語權的。他建議科班出身或基礎牢固的工程師,可以通過實踐來快速入門,在實踐過程中對理論進行二次掌握和鞏固,反覆迭代必將有所得。對於想跨界進入機器學習領域的工程師,張瑞建議先打好基礎,比如側重數學,包括數理統計和資訊理論以及一些基本的機器學習理論等,再根據理論指導實踐,目前也有一些不錯的開源Demo可供參考。

知乎認為,演算法更高價值的地方,在於演算法有機會了解人的潛在需求,打破信息獲取障礙,提升學習效率。在深度學習的賽場上,知乎的終點又是哪裡呢?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

構建安全物聯網基礎設施的四大原則
88億美元收購完成,世界第七大企業級純軟體公司誕生
是數碼複合機,更是內容管理中樞!柯尼卡美能達MCS服務解析
2017柯尼卡美能達特殊兒童繪畫手工大賽熱力啟動

TAG:IT168企業級 |