想要參與開發一款機器學習產品，你需要get哪些技能？

最新 03-16

來源：Towards Data Science

編譯：T.R

此前，我們和大家分享了哪些問題適合於用機器學習來解決。在明確了問題之後我們就需要來解決問題，本文要描述的是產品經理在開發機器學習產品時所需要的能力。

第一部分提到產品經理的核心能力並不會因為應用到機器學習技術而改變，而只是在某些方面需要有所加強。產品經理一般需要五種核心能力，包括客戶共情/設計分解，溝通、合作、商業策略和技術理解力。在機器學習領域需要增強的可能是技術方面的理解能力，因為產品經理需要理解機器學習系統的操作才能做出較好的產品決策。你可以向工程師學習也可以通過書本和網路教程充電。但如果你對機器學習系統的運行沒有很好的理解，那麼你的產品很可能會遇到很多問題。

演算法的局限性

機器學習使用的每一個演算法都基於特定的任務進行優化，無法覆蓋真實情況下每一個細微的差別。理解演算法的能力和局限將會幫助你把握住用戶體驗中存在的差距，並且通過優化產品設計或演算法來解決。這是作為產品經理必須要掌握的能力。關於演算法的不足我們用幾個例子來說明。

數據中的偏差

機器學習演算法從數據中學習模式，所以數據的質量決定了演算法的表現。機器學習產品需要面對的第一個挑戰便是這些數據要能夠充分代表你的用戶。有一個很負面的例子，就是google將黑人兄弟識別成了大猩猩。

所以保證數據代表你所有的用戶是產品成功的關鍵。有時候偏差的存在並不是來自於數據收集的錯誤，而是數據固有的特性。就像IBM沃森利用俚語的都市字典進行訓練後會輸出惡毒的語言一樣。我們期待的是輸出禮貌的語言，但機器學習卻學到了語言集中不好的部分。所以在精訓練的時候需要對數據進行一定的清晰。

另一個例子，一般發達國家的互聯網人數相較於發展中國家多。如果你基於搜索次數對搜索習慣進行建模的話，就會得到發達國家更多的結果，那麼建模就不能準確的反映各國人民的上網習慣了，例如非洲的用戶。對於數據偏差的審視將幫助你意識到產品不希望出現的用戶體驗。

精度和召回率的權衡

例如兩個團隊利用相同的預測產品預測有害行為，但團隊的目標卻各不相同。一個團隊僅僅想要識別出有害行為的人，而不管行為良好的人，他們希望每個良好行為的人都來用這個產品，所以精度對於這個團隊就十分重要。而另一個各團隊則僅僅只讓行為良好的人使用，即使限制了少數行為良好的人也在所不辭，所以他們更注重的是召回率。精確率和召回率是兩個此消彼長的指標。你需要針對用戶需求的實際情況來確定有限考慮哪一個指標。下面的曲線反應了召回率和精度的關係。

根據不同的問題，可以通過調節是的模型具有不同的召回率和精度分布。同時使用不同類型的模型也可以改變曲線的分布情況。

冷啟動

冷啟動是來自於汽車發動機的一個術語，發動機需要預熱後才能達到較好的表現。這對於機器學習來說也是一樣的，當機器學習面對新用戶或者新數據時也需要一個預熱過程來達到較優的表現。

從用戶出發：這樣的情況一般發生在新用戶第一次使用產品的時候，模型對於用戶還沒有任何的了解。例如網站一般都能像用戶推薦一些喜歡的內容，但第一次使用網站時網站並不知知道你的喜好所以演算法很難給出個性化的推薦。這樣的情況一般通過下面三種方法解決：

1.給用戶從隨機推薦的數據中做出預先的偏好選項；

2.根據地理位置等基本信息為用戶分類，並基於人群偏好給出推薦；

3.用戶手動設置自己的偏好類型。

從實例出發：這樣的情況一般發生在某個新產品第一次上線的時候，例如商品、電影等。例如Netflix上新上線的電影很難做出向哪類用戶推薦的選擇，特別是在電影元數據缺失的情況下。和用戶出發的解決方式相同，主要有兩種方法：

1.人工標註，請專家分類並補充電影元數據，這樣就能想匹配的人群推薦；

2.基於演算法，用演算法記錄對新產品感興趣的用戶，並根據這些信息不斷收縮用戶範圍。

反饋閉環

由於演算法並不完美，可能會得出錯誤的預測或者識別結果。這就需要我們為產品設計一種反饋機制來對演算法提供反饋，這樣就可以使得演算法隨著時間不斷改進。反饋的形式多種多樣，可以簡單的記錄下負樣本的信號，例如記錄下用戶滾動頁面的速度或者閱讀停留時長。更為精確的方法是設計在演算法失效的時候讓用戶主動介入的機制，例如給出差評或者忽略預測，當演算法給出好結果時給予好評。

充分利用/探索新世界

我們用信息分發推薦業務作為例子。如果網站演算法發現我比較喜歡足球，那麼在給我推薦電影或者相關文章的時候就會主要推薦與足球相關的內容。這時候網站就充分利用了我喜歡足球這一特徵，不斷的給我推薦相關內容。但這種方式的弊端在於，我還有其他感興趣的內容，但演算法把我和他們隔絕開來了。大家可能還記得以前新聞app總是給你推薦看過內容類似的新聞，甚至有時候負新聞不絕於耳，這意味著演算法出現了較大的偏差，這樣的filter bubble在媒體行業中很常見。

那麼為了解決這一狀況需要給用戶以探索新內容的機會，給用戶周期性的呈現隨機的探索內容，並根據用戶的喜好來糾正用戶偏好模型。

以上對於演算法局限性的闡述並不完全，由於新的演算法不斷產生，可能會不斷產生新的問題。我們如何才能發現演算法的這些問題和局限呢？下面為產品經理總結了三個有用的tips：

1.為工程師團隊提供清晰的用戶使用場景。與工程師團隊一起討論，並讓他們明白期待的用戶體驗是什麼樣的。用戶樣例不僅需要包含主要和次要的用戶，更需要包括反面用戶。當模型準備好後，需要針對這些用戶樣例進行評估。

2.關注數據的收集過程。對數據的清洗和組織方式保持清醒，並確保數據能夠代表你的用戶。

3.利用產品方案縮小差距。如果模型達不到期望的數據，我們需要考察是否能夠改進模型的能力，或者用新的用戶樣例增強模型的表示，隨後創建新的產品解決方案來彌補這一差距。

-The End-

將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的創投機構，旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專註於使創新的技術落地於真正的應用場景，激活和實現全新的商業價值，服務於行業領先企業和技術創新型創業公司。

將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容，使創新成為持續的核心競爭力。

將門投資基金專註於投資通過技術創新激活商業場景，實現商業價值的初創企業，關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡，將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※可能你需要了解的機器學習？
※Google 開源機器學習演算法；2018年SO 資料庫調查

TAG:機器學習 |