想要年薪百萬速來圍觀！機器學習面試寶典，超實用心法、功法、技法

科技 08-02

溫馨提示

京東X機器人挑戰賽火熱招募參賽項目，您的團隊或身邊有技術相近有意向報名的科研團隊和企業，可以轉發給他們，感謝大家支持。大賽總獎金高達200萬元，其中一等獎50萬元。除了賽事獎勵，京東還將提供項目孵化基金、就業綠色通道等一系列後續資源。點擊以下二維碼識別，詳情請參看和轉發此鏈接。

眾所周知，在人工智慧應用還沒有全面爆發的今天，人工智慧人才搶奪大戰早已全面爆發。而頻頻爆出的人工智慧領域高薪資也讓我們這些門外漢望眼欲穿。

據悉，目前人工智慧領域的薪資(月薪)最低20k左右，高的年薪百萬，剛畢業就拿五六十萬的大有人在。根據LinkedIn近期針對軟體工程師做的一項研究：機器學習和數據科學相關技能需求量最高，僅有0-5年工作經驗的機器學習和數據科學從業者比例高達17%，為所有領域中最高。機器學習和數據科學工程師工資最高！平均年薪為12.9萬美金。

面對如此撩人的薪資，難道你不心動嗎？

進階一個高大上的人工智慧公司，從面試開始，因此，機器人大講堂仔細搜集和甄選了一些靠譜的經驗和高效實用的機器學習面試技巧！感興趣的小夥伴速速收藏學習，進階人生巔峰吧！

本文目錄

一、崗位職責

二、面試思路

三、面試準備建議

四、面試問題

1、基礎知識

2、開放問題

3、參考資料

五、補充建議

一、崗位職責

做機器學習方向很多，有些公司更偏重於數據挖掘，而有些更傾向於深度學習。同理，相對應的崗位有些偏重理論也有些偏重實踐。這些因素疊加造成了機器學習相關的崗位分布廣，如數據分析師，演算法工程師，機器學習科學家等，很難一概而論。

從事數據挖掘工作，尤其是在互聯網行業，主要需要三個方面的能力：機器學習和數據挖掘的理論知識、編程開發與數據結構演算法的基礎和業務理解與溝通表達的能力。

上面的圖裡列出了這個行業不同類型的從業者特點。大部分招聘主要根據H和I兩類模版挑選人才。考察方面，除了基本的開發演算法，還有以下幾個：

1.機器學習演算法的理解，比如常見的演算法的基本思想原理、應用場景、特點和求解方法。可以從兩個分支考察，一個是使用經驗，比如實際的一些參數設置，使用技巧等等，面向H類。還有就是一些演算法的實現方法，面向I類。

2.實際的項目經驗，特別是數據挖掘工作。一方面考察面試者之前的工作情況，另外也看面試者的歸納總結能力與解決問題的能力。針對項目的一些細節提問，也可以看出其做事方式和對一些知識的掌握情況。

3.對於業務的理解能力和敏感性，會以結合實際工作中的一些問題來考察。即使沒有實際工作經驗，也是可以看出面試者在這個方面的潛力。同時也考察出理論和實際結合的能力。

二、面試思路

1、定位公司和角色

首先你要清楚你面試的境況——為什麼你申請的公司會有這樣一個職位開放著。

舉個例子，如果一個公司正在招聘一位機器學習工程師，那麼你要知道他們可能是正試圖解決一個複雜問題，一個傳統演算法難以適用或者用傳統方法根本無法解決的問題。

2、找出核心問題

當你在申請這個職位時，你還可以想像自己已經得到這份工作後的情景。要做到這一點，你需要儘可能多的了解關於這家公司和這個職位的相關信息。並問自己：我能為這家公司解決一個怎樣的核心問題？

3、探究潛在的數據來源

在找出問題之後，下一步你就應該思考你需要怎樣的數據來解決這個問題。其中一些數據可能是現成的，而另外一些數據可能需要你寫一些額外的代碼來收集。

4、討論和交流機器學習解決方案

現在你需要做一個相當大的思維跳躍：如何將機器學習應用到這個問題場景中去？給定你想實現的目標和你需要的有效數據，你能夠把它轉換為一個機器學習問題嗎？使用哪種模型會比較合適？怎麼測試和評估這個模型？這個思維過程有助於你在面試中更好地討論公司最關心的問題。

當被問及到更開放性的問題時，例如：「請描述一個你曾經在做項目時遇到的技術難題，以及你是是如何解決它的？」最好選擇一個跟公司有關的話題來回答。

事實上，恰當地理解公司為什麼要招聘這個職位的人，能夠幫助你在諸多的應聘者中脫穎而出。

三、面試準備建議

右側的技術要點從上到下分別為：

線性代數、微積分、概率和統計

信息理論

數據分析能力

機器學習 or 深度學習建模能力

A/B 測試技能

數據密集型應用系統的設計

用於計算密集型應用程序的優化知識

可擴展性和容錯性知識

左邊的彩色字體分別對應了：機器學習研究員、大數據科學家、機器學習工程師、機器學習架構師。右邊相同顏色的方框裡面包含的，就是這一職位在面試前需要重點準備的科目。

你可以對照著這張圖進行查漏補缺。

四、面試問題

1、基礎知識

計算機科學典型問題

· 給定一棵二叉查找樹中的兩個元素，求它們的最近公共祖先。

· 基於比較的排序演算法的時間複雜度是什麼？證明？

· 如何求一個帶權圖中兩個結點直接按的最短路徑？如果有些權值是負的怎麼辦？

· 求一個字元串中所有的迴文子串。

注意：對這些問題你都要能夠推導你的解法的時間和空間複雜度（大 O 表示法），並且盡量用最低的複雜度解決。只有通過大量的練習才能將這些不同類型的問題爛熟於胸，從而在面試中迅速地給出一個高效的解法。

數理統計與數據挖掘問題

· 當不知道數據所帶標籤時，可以使用哪種技術促使帶同類標籤的數據與帶其他標籤的數據相分離？

· 數據預處理的方法有哪些？

· 特徵選擇的標準方法是什麼？

· 某超市研究銷售紀錄數據後發現，買啤酒的人很大概率也會購買尿布，這種屬於數據挖掘的哪類問題？

注意：很多機器學習演算法都以數理統計作為理論基礎。對於這些基礎知識有清晰的概念是極為重要的。當然同時你也要能夠將這些抽象的概念與現實聯繫起來。

機器學習模型與演算法

· 請簡要介紹下SVM，與LR的聯繫與區別是什麼？

· 邏輯斯特回歸為什麼要對特徵進行離散化？

· 一個完整的機器學習項目流程有哪些？

· 支持向量機的訓練在本質上是在最優化哪個值？

· 你用一個給定的數據集訓練一個單隱層的神經網路，發現網路的權值在訓練中強烈地震蕩（有時在負值和正值之間變化）。為了解決這個問題你需要調整哪個參數？

……

2、開放問題

開放類問題最好根據你所要面試的公司的特點以及以往面試內容進行準備，也可以參考一些同類公司的面試題目。

· 如何評估網站內容的真實性（針對代刷、作弊類）？

· 深度學習在推薦系統上可能有怎樣的發揮？

· 請問你在搭建文檔挖掘系統的過程中，做了哪些工作?

· 假設給你數TB的數據文件，其中包含PDF、文本文件、圖像、掃描的PDF文件等等。你將如何對其分類?

· 你還能用機器學習做些什麼?

· 關於AdaBoost演算法，你了解多少?它如何工作?

· 在不平衡的數據集中，你會選擇什麼模型：隨機森林還是boosting?為什麼?

……

3、參考資料

評測數據科學家在機器學習方面能力的 40 個問題

文章地址：

https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-machine-learning-solution-skillpower-machine-learning-datafest-2017/

如果你已經是（或者正打算成為）一名數據科學家，則必須掌握機器學習，文章中的問題都經過了特別的設計，可以用來測試你對於機器學習概念性知識的掌握程度！

評測數據科學家在自然語言處理方面能力的 30 個問題

文章地址：

https://www.analyticsvidhya.com/blog/2017/07/30-questions-test-data-scientist-natural-language-processing-solution-skilltest-nlp/

自然語言處理（NLP）是機器學習行業中發展非常迅猛的一個領域。各企業已開始意識到通過使用機器學習方式，從人類書寫的文本中汲取指導性見解的強大力量。文中的問題可以讓你了解自己在 NLP 方面的掌握程度！

評測數據科學家在樹模型方面能力的 30 個問題

文章地址：

https://www.analyticsvidhya.com/blog/2017/09/30-questions-test-tree-based-models/

決策樹（Decision Trees）是機器學習及數據科學領域中最為人所推崇的演算法之一，這部分內容也是面試環節中的一個重要組成部分！

評測數據科學家在支持向量機方面能力的 25 個問題

文章地址：

https://www.analyticsvidhya.com/blog/2017/10/svm-skilltest/

通過對文章中的 25 個問題進行自測，可以提升你在「支持向量機」這一成熟技術方面的知識！

評測報告數據科學家在降維技能方面能力的 40 個問題

文章地址：

https://www.analyticsvidhya.com/blog/2017/03/questions-dimensionality-reduction-data-scientist/

在面試中，最常見的問題之一是如何處理龐大的數據集，它可能包含百萬級的數據行以及幾千個數據列。在你遇到這類問題時，對降維（Dimensionality Reduction）技術的理解以及了解在哪些場景下使用這個技術將會非常有幫助！

評測數據科學家在聚類技術方面能力的 40 個問題

文章地址：

https://www.analyticsvidhya.com/blog/2017/02/test-data-scientist-clustering/

在通過非標籤化數據獲取認識的過程中，聚類（Clustering）技術扮演著一個重要的角色。這又是一個你必須了解的概念，請務必充分掌握！

新手如何在商業分析崗位的面試中脫穎而出

文章鏈接：

https://www.analyticsvidhya.com/blog/2013/07/prepare-ace-interviews-business-analytics-roles/

對於新手來說，缺乏面試經驗也會不時地造成你的局促不安。通過學習本文的技巧，可以使你在任何數據分析面試過程中盡情發揮！

五、補充建議

·簡歷很重要。

·自信心和熱情是成功的一半。

·不要過於急著回答面試官提出的問題。

·在解釋概念時一定要恰當的表現自己。

·面對面試官的時候，一定要謙虛，注意傾聽面試官的意見，

最後，祝大家面試成功！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人大講堂 的精彩文章:

※2018年智能機器人投資思考
※谷歌AI小程序『猜畫小歌』上線，暖心小遊戲背後讓人們和AI更親近

TAG:機器人大講堂 |