25道SVM題目，測一測你的基礎如何？

知識 06-28

翻譯：張逸

校對：韓海疇

本文共3163字，建議閱讀8分鐘。

本測試共25道題，幫助你檢驗對SVM原理和應用的掌握程度。

介紹

在某種意義上，你可以把機器學習演算法看作有很多刀劍的軍械庫。裡邊有各種各樣的工具，你要做的，就是得學會在對的時間使用對的工具。舉個例子，如果把「回歸」看作是一把劍，它可以輕鬆地將一部分數據大卸八塊，但面對高度複雜的數據時卻無能為力。相反，支持向量機就像一把鋒利的小刀--它適用於規模更小的數據集，這並不代表這把刀威力不夠，相反的，它在構建模型時表現的非常強大。

這個測試就是幫助你檢驗對SVM原理和應用的掌握程度。已經有超過550個人參加了這個測試。如果你當時錯過了也沒關係，我們在這篇帖子中整理了所有的問題和答案。

相關資源

這裡有一些更深入的資源：

Essentials of Machine Learning Algorithms (with Python and R Codes)

Understanding Support Vector Machine algorithm from examples (along with code)

測試開始！

閱讀下面的文字，回答1-2題：

假設有一個線性SVM分類器用來處理二分類問題，下圖顯示給定的數據集，其中被紅色圈出來的代表支持向量。

1. 若移動其中任意一個紅色圈出的點，決策邊界是否會變化？

會

不會

答案：A

這三個支持向量確定決策邊界的位置，如果它們中的任意一個被改變，決策邊界一定會變化。

2. 若移動其中任意一個沒有被圈出的點，決策邊界會發生變化？

正確

錯誤

答案：B

支持向量以外的點並不會影響決策邊界。

3. SVM中的泛化誤差代表什麼？

分類超平面與支持向量的距離

SVM對新數據的預測準確度

SVM中的誤差閾值

答案：B

泛化誤差在統計學上的意義是「樣本外誤差」。這是一種模型在未知的新數據上預測準確性的度量。

4. 若參數C（cost parameter）被設為無窮，下面哪種說法是正確的？

只要最佳分類超平面存在，它就能將所有數據全部正確分類

軟間隔SVM分類器將正確分類數據

二者都不對

答案：A

在如此高的誤分類懲罰下，不會存在軟間隔分類超平面，因為一點錯誤都不可能發生。

5. 怎樣理解「硬間隔」？

SVM只允許極小誤差

SVM允許分類時出現一定範圍的誤差

二者都不對

答案：A

硬間隔表明SVM對分類正確性的要求非常嚴格，所以模型會儘力在訓練集上表現的更好，這通常會造成過擬合。

6. SVM演算法的最小時間複雜度是O（n2），基於此，以下哪種規格的數據集並不適該演算法？

大數據集

小數據集

中等數據集

不受數據集大小影響

答案：A

除了規模要小，具有明顯分類邊界的數據集也更適合SVM演算法。

7. SVM演算法的性能取決於：

核函數的選擇

核函數的參數

軟間隔參數C

以上所有

答案：D

上述三點都會影響到演算法的表現，應盡量選擇最佳的參數，以最大限度提高效率、減少誤差以及避免過擬合。

8. 支持向量是最靠近決策表面的數據點

正確

錯誤

答案：A

支持向量是最接近超平面的點，這些點也最難分類，他們會直接影響決策邊界的位置。

9. 以下哪種情況會導致SVM演算法性能下降？

數據線性可分

數據乾淨、格式整齊

數據有雜訊，有重複值

答案：C

當數據集有大量雜訊和重疊點時，要想得到一個清晰的分類超平面非常困難。

10. 假設你選取了高Gamma值的徑向基核（RBF），這表示：

建模時，模型會考慮到離超平面更遠的點

建模時，模型只考慮離超平面近的點

模型不會被數據點與超平面的距離影響

答案：B

Gamma參數會調整遠離超平面的數據點對模型的影響。

Gamma值較低，模型受到很多約束，會包含訓練集中所有數據點，並不會捕捉到真正的模式。

Gamma值較高，模型對數據集形狀的勾勒更加有效。

11. SVM中的代價參數C表示什麼？

交叉驗證的次數

用到的核函數

在分類準確性和模型複雜度之間的權衡

以上都不對

答案：C

代價參數的大小決定了SVM能允許的誤分類程度。

C的值小：優化的目標是得到一個儘可能光滑的決策平面。

C的值大：模型只允許出現很小數量的誤分類點。

它可以簡單的看做是對誤分類的懲罰。

閱讀下面的文字，回答12-13題：

假定有一個數據集S，但該數據集有很多誤差（這意味著不能太過依賴任何特定的數據點）。若要建立一個SVM模型，它的核函數是二次多項式核，同時，該函數使用變數C（cost parameter）作為一個參數。

12. 若C趨於無窮，以下哪種說法正確？

數據仍可正確分類

數據無法正確分類

不確定

以上都不對

答案：A

若變數C的值很大，說明誤分類的懲罰項非常大，優化的目標應該是讓分類超平面盡量將所有的數據點都正確分類。

13. 若C的值很小，以下哪種說法正確？

會發生誤分類現象

數據將被正確分類

不確定

以上都不對

答案：A

因為誤分類的懲罰項非常小，模型得出的分類面會儘可能將大多數數據點正確分類，但有部分點會出現誤分類現象。

14. 若訓練時使用了數據集的全部特徵，模型在訓練集上的準確率為100%，驗證集上準確率為70%。出現的問題是？

欠擬合

過擬合

模型很完美

答案：B

在訓練集上準確率高，但在測試集上表現差是典型的過擬合現象。

15. 下面哪個是SVM在實際生活中的應用？

文本分類

圖片分類

新聞聚類

以上都對

答案：D

SVM在實際生活中的應用領域非常廣泛，從分類、聚類到手寫字體識別都有涉及。

閱讀下面這段文字，回答16-18題

假定你現在訓練了一個線性SVM並推斷出這個模型出現了欠擬合現象。

16. 在下一次訓練時，應該採取下列什麼措施？

增加數據點

減少數據點

增加特徵

減少特徵

答案：C

最好的選擇就是生成更多的特徵。

17. 假定你上一道題回答正確，那麼根本上發生的是：

1 偏差（bias）降低

2 方差（variance）降低

3 偏差增加

4 方差增加

1和2

2和3

1和4

2和4

答案：C

如果要使得模型性能更好，就要在偏差和方差之間做出權衡。

【補充】

泛化誤差 = 偏差+方差+誤差

誤差：由數據本身或模型本身的問題引起，是期望泛化誤差的下界。

偏差：描述預測值的期望和真實值之間的差距，度量模型本身擬合能力。

方差：描述預測值的變化範圍，離散程度。度量了同樣大小的訓練集的變動導致的學習性能的變化。度量模型對學習樣本的依賴性。

一般模型越複雜，學習能力越強，誤差會越小但方差越大。反之模型越簡單，對數據的擬合能力越弱，誤差大同時方差小。

18. 還是上面的問題，如果不在特徵上做文章，而是改變一個模型的參數，使得模型效果改善，以下哪種方法是正確的？

增加代價參數C

減小代價參數C

改變C的值沒有作用

以上都不對

答案：A

增加參數C的值會確保得到正則化的模型。

19. 在應用高斯核SVM之前，通常都會對數據做正態化（normalization），下面對特徵正態化的說法哪個是正確的？

1 對特徵做正態化處理後，新的特徵將主導輸出結果

2 正態化不適用於類別特徵

3 對於高斯核SVM，正態化總是有用

1和2

1和3

2和3

答案：B

閱讀下面這段文字，回答20-22題：

假定現在有一個四分類問題，你要用One-vs-all策略訓練一個SVM的模型。請看下面的問題：

20. 由題設可知，你需要訓練幾個SVM模型？

答案：D

多分類問題中，One-vs-all策略要求為每一個類建立唯一的分類器，屬於此類的所有樣例均為正例，其餘全部為負例。

21. 假定數據集中每一類的分布相同，且訓練一次SVM模型需要10秒，若完成上面的任務，共花費多少秒？

答案：B

花費時間為10*4=40秒。

22. 現在問題變了，如果目前只需要將數據集分為2類，需要訓練多少次？

答案：A

該情況下訓練SVM一次就能獲得滿意的結果。

閱讀下面的文字，回答23-24題：

假定你使用階數為2的線性核SVM，將模型應用到實際數據集上後，其訓練準確率和測試準確率均為100%。

23. 假定現在增加模型複雜度（增加核函數的階），會發生以下哪種情況？

過擬合

欠擬合

什麼都不會發生，因為模型準確率已經到達極限

以上都不對

答案：A

增加模型的複雜度會導致過擬合現象，這與模型當前的狀態無關。

24. 在增加了模型複雜度之後，你發現訓練準確率仍是100%，原因可能是？、

1 數據是固定的，但我們在不斷擬合更多的多項式或參數，這會導致演算法開始記憶數據中的所有內容

2 由於數據是固定的，SVM不需要在很大的假設空間中搜索

1和2

二者都不對

答案：C

25. 下面關於SVM中核函數的說法正確的是？

1 核函數將低維空間中的數據映射到高維空間

2 它是一個相似度函數

1和2

以上都不對

答案：C

來看看大家答題情況的統計結果吧

結語

如果對帖子的內容有什麼問題，可以在下面的評論區跟我交流。

原文標題：

25 Questions to test a Data Scientist on Support Vector Machines

https://www.analyticsvidhya.com/blog/2017/10/svm-skilltest/

譯者簡介

張逸，中國傳媒大學大三在讀，主修數字媒體技術。對數據科學充滿好奇，感慨於它創造出來的新世界。目前正在摸索和學習中，希望自己勇敢又熱烈，學最有意思的知識，交最志同道合的朋友。

翻譯組招募信息

工作內容：需要一顆細緻的心，將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生，或在海外從事相關工作，或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到：定期的翻譯培訓提高志願者的翻譯水平，提高對於數據科學前沿的認知，海外的朋友可以和國內技術應用發展保持聯繫，THU數據派產學研的背景為志願者帶來好的發展機遇。

其他福利：來自於名企的數據科學工作者，北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點擊文末「閱讀原文」加入數據派團隊~

轉載須知

如需轉載，請在開篇顯著位置註明作者和出處（轉自：數據派ID：datapi），並在文章結尾放置數據派醒目二維碼。有原創標識文章，請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱，申請白名單授權並按要求編輯。

發布後請將鏈接反饋至聯繫郵箱（見下方）。未經許可的轉載以及改編者，我們將依法追究其法律責任。

點擊「閱讀原文」擁抱組織

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數據派THU 的精彩文章:

※專訪清華社會學系教授羅家德
※重磅！89頁PPT揭秘AI產業爆發的拐點

TAG:數據派THU |