當前位置:
首頁 > 知識 > 25道SVM題目,測一測你的基礎如何?

25道SVM題目,測一測你的基礎如何?

翻譯:張逸

校對:韓海疇

本文共3163字,建議閱讀8分鐘。

本測試共25道題,幫助你檢驗對SVM原理和應用的掌握程度。

介紹

在某種意義上,你可以把機器學習演算法看作有很多刀劍的軍械庫。裡邊有各種各樣的工具,你要做的,就是得學會在對的時間使用對的工具。舉個例子,如果把「回歸」看作是一把劍,它可以輕鬆地將一部分數據大卸八塊,但面對高度複雜的數據時卻無能為力。相反,支持向量機就像一把鋒利的小刀--它適用於規模更小的數據集,這並不代表這把刀威力不夠,相反的,它在構建模型時表現的非常強大。

這個測試就是幫助你檢驗對SVM原理和應用的掌握程度。已經有超過550個人參加了這個測試。如果你當時錯過了也沒關係,我們在這篇帖子中整理了所有的問題和答案。

相關資源

這裡有一些更深入的資源:

Essentials of Machine Learning Algorithms (with Python and R Codes)

Understanding Support Vector Machine algorithm from examples (along with code)

測試開始!

閱讀下面的文字,回答1-2題:

假設有一個線性SVM分類器用來處理二分類問題,下圖顯示給定的數據集,其中被紅色圈出來的代表支持向量。

1. 若移動其中任意一個紅色圈出的點,決策邊界是否會變化?

不會

答案:A

這三個支持向量確定決策邊界的位置,如果它們中的任意一個被改變,決策邊界一定會變化。

2. 若移動其中任意一個沒有被圈出的點,決策邊界會發生變化?

正確

錯誤

答案:B

支持向量以外的點並不會影響決策邊界。

3. SVM中的泛化誤差代表什麼?

分類超平面與支持向量的距離

SVM對新數據的預測準確度

SVM中的誤差閾值

答案:B

泛化誤差在統計學上的意義是「樣本外誤差」。這是一種模型在未知的新數據上預測準確性的度量。

4. 若參數C(cost parameter)被設為無窮,下面哪種說法是正確的?

只要最佳分類超平面存在,它就能將所有數據全部正確分類

軟間隔SVM分類器將正確分類數據

二者都不對

答案:A

在如此高的誤分類懲罰下,不會存在軟間隔分類超平面,因為一點錯誤都不可能發生。

5. 怎樣理解「硬間隔」?

SVM只允許極小誤差

SVM允許分類時出現一定範圍的誤差

二者都不對

答案:A

硬間隔表明SVM對分類正確性的要求非常嚴格,所以模型會儘力在訓練集上表現的更好,這通常會造成過擬合。

6. SVM演算法的最小時間複雜度是O(n2),基於此,以下哪種規格的數據集並不適該演算法?

大數據集

小數據集

中等數據集

不受數據集大小影響

答案:A

除了規模要小,具有明顯分類邊界的數據集也更適合SVM演算法。

7. SVM演算法的性能取決於:

核函數的選擇

核函數的參數

軟間隔參數C

以上所有

答案:D

上述三點都會影響到演算法的表現,應盡量選擇最佳的參數,以最大限度提高效率、減少誤差以及避免過擬合。

8. 支持向量是最靠近決策表面的數據點

正確

錯誤

答案:A

支持向量是最接近超平面的點,這些點也最難分類,他們會直接影響決策邊界的位置。

9. 以下哪種情況會導致SVM演算法性能下降?

數據線性可分

數據乾淨、格式整齊

數據有雜訊,有重複值

答案:C

當數據集有大量雜訊和重疊點時,要想得到一個清晰的分類超平面非常困難。

10. 假設你選取了高Gamma值的徑向基核(RBF),這表示:

建模時,模型會考慮到離超平面更遠的點

建模時,模型只考慮離超平面近的點

模型不會被數據點與超平面的距離影響

答案:B

Gamma參數會調整遠離超平面的數據點對模型的影響。

Gamma值較低,模型受到很多約束,會包含訓練集中所有數據點,並不會捕捉到真正的模式。

Gamma值較高,模型對數據集形狀的勾勒更加有效。

11. SVM中的代價參數C表示什麼?

交叉驗證的次數

用到的核函數

在分類準確性和模型複雜度之間的權衡

以上都不對

答案:C

代價參數的大小決定了SVM能允許的誤分類程度。

C的值小:優化的目標是得到一個儘可能光滑的決策平面。

C的值大:模型只允許出現很小數量的誤分類點。

它可以簡單的看做是對誤分類的懲罰。

閱讀下面的文字,回答12-13題:

假定有一個數據集S,但該數據集有很多誤差(這意味著不能太過依賴任何特定的數據點)。若要建立一個SVM模型,它的核函數是二次多項式核,同時,該函數使用變數C(cost parameter)作為一個參數。

12. 若C趨於無窮,以下哪種說法正確?

數據仍可正確分類

數據無法正確分類

不確定

以上都不對

答案:A

若變數C的值很大,說明誤分類的懲罰項非常大,優化的目標應該是讓分類超平面盡量將所有的數據點都正確分類。

13. 若C的值很小,以下哪種說法正確?

會發生誤分類現象

數據將被正確分類

不確定

以上都不對

答案:A

因為誤分類的懲罰項非常小,模型得出的分類面會儘可能將大多數數據點正確分類,但有部分點會出現誤分類現象。

14. 若訓練時使用了數據集的全部特徵,模型在訓練集上的準確率為100%,驗證集上準確率為70%。出現的問題是?

欠擬合

過擬合

模型很完美

答案:B

在訓練集上準確率高,但在測試集上表現差是典型的過擬合現象。

15. 下面哪個是SVM在實際生活中的應用?

文本分類

圖片分類

新聞聚類

以上都對

答案:D

SVM在實際生活中的應用領域非常廣泛,從分類、聚類到手寫字體識別都有涉及。

閱讀下面這段文字,回答16-18題

假定你現在訓練了一個線性SVM並推斷出這個模型出現了欠擬合現象。

16. 在下一次訓練時,應該採取下列什麼措施?

增加數據點

減少數據點

增加特徵

減少特徵

答案:C

最好的選擇就是生成更多的特徵。

17. 假定你上一道題回答正確,那麼根本上發生的是:

1 偏差(bias)降低

2 方差(variance)降低

3 偏差增加

4 方差增加

1和2

2和3

1和4

2和4

答案:C

如果要使得模型性能更好,就要在偏差和方差之間做出權衡。

【補充】

泛化誤差 = 偏差+方差+誤差

誤差:由數據本身或模型本身的問題引起,是期望泛化誤差的下界。

偏差:描述預測值的期望和真實值之間的差距,度量模型本身擬合能力。

方差:描述預測值的變化範圍,離散程度。度量了同樣大小的訓練集的變動導致的學習性能的變化。度量模型對學習樣本的依賴性。

一般模型越複雜,學習能力越強,誤差會越小但方差越大。反之模型越簡單,對數據的擬合能力越弱,誤差大同時方差小。

18. 還是上面的問題,如果不在特徵上做文章,而是改變一個模型的參數,使得模型效果改善,以下哪種方法是正確的?

增加代價參數C

減小代價參數C

改變C的值沒有作用

以上都不對

答案:A

增加參數C的值會確保得到正則化的模型。

19. 在應用高斯核SVM之前,通常都會對數據做正態化(normalization),下面對特徵正態化的說法哪個是正確的?

1 對特徵做正態化處理後,新的特徵將主導輸出結果

2 正態化不適用於類別特徵

3 對於高斯核SVM,正態化總是有用

1

1和2

1和3

2和3

答案:B

閱讀下面這段文字,回答20-22題:

假定現在有一個四分類問題,你要用One-vs-all策略訓練一個SVM的模型。請看下面的問題:

20. 由題設可知,你需要訓練幾個SVM模型?

1

2

3

4

答案:D

多分類問題中,One-vs-all策略要求為每一個類建立唯一的分類器,屬於此類的所有樣例均為正例,其餘全部為負例。

21. 假定數據集中每一類的分布相同,且訓練一次SVM模型需要10秒,若完成上面的任務,共花費多少秒?

答案:B

花費時間為10*4=40秒。

22. 現在問題變了,如果目前只需要將數據集分為2類,需要訓練多少次?

1

2

3

4

答案:A

該情況下訓練SVM一次就能獲得滿意的結果。

閱讀下面的文字,回答23-24題:

假定你使用階數為2的線性核SVM,將模型應用到實際數據集上後,其訓練準確率和測試準確率均為100%。

23. 假定現在增加模型複雜度(增加核函數的階),會發生以下哪種情況?

過擬合

欠擬合

什麼都不會發生,因為模型準確率已經到達極限

以上都不對

答案:A

增加模型的複雜度會導致過擬合現象,這與模型當前的狀態無關。

24. 在增加了模型複雜度之後,你發現訓練準確率仍是100%,原因可能是?、

1 數據是固定的,但我們在不斷擬合更多的多項式或參數,這會導致演算法開始記憶數據中的所有內容

2 由於數據是固定的,SVM不需要在很大的假設空間中搜索

1

2

1和2

二者都不對

答案:C

25. 下面關於SVM中核函數的說法正確的是?

1 核函數將低維空間中的數據映射到高維空間

2 它是一個相似度函數

1

2

1和2

以上都不對

答案:C

來看看大家答題情況的統計結果吧

結語

如果對帖子的內容有什麼問題,可以在下面的評論區跟我交流。

原文標題:

25 Questions to test a Data Scientist on Support Vector Machines

https://www.analyticsvidhya.com/blog/2017/10/svm-skilltest/

譯者簡介

張逸,中國傳媒大學大三在讀,主修數字媒體技術。對數據科學充滿好奇,感慨於它創造出來的新世界。目前正在摸索和學習中,希望自己勇敢又熱烈,學最有意思的知識,交最志同道合的朋友。

翻譯組招募信息

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於數據科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯繫,THU數據派產學研的背景為志願者帶來好的發展機遇。

其他福利:來自於名企的數據科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點擊文末「閱讀原文」加入數據派團隊~

轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:datapi),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。

發布後請將鏈接反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。

點擊「閱讀原文」擁抱組織


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

專訪清華社會學系教授羅家德
重磅!89頁PPT揭秘AI產業爆發的拐點

TAG:數據派THU |