25道SVM題目,測一測你的基礎如何?
翻譯:張逸
校對:韓海疇
本文共3163字,建議閱讀8分鐘。
本測試共25道題,幫助你檢驗對SVM原理和應用的掌握程度。
介紹
在某種意義上,你可以把機器學習演算法看作有很多刀劍的軍械庫。裡邊有各種各樣的工具,你要做的,就是得學會在對的時間使用對的工具。舉個例子,如果把「回歸」看作是一把劍,它可以輕鬆地將一部分數據大卸八塊,但面對高度複雜的數據時卻無能為力。相反,支持向量機就像一把鋒利的小刀--它適用於規模更小的數據集,這並不代表這把刀威力不夠,相反的,它在構建模型時表現的非常強大。
這個測試就是幫助你檢驗對SVM原理和應用的掌握程度。已經有超過550個人參加了這個測試。如果你當時錯過了也沒關係,我們在這篇帖子中整理了所有的問題和答案。
相關資源
這裡有一些更深入的資源:
Essentials of Machine Learning Algorithms (with Python and R Codes)
Understanding Support Vector Machine algorithm from examples (along with code)
測試開始!
閱讀下面的文字,回答1-2題:
假設有一個線性SVM分類器用來處理二分類問題,下圖顯示給定的數據集,其中被紅色圈出來的代表支持向量。
1. 若移動其中任意一個紅色圈出的點,決策邊界是否會變化?
會
不會
答案:A
這三個支持向量確定決策邊界的位置,如果它們中的任意一個被改變,決策邊界一定會變化。
2. 若移動其中任意一個沒有被圈出的點,決策邊界會發生變化?
正確
錯誤
答案:B
支持向量以外的點並不會影響決策邊界。
3. SVM中的泛化誤差代表什麼?
分類超平面與支持向量的距離
SVM對新數據的預測準確度
SVM中的誤差閾值
答案:B
泛化誤差在統計學上的意義是「樣本外誤差」。這是一種模型在未知的新數據上預測準確性的度量。
4. 若參數C(cost parameter)被設為無窮,下面哪種說法是正確的?
只要最佳分類超平面存在,它就能將所有數據全部正確分類
軟間隔SVM分類器將正確分類數據
二者都不對
答案:A
在如此高的誤分類懲罰下,不會存在軟間隔分類超平面,因為一點錯誤都不可能發生。
5. 怎樣理解「硬間隔」?
SVM只允許極小誤差
SVM允許分類時出現一定範圍的誤差
二者都不對
答案:A
硬間隔表明SVM對分類正確性的要求非常嚴格,所以模型會儘力在訓練集上表現的更好,這通常會造成過擬合。
6. SVM演算法的最小時間複雜度是O(n2),基於此,以下哪種規格的數據集並不適該演算法?
大數據集
小數據集
中等數據集
不受數據集大小影響
答案:A
除了規模要小,具有明顯分類邊界的數據集也更適合SVM演算法。
7. SVM演算法的性能取決於:
核函數的選擇
核函數的參數
軟間隔參數C
以上所有
答案:D
上述三點都會影響到演算法的表現,應盡量選擇最佳的參數,以最大限度提高效率、減少誤差以及避免過擬合。
8. 支持向量是最靠近決策表面的數據點
正確
錯誤
答案:A
支持向量是最接近超平面的點,這些點也最難分類,他們會直接影響決策邊界的位置。
9. 以下哪種情況會導致SVM演算法性能下降?
數據線性可分
數據乾淨、格式整齊
數據有雜訊,有重複值
答案:C
當數據集有大量雜訊和重疊點時,要想得到一個清晰的分類超平面非常困難。
10. 假設你選取了高Gamma值的徑向基核(RBF),這表示:
建模時,模型會考慮到離超平面更遠的點
建模時,模型只考慮離超平面近的點
模型不會被數據點與超平面的距離影響
答案:B
Gamma參數會調整遠離超平面的數據點對模型的影響。
Gamma值較低,模型受到很多約束,會包含訓練集中所有數據點,並不會捕捉到真正的模式。
Gamma值較高,模型對數據集形狀的勾勒更加有效。
11. SVM中的代價參數C表示什麼?
交叉驗證的次數
用到的核函數
在分類準確性和模型複雜度之間的權衡
以上都不對
答案:C
代價參數的大小決定了SVM能允許的誤分類程度。
C的值小:優化的目標是得到一個儘可能光滑的決策平面。
C的值大:模型只允許出現很小數量的誤分類點。
它可以簡單的看做是對誤分類的懲罰。
閱讀下面的文字,回答12-13題:
假定有一個數據集S,但該數據集有很多誤差(這意味著不能太過依賴任何特定的數據點)。若要建立一個SVM模型,它的核函數是二次多項式核,同時,該函數使用變數C(cost parameter)作為一個參數。
12. 若C趨於無窮,以下哪種說法正確?
數據仍可正確分類
數據無法正確分類
不確定
以上都不對
答案:A
若變數C的值很大,說明誤分類的懲罰項非常大,優化的目標應該是讓分類超平面盡量將所有的數據點都正確分類。
13. 若C的值很小,以下哪種說法正確?
會發生誤分類現象
數據將被正確分類
不確定
以上都不對
答案:A
因為誤分類的懲罰項非常小,模型得出的分類面會儘可能將大多數數據點正確分類,但有部分點會出現誤分類現象。
14. 若訓練時使用了數據集的全部特徵,模型在訓練集上的準確率為100%,驗證集上準確率為70%。出現的問題是?
欠擬合
過擬合
模型很完美
答案:B
在訓練集上準確率高,但在測試集上表現差是典型的過擬合現象。
15. 下面哪個是SVM在實際生活中的應用?
文本分類
圖片分類
新聞聚類
以上都對
答案:D
SVM在實際生活中的應用領域非常廣泛,從分類、聚類到手寫字體識別都有涉及。
閱讀下面這段文字,回答16-18題
假定你現在訓練了一個線性SVM並推斷出這個模型出現了欠擬合現象。
16. 在下一次訓練時,應該採取下列什麼措施?
增加數據點
減少數據點
增加特徵
減少特徵
答案:C
最好的選擇就是生成更多的特徵。
17. 假定你上一道題回答正確,那麼根本上發生的是:
1 偏差(bias)降低
2 方差(variance)降低
3 偏差增加
4 方差增加
1和2
2和3
1和4
2和4
答案:C
如果要使得模型性能更好,就要在偏差和方差之間做出權衡。
【補充】
泛化誤差 = 偏差+方差+誤差
誤差:由數據本身或模型本身的問題引起,是期望泛化誤差的下界。
偏差:描述預測值的期望和真實值之間的差距,度量模型本身擬合能力。
方差:描述預測值的變化範圍,離散程度。度量了同樣大小的訓練集的變動導致的學習性能的變化。度量模型對學習樣本的依賴性。
一般模型越複雜,學習能力越強,誤差會越小但方差越大。反之模型越簡單,對數據的擬合能力越弱,誤差大同時方差小。
18. 還是上面的問題,如果不在特徵上做文章,而是改變一個模型的參數,使得模型效果改善,以下哪種方法是正確的?
增加代價參數C
減小代價參數C
改變C的值沒有作用
以上都不對
答案:A
增加參數C的值會確保得到正則化的模型。
19. 在應用高斯核SVM之前,通常都會對數據做正態化(normalization),下面對特徵正態化的說法哪個是正確的?
1 對特徵做正態化處理後,新的特徵將主導輸出結果
2 正態化不適用於類別特徵
3 對於高斯核SVM,正態化總是有用
1
1和2
1和3
2和3
答案:B
閱讀下面這段文字,回答20-22題:
假定現在有一個四分類問題,你要用One-vs-all策略訓練一個SVM的模型。請看下面的問題:
20. 由題設可知,你需要訓練幾個SVM模型?
1
2
3
4
答案:D
多分類問題中,One-vs-all策略要求為每一個類建立唯一的分類器,屬於此類的所有樣例均為正例,其餘全部為負例。
21. 假定數據集中每一類的分布相同,且訓練一次SVM模型需要10秒,若完成上面的任務,共花費多少秒?
答案:B
花費時間為10*4=40秒。
22. 現在問題變了,如果目前只需要將數據集分為2類,需要訓練多少次?
1
2
3
4
答案:A
該情況下訓練SVM一次就能獲得滿意的結果。
閱讀下面的文字,回答23-24題:
假定你使用階數為2的線性核SVM,將模型應用到實際數據集上後,其訓練準確率和測試準確率均為100%。
23. 假定現在增加模型複雜度(增加核函數的階),會發生以下哪種情況?
過擬合
欠擬合
什麼都不會發生,因為模型準確率已經到達極限
以上都不對
答案:A
增加模型的複雜度會導致過擬合現象,這與模型當前的狀態無關。
24. 在增加了模型複雜度之後,你發現訓練準確率仍是100%,原因可能是?、
1 數據是固定的,但我們在不斷擬合更多的多項式或參數,這會導致演算法開始記憶數據中的所有內容
2 由於數據是固定的,SVM不需要在很大的假設空間中搜索
1
2
1和2
二者都不對
答案:C
25. 下面關於SVM中核函數的說法正確的是?
1 核函數將低維空間中的數據映射到高維空間
2 它是一個相似度函數
1
2
1和2
以上都不對
答案:C
來看看大家答題情況的統計結果吧
結語
如果對帖子的內容有什麼問題,可以在下面的評論區跟我交流。
原文標題:
25 Questions to test a Data Scientist on Support Vector Machines
https://www.analyticsvidhya.com/blog/2017/10/svm-skilltest/
譯者簡介
張逸,中國傳媒大學大三在讀,主修數字媒體技術。對數據科學充滿好奇,感慨於它創造出來的新世界。目前正在摸索和學習中,希望自己勇敢又熱烈,學最有意思的知識,交最志同道合的朋友。
翻譯組招募信息
工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。
你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於數據科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯繫,THU數據派產學研的背景為志願者帶來好的發展機遇。
其他福利:來自於名企的數據科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。
點擊文末「閱讀原文」加入數據派團隊~
轉載須知
如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:datapi),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。
發布後請將鏈接反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。
點擊「閱讀原文」擁抱組織
※專訪清華社會學系教授羅家德
※重磅!89頁PPT揭秘AI產業爆發的拐點
TAG:數據派THU |