赫爾辛基大學AI基礎教程：機器學習的類型

最新 06-04

AiTechYun

編輯：yxy

手寫數字是討論我們為什麼使用機器學習時經常使用的經典案例，我們也以此為例。

下面你可以看到來自常用MNIST數據集的手寫圖像示例：

每張圖片上方都會顯示正確的標籤（本應寫入的數字）。請注意，某些「正確的」類標籤是存疑的：例如，請參閱左側的第二個圖像：那是7還是4？

注意

MNIST是什麼？

幾乎每個學機器學習的人都知道MNIST數據集。但很少有人知道什麼是首字母縮寫詞代表什麼。事實上，M代表Modified，而NIST代表National Institute of Standards and Technology。現在你知道了通常機器學習專家都不知道的東西！

在普通的機器學習問題中，一次只有一個類別的值是正確的。MNIST案例也是如此，但正如我們所說，正確的答案往往很難說清楚。在這類問題中，一個實例不可能同時屬於多個類（或者根本不屬於任何類）。我們想要實現的是一種AI方法，可以像上面那樣為給定的圖像自動分類正確的標籤（0到9之間的數字）。

注意

為何不用編程方法解決問題

原則上，自動數字識別器可以通過編寫如下規則來手動構建:

如果黑色像素大部分以單個環狀的形式存在，則標籤為0

如果黑色像素形成兩個相交的環，則標籤為8

如果黑色像素大部分集中在圖中間的垂直直線上，則標籤為1

等等……

這就是人工智慧方法在20世紀80年代的主要發展方式（它被稱為「專家系統」）。但是，即使對於數字識別這樣一個簡單的任務來說，編寫這些規則的任務也是非常費力的。事實上，上面示例的規則不夠具體，無法通過編程實現 – 我們必須精確地定義「大部分」，「環」，「直線」，「中間」等等的含義。

即使我們完成了所有這些工作，其結果可能會是一個不好的AI方法，因為正如你所看到的，手寫數字通常很像，每個規則都需要十幾條例外。

機器學習發源於統計學，也可以被認為是從數據中提取知識的技術。特別是線性回歸和貝葉斯統計等，它們都已經有兩個多世紀的歷史了！而這些方法甚至直到今天都是機器學習的核心。有關更多示例和簡要歷史記錄，請參閱維基百科（https://en.wikipedia.org/wiki/Timeline_of_machine_learning）。

機器學習領域常常分成不同的領域以攻克不同的問題。大致分類如下：

監督式學習：給我們一個輸入，例如一張帶有交通標誌的照片，任務是預測正確的輸出或標籤，例如圖片中是哪個交通標誌（限速，停車標誌……）。在最簡單的情況下，答案為判斷對或不對。（我們稱這些二元分類問題。）

無監督學習：沒有標籤或正確的輸出。其任務是發現數據的結構：例如，將相似的項目分組以形成「簇」，或將數據降維到少數重要的「維度」。數據可視化也可以被認為是無監督學習。

強化學習：通常用於像自動駕駛汽車這樣的AI智能體必須在環境中運行，並且關於好的或壞的選擇的反饋是有延遲的。也可用於僅在遊戲結束時才能確定結果的遊戲中。

這些類別有些重疊和模糊，所以某種特定的方法有時很難放在一個類別中。例如，半監督學習一部分監督學習，一部分是無監督學習。

注:

分類

談到機器學習，我們主要關注監督學習，特別是分類任務。在分類中，我們觀察輸入，如交通標誌的照片，並試圖推斷其「類」，如標誌的類型（限速80公里/小時，人行橫道，停車標誌等）。分類任務的其他例子包括：識別假Twitter賬戶（輸入包括關注者列表，以及他們開始關注賬戶的速度，類是假的或真實的賬戶）和手寫數字識別（輸入是圖像，類是0，…，9）。

代替手動寫下確切的規則完成分類，監督機器學習的重點是使用大量實例，用正確的標籤標記每個實例，並用它們「訓練」AI方法為訓練實例和任何其他圖像自動識別正確的標籤。這當然要求提供正確的標籤，這就是我們稱它為監督學習的原因。提供正確標籤的用戶是指導學習演算法朝向正確答案的監督者，最終該演算法可以獨立地分類正確答案。

除了學習如何在分類問題中預測正確的標籤外，監督式學習還可用於預測結果為數字的情況。例如，根據廣告內容和用戶之前的在線行為數據預測將點擊Google廣告的人數，根據道路狀況和速度限制預測交通事故的數量，或根據房子位置、大小和條件預測房子的售價。這些問題被稱為回歸。你可能知道線性回歸這個術語，它是一種經典的，仍然非常流行的回歸技術。

注:

例

假設我們有一套由公寓銷售數據組成的數據集。對於每一筆購買，我們顯然會得到支付的價格，以及公寓多少平方米（或平方英尺，如果你喜歡的話），卧室數量，建築年份，條件（從髒亂到嶄新）。然後，我們可以使用機器學習來訓練一個基於這些特徵預測銷售價格的回歸模型。（示例：http://kannattaakokauppa.fi/#/en/）

我們想讓你了解一些潛在的錯誤。它們與這樣一個事實有關，除非你對使用機器學習方法的方式非常小心，否則你可能對預測的準確性過於自信，而當預測的準確性被證明比預期的更糟糕時，你可能會非常失望。

為避免重大錯誤，首先你要將數據集分為兩部分：訓練數據和測試數據。我們首先僅使用訓練數據來訓練演算法。這使我們得到一個基於輸入變數預測輸出的模型或規則。

要評估我們實際預測輸出的能力，我們不能依賴訓練數據。雖然模型可能在訓練數據中做出非常好的預測，但它不能證明它可以推廣到其他數據。這時測試數據就派上用場了：我們可以使用訓練好的模型來預測測試數據的輸出，並將預測與實際輸出（例如未來公寓售價）進行比較。

注意

太過適應數據，警惕過擬合

一定要記住，機器學習學習的預測器的準確性在訓練數據和分離的測試數據中可能是完全不同的。這就是所謂的過擬合現象，許多機器學習研究都是為了避免這種現象的發生。直覺上，過度擬合意味著過度「聰明」。當預測一位已知藝術家的新歌成功時，你可以查看藝術家早期歌曲的紀錄，並提出一條規則，例如「如果歌曲是關於愛情的，並且包含一個朗朗上口的合唱，它將會進入前20「。然而，也許有兩首帶有吸引人的合唱的情歌並沒有進入前20，所以你決定延伸這個規則「……除非提及瑞典或瑜伽」來改善你的規則。這可能會使你的規則完美地擬合過去的數據，但事實上它可能會使預測未來的測試數據變得更糟。

機器學習方法特別容易出現過度擬合，因為他們可以嘗試大量不同的「規則」，直到找到完全符合訓練數據的規則。特別是那些非常靈活並且能夠適應數據中幾乎任何模式的方法，除非數據量很大，否則它們可能會過度適合。例如，與通過線性回歸獲得的受限的線性模型相比，神經網路在產生可靠的預測之前可能需要大量的數據。

學習避免過擬合併選擇一個不太受制，也不過於靈活的模型數據科學家最基本的技能之一。

上面我們討論了有監督學習，在有正確答案的情況下，而機器學習演算法的要點是找到一個能夠根據輸入數據預測正確答案的模型。

在無人監督的學習中，沒有提供正確的答案。這使得情況大不相同，因為我們無法通過使模型適合訓練數據的正確答案來構建模型。並且由於我們無法檢查學習的模型是否做得好，也使得對性能的評估更加複雜。

典型的無監督學習方法試圖學習數據背後的某種結構。例如，在可視化中，相似的項目被放置在彼此附近，而不同的項目則被放置的離彼此更遠。它也可以意味著集群化我們使用數據的地方，以識別彼此相似但與其他集群中的數據不相似的項目組或「集群」。它還可以指聚類，我們使用這些數據來識別彼此相似但與其他集群中的數據不同的項的組或簇。

註：

舉例：

雜貨連鎖店收集關於顧客購物行為的數據（所以你會有很多會員卡）。為了更好地了解他們的顧客，商店可以使用圖形將數據可視化，其中每個顧客用點表示，並且傾向於購買相同產品的顧客放置得比購買不同產品的顧客更近。這樣，商店可以應用聚類來獲得「低預算健康食品愛好者」，「高檔魚愛好者」，「每周6天喝汽水吃披薩」等等的顧客組。注意，機器學習方法只會將客戶分組成簇，但它不會自動生成簇的標籤。這項任務需要人做。

無監督學習的另一個例子可以被稱為生成模型。這已經成為近幾年來的一個突出的方法，因為稱為生成式對抗網路（GAN）的深度學習技術已經取得了巨大的進步。例如，給定一些數據，例如人臉照片，生成模型可以生成的更像：更真實的偽造人臉圖像。

後期我們將介紹GAN，並解釋能夠生成高質量人造圖像內容的影響，但接下來我們將仔細研究監督學習，並更詳細地討論一些具體方法。

答案：5.1

答案：65.1168

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！