乾貨來襲，谷歌最新機器學習術語表（上）

新聞 03-19

雷鋒網 AI 研習社按，日前，谷歌發布機器學習術語表，AI 研習社獲其授權轉載。以下術語表中列出了一般的機器學習術語和 TensorFlow 專用術語的定義。本文為 A-L （術語首字母）部分，M-W 部分參見乾貨來襲，谷歌最新機器學習術語表（下）。

A/B 測試 (A/B testing)

一種統計方法，用於將兩種或多種技術進行比較，通常是將當前採用的技術與新技術進行比較。A/B 測試不僅旨在確定哪種技術的效果更好，而且還有助於了解相應差異是否具有顯著的統計意義。A/B 測試通常是採用一種衡量方式對兩種技術進行比較，但也適用於任意有限數量的技術和衡量方式。

準確率 (accuracy)

分類模型的正確預測所佔的比例。在多類別分類中，準確率的定義如下：

在二元分類中，準確率的定義如下：

請參閱真正例和真負例。

激活函數 (activation function)

一種函數（例如 ReLU 或 S 型函數），用於對上一層的所有輸入求加權和，然後生成一個輸出值（通常為非線性值），並將其傳遞給下一層。

AdaGrad

一種先進的梯度下降法，用於重新調整每個參數的梯度，以便有效地為每個參數指定獨立的學習速率。如需查看完整的解釋，請參閱這篇論文。

ROC 曲線下面積 (AUC, Area under the ROC Curve)

一種會考慮所有可能分類閾值的評估指標。

ROC 曲線下面積是，對於隨機選擇的正類別樣本確實為正類別，以及隨機選擇的負類別樣本為正類別，分類器更確信前者的概率。

反向傳播演算法 (backpropagation)

在神經網路上執行梯度下降法的主要演算法。該演算法會先按前向傳播方式計算（並緩存）每個節點的輸出值，然後再按反向傳播遍歷圖的方式計算損失函數值相對於每個參數的偏導數。

基準 (baseline)

一種簡單的模型或啟發法，用作比較模型效果時的參考點。基準有助於模型開發者針對特定問題量化最低預期效果。

批次 (batch)

模型訓練的一次迭代（即一次梯度更新）中使用的樣本集。

另請參閱批次規模。

批次規模 (batch size)

一個批次中的樣本數。例如，SGD 的批次規模為 1，而小批次的規模通常介於 10 到 1000 之間。批次規模在訓練和推斷期間通常是固定的；不過，TensorFlow 允許使用動態批次規模。

偏差 (bias)

距離原點的截距或偏移。偏差（也稱為偏差項）在機器學習模型中以 b 或 w表示。例如，在下面的公式中，偏差為 b：

請勿與預測偏差混淆。

二元分類 (binary classification)

一種分類任務，可輸出兩種互斥類別之一。例如，對電子郵件進行評估並輸出「垃圾郵件」或「非垃圾郵件」的機器學習模型就是一個二元分類器。

分箱 (binning)

請參閱分桶。

分桶 (bucketing)

將一個特徵（通常是連續特徵）轉換成多個二元特徵（稱為桶或箱），通常是根據值區間進行轉換。例如，您可以將溫度區間分割為離散分箱，而不是將溫度表示成單個連續的浮點特徵。假設溫度數據可精確到小數點後一位，則可以將介於 0.0 到 15.0 度之間的所有溫度都歸入一個分箱，將介於 15.1 到 30.0 度之間的所有溫度歸入第二個分箱，並將介於 30.1 到 50.0 度之間的所有溫度歸入第三個分箱。

校準層 (calibration layer)

一種預測後調整，通常是為了降低預測偏差。調整後的預測和概率應與觀察到的標籤集的分布一致。

候選採樣 (candidate sampling)

一種訓練時進行的優化，會使用某種函數（例如 softmax）針對所有正類別標籤計算概率，但對於負類別標籤，則僅針對其隨機樣本計算概率。例如，如果某個樣本的標籤為「小獵犬」和「狗」，則候選採樣將針對「小獵犬」和「狗」類別輸出以及其他類別（貓、棒棒糖、柵欄）的隨機子集計算預測概率和相應的損失項。這種採樣基於的想法是，只要正類別始終得到適當的正增強，負類別就可以從頻率較低的負增強中進行學習，這確實是在實際中觀察到的情況。候選採樣的目的是，通過不針對所有負類別計算預測結果來提高計算效率。

分類數據 (categorical data)

一種特徵，擁有一組離散的可能值。以某個名為 house style 的分類特徵為例，該特徵擁有一組離散的可能值（共三個），即 Tudor, ranch, colonial。通過將 house style 表示成分類數據，相應模型可以學習 Tudor、ranch 和 colonial 分別對房價的影響。

有時，離散集中的值是互斥的，只能將其中一個值應用於指定樣本。例如，car maker 分類特徵可能只允許一個樣本有一個值 (Toyota)。在其他情況下，則可以應用多個值。一輛車可能會被噴塗多種不同的顏色，因此，car color 分類特徵可能會允許單個樣本具有多個值（例如 red 和 white）。

分類特徵有時稱為離散特徵。

與數值數據相對。

檢查點 (checkpoint)

一種數據，用於捕獲模型變數在特定時間的狀態。藉助檢查點，可以導出模型權重，跨多個會話執行訓練，以及使訓練在發生錯誤之後得以繼續（例如作業搶佔）。請注意，圖本身不包含在檢查點中。

類別 (class)

為標籤枚舉的一組目標值中的一個。例如，在檢測垃圾郵件的二元分類模型中，兩種類別分別是「垃圾郵件」和「非垃圾郵件」。在識別狗品種的多類別分類模型中，類別可以是「貴賓犬」、「小獵犬」、「哈巴犬」等等。

分類不平衡的數據集 (class-imbalanced data set)

一種二元分類問題，在此類問題中，兩種類別的標籤在出現頻率方面具有很大的差距。例如，在某個疾病數據集中，0.0001 的樣本具有正類別標籤，0.9999 的樣本具有負類別標籤，這就屬於分類不平衡問題；但在某個足球比賽預測器中，0.51 的樣本的標籤為其中一個球隊贏，0.49 的樣本的標籤為另一個球隊贏，這就不屬於分類不平衡問題。

分類模型 (classification model)

一種機器學習模型，用於區分兩種或多種離散類別。例如，某個自然語言處理分類模型可以確定輸入的句子是法語、西班牙語還是義大利語。請與回歸模型進行比較。

分類閾值 (classification threshold)

一種標量值條件，應用於模型預測的得分，旨在將正類別與負類別區分開。將邏輯回歸結果映射到二元分類時使用。以某個邏輯回歸模型為例，該模型用於確定指定電子郵件是垃圾郵件的概率。如果分類閾值為 0.9，那麼邏輯回歸值高於 0.9 的電子郵件將被歸類為「垃圾郵件」，低於 0.9 的則被歸類為「非垃圾郵件」。

協同過濾 (collaborative filtering)

根據很多其他用戶的興趣來預測某位用戶的興趣。協同過濾通常用在推薦系統中。

混淆矩陣 (confusion matrix)

一種 NxN 表格，用於總結分類模型的預測成效；即標籤和模型預測的分類之間的關聯。在混淆矩陣中，一個軸表示模型預測的標籤，另一個軸表示實際標籤。N 表示類別個數。在二元分類問題中，N=2。例如，下面顯示了一個二元分類問題的混淆矩陣示例：

上面的混淆矩陣顯示，在 19 個實際有腫瘤的樣本中，該模型正確地將 18 個歸類為有腫瘤（18 個真正例），錯誤地將 1 個歸類為沒有腫瘤（1 個假負例）。同樣，在 458 個實際沒有腫瘤的樣本中，模型歸類正確的有 452 個（452 個真負例），歸類錯誤的有 6 個（6 個假正例）。

多類別分類問題的混淆矩陣有助於確定出錯模式。例如，某個混淆矩陣可以揭示，某個經過訓練以識別手寫數字的模型往往會將 4 錯誤地預測為 9，將 7 錯誤地預測為 1。混淆矩陣包含計算各種效果指標（包括精確率和召回率）所需的充足信息。

連續特徵 (continuous feature)

一種浮點特徵，可能值的區間不受限制。與離散特徵相對。

收斂 (convergence)

通俗來說，收斂通常是指在訓練期間達到的一種狀態，即經過一定次數的迭代之後，訓練損失和驗證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說，如果採用當前數據進行額外的訓練將無法改進模型，模型即達到收斂狀態。在深度學習中，損失值有時會在最終下降之前的多次迭代中保持不變或幾乎保持不變，暫時形成收斂的假象。

另請參閱早停法。

另請參閱 Boyd 和 Vandenberghe 合著的Convex Optimization（《凸優化》）。

凸函數 (convex function)

一種函數，函數圖像以上的區域為凸集。典型凸函數的形狀類似於字母 U。例如，以下都是凸函數：

相反，以下函數則不是凸函數。請注意圖像上方的區域如何不是凸集：

嚴格凸函數只有一個局部最低點，該點也是全局最低點。經典的 U 形函數都是嚴格凸函數。不過，有些凸函數（例如直線）則不是這樣。

很多常見的損失函數（包括下列函數）都是凸函數：

L2損失函數

對數損失函數

L1正則化

L2正則化

梯度下降法的很多變體都一定能找到一個接近嚴格凸函數最小值的點。同樣，隨機梯度下降法的很多變體都有很高的可能性能夠找到接近嚴格凸函數最小值的點（但並非一定能找到）。

兩個凸函數的和（例如 L2損失函數 + L1正則化）也是凸函數。

深度模型絕不會是凸函數。值得注意的是，專門針對凸優化設計的演算法往往總能在深度網路上找到非常好的解決方案，雖然這些解決方案並不一定對應於全局最小值。

凸優化 (convex optimization)

使用數學方法（例如梯度下降法）尋找凸函數最小值的過程。機器學習方面的大量研究都是專註於如何通過公式將各種問題表示成凸優化問題，以及如何更高效地解決這些問題。

如需完整的詳細信息，請參閱 Boyd 和 Vandenberghe 合著的Convex Optimization（《凸優化》）。

凸集 (convex set)

歐幾里得空間的一個子集，其中任意兩點之間的連線仍完全落在該子集內。例如，下面的兩個圖形都是凸集：

相反，下面的兩個圖形都不是凸集：

成本 (cost)

是損失的同義詞。

交叉熵 (cross-entropy)

對數損失函數向多類別分類問題進行的一種泛化。交叉熵可以量化兩種概率分布之間的差異。另請參閱困惑度。

自定義 Estimator (custom Estimator)

您按照這些說明自行編寫的Estimator。

與預創建的 Estimator相對。

數據集 (data set)

一組樣本的集合。

Dataset API (tf.data)

一種高級別的 TensorFlow API，用於讀取數據並將其轉換為機器學習演算法所需的格式。tf.data.Dataset 對象表示一系列元素，其中每個元素都包含一個或多個張量。tf.data.Iterator 對象可獲取 Dataset 中的元素。

如需詳細了解 Dataset API，請參閱《TensorFlow 編程人員指南》中的導入數據。

決策邊界 (decision boundary)

在二元分類或多類別分類問題中，模型學到的類別之間的分界線。例如，在以下表示某個二元分類問題的圖片中，決策邊界是橙色類別和藍色類別之間的分界線：

密集層 (dense layer)

是全連接層的同義詞。

深度模型 (deep model)

一種神經網路，其中包含多個隱藏層。深度模型依賴於可訓練的非線性關係。

與寬度模型相對。

密集特徵 (dense feature)

一種大部分數值是非零值的特徵，通常是一個浮點值張量。參照稀疏特徵。

衍生特徵 (derived feature)

是合成特徵的同義詞。

離散特徵 (discrete feature)

一種特徵，包含有限個可能值。例如，某個值只能是「動物」、「蔬菜」或「礦物」的特徵便是一個離散特徵（或分類特徵）。與連續特徵相對。

丟棄正則化 (dropout regularization)

一種形式的正則化，在訓練神經網路方面非常有用。丟棄正則化的運作機制是，在神經網路層的一個梯度步長中移除隨機選擇的固定數量的單元。丟棄的單元越多，正則化效果就越強。這類似於訓練神經網路以模擬較小網路的指數級規模集成學習。如需完整的詳細信息，請參閱Dropout: A Simple Way to Prevent Neural Networks from Overfitting（《丟棄：一種防止神經網路過擬合的簡單方法》）。

動態模型 (dynamic model)

一種模型，以持續更新的方式在線接受訓練。也就是說，數據會源源不斷地進入這種模型。

早停法 (early stopping)

一種正則化方法，涉及在訓練損失仍可以繼續減少之前結束模型訓練。使用早停法時，您會在基於驗證數據集的損失開始增加（也就是泛化效果變差）時結束模型訓練。

嵌套 (embeddings)

一種分類特徵，以連續值特徵表示。通常，嵌套是指將高維度向量映射到低維度的空間。例如，您可以採用以下兩種方式之一來表示英文句子中的單詞：

表示成包含百萬個元素（高維度）的稀疏向量，其中所有元素都是整數。向量中的每個單元格都表示一個單獨的英文單詞，單元格中的值表示相應單詞在句子中出現的次數。由於單個英文句子包含的單詞不太可能超過 50 個，因此向量中幾乎每個單元格都包含 0。少數非 0 的單元格中將包含一個非常小的整數（通常為 1），該整數表示相應單詞在句子中出現的次數。

表示成包含數百個元素（低維度）的密集向量，其中每個元素都包含一個介於 0 到 1 之間的浮點值。這就是一種嵌套。

在 TensorFlow 中，會按反向傳播損失訓練嵌套，和訓練神經網路中的任何其他參數時一樣。

經驗風險最小化 (ERM, empirical risk minimization)

用於選擇可以將基於訓練集的損失降至最低的模型函數。與結構風險最小化相對。

集成學習 (ensemble)

多個模型的預測結果的並集。您可以通過以下一項或多項來創建集成學習：

不同的初始化

不同的超參數

不同的整體結構

深度模型和寬度模型屬於一種集成學習。

周期 (epoch)

在訓練時，整個數據集的一次完整遍歷，以便不漏掉任何一個樣本。因此，一個周期表示（N/批次規模）次訓練迭代，其中 N 是樣本總數。

Estimator

tf.Estimator 類的一個實例，用於封裝負責構建 TensorFlow 圖並運行 TensorFlow 會話的邏輯。您可以創建自己的自定義 Estimator（如需相關介紹，請點擊此處），也可以將其他人預創建的 Estimator實例化。

樣本 (example)

數據集的一行。一個樣本包含一個或多個特徵，此外還可能包含一個標籤。另請參閱有標籤樣本和無標籤樣本。

假負例 (FN, false negative)

被模型錯誤地預測為負類別的樣本。例如，模型推斷出某封電子郵件不是垃圾郵件（負類別），但該電子郵件其實是垃圾郵件。

假正例 (FP, false positive)

被模型錯誤地預測為正類別的樣本。例如，模型推斷出某封電子郵件是垃圾郵件（正類別），但該電子郵件其實不是垃圾郵件。

假正例率（false positive rate, 簡稱 FP 率）

ROC 曲線中的 x 軸。FP 率的定義如下：

特徵 (feature)

在進行預測時使用的輸入變數。

特徵列 (FeatureColumns)

一組相關特徵，例如用戶可能居住的所有國家/地區的集合。樣本的特徵列中可能包含一個或多個特徵。

TensorFlow 中的特徵列內還封裝了元數據，例如：

特徵的數據類型

特徵是固定長度還是應轉換為嵌套

特徵列可以包含單個特徵。

「特徵列」是 Google 專用的術語。特徵列在 Yahoo/Microsoft 使用的VW系統中稱為「命名空間」，也稱為場。

特徵組合 (feature cross)

通過將單獨的特徵進行組合（相乘或求笛卡爾積）而形成的合成特徵。特徵組合有助於表示非線性關係。

特徵工程 (feature engineering)

指以下過程：確定哪些特徵可能在訓練模型方面非常有用，然後將日誌文件及其他來源的原始數據轉換為所需的特徵。在 TensorFlow 中，特徵工程通常是指將原始日誌文件條目轉換為tf.Exampleproto buffer。另請參閱tf.Transform。

特徵工程有時稱為特徵提取。

特徵集 (feature set)

訓練機器學習模型時採用的一組特徵。例如，對於某個用於預測房價的模型，郵政編碼、房屋面積以及房屋狀況可以組成一個簡單的特徵集。

特徵規範 (feature spec)

用於描述如何從tf.Exampleproto buffer 提取特徵數據。由於 tf.Example proto buffer 只是一個數據容器，因此您必須指定以下內容：

要提取的數據（即特徵的鍵）

數據類型（例如 float 或 int）

長度（固定或可變）

Estimator API 提供了一些可用來根據給定 FeatureColumns 列表生成特徵規範的工具。

完整 softmax (full softmax)

請參閱softmax。與候選採樣相對。

全連接層 (fully connected layer)

一種隱藏層，其中的每個節點均與下一個隱藏層中的每個節點相連。

全連接層又稱為密集層。

泛化 (generalization)

指的是模型依據訓練時採用的數據，針對以前未見過的新數據做出正確預測的能力。

廣義線性模型 (generalized linear model)

最小二乘回歸模型（基於高斯雜訊）向其他類型的模型（基於其他類型的雜訊，例如泊松雜訊或分類雜訊）進行的一種泛化。廣義線性模型的示例包括：

邏輯回歸

多類別回歸

最小二乘回歸

可以通過凸優化找到廣義線性模型的參數。

廣義線性模型具有以下特性：

最優的最小二乘回歸模型的平均預測結果等於訓練數據的平均標籤。

最優的邏輯回歸模型預測的平均概率等於訓練數據的平均標籤。

廣義線性模型的功能受其特徵的限制。與深度模型不同，廣義線性模型無法「學習新特徵」。

梯度 (gradient)

偏導數相對於所有自變數的向量。在機器學習中，梯度是模型函數偏導數的向量。梯度指向最速上升的方向。

梯度裁剪 (gradient clipping)

在應用梯度值之前先設置其上限。梯度裁剪有助於確保數值穩定性以及防止梯度爆炸。

梯度下降法 (gradient descent)

一種通過計算並且減小梯度將損失降至最低的技術，它以訓練數據為條件，來計算損失相對於模型參數的梯度。通俗來說，梯度下降法以迭代方式調整參數，逐漸找到權重和偏差的最佳組合，從而將損失降至最低。

圖 (graph)

TensorFlow 中的一種計算規範。圖中的節點表示操作。邊緣具有方向，表示將某項操作的結果（一個張量）作為一個操作數傳遞給另一項操作。可以使用TensorBoard直觀呈現圖。

啟發法 (heuristic)

一種非最優但實用的問題解決方案，足以用於進行改進或從中學習。

隱藏層 (hidden layer)

神經網路中的合成層，介於輸入層（即特徵）和輸出層（即預測）之間。神經網路包含一個或多個隱藏層。

合頁損失函數 (hinge loss)

一系列用於分類的損失函數，旨在找到距離每個訓練樣本都儘可能遠的決策邊界，從而使樣本和邊界之間的裕度最大化。KSVM使用合頁損失函數（或相關函數，例如平方合頁損失函數）。對於二元分類，合頁損失函數的定義如下：

其中「y"」表示分類器模型的原始輸出：

「y」表示真標籤，值為 -1 或 +1。

因此，合頁損失與 (y * y") 的關係圖如下所示：

維持數據 (holdout data)

訓練期間故意不使用（「維持」）的樣本。驗證數據集和測試數據集都屬於維持數據。維持數據有助於評估模型向訓練時所用數據之外的數據進行泛化的能力。與基於訓練數據集的損失相比，基於維持數據集的損失有助於更好地估算基於未見過的數據集的損失。

超參數 (hyperparameter)

在模型訓練的連續過程中，您調節的「旋鈕」。例如，學習速率就是一種超參數。

與參數相對。

超平面 (hyperplane)

將一個空間劃分為兩個子空間的邊界。例如，在二維空間中，直線就是一個超平面，在三維空間中，平面則是一個超平面。在機器學習中更典型的是：超平面是分隔高維度空間的邊界。核支持向量機利用超平面將正類別和負類別區分開來（通常是在極高維度空間中）。

獨立同分布 (i.i.d, independently and identically distributed)

從不會改變的分布中提取的數據，其中提取的每個值都不依賴於之前提取的值。i.i.d. 是機器學習的理想氣體- 一種實用的數學結構，但在現實世界中幾乎從未發現過。例如，某個網頁的訪問者在短時間內的分布可能為 i.i.d.，即分布在該短時間內沒有變化，且一位用戶的訪問行為通常與另一位用戶的訪問行為無關。不過，如果將時間窗口擴大，網頁訪問者的分布可能呈現出季節性變化。

推斷 (inference)

在機器學習中，推斷通常指以下過程：通過將訓練過的模型應用於無標籤樣本來做出預測。在統計學中，推斷是指在某些觀測數據條件下擬合分布參數的過程。（請參閱維基百科中有關統計學推斷的文章。）

輸入函數 (input function)

在 TensorFlow 中，用於將輸入數據返回到 Estimator 的訓練、評估或預測方法的函數。例如，訓練輸入函數用於返回訓練集中的批次特徵和標籤。

輸入層 (input layer)

神經網路中的第一層（接收輸入數據的層）。

實例 (instance)

是樣本的同義詞。

可解釋性 (interpretability)

模型的預測可解釋的難易程度。深度模型通常不可解釋，也就是說，很難對深度模型的不同層進行解釋。相比之下，線性回歸模型和寬度模型的可解釋性通常要好得多。

評分者間一致性信度 (inter-rater agreement)

一種衡量指標，用于衡量在執行某項任務時評分者達成一致的頻率。如果評分者未達成一致，則可能需要改進任務說明。有時也稱為注釋者間一致性信度或評分者間可靠性信度。另請參閱Cohen"s kappa（最熱門的評分者間一致性信度衡量指標之一）。

迭代 (iteration)

模型的權重在訓練期間的一次更新。迭代包含計算參數在單個批量數據上的梯度損失。

Keras

一種熱門的 Python 機器學習 API。Keras 能夠在多種深度學習框架上運行，其中包括 TensorFlow（在該框架上，Keras 作為 tf.keras 提供）。

核支持向量機 (KSVM, Kernel Support Vector Machines)

一種分類演算法，旨在通過將輸入數據向量映射到更高維度的空間，來最大化正類別和負類別之間的裕度。以某個輸入數據集包含一百個特徵的分類問題為例。為了最大化正類別和負類別之間的裕度，KSVM 可以在內部將這些特徵映射到百萬維度的空間。KSVM 使用合頁損失函數。

L1損失函數 (L? loss)

一種損失函數，基於模型預測的值與標籤的實際值之差的絕對值。與 L2損失函數相比，L1損失函數對離群值的敏感性弱一些。

L1正則化 (L? regularization)

一種正則化，根據權重的絕對值的總和來懲罰權重。在依賴稀疏特徵的模型中，L1正則化有助於使不相關或幾乎不相關的特徵的權重正好為 0，從而將這些特徵從模型中移除。與 L2正則化相對。

L2損失函數 (L? loss)

請參閱平方損失函數。

L2正則化 (L? regularization)

一種正則化，根據權重的平方和來懲罰權重。L2正則化有助於使離群值（具有較大正值或較小負值）權重接近於 0，但又不正好為 0。（與 L1正則化相對。）在線性模型中，L2正則化始終可以改進泛化。

標籤 (label)

在監督式學習中，標籤指樣本的「答案」或「結果」部分。有標籤數據集中的每個樣本都包含一個或多個特徵以及一個標籤。例如，在房屋數據集中，特徵可以包括卧室數、衛生間數以及房齡，而標籤則可以是房價。在垃圾郵件檢測數據集中，特徵可以包括主題行、發件人以及電子郵件本身，而標籤則可以是「垃圾郵件」或「非垃圾郵件」。

有標籤樣本 (labeled example)

包含特徵和標籤的樣本。在監督式訓練中，模型從有標籤樣本中進行學習。

lambda

是正則化率的同義詞。

（多含義術語，我們在此關注的是該術語在正則化中的定義。）

層 (layer)

神經網路中的一組神經元，處理一組輸入特徵，或一組神經元的輸出。

此外還指 TensorFlow 中的抽象層。層是 Python 函數，以張量和配置選項作為輸入，然後生成其他張量作為輸出。當必要的張量組合起來，用戶便可以通過模型函數將結果轉換為 Estimator。

Layers API (tf.layers)

一種 TensorFlow API，用於以層組合的方式構建深度神經網路。通過 Layers API，您可以構建不同類型的層，例如：

通過 tf.layers.Dense 構建全連接層。

通過 tf.layers.Conv2D 構建卷積層。

在編寫自定義 Estimator 時，您可以編寫「層」對象來定義所有隱藏層的特徵。

Layers API 遵循 [Keras](#Keras) layers API 規範。也就是說，除了前綴不同以外，Layers API 中的所有函數均與 Keras layers API 中的對應函數具有相同的名稱和簽名。

學習速率 (learning rate)

在訓練模型時用於梯度下降的一個變數。在每次迭代期間，梯度下降法都會將學習速率與梯度相乘。得出的乘積稱為梯度步長。

學習速率是一個重要的超參數。

最小二乘回歸 (least squares regression)

一種通過最小化 L2損失訓練出的線性回歸模型。

線性回歸 (linear regression)

一種回歸模型，通過將輸入特徵進行線性組合，以連續值作為輸出。

邏輯回歸 (logistic regression)

一種模型，通過將 S 型函數應用於線性預測，生成分類問題中每個可能的離散標籤值的概率。雖然邏輯回歸經常用於二元分類問題，但也可用於多類別分類問題（其叫法變為多類別邏輯回歸或多項回歸）。

對數損失函數 (Log Loss)

二元邏輯回歸中使用的損失函數。

損失 (Loss)

一種衡量指標，用于衡量模型的預測偏離其標籤的程度。或者更悲觀地說是衡量模型有多差。要確定此值，模型必須定義損失函數。例如，線性回歸模型通常將均方誤差用於損失函數，而邏輯回歸模型則使用對數損失函數。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※零知識證明原理詳解：非互動式證明實現自動驗證防止作假
※工農中建雄安分行開業，利用區塊鏈、大數據等建設智慧金融

TAG:雷鋒網 |