大地资源中文第三页,丝瓜视频污在线观看,99999久久久久久亚洲

Google 工程教育團(tuán)隊(duì)已經(jīng)發(fā)布了多語(yǔ)種的 Google 機(jī)器學(xué)習(xí)術(shù)語(yǔ)表，該術(shù)語(yǔ)表中列出了一般的Machine Learning術(shù)語(yǔ)和 TensorFlow 專(zhuān)用術(shù)語(yǔ)的定義。語(yǔ)言版本包括西班牙語(yǔ)，法語(yǔ)，韓語(yǔ)和簡(jiǎn)體中文。

A/B 測(cè)試 (A/B testing)

一種統(tǒng)計(jì)方法，用于將兩種或多種技術(shù)進(jìn)行比較，通常是將當(dāng)前采用的技術(shù)與新技術(shù)進(jìn)行比較。A/B 測(cè)試不僅旨在確定哪種技術(shù)的效果更好，而且還有助于了解相應(yīng)差異是否具有顯著的統(tǒng)計(jì)意義。A/B 測(cè)試通常是采用一種衡量方式對(duì)兩種技術(shù)進(jìn)行比較，但也適用于任意有限數(shù)量的技術(shù)和衡量方式。

準(zhǔn)確率 (accuracy)

分類(lèi)模型的正確預(yù)測(cè)所占的比例。在多類(lèi)別分類(lèi)中，準(zhǔn)確率的定義如下：

準(zhǔn)確率 =正確的預(yù)測(cè)數(shù)樣本總數(shù)準(zhǔn)確率=正確的預(yù)測(cè)數(shù)樣本總數(shù)

在二元分類(lèi)中，準(zhǔn)確率的定義如下：

準(zhǔn)確率 =真正例數(shù) +真負(fù)例數(shù)樣本總數(shù)準(zhǔn)確率=真正例數(shù)+真負(fù)例數(shù)樣本總數(shù)

請(qǐng)參閱真正例和真負(fù)例。

激活函數(shù) (activation function)

一種函數(shù)（例如ReLU或S 型函數(shù)），用于對(duì)上一層的所有輸入求加權(quán)和，然后生成一個(gè)輸出值（通常為非線(xiàn)性值），并將其傳遞給下一層。

AdaGrad

一種先進(jìn)的梯度下降法，用于重新調(diào)整每個(gè)參數(shù)的梯度，以便有效地為每個(gè)參數(shù)指定獨(dú)立的學(xué)習(xí)速率。如需查看完整的解釋?zhuān)?qǐng)參閱如下論文.(http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf)

ROC 曲線(xiàn)下面積 (AUC, Area under the ROC Curve)

一種會(huì)考慮所有可能分類(lèi)閾值的評(píng)估指標(biāo)。

ROC 曲線(xiàn)下面積是，對(duì)于隨機(jī)選擇的正類(lèi)別樣本確實(shí)為正類(lèi)別，以及隨機(jī)選擇的負(fù)類(lèi)別樣本為正類(lèi)別，分類(lèi)器更確信前者的概率。

反向傳播算法 (backpropagation)

在神經(jīng)網(wǎng)絡(luò)上執(zhí)行梯度下降法的主要算法。該算法會(huì)先按前向傳播方式計(jì)算（并緩存）每個(gè)節(jié)點(diǎn)的輸出值，然后再按反向傳播遍歷圖的方式計(jì)算損失函數(shù)值相對(duì)于每個(gè)參數(shù)的偏導(dǎo)數(shù)。

基準(zhǔn) (baseline)

一種簡(jiǎn)單的模型或啟發(fā)法，用作比較模型效果時(shí)的參考點(diǎn)?；鶞?zhǔn)有助于模型開(kāi)發(fā)者針對(duì)特定問(wèn)題量化最低預(yù)期效果。

批次 (batch)

模型訓(xùn)練的一次迭代（即一次梯度更新）中使用的樣本集。

另請(qǐng)參閱批次規(guī)模。

批次規(guī)模 (batch size)

一個(gè)批次中的樣本數(shù)。例如，SGD的批次規(guī)模為 1，而小批次的規(guī)模通常介于 10 到 1000 之間。批次規(guī)模在訓(xùn)練和推斷期間通常是固定的；不過(guò)，TensorFlow 允許使用動(dòng)態(tài)批次規(guī)模。

偏差 (bias)

距離原點(diǎn)的截距或偏移。偏差（也稱(chēng)為偏差項(xiàng)）在機(jī)器學(xué)習(xí)模型中以 b 或 w0表示。例如，在下面的公式中，偏差為：

請(qǐng)勿與預(yù)測(cè)偏差混淆。

二元分類(lèi) (binary classification)

一種分類(lèi)任務(wù)，可輸出兩種互斥類(lèi)別之一。例如，對(duì)電子郵件進(jìn)行評(píng)估并輸出 “垃圾郵件” 或“非垃圾郵件”的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類(lèi)器。

分箱 (binning)

請(qǐng)參閱分桶。

分桶 (bucketing)

將一個(gè)特征（通常是連續(xù)特征）轉(zhuǎn)換成多個(gè)二元特征（稱(chēng)為桶或箱），通常是根據(jù)值區(qū)間進(jìn)行轉(zhuǎn)換。例如，您可以將溫度區(qū)間分割為離散分箱，而不是將溫度表示成單個(gè)連續(xù)的浮點(diǎn)特征。假設(shè)溫度數(shù)據(jù)可精確到小數(shù)點(diǎn)后一位，則可以將介于 0.0 到 15.0 度之間的所有溫度都?xì)w入一個(gè)分箱，將介于 15.1 到 30.0 度之間的所有溫度歸入第二個(gè)分箱，并將介于 30.1 到 50.0 度之間的所有溫度歸入第三個(gè)分箱。

校準(zhǔn)層 (calibration layer)

一種預(yù)測(cè)后調(diào)整，通常是為了降低預(yù)測(cè)偏差。調(diào)整后的預(yù)測(cè)和概率應(yīng)與觀察到的標(biāo)簽集的分布一致。

候選采樣 (candidate sampling)

一種訓(xùn)練時(shí)進(jìn)行的優(yōu)化，會(huì)使用某種函數(shù)（例如 softmax）針對(duì)所有正類(lèi)別標(biāo)簽計(jì)算概率，但對(duì)于負(fù)類(lèi)別標(biāo)簽，則僅針對(duì)其隨機(jī)樣本計(jì)算概率。例如，如果某個(gè)樣本的標(biāo)簽為 “小獵犬” 和“狗”，則候選采樣將針對(duì) “小獵犬” 和“狗”類(lèi)別輸出以及其他類(lèi)別（貓、棒棒糖、柵欄）的隨機(jī)子集計(jì)算預(yù)測(cè)概率和相應(yīng)的損失項(xiàng)。這種采樣基于的想法是，只要正類(lèi)別始終得到適當(dāng)?shù)恼鰪?qiáng)，負(fù)類(lèi)別就可以從頻率較低的負(fù)增強(qiáng)中進(jìn)行學(xué)習(xí)，這確實(shí)是在實(shí)際中觀察到的情況。候選采樣的目的是，通過(guò)不針對(duì)所有負(fù)類(lèi)別計(jì)算預(yù)測(cè)結(jié)果來(lái)提高計(jì)算效率。

分類(lèi)數(shù)據(jù) (categorical data)

一種特征，擁有一組離散的可能值。以某個(gè)名為house style的分類(lèi)特征為例，該特征擁有一組離散的可能值（共三個(gè)），即Tudor, ranch, colonial。通過(guò)將house style表示成分類(lèi)數(shù)據(jù)，相應(yīng)模型可以學(xué)習(xí)Tudor、ranch和colonial分別對(duì)房?jī)r(jià)的影響。

有時(shí)，離散集中的值是互斥的，只能將其中一個(gè)值應(yīng)用于指定樣本。例如，car maker分類(lèi)特征可能只允許一個(gè)樣本有一個(gè)值 (Toyota)。在其他情況下，則可以應(yīng)用多個(gè)值。一輛車(chē)可能會(huì)被噴涂多種不同的顏色，因此，car color分類(lèi)特征可能會(huì)允許單個(gè)樣本具有多個(gè)值（例如red和white）。

分類(lèi)特征有時(shí)稱(chēng)為離散特征。

與數(shù)值數(shù)據(jù)相對(duì)。

檢查點(diǎn) (checkpoint)

一種數(shù)據(jù)，用于捕獲模型變量在特定時(shí)間的狀態(tài)。借助檢查點(diǎn)，可以導(dǎo)出模型權(quán)重，跨多個(gè)會(huì)話(huà)執(zhí)行訓(xùn)練，以及使訓(xùn)練在發(fā)生錯(cuò)誤之后得以繼續(xù)（例如作業(yè)搶占）。請(qǐng)注意，圖本身不包含在檢查點(diǎn)中。

類(lèi)別 (class)

為標(biāo)簽枚舉的一組目標(biāo)值中的一個(gè)。例如，在檢測(cè)垃圾郵件的二元分類(lèi)模型中，兩種類(lèi)別分別是 “垃圾郵件” 和“非垃圾郵件”。在識(shí)別狗品種的多類(lèi)別分類(lèi)模型中，類(lèi)別可以是 “貴賓犬”、“小獵犬”、“哈巴犬” 等等。

分類(lèi)不平衡的數(shù)據(jù)集 (class-imbalanced data set)

一種二元分類(lèi)問(wèn)題，在此類(lèi)問(wèn)題中，兩種類(lèi)別的標(biāo)簽在出現(xiàn)頻率方面具有很大的差距。例如，在某個(gè)疾病數(shù)據(jù)集中，0.0001 的樣本具有正類(lèi)別標(biāo)簽，0.9999 的樣本具有負(fù)類(lèi)別標(biāo)簽，這就屬于分類(lèi)不平衡問(wèn)題；但在某個(gè)足球比賽預(yù)測(cè)器中，0.51 的樣本的標(biāo)簽為其中一個(gè)球隊(duì)贏，0.49 的樣本的標(biāo)簽為另一個(gè)球隊(duì)贏，這就不屬于分類(lèi)不平衡問(wèn)題。

分類(lèi)模型 (classification model)

一種機(jī)器學(xué)習(xí)模型，用于區(qū)分兩種或多種離散類(lèi)別。例如，某個(gè)自然語(yǔ)言處理分類(lèi)模型可以確定輸入的句子是法語(yǔ)、西班牙語(yǔ)還是意大利語(yǔ)。請(qǐng)與回歸模型進(jìn)行比較。

分類(lèi)閾值 (classification threshold)

一種標(biāo)量值條件，應(yīng)用于模型預(yù)測(cè)的得分，旨在將正類(lèi)別與負(fù)類(lèi)別區(qū)分開(kāi)。將邏輯回歸結(jié)果映射到二元分類(lèi)時(shí)使用。以某個(gè)邏輯回歸模型為例，該模型用于確定指定電子郵件是垃圾郵件的概率。如果分類(lèi)閾值為 0.9，那么邏輯回歸值高于 0.9 的電子郵件將被歸類(lèi)為 “垃圾郵件”，低于 0.9 的則被歸類(lèi)為 “非垃圾郵件”。

協(xié)同過(guò)濾 (collaborative filtering)

根據(jù)很多其他用戶(hù)的興趣來(lái)預(yù)測(cè)某位用戶(hù)的興趣。協(xié)同過(guò)濾通常用在推薦系統(tǒng)中。

混淆矩陣 (confusion matrix)

一種 NxN 表格，用于總結(jié)分類(lèi)模型的預(yù)測(cè)成效；即標(biāo)簽和模型預(yù)測(cè)的分類(lèi)之間的關(guān)聯(lián)。在混淆矩陣中，一個(gè)軸表示模型預(yù)測(cè)的標(biāo)簽，另一個(gè)軸表示實(shí)際標(biāo)簽。N 表示類(lèi)別個(gè)數(shù)。在二元分類(lèi)問(wèn)題中，N=2。例如，下面顯示了一個(gè)二元分類(lèi)問(wèn)題的混淆矩陣示例：

多類(lèi)別分類(lèi)問(wèn)題的混淆矩陣有助于確定出錯(cuò)模式。例如，某個(gè)混淆矩陣可以揭示，某個(gè)經(jīng)過(guò)訓(xùn)練以識(shí)別手寫(xiě)數(shù)字的模型往往會(huì)將 4 錯(cuò)誤地預(yù)測(cè)為 9，將 7 錯(cuò)誤地預(yù)測(cè)為 1?；煜仃嚢?jì)算各種效果指標(biāo)（包括精確率和召回率）所需的充足信息。上面的混淆矩陣顯示，在 19 個(gè)實(shí)際有腫瘤的樣本中，該模型正確地將 18 個(gè)歸類(lèi)為有腫瘤（18 個(gè)真正例），錯(cuò)誤地將 1 個(gè)歸類(lèi)為沒(méi)有腫瘤（1 個(gè)假負(fù)例）。同樣，在 458 個(gè)實(shí)際沒(méi)有腫瘤的樣本中，模型歸類(lèi)正確的有 452 個(gè)（452 個(gè)真負(fù)例），歸類(lèi)錯(cuò)誤的有 6 個(gè)（6 個(gè)假正例）。

連續(xù)特征 (continuous feature)

一種浮點(diǎn)特征，可能值的區(qū)間不受限制。與離散特征相對(duì)。

收斂 (convergence)

通俗來(lái)說(shuō)，收斂通常是指在訓(xùn)練期間達(dá)到的一種狀態(tài)，即經(jīng)過(guò)一定次數(shù)的迭代之后，訓(xùn)練損失和驗(yàn)證損失在每次迭代中的變化都非常小或根本沒(méi)有變化。也就是說(shuō)，如果采用當(dāng)前數(shù)據(jù)進(jìn)行額外的訓(xùn)練將無(wú)法改進(jìn)模型，模型即達(dá)到收斂狀態(tài)。在深度學(xué)習(xí)中，損失值有時(shí)會(huì)在最終下降之前的多次迭代中保持不變或幾乎保持不變，暫時(shí)形成收斂的假象。

另請(qǐng)參閱早停法。

另請(qǐng)參閱 Boyd 和 Vandenberghe 合著的Convex Optimization（《凸優(yōu)化》）。

凸函數(shù) (convex function)

一種函數(shù)，函數(shù)圖像以上的區(qū)域?yàn)橥辜?。典型凸函?shù)的形狀類(lèi)似于字母U。例如，以下都是凸函數(shù)：

相反，以下函數(shù)則不是凸函數(shù)。請(qǐng)注意圖像上方的區(qū)域如何不是凸集：

局部最低點(diǎn)局部最低點(diǎn)全局最低點(diǎn)

嚴(yán)格凸函數(shù)只有一個(gè)局部最低點(diǎn)，該點(diǎn)也是全局最低點(diǎn)。經(jīng)典的 U 形函數(shù)都是嚴(yán)格凸函數(shù)。不過(guò)，有些凸函數(shù)（例如直線(xiàn)）則不是這樣。

很多常見(jiàn)的損失函數(shù)（包括下列函數(shù)）都是凸函數(shù)：

L2損失函數(shù)

對(duì)數(shù)損失函數(shù)

L1正則化

L2正則化

梯度下降法的很多變體都一定能找到一個(gè)接近嚴(yán)格凸函數(shù)最小值的點(diǎn)。同樣，隨機(jī)梯度下降法的很多變體都有很高的可能性能夠找到接近嚴(yán)格凸函數(shù)最小值的點(diǎn)（但并非一定能找到）。

兩個(gè)凸函數(shù)的和（例如 L2損失函數(shù) + L1正則化）也是凸函數(shù)。

深度模型絕不會(huì)是凸函數(shù)。值得注意的是，專(zhuān)門(mén)針對(duì)凸優(yōu)化設(shè)計(jì)的算法往往總能在深度網(wǎng)絡(luò)上找到非常好的解決方案，雖然這些解決方案并不一定對(duì)應(yīng)于全局最小值。

凸優(yōu)化 (convex optimization)

使用數(shù)學(xué)方法（例如梯度下降法）尋找凸函數(shù)最小值的過(guò)程。機(jī)器學(xué)習(xí)方面的大量研究都是專(zhuān)注于如何通過(guò)公式將各種問(wèn)題表示成凸優(yōu)化問(wèn)題，以及如何更高效地解決這些問(wèn)題。

如需完整的詳細(xì)信息，請(qǐng)參閱 Boyd 和 Vandenberghe 合著的Convex Optimization（《凸優(yōu)化》）。

凸集 (convex set)

歐幾里得空間的一個(gè)子集，其中任意兩點(diǎn)之間的連線(xiàn)仍完全落在該子集內(nèi)。例如，下面的兩個(gè)圖形都是凸集：

相反，下面的兩個(gè)圖形都不是凸集：

成本 (cost)

是損失的同義詞。

交叉熵 (cross-entropy)

對(duì)數(shù)損失函數(shù)向多類(lèi)別分類(lèi)問(wèn)題進(jìn)行的一種泛化。交叉熵可以量化兩種概率分布之間的差異。另請(qǐng)參閱困惑度。

自定義 Estimator (custom Estimator)

您按照這些說(shuō)明自行編寫(xiě)的Estimator。

與預(yù)創(chuàng)建的 Estimator相對(duì)。

數(shù)據(jù)集 (data set)

一組樣本的集合。

Dataset API (tf.data)

一種高級(jí)別的 TensorFlow API，用于讀取數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法所需的格式。tf.data.Dataset對(duì)象表示一系列元素，其中每個(gè)元素都包含一個(gè)或多個(gè)張量。tf.data.Iterator對(duì)象可獲取Dataset中的元素。

如需詳細(xì)了解 Dataset API，請(qǐng)參閱《TensorFlow 編程人員指南》中的導(dǎo)入數(shù)據(jù)。

決策邊界 (decision boundary)

在二元分類(lèi)或多類(lèi)別分類(lèi)問(wèn)題中，模型學(xué)到的類(lèi)別之間的分界線(xiàn)。例如，在以下表示某個(gè)二元分類(lèi)問(wèn)題的圖片中，決策邊界是橙色類(lèi)別和藍(lán)色類(lèi)別之間的分界線(xiàn)：

密集層 (dense layer)

是全連接層的同義詞。

深度模型 (deep model)

一種神經(jīng)網(wǎng)絡(luò)，其中包含多個(gè)隱藏層。深度模型依賴(lài)于可訓(xùn)練的非線(xiàn)性關(guān)系。

與寬度模型相對(duì)。

密集特征 (dense feature)

一種大部分?jǐn)?shù)值是非零值的特征，通常是一個(gè)浮點(diǎn)值張量。參照稀疏特征。

衍生特征 (derived feature)

是合成特征的同義詞。

離散特征 (discrete feature)

一種特征，包含有限個(gè)可能值。例如，某個(gè)值只能是 “動(dòng)物”、“蔬菜” 或“礦物”的特征便是一個(gè)離散特征（或分類(lèi)特征）。與連續(xù)特征相對(duì)。

丟棄正則化 (dropout regularization)

一種形式的正則化，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面非常有用。丟棄正則化的運(yùn)作機(jī)制是，在神經(jīng)網(wǎng)絡(luò)層的一個(gè)梯度步長(zhǎng)中移除隨機(jī)選擇的固定數(shù)量的單元。丟棄的單元越多，正則化效果就越強(qiáng)。這類(lèi)似于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以模擬較小網(wǎng)絡(luò)的指數(shù)級(jí)規(guī)模集成學(xué)習(xí)。如需完整的詳細(xì)信息，請(qǐng)參閱Dropout: A Simple Way to Prevent Neural Networks from Overfitting（《丟棄：一種防止神經(jīng)網(wǎng)絡(luò)過(guò)擬合的簡(jiǎn)單方法》）。

動(dòng)態(tài)模型 (dynamic model)

一種模型，以持續(xù)更新的方式在線(xiàn)接受訓(xùn)練。也就是說(shuō)，數(shù)據(jù)會(huì)源源不斷地進(jìn)入這種模型。

早停法 (early stopping)

一種正則化方法，涉及在訓(xùn)練損失仍可以繼續(xù)減少之前結(jié)束模型訓(xùn)練。使用早停法時(shí)，您會(huì)在基于驗(yàn)證數(shù)據(jù)集的損失開(kāi)始增加（也就是泛化效果變差）時(shí)結(jié)束模型訓(xùn)練。

嵌套 (embeddings)

一種分類(lèi)特征，以連續(xù)值特征表示。通常，嵌套是指將高維度向量映射到低維度的空間。例如，您可以采用以下兩種方式之一來(lái)表示英文句子中的單詞：

表示成包含百萬(wàn)個(gè)元素（高維度）的稀疏向量，其中所有元素都是整數(shù)。向量中的每個(gè)單元格都表示一個(gè)單獨(dú)的英文單詞，單元格中的值表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。由于單個(gè)英文句子包含的單詞不太可能超過(guò) 50 個(gè)，因此向量中幾乎每個(gè)單元格都包含 0。少數(shù)非 0 的單元格中將包含一個(gè)非常小的整數(shù)（通常為 1），該整數(shù)表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。

表示成包含數(shù)百個(gè)元素（低維度）的密集向量，其中每個(gè)元素都包含一個(gè)介于 0 到 1 之間的浮點(diǎn)值。這就是一種嵌套。

在 TensorFlow 中，會(huì)按反向傳播損失訓(xùn)練嵌套，和訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的任何其他參數(shù)時(shí)一樣。

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (ERM, empirical risk minimization)

用于選擇可以將基于訓(xùn)練集的損失降至最低的模型函數(shù)。與結(jié)構(gòu)風(fēng)險(xiǎn)最小化相對(duì)。

集成學(xué)習(xí) (ensemble)

多個(gè)模型的預(yù)測(cè)結(jié)果的并集。您可以通過(guò)以下一項(xiàng)或多項(xiàng)來(lái)創(chuàng)建集成學(xué)習(xí)：

不同的初始化

不同的超參數(shù)

不同的整體結(jié)構(gòu)

深度模型和寬度模型屬于一種集成學(xué)習(xí)。

周期 (epoch)

在訓(xùn)練時(shí)，整個(gè)數(shù)據(jù)集的一次完整遍歷，以便不漏掉任何一個(gè)樣本。因此，一個(gè)周期表示（N/批次規(guī)模）次訓(xùn)練迭代，其中N是樣本總數(shù)。

Estimator

tf.Estimator類(lèi)的一個(gè)實(shí)例，用于封裝負(fù)責(zé)構(gòu)建 TensorFlow 圖并運(yùn)行 TensorFlow 會(huì)話(huà)的邏輯。您可以創(chuàng)建自己的自定義 Estimator（如需相關(guān)介紹，請(qǐng)點(diǎn)擊此處），也可以將其他人預(yù)創(chuàng)建的 Estimator實(shí)例化。

樣本 (example)

數(shù)據(jù)集的一行。一個(gè)樣本包含一個(gè)或多個(gè)特征，此外還可能包含一個(gè)標(biāo)簽。另請(qǐng)參閱有標(biāo)簽樣本和無(wú)標(biāo)簽樣本。

假負(fù)例 (FN, false negative)

被模型錯(cuò)誤地預(yù)測(cè)為負(fù)類(lèi)別的樣本。例如，模型推斷出某封電子郵件不是垃圾郵件（負(fù)類(lèi)別），但該電子郵件其實(shí)是垃圾郵件。

假正例 (FP, false positive)

被模型錯(cuò)誤地預(yù)測(cè)為正類(lèi)別的樣本。例如，模型推斷出某封電子郵件是垃圾郵件（正類(lèi)別），但該電子郵件其實(shí)不是垃圾郵件。

假正例率（false positive rate, 簡(jiǎn)稱(chēng) FP 率）

ROC 曲線(xiàn)中的 x 軸。FP 率的定義如下：

假正例率假正例數(shù)假正例數(shù) +真負(fù)例數(shù)假正例率=假正例數(shù)假正例數(shù)+真負(fù)例數(shù)

特征 (feature)

在進(jìn)行預(yù)測(cè)時(shí)使用的輸入變量。

特征列 (FeatureColumns)

一組相關(guān)特征，例如用戶(hù)可能居住的所有國(guó)家 / 地區(qū)的集合。樣本的特征列中可能包含一個(gè)或多個(gè)特征。

TensorFlow 中的特征列內(nèi)還封裝了元數(shù)據(jù)，例如：

特征的數(shù)據(jù)類(lèi)型

特征是固定長(zhǎng)度還是應(yīng)轉(zhuǎn)換為嵌套

特征列可以包含單個(gè)特征。

“特征列” 是 Google 專(zhuān)用的術(shù)語(yǔ)。特征列在 Yahoo/Microsoft 使用的VW系統(tǒng)中稱(chēng)為 “命名空間”，也稱(chēng)為場(chǎng)。

特征組合 (feature cross)

通過(guò)將單獨(dú)的特征進(jìn)行組合（相乘或求笛卡爾積）而形成的合成特征。特征組合有助于表示非線(xiàn)性關(guān)系。

特征工程 (feature engineering)

指以下過(guò)程：確定哪些特征可能在訓(xùn)練模型方面非常有用，然后將日志文件及其他來(lái)源的原始數(shù)據(jù)轉(zhuǎn)換為所需的特征。在 TensorFlow 中，特征工程通常是指將原始日志文件條目轉(zhuǎn)換為tf.Exampleproto buffer。另請(qǐng)參閱tf.Transform。

特征工程有時(shí)稱(chēng)為特征提取。

特征集 (feature set)

訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)采用的一組特征。例如，對(duì)于某個(gè)用于預(yù)測(cè)房?jī)r(jià)的模型，郵政編碼、房屋面積以及房屋狀況可以組成一個(gè)簡(jiǎn)單的特征集。

特征規(guī)范 (feature spec)

用于描述如何從tf.Exampleproto buffer 提取特征數(shù)據(jù)。由于 tf.Example proto buffer 只是一個(gè)數(shù)據(jù)容器，因此您必須指定以下內(nèi)容：

要提取的數(shù)據(jù)（即特征的鍵）

數(shù)據(jù)類(lèi)型（例如 float 或 int）

長(zhǎng)度（固定或可變）

Estimator API提供了一些可用來(lái)根據(jù)給定FeatureColumns列表生成特征規(guī)范的工具。

完整 softmax (full softmax)

請(qǐng)參閱softmax。與候選采樣相對(duì)。

全連接層 (fully connected layer)

一種隱藏層，其中的每個(gè)節(jié)點(diǎn)均與下一個(gè)隱藏層中的每個(gè)節(jié)點(diǎn)相連。

全連接層又稱(chēng)為密集層。

泛化 (generalization)

指的是模型依據(jù)訓(xùn)練時(shí)采用的數(shù)據(jù)，針對(duì)以前未見(jiàn)過(guò)的新數(shù)據(jù)做出正確預(yù)測(cè)的能力。

廣義線(xiàn)性模型 (generalized linear model)

最小二乘回歸模型（基于高斯噪聲）向其他類(lèi)型的模型（基于其他類(lèi)型的噪聲，例如泊松噪聲或分類(lèi)噪聲）進(jìn)行的一種泛化。廣義線(xiàn)性模型的示例包括：

邏輯回歸

多類(lèi)別回歸

最小二乘回歸

可以通過(guò)凸優(yōu)化找到廣義線(xiàn)性模型的參數(shù)。

廣義線(xiàn)性模型具有以下特性：

最優(yōu)的最小二乘回歸模型的平均預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

最優(yōu)的邏輯回歸模型預(yù)測(cè)的平均概率等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

廣義線(xiàn)性模型的功能受其特征的限制。與深度模型不同，廣義線(xiàn)性模型無(wú)法 “學(xué)習(xí)新特征”。

梯度 (gradient)

偏導(dǎo)數(shù)相對(duì)于所有自變量的向量。在機(jī)器學(xué)習(xí)中，梯度是模型函數(shù)偏導(dǎo)數(shù)的向量。梯度指向最速上升的方向。

梯度裁剪 (gradient clipping)

在應(yīng)用梯度值之前先設(shè)置其上限。梯度裁剪有助于確保數(shù)值穩(wěn)定性以及防止梯度爆炸。

梯度下降法 (gradient descent)

一種通過(guò)計(jì)算并且減小梯度將損失降至最低的技術(shù)，它以訓(xùn)練數(shù)據(jù)為條件，來(lái)計(jì)算損失相對(duì)于模型參數(shù)的梯度。通俗來(lái)說(shuō)，梯度下降法以迭代方式調(diào)整參數(shù)，逐漸找到權(quán)重和偏差的最佳組合，從而將損失降至最低。

圖 (graph)

TensorFlow 中的一種計(jì)算規(guī)范。圖中的節(jié)點(diǎn)表示操作。邊緣具有方向，表示將某項(xiàng)操作的結(jié)果（一個(gè)張量）作為一個(gè)操作數(shù)傳遞給另一項(xiàng)操作?？梢允褂肨ensorBoard直觀呈現(xiàn)圖。

啟發(fā)法 (heuristic)

一種非最優(yōu)但實(shí)用的問(wèn)題解決方案，足以用于進(jìn)行改進(jìn)或從中學(xué)習(xí)。

隱藏層 (hidden layer)

神經(jīng)網(wǎng)絡(luò)中的合成層，介于輸入層（即特征）和輸出層（即預(yù)測(cè)）之間。神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層。

合頁(yè)損失函數(shù) (hinge loss)

一系列用于分類(lèi)的損失函數(shù)，旨在找到距離每個(gè)訓(xùn)練樣本都盡可能遠(yuǎn)的決策邊界，從而使樣本和邊界之間的裕度最大化。KSVM使用合頁(yè)損失函數(shù)（或相關(guān)函數(shù)，例如平方合頁(yè)損失函數(shù)）。對(duì)于二元分類(lèi)，合頁(yè)損失函數(shù)的定義如下：

其中 “y'” 表示分類(lèi)器模型的原始輸出：

y′=b+w1x1+w2x2+…wnxn

“y” 表示真標(biāo)簽，值為 -1 或 +1。

因此，合頁(yè)損失與 (y * y') 的關(guān)系圖如下所示：

0-2-112312340合頁(yè)損失函數(shù)(y * y')

維持?jǐn)?shù)據(jù) (holdout data)

訓(xùn)練期間故意不使用（“維持”）的樣本。驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都屬于維持?jǐn)?shù)據(jù)。維持?jǐn)?shù)據(jù)有助于評(píng)估模型向訓(xùn)練時(shí)所用數(shù)據(jù)之外的數(shù)據(jù)進(jìn)行泛化的能力。與基于訓(xùn)練數(shù)據(jù)集的損失相比，基于維持?jǐn)?shù)據(jù)集的損失有助于更好地估算基于未見(jiàn)過(guò)的數(shù)據(jù)集的損失。

超參數(shù) (hyperparameter)

在模型訓(xùn)練的連續(xù)過(guò)程中，您調(diào)節(jié)的 “旋鈕”。例如，學(xué)習(xí)速率就是一種超參數(shù)。

與參數(shù)相對(duì)。

超平面 (hyperplane)

將一個(gè)空間劃分為兩個(gè)子空間的邊界。例如，在二維空間中，直線(xiàn)就是一個(gè)超平面，在三維空間中，平面則是一個(gè)超平面。在機(jī)器學(xué)習(xí)中更典型的是：超平面是分隔高維度空間的邊界。核支持向量機(jī)利用超平面將正類(lèi)別和負(fù)類(lèi)別區(qū)分開(kāi)來(lái)（通常是在極高維度空間中）。

獨(dú)立同分布 (i.i.d, independently and identically distributed)

從不會(huì)改變的分布中提取的數(shù)據(jù)，其中提取的每個(gè)值都不依賴(lài)于之前提取的值。i.i.d. 是機(jī)器學(xué)習(xí)的理想氣體- 一種實(shí)用的數(shù)學(xué)結(jié)構(gòu)，但在現(xiàn)實(shí)世界中幾乎從未發(fā)現(xiàn)過(guò)。例如，某個(gè)網(wǎng)頁(yè)的訪問(wèn)者在短時(shí)間內(nèi)的分布可能為 i.i.d.，即分布在該短時(shí)間內(nèi)沒(méi)有變化，且一位用戶(hù)的訪問(wèn)行為通常與另一位用戶(hù)的訪問(wèn)行為無(wú)關(guān)。不過(guò)，如果將時(shí)間窗口擴(kuò)大，網(wǎng)頁(yè)訪問(wèn)者的分布可能呈現(xiàn)出季節(jié)性變化。

推斷 (inference)

在機(jī)器學(xué)習(xí)中，推斷通常指以下過(guò)程：通過(guò)將訓(xùn)練過(guò)的模型應(yīng)用于無(wú)標(biāo)簽樣本來(lái)做出預(yù)測(cè)。在統(tǒng)計(jì)學(xué)中，推斷是指在某些觀測(cè)數(shù)據(jù)條件下擬合分布參數(shù)的過(guò)程。（請(qǐng)參閱維基百科中有關(guān)統(tǒng)計(jì)學(xué)推斷的文章。）

輸入函數(shù) (input function)

在 TensorFlow 中，用于將輸入數(shù)據(jù)返回到Estimator的訓(xùn)練、評(píng)估或預(yù)測(cè)方法的函數(shù)。例如，訓(xùn)練輸入函數(shù)用于返回訓(xùn)練集中的批次特征和標(biāo)簽。

輸入層 (input layer)

神經(jīng)網(wǎng)絡(luò)中的第一層（接收輸入數(shù)據(jù)的層）。

實(shí)例 (instance)

是樣本的同義詞。

可解釋性 (interpretability)

模型的預(yù)測(cè)可解釋的難易程度。深度模型通常不可解釋?zhuān)簿褪钦f(shuō)，很難對(duì)深度模型的不同層進(jìn)行解釋。相比之下，線(xiàn)性回歸模型和寬度模型的可解釋性通常要好得多。

評(píng)分者間一致性信度 (inter-rater agreement)

一種衡量指標(biāo)，用于衡量在執(zhí)行某項(xiàng)任務(wù)時(shí)評(píng)分者達(dá)成一致的頻率。如果評(píng)分者未達(dá)成一致，則可能需要改進(jìn)任務(wù)說(shuō)明。有時(shí)也稱(chēng)為注釋者間一致性信度或評(píng)分者間可靠性信度。另請(qǐng)參閱Cohen's kappa（最熱門(mén)的評(píng)分者間一致性信度衡量指標(biāo)之一）。

迭代 (iteration)

模型的權(quán)重在訓(xùn)練期間的一次更新。迭代包含計(jì)算參數(shù)在單個(gè)批量數(shù)據(jù)上的梯度損失。

Keras

一種熱門(mén)的 Python 機(jī)器學(xué)習(xí)API。Keras能夠在多種深度學(xué)習(xí)框架上運(yùn)行，其中包括 TensorFlow（在該框架上，Keras 作為tf.keras提供）。

核支持向量機(jī) (KSVM, Kernel Support Vector Machines)

一種分類(lèi)算法，旨在通過(guò)將輸入數(shù)據(jù)向量映射到更高維度的空間，來(lái)最大化正類(lèi)別和負(fù)類(lèi)別之間的裕度。以某個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類(lèi)問(wèn)題為例。為了最大化正類(lèi)別和負(fù)類(lèi)別之間的裕度，KSVM 可以在內(nèi)部將這些特征映射到百萬(wàn)維度的空間。KSVM 使用合頁(yè)損失函數(shù)。

L1損失函數(shù) (L? loss)

一種損失函數(shù)，基于模型預(yù)測(cè)的值與標(biāo)簽的實(shí)際值之差的絕對(duì)值。與L2損失函數(shù)相比，L1損失函數(shù)對(duì)離群值的敏感性弱一些。

L1正則化 (L? regularization)

一種正則化，根據(jù)權(quán)重的絕對(duì)值的總和來(lái)懲罰權(quán)重。在依賴(lài)稀疏特征的模型中，L1正則化有助于使不相關(guān)或幾乎不相關(guān)的特征的權(quán)重正好為 0，從而將這些特征從模型中移除。與L2正則化相對(duì)。

L2損失函數(shù) (L? loss)

請(qǐng)參閱平方損失函數(shù)。

L2正則化 (L? regularization)

一種正則化，根據(jù)權(quán)重的平方和來(lái)懲罰權(quán)重。L2正則化有助于使離群值（具有較大正值或較小負(fù)值）權(quán)重接近于 0，但又不正好為 0。（與L1 正則化相對(duì)。）在線(xiàn)性模型中，L2正則化始終可以改進(jìn)泛化。

標(biāo)簽 (label)

在監(jiān)督式學(xué)習(xí)中，標(biāo)簽指樣本的 “答案” 或“結(jié)果”部分。有標(biāo)簽數(shù)據(jù)集中的每個(gè)樣本都包含一個(gè)或多個(gè)特征以及一個(gè)標(biāo)簽。例如，在房屋數(shù)據(jù)集中，特征可以包括臥室數(shù)、衛(wèi)生間數(shù)以及房齡，而標(biāo)簽則可以是房?jī)r(jià)。在垃圾郵件檢測(cè)數(shù)據(jù)集中，特征可以包括主題行、發(fā)件人以及電子郵件本身，而標(biāo)簽則可以是 “垃圾郵件” 或“非垃圾郵件”。

有標(biāo)簽樣本 (labeled example)

包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中，模型從有標(biāo)簽樣本中進(jìn)行學(xué)習(xí)。

lambda

是正則化率的同義詞。

（多含義術(shù)語(yǔ)，我們?cè)诖岁P(guān)注的是該術(shù)語(yǔ)在正則化中的定義。）

層 (layer)

神經(jīng)網(wǎng)絡(luò)中的一組神經(jīng)元，處理一組輸入特征，或一組神經(jīng)元的輸出。

此外還指 TensorFlow 中的抽象層。層是 Python 函數(shù)，以張量和配置選項(xiàng)作為輸入，然后生成其他張量作為輸出。當(dāng)必要的張量組合起來(lái)，用戶(hù)便可以通過(guò)模型函數(shù)將結(jié)果轉(zhuǎn)換為Estimator。

Layers API (tf.layers)

一種 TensorFlow API，用于以層組合的方式構(gòu)建深度神經(jīng)網(wǎng)絡(luò)。通過(guò) Layers API，您可以構(gòu)建不同類(lèi)型的層，例如：

通過(guò)tf.layers.Dense構(gòu)建全連接層。

通過(guò)tf.layers.Conv2D構(gòu)建卷積層。

在編寫(xiě)自定義 Estimator時(shí)，您可以編寫(xiě) “層” 對(duì)象來(lái)定義所有隱藏層的特征。

Layers API 遵循 [Keras](#Keras) layers API 規(guī)范。也就是說(shuō)，除了前綴不同以外，Layers API 中的所有函數(shù)均與 Keras layers API 中的對(duì)應(yīng)函數(shù)具有相同的名稱(chēng)和簽名。

學(xué)習(xí)速率 (learning rate)

在訓(xùn)練模型時(shí)用于梯度下降的一個(gè)變量。在每次迭代期間，梯度下降法都會(huì)將學(xué)習(xí)速率與梯度相乘。得出的乘積稱(chēng)為梯度步長(zhǎng)。

學(xué)習(xí)速率是一個(gè)重要的超參數(shù)。

最小二乘回歸 (least squares regression)

一種通過(guò)最小化L2損失訓(xùn)練出的線(xiàn)性回歸模型。

線(xiàn)性回歸 (linear regression)

一種回歸模型，通過(guò)將輸入特征進(jìn)行線(xiàn)性組合，以連續(xù)值作為輸出。

邏輯回歸 (logistic regression)

一種模型，通過(guò)將S 型函數(shù)應(yīng)用于線(xiàn)性預(yù)測(cè)，生成分類(lèi)問(wèn)題中每個(gè)可能的離散標(biāo)簽值的概率。雖然邏輯回歸經(jīng)常用于二元分類(lèi)問(wèn)題，但也可用于多類(lèi)別分類(lèi)問(wèn)題（其叫法變?yōu)槎囝?lèi)別邏輯回歸或多項(xiàng)回歸）。

對(duì)數(shù)損失函數(shù) (Log Loss)

二元邏輯回歸中使用的損失函數(shù)。

損失 (Loss)

一種衡量指標(biāo)，用于衡量模型的預(yù)測(cè)偏離其標(biāo)簽的程度?；蛘吒^地說(shuō)是衡量模型有多差。要確定此值，模型必須定義損失函數(shù)。例如，線(xiàn)性回歸模型通常將均方誤差用于損失函數(shù)，而邏輯回歸模型則使用對(duì)數(shù)損失函數(shù)。

機(jī)器學(xué)習(xí) (machine learning)

一種程序或系統(tǒng)，用于根據(jù)輸入數(shù)據(jù)構(gòu)建（訓(xùn)練）預(yù)測(cè)模型。這種系統(tǒng)會(huì)利用學(xué)到的模型根據(jù)從分布（訓(xùn)練該模型時(shí)使用的同一分布）中提取的新數(shù)據(jù)（以前從未見(jiàn)過(guò)的數(shù)據(jù)）進(jìn)行實(shí)用的預(yù)測(cè)。機(jī)器學(xué)習(xí)還指與這些程序或系統(tǒng)相關(guān)的研究領(lǐng)域。

均方誤差 (MSE, Mean Squared Error)

每個(gè)樣本的平均平方損失。MSE 的計(jì)算方法是平方損失除以樣本數(shù)。TensorFlow Playground顯示的 “訓(xùn)練損失” 值和 “測(cè)試損失” 值都是 MSE。

指標(biāo) (metric)

您關(guān)心的一個(gè)數(shù)值?？赡芸梢砸部赡懿豢梢灾苯釉跈C(jī)器學(xué)習(xí)系統(tǒng)中得到優(yōu)化。您的系統(tǒng)嘗試優(yōu)化的指標(biāo)稱(chēng)為目標(biāo)。

Metrics API (tf.metrics)

一種用于評(píng)估模型的 TensorFlow API。例如，tf.metrics.accuracy用于確定模型的預(yù)測(cè)與標(biāo)簽匹配的頻率。在編寫(xiě)自定義 Estimator時(shí)，您可以調(diào)用 Metrics API 函數(shù)來(lái)指定應(yīng)如何評(píng)估您的模型。

小批次 (mini-batch)

從訓(xùn)練或推斷過(guò)程的一次迭代中一起運(yùn)行的整批樣本內(nèi)隨機(jī)選擇的一小部分。小批次的規(guī)模通常介于 10 到 1000 之間。與基于完整的訓(xùn)練數(shù)據(jù)計(jì)算損失相比，基于小批次數(shù)據(jù)計(jì)算損失要高效得多。

小批次隨機(jī)梯度下降法 (SGD, mini-batch stochastic gradient descent)

一種采用小批次樣本的梯度下降法。也就是說(shuō)，小批次 SGD 會(huì)根據(jù)一小部分訓(xùn)練數(shù)據(jù)來(lái)估算梯度。Vanilla SGD使用的小批次的規(guī)模為 1。

機(jī)器學(xué)習(xí)的縮寫(xiě)。

模型 (model)

機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容的表示形式。多含義術(shù)語(yǔ)，可以理解為下列兩種相關(guān)含義之一：

一種TensorFlow圖，用于表示預(yù)測(cè)計(jì)算結(jié)構(gòu)。

該 TensorFlow 圖的特定權(quán)重和偏差，通過(guò)訓(xùn)練決定。

模型訓(xùn)練 (model training)

確定最佳模型的過(guò)程。

動(dòng)量 (Momentum)

一種先進(jìn)的梯度下降法，其中學(xué)習(xí)步長(zhǎng)不僅取決于當(dāng)前步長(zhǎng)的導(dǎo)數(shù)，還取決于之前一步或多步的步長(zhǎng)的導(dǎo)數(shù)。動(dòng)量涉及計(jì)算梯度隨時(shí)間而變化的指數(shù)級(jí)加權(quán)移動(dòng)平均值，與物理學(xué)中的動(dòng)量類(lèi)似。動(dòng)量有時(shí)可以防止學(xué)習(xí)過(guò)程被卡在局部最小的情況。

多類(lèi)別分類(lèi) (multi-class classification)

區(qū)分兩種以上類(lèi)別的分類(lèi)問(wèn)題。例如，楓樹(shù)大約有 128 種，因此，確定楓樹(shù)種類(lèi)的模型就屬于多類(lèi)別模型。反之，僅將電子郵件分為兩類(lèi)（“垃圾郵件” 和 “非垃圾郵件”）的模型屬于二元分類(lèi)模型。

多項(xiàng)分類(lèi) (multinomial classification)

是多類(lèi)別分類(lèi)的同義詞。

NaN 陷阱 (NaN trap)

模型中的一個(gè)數(shù)字在訓(xùn)練期間變成NaN，這會(huì)導(dǎo)致模型中的很多或所有其他數(shù)字最終也會(huì)變成 NaN。

NaN 是 “非數(shù)字” 的縮寫(xiě)。

負(fù)類(lèi)別 (negative class)

在二元分類(lèi)中，一種類(lèi)別稱(chēng)為正類(lèi)別，另一種類(lèi)別稱(chēng)為負(fù)類(lèi)別。正類(lèi)別是我們要尋找的類(lèi)別，負(fù)類(lèi)別則是另一種可能性。例如，在醫(yī)學(xué)檢查中，負(fù)類(lèi)別可以是 “非腫瘤”。在電子郵件分類(lèi)器中，負(fù)類(lèi)別可以是 “非垃圾郵件”。另請(qǐng)參閱正類(lèi)別。

神經(jīng)網(wǎng)絡(luò) (neural network)

一種模型，靈感來(lái)源于腦部結(jié)構(gòu)，由多個(gè)層構(gòu)成（至少有一個(gè)是隱藏層），每個(gè)層都包含簡(jiǎn)單相連的單元或神經(jīng)元（具有非線(xiàn)性關(guān)系）。

神經(jīng)元 (neuron)

神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)，通常是接收多個(gè)輸入值并生成一個(gè)輸出值。神經(jīng)元通過(guò)將激活函數(shù)（非線(xiàn)性轉(zhuǎn)換）應(yīng)用于輸入值的加權(quán)和來(lái)計(jì)算輸出值。

節(jié)點(diǎn) (node)

多含義術(shù)語(yǔ)，可以理解為下列兩種含義之一：

隱藏層中的神經(jīng)元。

TensorFlow圖中的操作。

標(biāo)準(zhǔn)化 (normalization)

將實(shí)際的值區(qū)間轉(zhuǎn)換為標(biāo)準(zhǔn)的值區(qū)間（通常為 -1 到 +1 或 0 到 1）的過(guò)程。例如，假設(shè)某個(gè)特征的自然區(qū)間是 800 到 6000。通過(guò)減法和除法運(yùn)算，您可以將這些值標(biāo)準(zhǔn)化為位于 -1 到 +1 區(qū)間內(nèi)。

另請(qǐng)參閱縮放。

數(shù)值數(shù)據(jù) (numerical data)

用整數(shù)或?qū)崝?shù)表示的特征。例如，在房地產(chǎn)模型中，您可能會(huì)用數(shù)值數(shù)據(jù)表示房子大?。ㄒ云椒接⒊呋蚱椒矫诪閱挝唬?。如果用數(shù)值數(shù)據(jù)表示特征，則可以表明特征的值相互之間具有數(shù)學(xué)關(guān)系，并且與標(biāo)簽可能也有數(shù)學(xué)關(guān)系。例如，如果用數(shù)值數(shù)據(jù)表示房子大小，則可以表明面積為 200 平方米的房子是面積為 100 平方米的房子的兩倍。此外，房子面積的平方米數(shù)可能與房?jī)r(jià)存在一定的數(shù)學(xué)關(guān)系。

并非所有整數(shù)數(shù)據(jù)都應(yīng)表示成數(shù)值數(shù)據(jù)。例如，世界上某些地區(qū)的郵政編碼是整數(shù)，但在模型中，不應(yīng)將整數(shù)郵政編碼表示成數(shù)值數(shù)據(jù)。這是因?yàn)猷]政編碼20000在效力上并不是郵政編碼 10000 的兩倍（或一半）。此外，雖然不同的郵政編碼確實(shí)與不同的房地產(chǎn)價(jià)值有關(guān)，但我們也不能假設(shè)郵政編碼為 20000 的房地產(chǎn)在價(jià)值上是郵政編碼為 10000 的房地產(chǎn)的兩倍。郵政編碼應(yīng)表示成分類(lèi)數(shù)據(jù)。

數(shù)值特征有時(shí)稱(chēng)為連續(xù)特征。

Numpy

一個(gè)開(kāi)放源代碼數(shù)學(xué)庫(kù)，在 Python 中提供高效的數(shù)組操作。Pandas就建立在 Numpy 之上。

目標(biāo) (objective)

算法嘗試優(yōu)化的指標(biāo)。

離線(xiàn)推斷 (offline inference)

生成一組預(yù)測(cè)，存儲(chǔ)這些預(yù)測(cè)，然后根據(jù)需求檢索這些預(yù)測(cè)。與在線(xiàn)推斷相對(duì)。

one-hot 編碼 (one-hot encoding)

一種稀疏向量，其中：

一個(gè)元素設(shè)為 1。

所有其他元素均設(shè)為 0。

one-hot 編碼常用于表示擁有有限個(gè)可能值的字符串或標(biāo)識(shí)符。例如，假設(shè)某個(gè)指定的植物學(xué)數(shù)據(jù)集記錄了 15000 個(gè)不同的物種，其中每個(gè)物種都用獨(dú)一無(wú)二的字符串標(biāo)識(shí)符來(lái)表示。在特征工程過(guò)程中，您可能需要將這些字符串標(biāo)識(shí)符編碼為 one-hot 向量，向量的大小為 15000。

一對(duì)多 (one-vs.-all)

假設(shè)某個(gè)分類(lèi)問(wèn)題有 N 種可能的解決方案，一對(duì)多解決方案將包含 N 個(gè)單獨(dú)的二元分類(lèi)器- 一個(gè)二元分類(lèi)器對(duì)應(yīng)一種可能的結(jié)果。例如，假設(shè)某個(gè)模型用于區(qū)分樣本屬于動(dòng)物、蔬菜還是礦物，一對(duì)多解決方案將提供下列三個(gè)單獨(dú)的二元分類(lèi)器：

動(dòng)物和非動(dòng)物

蔬菜和非蔬菜

礦物和非礦物

在線(xiàn)推斷 (online inference)

根據(jù)需求生成預(yù)測(cè)。與離線(xiàn)推斷相對(duì)。

操作 (op, Operation)

TensorFlow 圖中的節(jié)點(diǎn)。在 TensorFlow 中，任何創(chuàng)建、操縱或銷(xiāo)毀張量的過(guò)程都屬于操作。例如，矩陣相乘就是一種操作，該操作以?xún)蓚€(gè)張量作為輸入，并生成一個(gè)張量作為輸出。

優(yōu)化器 (optimizer)

梯度下降法的一種具體實(shí)現(xiàn)。TensorFlow 的優(yōu)化器基類(lèi)是tf.train.Optimizer。不同的優(yōu)化器（tf.train.Optimizer的子類(lèi)）會(huì)考慮如下概念：

動(dòng)量(Momentum)

更新頻率（AdaGrad= ADAptive GRADient descent；Adam= ADAptive with Momentum；RMSProp）

稀疏性 / 正則化 (Ftrl)

更復(fù)雜的計(jì)算方法（Proximal，等等）

甚至還包括NN 驅(qū)動(dòng)的優(yōu)化器。

離群值 (outlier)

與大多數(shù)其他值差別很大的值。在機(jī)器學(xué)習(xí)中，下列所有值都是離群值。

絕對(duì)值很高的權(quán)重。

與實(shí)際值相差很大的預(yù)測(cè)值。

值比平均值高大約 3 個(gè)標(biāo)準(zhǔn)偏差的輸入數(shù)據(jù)。

離群值常常會(huì)導(dǎo)致模型訓(xùn)練出現(xiàn)問(wèn)題。

輸出層 (output layer)

神經(jīng)網(wǎng)絡(luò)的 “最后” 一層，也是包含答案的層。

過(guò)擬合 (overfitting)

創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)過(guò)于匹配，以致于模型無(wú)法根據(jù)新數(shù)據(jù)做出正確的預(yù)測(cè)。

Pandas

面向列的數(shù)據(jù)分析 API。很多機(jī)器學(xué)習(xí)框架（包括 TensorFlow）都支持將 Pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入。請(qǐng)參閱Pandas 文檔。

參數(shù) (parameter)

機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如，權(quán)重就是一種參數(shù)，它們的值是機(jī)器學(xué)習(xí)系統(tǒng)通過(guò)連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的。與超參數(shù)相對(duì)。

參數(shù)服務(wù)器 (PS, Parameter Server)

一種作業(yè)，負(fù)責(zé)在分布式設(shè)置中跟蹤模型參數(shù)。

參數(shù)更新 (parameter update)

在訓(xùn)練期間（通常是在梯度下降法的單次迭代中）調(diào)整模型參數(shù)的操作。

偏導(dǎo)數(shù) (partial derivative)

一種導(dǎo)數(shù)，除一個(gè)變量之外的所有變量都被視為常量。例如，f(x, y) 對(duì) x 的偏導(dǎo)數(shù)就是 f(x) 的導(dǎo)數(shù)（即，使 y 保持恒定）。f 對(duì) x 的偏導(dǎo)數(shù)僅關(guān)注 x 如何變化，而忽略公式中的所有其他變量。

分區(qū)策略 (partitioning strategy)

參數(shù)服務(wù)器中分割變量的算法。

性能 (performance)

多含義術(shù)語(yǔ)，具有以下含義：

在軟件工程中的傳統(tǒng)含義。即：相應(yīng)軟件的運(yùn)行速度有多快（或有多高效）？

在機(jī)器學(xué)習(xí)中的含義。在機(jī)器學(xué)習(xí)領(lǐng)域，性能旨在回答以下問(wèn)題：相應(yīng)模型的準(zhǔn)確度有多高？即模型在預(yù)測(cè)方面的表現(xiàn)有多好？

困惑度 (perplexity)

一種衡量指標(biāo)，用于衡量模型能夠多好地完成任務(wù)。例如，假設(shè)任務(wù)是讀取用戶(hù)使用智能手機(jī)鍵盤(pán)輸入字詞時(shí)輸入的前幾個(gè)字母，然后列出一組可能的完整字詞。此任務(wù)的困惑度 (P) 是：為了使列出的字詞中包含用戶(hù)嘗試輸入的實(shí)際字詞，您需要提供的猜測(cè)項(xiàng)的個(gè)數(shù)。

困惑度與交叉熵的關(guān)系如下：

流水線(xiàn) (pipeline)

機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)。流水線(xiàn)包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件、訓(xùn)練一個(gè)或多個(gè)模型，以及將模型導(dǎo)出到生產(chǎn)環(huán)境。

正類(lèi)別 (positive class)

在二元分類(lèi)中，兩種可能的類(lèi)別分別被標(biāo)記為正類(lèi)別和負(fù)類(lèi)別。正類(lèi)別結(jié)果是我們要測(cè)試的對(duì)象。（不可否認(rèn)的是，我們會(huì)同時(shí)測(cè)試這兩種結(jié)果，但只關(guān)注正類(lèi)別結(jié)果。）例如，在醫(yī)學(xué)檢查中，正類(lèi)別可以是 “腫瘤”。在電子郵件分類(lèi)器中，正類(lèi)別可以是 “垃圾郵件”。

與負(fù)類(lèi)別相對(duì)。

精確率 (precision)

一種分類(lèi)模型指標(biāo)。精確率指模型正確預(yù)測(cè)正類(lèi)別的頻率，即：

精確率 =真正例數(shù)真正例數(shù) +假正例數(shù)精確率=真正例數(shù)真正例數(shù)+假正例數(shù)

預(yù)測(cè) (prediction)

模型在收到輸入的樣本后的輸出。

預(yù)測(cè)偏差 (prediction bias)

一個(gè)值，用于表明預(yù)測(cè)平均值與數(shù)據(jù)集中標(biāo)簽的平均值相差有多大。

預(yù)創(chuàng)建的 Estimator (pre-made Estimator)

其他人已建好的Estimator。TensorFlow 提供了一些預(yù)創(chuàng)建的 Estimator，包括DNNClassifier、DNNRegressor和LinearClassifier。您可以按照這些說(shuō)明構(gòu)建自己預(yù)創(chuàng)建的 Estimator。

預(yù)訓(xùn)練模型 (pre-trained model)

已經(jīng)過(guò)訓(xùn)練的模型或模型組件（例如嵌套）。有時(shí)，您需要將預(yù)訓(xùn)練的嵌套饋送到神經(jīng)網(wǎng)絡(luò)。在其他時(shí)候，您的模型將自行訓(xùn)練嵌套，而不依賴(lài)于預(yù)訓(xùn)練的嵌套。

先驗(yàn)信念 (prior belief)

在開(kāi)始采用相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練之前，您對(duì)這些數(shù)據(jù)抱有的信念。例如，L2正則化依賴(lài)的先驗(yàn)信念是權(quán)重應(yīng)該很小且應(yīng)以 0 為中心呈正態(tài)分布。

隊(duì)列 (queue)

一種 TensorFlow操作，用于實(shí)現(xiàn)隊(duì)列數(shù)據(jù)結(jié)構(gòu)。通常用于 I/O 中。

等級(jí) (rank)

機(jī)器學(xué)習(xí)中的一個(gè)多含義術(shù)語(yǔ)，可以理解為下列含義之一：

張量中的維度數(shù)量。例如，標(biāo)量等級(jí)為 0，向量等級(jí)為 1，矩陣等級(jí)為 2。

在將類(lèi)別從最高到最低進(jìn)行排序的機(jī)器學(xué)習(xí)問(wèn)題中，類(lèi)別的順序位置。例如，行為排序系統(tǒng)可以將狗狗的獎(jiǎng)勵(lì)從最高（牛排）到最低（枯萎的羽衣甘藍(lán)）進(jìn)行排序。

評(píng)分者 (rater)

為樣本提供標(biāo)簽的人。有時(shí)稱(chēng)為 “注釋者”。

召回率 (recall)

一種分類(lèi)模型指標(biāo)，用于回答以下問(wèn)題：在所有可能的正類(lèi)別標(biāo)簽中，模型正確地識(shí)別出了多少個(gè)？即：

召回率 =真正例數(shù)真正例數(shù) +假負(fù)例數(shù)召回率=真正例數(shù)真正例數(shù)+假負(fù)例數(shù)

修正線(xiàn)性單元 (ReLU, Rectified Linear Unit)

一種激活函數(shù)，其規(guī)則如下：

如果輸入為負(fù)數(shù)或 0，則輸出 0。

如果輸入為正數(shù)，則輸出等于輸入。

回歸模型 (regression model)

一種模型，能夠輸出連續(xù)的值（通常為浮點(diǎn)值）。請(qǐng)與分類(lèi)模型進(jìn)行比較，分類(lèi)模型輸出離散值，例如 “黃花菜” 或“虎皮百合”。

正則化 (regularization)

對(duì)模型復(fù)雜度的懲罰。正則化有助于防止出現(xiàn)過(guò)擬合，包含以下類(lèi)型：

L1正則化

L2正則化

丟棄正則化

早停法（這不是正式的正則化方法，但可以有效限制過(guò)擬合）

正則化率 (regularization rate)

一種標(biāo)量值，以 lambda 表示，用于指定正則化函數(shù)的相對(duì)重要性。從下面簡(jiǎn)化的損失公式中可以看出正則化率的影響：

minimize(loss function +λ(regularization function))

提高正則化率可以減少過(guò)擬合，但可能會(huì)使模型的準(zhǔn)確率降低。

表示法 (representation)

將數(shù)據(jù)映射到實(shí)用特征的過(guò)程。

受試者工作特征曲線(xiàn)（receiver operating characteristic, 簡(jiǎn)稱(chēng) ROC 曲線(xiàn)）

不同分類(lèi)閾值下的真正例率和假正例率構(gòu)成的曲線(xiàn)。另請(qǐng)參閱曲線(xiàn)下面積。

根目錄 (root directory)

您指定的目錄，用于托管多個(gè)模型的 TensorFlow 檢查點(diǎn)和事件文件的子目錄。

均方根誤差 (RMSE, Root Mean Squared Error)

均方誤差的平方根。

SavedModel

保存和恢復(fù) TensorFlow 模型時(shí)建議使用的格式。SavedModel 是一種獨(dú)立于語(yǔ)言且可恢復(fù)的序列化格式，使較高級(jí)別的系統(tǒng)和工具可以創(chuàng)建、使用和轉(zhuǎn)換 TensorFlow 模型。

如需完整的詳細(xì)信息，請(qǐng)參閱《TensorFlow 編程人員指南》中的保存和恢復(fù)。

Saver

一種TensorFlow 對(duì)象，負(fù)責(zé)保存模型檢查點(diǎn)。

縮放 (scaling)

特征工程中的一種常用做法，是對(duì)某個(gè)特征的值區(qū)間進(jìn)行調(diào)整，使之與數(shù)據(jù)集中其他特征的值區(qū)間一致。例如，假設(shè)您希望數(shù)據(jù)集中所有浮點(diǎn)特征的值都位于 0 到 1 區(qū)間內(nèi)，如果某個(gè)特征的值位于 0 到 500 區(qū)間內(nèi)，您就可以通過(guò)將每個(gè)值除以 500 來(lái)縮放該特征。

另請(qǐng)參閱標(biāo)準(zhǔn)化。

scikit-learn

一個(gè)熱門(mén)的開(kāi)放源代碼機(jī)器學(xué)習(xí)平臺(tái)。請(qǐng)?jiān)L問(wèn)www.scikit-learn.org。

半監(jiān)督式學(xué)習(xí) (semi-supervised learning)

訓(xùn)練模型時(shí)采用的數(shù)據(jù)中，某些訓(xùn)練樣本有標(biāo)簽，而其他樣本則沒(méi)有標(biāo)簽。半監(jiān)督式學(xué)習(xí)采用的一種技術(shù)是推斷無(wú)標(biāo)簽樣本的標(biāo)簽，然后使用推斷出的標(biāo)簽進(jìn)行訓(xùn)練，以創(chuàng)建新模型。如果獲得有標(biāo)簽樣本需要高昂的成本，而無(wú)標(biāo)簽樣本則有很多，那么半監(jiān)督式學(xué)習(xí)將非常有用。

序列模型 (sequence model)

一種模型，其輸入具有序列依賴(lài)性。例如，根據(jù)之前觀看過(guò)的一系列視頻對(duì)觀看的下一個(gè)視頻進(jìn)行預(yù)測(cè)。

會(huì)話(huà) (session)

維持 TensorFlow 程序中的狀態(tài)（例如變量）。

S 型函數(shù) (sigmoid function)

一種函數(shù)，可將邏輯回歸輸出或多項(xiàng)回歸輸出（對(duì)數(shù)幾率）映射到概率，以返回介于 0 到 1 之間的值。S 型函數(shù)的公式如下：

在邏輯回歸問(wèn)題中，

σ非常簡(jiǎn)單：

換句話(huà)說(shuō)，S 型函數(shù)可將σ轉(zhuǎn)換為介于 0 到 1 之間的概率。

在某些神經(jīng)網(wǎng)絡(luò)中，S 型函數(shù)可作為激活函數(shù)使用。

softmax

一種函數(shù)，可提供多類(lèi)別分類(lèi)模型中每個(gè)可能類(lèi)別的概率。這些概率的總和正好為 1.0。例如，softmax 可能會(huì)得出某個(gè)圖像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。（也稱(chēng)為完整 softmax。）

與候選采樣相對(duì)。

稀疏特征 (sparse feature)

一種特征向量，其中的大多數(shù)值都為 0 或?yàn)榭?。例如，某個(gè)向量包含一個(gè)為 1 的值和一百萬(wàn)個(gè)為 0 的值，則該向量就屬于稀疏向量。再舉一個(gè)例子，搜索查詢(xún)中的單詞也可能屬于稀疏特征 - 在某種指定語(yǔ)言中有很多可能的單詞，但在某個(gè)指定的查詢(xún)中僅包含其中幾個(gè)。

與密集特征相對(duì)。

平方合頁(yè)損失函數(shù) (squared hinge loss)

合頁(yè)損失函數(shù)的平方。與常規(guī)合頁(yè)損失函數(shù)相比，平方合頁(yè)損失函數(shù)對(duì)離群值的懲罰更嚴(yán)厲。

平方損失函數(shù) (squared loss)

在線(xiàn)性回歸中使用的損失函數(shù)（也稱(chēng)為L(zhǎng)2損失函數(shù)）。該函數(shù)可計(jì)算模型為有標(biāo)簽樣本預(yù)測(cè)的值和標(biāo)簽的實(shí)際值之差的平方。由于取平方值，因此該損失函數(shù)會(huì)放大不佳預(yù)測(cè)的影響。也就是說(shuō)，與L1損失函數(shù)相比，平方損失函數(shù)對(duì)離群值的反應(yīng)更強(qiáng)烈。

靜態(tài)模型 (static model)

離線(xiàn)訓(xùn)練的一種模型。

平穩(wěn)性 (stationarity)

數(shù)據(jù)集中數(shù)據(jù)的一種屬性，表示數(shù)據(jù)分布在一個(gè)或多個(gè)維度保持不變。這種維度最常見(jiàn)的是時(shí)間，即表明平穩(wěn)性的數(shù)據(jù)不隨時(shí)間而變化。例如，從 9 月到 12 月，表明平穩(wěn)性的數(shù)據(jù)沒(méi)有發(fā)生變化。

步 (step)

對(duì)一個(gè)批次的向前和向后評(píng)估。

步長(zhǎng) (step size)

是學(xué)習(xí)速率的同義詞。

隨機(jī)梯度下降法 (SGD, stochastic gradient descent)

批次規(guī)模為 1 的一種梯度下降法。換句話(huà)說(shuō)，SGD 依賴(lài)于從數(shù)據(jù)集中隨機(jī)均勻選擇的單個(gè)樣本來(lái)計(jì)算每步的梯度估算值。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化 (SRM, structural risk minimization)

一種算法，用于平衡以下兩個(gè)目標(biāo)：

期望構(gòu)建最具預(yù)測(cè)性的模型（例如損失最低）。

期望使模型盡可能簡(jiǎn)單（例如強(qiáng)大的正則化）。

例如，旨在將基于訓(xùn)練集的損失和正則化降至最低的模型函數(shù)就是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法。

如需更多信息，請(qǐng)參閱http://www.svms.org/srm/。

與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化相對(duì)。

總結(jié) (summary)

在 TensorFlow 中的某一步計(jì)算出的一個(gè)值或一組值，通常用于在訓(xùn)練期間跟蹤模型指標(biāo)。

監(jiān)督式機(jī)器學(xué)習(xí) (supervised machine learning)

根據(jù)輸入數(shù)據(jù)及其對(duì)應(yīng)的標(biāo)簽來(lái)訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類(lèi)似于學(xué)生通過(guò)研究一系列問(wèn)題及其對(duì)應(yīng)的答案來(lái)學(xué)習(xí)一些主題。在掌握了問(wèn)題和答案之間的對(duì)應(yīng)關(guān)系后，學(xué)生便可以回答關(guān)于同一主題的新問(wèn)題（以前從未見(jiàn)過(guò)的問(wèn)題）。請(qǐng)與非監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。

合成特征 (synthetic feature)

一種特征，不在輸入特征之列，而是從一個(gè)或多個(gè)輸入特征衍生而來(lái)。合成特征包括以下類(lèi)型：

將一個(gè)特征與其本身或其他特征相乘（稱(chēng)為特征組合）。

兩個(gè)特征相除。

對(duì)連續(xù)特征進(jìn)行分桶，以分為多個(gè)區(qū)間分箱。

通過(guò)標(biāo)準(zhǔn)化或縮放單獨(dú)創(chuàng)建的特征不屬于合成特征。

目標(biāo) (target)

是標(biāo)簽的同義詞。

時(shí)態(tài)數(shù)據(jù) (temporal data)

在不同時(shí)間點(diǎn)記錄的數(shù)據(jù)。例如，記錄的一年中每一天的冬外套銷(xiāo)量就屬于時(shí)態(tài)數(shù)據(jù)。

張量 (Tensor)

TensorFlow 程序中的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維（其中 N 可能非常大）數(shù)據(jù)結(jié)構(gòu)，最常見(jiàn)的是標(biāo)量、向量或矩陣。張量的元素可以包含整數(shù)值、浮點(diǎn)值或字符串值。

張量處理單元 (TPU, Tensor Processing Unit)

一種 ASIC（應(yīng)用專(zhuān)用集成電路），用于優(yōu)化 TensorFlow 程序的性能。

張量等級(jí) (Tensor rank)

請(qǐng)參閱等級(jí)。

張量形狀 (Tensor shape)

張量在各種維度中包含的元素?cái)?shù)。例如，張量 [5, 10] 在一個(gè)維度中的形狀為 5，在另一個(gè)維度中的形狀為 10。

張量大小 (Tensor size)

張量包含的標(biāo)量總數(shù)。例如，張量 [5, 10] 的大小為 50。

TensorBoard

一個(gè)信息中心，用于顯示在執(zhí)行一個(gè)或多個(gè) TensorFlow 程序期間保存的摘要信息。

TensorFlow

一個(gè)大型的分布式機(jī)器學(xué)習(xí)的平臺(tái)。該術(shù)語(yǔ)還指 TensorFlow 堆棧中的基本 API 層，該層支持對(duì)數(shù)據(jù)流圖進(jìn)行一般計(jì)算。

雖然 TensorFlow 主要應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域，但也可用于需要使用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算的非機(jī)器學(xué)習(xí)任務(wù)。

TensorFlow Playground

一款用于直觀呈現(xiàn)不同的超參數(shù)對(duì)模型（主要是神經(jīng)網(wǎng)絡(luò)）訓(xùn)練的影響的程序。要試用 TensorFlow Playground，請(qǐng)前往http://playground.tensorflow.org。

TensorFlow Serving

一個(gè)平臺(tái)，用于將訓(xùn)練過(guò)的模型部署到生產(chǎn)環(huán)境。

測(cè)試集 (test set)

數(shù)據(jù)集的子集，用于在模型經(jīng)由驗(yàn)證集的初步驗(yàn)證之后測(cè)試模型。

與訓(xùn)練集和驗(yàn)證集相對(duì)。

tf.Example

一種標(biāo)準(zhǔn)的proto buffer，旨在描述用于機(jī)器學(xué)習(xí)模型訓(xùn)練或推斷的輸入數(shù)據(jù)。

時(shí)間序列分析 (time series analysis)

機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的一個(gè)子領(lǐng)域，旨在分析時(shí)態(tài)數(shù)據(jù)。很多類(lèi)型的機(jī)器學(xué)習(xí)問(wèn)題都需要時(shí)間序列分析，其中包括分類(lèi)、聚類(lèi)、預(yù)測(cè)和異常檢測(cè)。例如，您可以利用時(shí)間序列分析根據(jù)歷史銷(xiāo)量數(shù)據(jù)預(yù)測(cè)未來(lái)每月的冬外套銷(xiāo)量。

訓(xùn)練 (training)

確定構(gòu)成模型的理想?yún)?shù)的過(guò)程。

訓(xùn)練集 (training set)

數(shù)據(jù)集的子集，用于訓(xùn)練模型。

與驗(yàn)證集和測(cè)試集相對(duì)。

轉(zhuǎn)移學(xué)習(xí) (transfer learning)

將信息從一個(gè)機(jī)器學(xué)習(xí)任務(wù)轉(zhuǎn)移到另一個(gè)機(jī)器學(xué)習(xí)任務(wù)。例如，在多任務(wù)學(xué)習(xí)中，一個(gè)模型可以完成多項(xiàng)任務(wù)，例如針對(duì)不同任務(wù)具有不同輸出節(jié)點(diǎn)的深度模型。轉(zhuǎn)移學(xué)習(xí)可能涉及將知識(shí)從較簡(jiǎn)單任務(wù)的解決方案轉(zhuǎn)移到較復(fù)雜的任務(wù)，或者將知識(shí)從數(shù)據(jù)較多的任務(wù)轉(zhuǎn)移到數(shù)據(jù)較少的任務(wù)。

大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)都只能完成一項(xiàng)任務(wù)。轉(zhuǎn)移學(xué)習(xí)是邁向人工智能的一小步；在人工智能中，單個(gè)程序可以完成多項(xiàng)任務(wù)。

真負(fù)例 (TN, true negative)

被模型正確地預(yù)測(cè)為負(fù)類(lèi)別的樣本。例如，模型推斷出某封電子郵件不是垃圾郵件，而該電子郵件確實(shí)不是垃圾郵件。

真正例 (TP, true positive)

被模型正確地預(yù)測(cè)為正類(lèi)別的樣本。例如，模型推斷出某封電子郵件是垃圾郵件，而該電子郵件確實(shí)是垃圾郵件。

真正例率（true positive rate, 簡(jiǎn)稱(chēng) TP 率）

是召回率的同義詞，即：

真正例率 =真正例數(shù)真正例數(shù) +假負(fù)例數(shù)真正例率=真正例數(shù)真正例數(shù)+假負(fù)例數(shù)

真正例率是ROC 曲線(xiàn)的 y 軸。

無(wú)標(biāo)簽樣本 (unlabeled example)

包含特征但沒(méi)有標(biāo)簽的樣本。無(wú)標(biāo)簽樣本是用于進(jìn)行推斷的輸入內(nèi)容。在半監(jiān)督式和非監(jiān)督式學(xué)習(xí)中，無(wú)標(biāo)簽樣本在訓(xùn)練期間被使用。

非監(jiān)督式機(jī)器學(xué)習(xí) (unsupervised machine learning)

訓(xùn)練模型，以找出數(shù)據(jù)集（通常是無(wú)標(biāo)簽數(shù)據(jù)集）中的模式。

非監(jiān)督式機(jī)器學(xué)習(xí)最常見(jiàn)的用途是將數(shù)據(jù)分為不同的聚類(lèi)，使相似的樣本位于同一組中。例如，非監(jiān)督式機(jī)器學(xué)習(xí)算法可以根據(jù)音樂(lè)的各種屬性將歌曲分為不同的聚類(lèi)。所得聚類(lèi)可以作為其他機(jī)器學(xué)習(xí)算法（例如音樂(lè)推薦服務(wù)）的輸入。在很難獲取真標(biāo)簽的領(lǐng)域，聚類(lèi)可能會(huì)非常有用。例如，在反濫用和反欺詐等領(lǐng)域，聚類(lèi)有助于人們更好地了解相關(guān)數(shù)據(jù)。

非監(jiān)督式機(jī)器學(xué)習(xí)的另一個(gè)例子是主成分分析 (PCA)。例如，通過(guò)對(duì)包含數(shù)百萬(wàn)購(gòu)物車(chē)中物品的數(shù)據(jù)集進(jìn)行主成分分析，可能會(huì)發(fā)現(xiàn)有檸檬的購(gòu)物車(chē)中往往也有抗酸藥。

請(qǐng)與監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。

驗(yàn)證集 (validation set)

數(shù)據(jù)集的一個(gè)子集，從訓(xùn)練集分離而來(lái)，用于調(diào)整超參數(shù)。

與訓(xùn)練集和測(cè)試集相對(duì)。

權(quán)重 (weight)

線(xiàn)性模型中特征的系數(shù)，或深度網(wǎng)絡(luò)中的邊。訓(xùn)練線(xiàn)性模型的目標(biāo)是確定每個(gè)特征的理想權(quán)重。如果權(quán)重為 0，則相應(yīng)的特征對(duì)模型來(lái)說(shuō)沒(méi)有任何貢獻(xiàn)。

寬度模型 (wide model)

一種線(xiàn)性模型，通常有很多稀疏輸入特征。我們之所以稱(chēng)之為 “寬度模型”，是因?yàn)檫@是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò)，其大量輸入均直接與輸出節(jié)點(diǎn)相連。與深度模型相比，寬度模型通常更易于調(diào)試和檢查。雖然寬度模型無(wú)法通過(guò)隱藏層來(lái)表示非線(xiàn)性關(guān)系，但可以利用特征組合、分桶等轉(zhuǎn)換以不同的方式為非線(xiàn)性關(guān)系建模。

與深度模型相對(duì)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴