Google 工程教育團(tuán)隊(duì)已經(jīng)發(fā)布了多語(yǔ)種的 Google 機(jī)器學(xué)習(xí)術(shù)語(yǔ)表,該術(shù)語(yǔ)表中列出了一般的Machine Learning術(shù)語(yǔ)和 TensorFlow 專(zhuān)用術(shù)語(yǔ)的定義。語(yǔ)言版本包括西班牙語(yǔ),法語(yǔ),韓語(yǔ)和簡(jiǎn)體中文。
A
A/B 測(cè)試 (A/B testing)
一種統(tǒng)計(jì)方法,用于將兩種或多種技術(shù)進(jìn)行比較,通常是將當(dāng)前采用的技術(shù)與新技術(shù)進(jìn)行比較。A/B 測(cè)試不僅旨在確定哪種技術(shù)的效果更好,而且還有助于了解相應(yīng)差異是否具有顯著的統(tǒng)計(jì)意義。A/B 測(cè)試通常是采用一種衡量方式對(duì)兩種技術(shù)進(jìn)行比較,但也適用于任意有限數(shù)量的技術(shù)和衡量方式。
準(zhǔn)確率 (accuracy)
分類(lèi)模型的正確預(yù)測(cè)所占的比例。在多類(lèi)別分類(lèi)中,準(zhǔn)確率的定義如下:
準(zhǔn)確率 =正確的預(yù)測(cè)數(shù)樣本總數(shù)準(zhǔn)確率=正確的預(yù)測(cè)數(shù)樣本總數(shù)
在二元分類(lèi)中,準(zhǔn)確率的定義如下:
準(zhǔn)確率 =真正例數(shù) +真負(fù)例數(shù)樣本總數(shù)準(zhǔn)確率=真正例數(shù)+真負(fù)例數(shù)樣本總數(shù)
請(qǐng)參閱真正例和真負(fù)例。
激活函數(shù) (activation function)
一種函數(shù)(例如ReLU或S 型函數(shù)),用于對(duì)上一層的所有輸入求加權(quán)和,然后生成一個(gè)輸出值(通常為非線(xiàn)性值),并將其傳遞給下一層。
AdaGrad
一種先進(jìn)的梯度下降法,用于重新調(diào)整每個(gè)參數(shù)的梯度,以便有效地為每個(gè)參數(shù)指定獨(dú)立的學(xué)習(xí)速率。如需查看完整的解釋?zhuān)?qǐng)參閱如下論文.(http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf)
ROC 曲線(xiàn)下面積 (AUC, Area under the ROC Curve)
一種會(huì)考慮所有可能分類(lèi)閾值的評(píng)估指標(biāo)。
ROC 曲線(xiàn)下面積是,對(duì)于隨機(jī)選擇的正類(lèi)別樣本確實(shí)為正類(lèi)別,以及隨機(jī)選擇的負(fù)類(lèi)別樣本為正類(lèi)別,分類(lèi)器更確信前者的概率。
B
反向傳播算法 (backpropagation)
在神經(jīng)網(wǎng)絡(luò)上執(zhí)行梯度下降法的主要算法。該算法會(huì)先按前向傳播方式計(jì)算(并緩存)每個(gè)節(jié)點(diǎn)的輸出值,然后再按反向傳播遍歷圖的方式計(jì)算損失函數(shù)值相對(duì)于每個(gè)參數(shù)的偏導(dǎo)數(shù)。
基準(zhǔn) (baseline)
一種簡(jiǎn)單的模型或啟發(fā)法,用作比較模型效果時(shí)的參考點(diǎn)?;鶞?zhǔn)有助于模型開(kāi)發(fā)者針對(duì)特定問(wèn)題量化最低預(yù)期效果。
批次 (batch)
模型訓(xùn)練的一次迭代(即一次梯度更新)中使用的樣本集。
另請(qǐng)參閱批次規(guī)模。
批次規(guī)模 (batch size)
一個(gè)批次中的樣本數(shù)。例如,SGD的批次規(guī)模為 1,而小批次的規(guī)模通常介于 10 到 1000 之間。批次規(guī)模在訓(xùn)練和推斷期間通常是固定的;不過(guò),TensorFlow 允許使用動(dòng)態(tài)批次規(guī)模。
偏差 (bias)
距離原點(diǎn)的截距或偏移。偏差(也稱(chēng)為偏差項(xiàng))在機(jī)器學(xué)習(xí)模型中以 b 或 w0表示。例如,在下面的公式中,偏差為 :
請(qǐng)勿與預(yù)測(cè)偏差混淆。
二元分類(lèi) (binary classification)
一種分類(lèi)任務(wù),可輸出兩種互斥類(lèi)別之一。例如,對(duì)電子郵件進(jìn)行評(píng)估并輸出 “垃圾郵件” 或“非垃圾郵件”的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類(lèi)器。
分箱 (binning)
請(qǐng)參閱分桶。
分桶 (bucketing)
將一個(gè)特征(通常是連續(xù)特征)轉(zhuǎn)換成多個(gè)二元特征(稱(chēng)為桶或箱),通常是根據(jù)值區(qū)間進(jìn)行轉(zhuǎn)換。例如,您可以將溫度區(qū)間分割為離散分箱,而不是將溫度表示成單個(gè)連續(xù)的浮點(diǎn)特征。假設(shè)溫度數(shù)據(jù)可精確到小數(shù)點(diǎn)后一位,則可以將介于 0.0 到 15.0 度之間的所有溫度都?xì)w入一個(gè)分箱,將介于 15.1 到 30.0 度之間的所有溫度歸入第二個(gè)分箱,并將介于 30.1 到 50.0 度之間的所有溫度歸入第三個(gè)分箱。
C
校準(zhǔn)層 (calibration layer)
一種預(yù)測(cè)后調(diào)整,通常是為了降低預(yù)測(cè)偏差。調(diào)整后的預(yù)測(cè)和概率應(yīng)與觀察到的標(biāo)簽集的分布一致。
候選采樣 (candidate sampling)
一種訓(xùn)練時(shí)進(jìn)行的優(yōu)化,會(huì)使用某種函數(shù)(例如 softmax)針對(duì)所有正類(lèi)別標(biāo)簽計(jì)算概率,但對(duì)于負(fù)類(lèi)別標(biāo)簽,則僅針對(duì)其隨機(jī)樣本計(jì)算概率。例如,如果某個(gè)樣本的標(biāo)簽為 “小獵犬” 和“狗”,則候選采樣將針對(duì) “小獵犬” 和“狗”類(lèi)別輸出以及其他類(lèi)別(貓、棒棒糖、柵欄)的隨機(jī)子集計(jì)算預(yù)測(cè)概率和相應(yīng)的損失項(xiàng)。這種采樣基于的想法是,只要正類(lèi)別始終得到適當(dāng)?shù)恼鰪?qiáng),負(fù)類(lèi)別就可以從頻率較低的負(fù)增強(qiáng)中進(jìn)行學(xué)習(xí),這確實(shí)是在實(shí)際中觀察到的情況。候選采樣的目的是,通過(guò)不針對(duì)所有負(fù)類(lèi)別計(jì)算預(yù)測(cè)結(jié)果來(lái)提高計(jì)算效率。
分類(lèi)數(shù)據(jù) (categorical data)
一種特征,擁有一組離散的可能值。以某個(gè)名為house style的分類(lèi)特征為例,該特征擁有一組離散的可能值(共三個(gè)),即Tudor, ranch, colonial。通過(guò)將house style表示成分類(lèi)數(shù)據(jù),相應(yīng)模型可以學(xué)習(xí)Tudor、ranch和colonial分別對(duì)房?jī)r(jià)的影響。
有時(shí),離散集中的值是互斥的,只能將其中一個(gè)值應(yīng)用于指定樣本。例如,car maker分類(lèi)特征可能只允許一個(gè)樣本有一個(gè)值 (Toyota)。在其他情況下,則可以應(yīng)用多個(gè)值。一輛車(chē)可能會(huì)被噴涂多種不同的顏色,因此,car color分類(lèi)特征可能會(huì)允許單個(gè)樣本具有多個(gè)值(例如red和white)。
分類(lèi)特征有時(shí)稱(chēng)為離散特征。
與數(shù)值數(shù)據(jù)相對(duì)。
檢查點(diǎn) (checkpoint)
一種數(shù)據(jù),用于捕獲模型變量在特定時(shí)間的狀態(tài)。借助檢查點(diǎn),可以導(dǎo)出模型權(quán)重,跨多個(gè)會(huì)話(huà)執(zhí)行訓(xùn)練,以及使訓(xùn)練在發(fā)生錯(cuò)誤之后得以繼續(xù)(例如作業(yè)搶占)。請(qǐng)注意,圖本身不包含在檢查點(diǎn)中。
類(lèi)別 (class)
為標(biāo)簽枚舉的一組目標(biāo)值中的一個(gè)。例如,在檢測(cè)垃圾郵件的二元分類(lèi)模型中,兩種類(lèi)別分別是 “垃圾郵件” 和“非垃圾郵件”。在識(shí)別狗品種的多類(lèi)別分類(lèi)模型中,類(lèi)別可以是 “貴賓犬”、“小獵犬”、“哈巴犬” 等等。
分類(lèi)不平衡的數(shù)據(jù)集 (class-imbalanced data set)
一種二元分類(lèi)問(wèn)題,在此類(lèi)問(wèn)題中,兩種類(lèi)別的標(biāo)簽在出現(xiàn)頻率方面具有很大的差距。例如,在某個(gè)疾病數(shù)據(jù)集中,0.0001 的樣本具有正類(lèi)別標(biāo)簽,0.9999 的樣本具有負(fù)類(lèi)別標(biāo)簽,這就屬于分類(lèi)不平衡問(wèn)題;但在某個(gè)足球比賽預(yù)測(cè)器中,0.51 的樣本的標(biāo)簽為其中一個(gè)球隊(duì)贏,0.49 的樣本的標(biāo)簽為另一個(gè)球隊(duì)贏,這就不屬于分類(lèi)不平衡問(wèn)題。
分類(lèi)模型 (classification model)
一種機(jī)器學(xué)習(xí)模型,用于區(qū)分兩種或多種離散類(lèi)別。例如,某個(gè)自然語(yǔ)言處理分類(lèi)模型可以確定輸入的句子是法語(yǔ)、西班牙語(yǔ)還是意大利語(yǔ)。請(qǐng)與回歸模型進(jìn)行比較。
分類(lèi)閾值 (classification threshold)
一種標(biāo)量值條件,應(yīng)用于模型預(yù)測(cè)的得分,旨在將正類(lèi)別與負(fù)類(lèi)別區(qū)分開(kāi)。將邏輯回歸結(jié)果映射到二元分類(lèi)時(shí)使用。以某個(gè)邏輯回歸模型為例,該模型用于確定指定電子郵件是垃圾郵件的概率。如果分類(lèi)閾值為 0.9,那么邏輯回歸值高于 0.9 的電子郵件將被歸類(lèi)為 “垃圾郵件”,低于 0.9 的則被歸類(lèi)為 “非垃圾郵件”。
協(xié)同過(guò)濾 (collaborative filtering)
根據(jù)很多其他用戶(hù)的興趣來(lái)預(yù)測(cè)某位用戶(hù)的興趣。協(xié)同過(guò)濾通常用在推薦系統(tǒng)中。
混淆矩陣 (confusion matrix)
一種 NxN 表格,用于總結(jié)分類(lèi)模型的預(yù)測(cè)成效;即標(biāo)簽和模型預(yù)測(cè)的分類(lèi)之間的關(guān)聯(lián)。在混淆矩陣中,一個(gè)軸表示模型預(yù)測(cè)的標(biāo)簽,另一個(gè)軸表示實(shí)際標(biāo)簽。N 表示類(lèi)別個(gè)數(shù)。在二元分類(lèi)問(wèn)題中,N=2。例如,下面顯示了一個(gè)二元分類(lèi)問(wèn)題的混淆矩陣示例:
多類(lèi)別分類(lèi)問(wèn)題的混淆矩陣有助于確定出錯(cuò)模式。例如,某個(gè)混淆矩陣可以揭示,某個(gè)經(jīng)過(guò)訓(xùn)練以識(shí)別手寫(xiě)數(shù)字的模型往往會(huì)將 4 錯(cuò)誤地預(yù)測(cè)為 9,將 7 錯(cuò)誤地預(yù)測(cè)為 1?;煜仃嚢?jì)算各種效果指標(biāo)(包括精確率和召回率)所需的充足信息。上面的混淆矩陣顯示,在 19 個(gè)實(shí)際有腫瘤的樣本中,該模型正確地將 18 個(gè)歸類(lèi)為有腫瘤(18 個(gè)真正例),錯(cuò)誤地將 1 個(gè)歸類(lèi)為沒(méi)有腫瘤(1 個(gè)假負(fù)例)。同樣,在 458 個(gè)實(shí)際沒(méi)有腫瘤的樣本中,模型歸類(lèi)正確的有 452 個(gè)(452 個(gè)真負(fù)例),歸類(lèi)錯(cuò)誤的有 6 個(gè)(6 個(gè)假正例)。
連續(xù)特征 (continuous feature)
一種浮點(diǎn)特征,可能值的區(qū)間不受限制。與離散特征相對(duì)。
收斂 (convergence)
通俗來(lái)說(shuō),收斂通常是指在訓(xùn)練期間達(dá)到的一種狀態(tài),即經(jīng)過(guò)一定次數(shù)的迭代之后,訓(xùn)練損失和驗(yàn)證損失在每次迭代中的變化都非常小或根本沒(méi)有變化。也就是說(shuō),如果采用當(dāng)前數(shù)據(jù)進(jìn)行額外的訓(xùn)練將無(wú)法改進(jìn)模型,模型即達(dá)到收斂狀態(tài)。在深度學(xué)習(xí)中,損失值有時(shí)會(huì)在最終下降之前的多次迭代中保持不變或幾乎保持不變,暫時(shí)形成收斂的假象。
另請(qǐng)參閱早停法。
另請(qǐng)參閱 Boyd 和 Vandenberghe 合著的Convex Optimization(《凸優(yōu)化》)。
凸函數(shù) (convex function)
一種函數(shù),函數(shù)圖像以上的區(qū)域?yàn)橥辜?。典型凸函?shù)的形狀類(lèi)似于字母U。例如,以下都是凸函數(shù):
相反,以下函數(shù)則不是凸函數(shù)。請(qǐng)注意圖像上方的區(qū)域如何不是凸集:
局部最低點(diǎn)局部最低點(diǎn)全局最低點(diǎn)
嚴(yán)格凸函數(shù)只有一個(gè)局部最低點(diǎn),該點(diǎn)也是全局最低點(diǎn)。經(jīng)典的 U 形函數(shù)都是嚴(yán)格凸函數(shù)。不過(guò),有些凸函數(shù)(例如直線(xiàn))則不是這樣。
很多常見(jiàn)的損失函數(shù)(包括下列函數(shù))都是凸函數(shù):
L2損失函數(shù)
對(duì)數(shù)損失函數(shù)
L1正則化
L2正則化
梯度下降法的很多變體都一定能找到一個(gè)接近嚴(yán)格凸函數(shù)最小值的點(diǎn)。同樣,隨機(jī)梯度下降法的很多變體都有很高的可能性能夠找到接近嚴(yán)格凸函數(shù)最小值的點(diǎn)(但并非一定能找到)。
兩個(gè)凸函數(shù)的和(例如 L2損失函數(shù) + L1正則化)也是凸函數(shù)。
深度模型絕不會(huì)是凸函數(shù)。值得注意的是,專(zhuān)門(mén)針對(duì)凸優(yōu)化設(shè)計(jì)的算法往往總能在深度網(wǎng)絡(luò)上找到非常好的解決方案,雖然這些解決方案并不一定對(duì)應(yīng)于全局最小值。
凸優(yōu)化 (convex optimization)
使用數(shù)學(xué)方法(例如梯度下降法)尋找凸函數(shù)最小值的過(guò)程。機(jī)器學(xué)習(xí)方面的大量研究都是專(zhuān)注于如何通過(guò)公式將各種問(wèn)題表示成凸優(yōu)化問(wèn)題,以及如何更高效地解決這些問(wèn)題。
如需完整的詳細(xì)信息,請(qǐng)參閱 Boyd 和 Vandenberghe 合著的Convex Optimization(《凸優(yōu)化》)。
凸集 (convex set)
歐幾里得空間的一個(gè)子集,其中任意兩點(diǎn)之間的連線(xiàn)仍完全落在該子集內(nèi)。例如,下面的兩個(gè)圖形都是凸集:
相反,下面的兩個(gè)圖形都不是凸集:
成本 (cost)
是損失的同義詞。
交叉熵 (cross-entropy)
對(duì)數(shù)損失函數(shù)向多類(lèi)別分類(lèi)問(wèn)題進(jìn)行的一種泛化。交叉熵可以量化兩種概率分布之間的差異。另請(qǐng)參閱困惑度。
自定義 Estimator (custom Estimator)
您按照這些說(shuō)明自行編寫(xiě)的Estimator。
與預(yù)創(chuàng)建的 Estimator相對(duì)。
D
數(shù)據(jù)集 (data set)
一組樣本的集合。
一種高級(jí)別的 TensorFlow API,用于讀取數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法所需的格式。tf.data.Dataset對(duì)象表示一系列元素,其中每個(gè)元素都包含一個(gè)或多個(gè)張量。tf.data.Iterator對(duì)象可獲取Dataset中的元素。
如需詳細(xì)了解 Dataset API,請(qǐng)參閱《TensorFlow 編程人員指南》中的導(dǎo)入數(shù)據(jù)。
決策邊界 (decision boundary)
在二元分類(lèi)或多類(lèi)別分類(lèi)問(wèn)題中,模型學(xué)到的類(lèi)別之間的分界線(xiàn)。例如,在以下表示某個(gè)二元分類(lèi)問(wèn)題的圖片中,決策邊界是橙色類(lèi)別和藍(lán)色類(lèi)別之間的分界線(xiàn):
密集層 (dense layer)
是全連接層的同義詞。
深度模型 (deep model)
一種神經(jīng)網(wǎng)絡(luò),其中包含多個(gè)隱藏層。深度模型依賴(lài)于可訓(xùn)練的非線(xiàn)性關(guān)系。
與寬度模型相對(duì)。
密集特征 (dense feature)
一種大部分?jǐn)?shù)值是非零值的特征,通常是一個(gè)浮點(diǎn)值張量。參照稀疏特征。
衍生特征 (derived feature)
是合成特征的同義詞。
離散特征 (discrete feature)
一種特征,包含有限個(gè)可能值。例如,某個(gè)值只能是 “動(dòng)物”、“蔬菜” 或“礦物”的特征便是一個(gè)離散特征(或分類(lèi)特征)。與連續(xù)特征相對(duì)。
丟棄正則化 (dropout regularization)
一種形式的正則化,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面非常有用。丟棄正則化的運(yùn)作機(jī)制是,在神經(jīng)網(wǎng)絡(luò)層的一個(gè)梯度步長(zhǎng)中移除隨機(jī)選擇的固定數(shù)量的單元。丟棄的單元越多,正則化效果就越強(qiáng)。這類(lèi)似于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以模擬較小網(wǎng)絡(luò)的指數(shù)級(jí)規(guī)模集成學(xué)習(xí)。如需完整的詳細(xì)信息,請(qǐng)參閱Dropout: A Simple Way to Prevent Neural Networks from Overfitting(《丟棄:一種防止神經(jīng)網(wǎng)絡(luò)過(guò)擬合的簡(jiǎn)單方法》)。
動(dòng)態(tài)模型 (dynamic model)
一種模型,以持續(xù)更新的方式在線(xiàn)接受訓(xùn)練。也就是說(shuō),數(shù)據(jù)會(huì)源源不斷地進(jìn)入這種模型。
E
早停法 (early stopping)
一種正則化方法,涉及在訓(xùn)練損失仍可以繼續(xù)減少之前結(jié)束模型訓(xùn)練。使用早停法時(shí),您會(huì)在基于驗(yàn)證數(shù)據(jù)集的損失開(kāi)始增加(也就是泛化效果變差)時(shí)結(jié)束模型訓(xùn)練。
嵌套 (embeddings)
一種分類(lèi)特征,以連續(xù)值特征表示。通常,嵌套是指將高維度向量映射到低維度的空間。例如,您可以采用以下兩種方式之一來(lái)表示英文句子中的單詞:
表示成包含百萬(wàn)個(gè)元素(高維度)的稀疏向量,其中所有元素都是整數(shù)。向量中的每個(gè)單元格都表示一個(gè)單獨(dú)的英文單詞,單元格中的值表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。由于單個(gè)英文句子包含的單詞不太可能超過(guò) 50 個(gè),因此向量中幾乎每個(gè)單元格都包含 0。少數(shù)非 0 的單元格中將包含一個(gè)非常小的整數(shù)(通常為 1),該整數(shù)表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。
表示成包含數(shù)百個(gè)元素(低維度)的密集向量,其中每個(gè)元素都包含一個(gè)介于 0 到 1 之間的浮點(diǎn)值。這就是一種嵌套。
在 TensorFlow 中,會(huì)按反向傳播損失訓(xùn)練嵌套,和訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的任何其他參數(shù)時(shí)一樣。
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (ERM, empirical risk minimization)
用于選擇可以將基于訓(xùn)練集的損失降至最低的模型函數(shù)。與結(jié)構(gòu)風(fēng)險(xiǎn)最小化相對(duì)。
集成學(xué)習(xí) (ensemble)
多個(gè)模型的預(yù)測(cè)結(jié)果的并集。您可以通過(guò)以下一項(xiàng)或多項(xiàng)來(lái)創(chuàng)建集成學(xué)習(xí):
不同的初始化
不同的超參數(shù)
不同的整體結(jié)構(gòu)
深度模型和寬度模型屬于一種集成學(xué)習(xí)。
周期 (epoch)
在訓(xùn)練時(shí),整個(gè)數(shù)據(jù)集的一次完整遍歷,以便不漏掉任何一個(gè)樣本。因此,一個(gè)周期表示(N/批次規(guī)模)次訓(xùn)練迭代,其中N是樣本總數(shù)。
Estimator
tf.Estimator類(lèi)的一個(gè)實(shí)例,用于封裝負(fù)責(zé)構(gòu)建 TensorFlow 圖并運(yùn)行 TensorFlow 會(huì)話(huà)的邏輯。您可以創(chuàng)建自己的自定義 Estimator(如需相關(guān)介紹,請(qǐng)點(diǎn)擊此處),也可以將其他人預(yù)創(chuàng)建的 Estimator實(shí)例化。
樣本 (example)
數(shù)據(jù)集的一行。一個(gè)樣本包含一個(gè)或多個(gè)特征,此外還可能包含一個(gè)標(biāo)簽。另請(qǐng)參閱有標(biāo)簽樣本和無(wú)標(biāo)簽樣本。
F
假負(fù)例 (FN, false negative)
被模型錯(cuò)誤地預(yù)測(cè)為負(fù)類(lèi)別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件(負(fù)類(lèi)別),但該電子郵件其實(shí)是垃圾郵件。
假正例 (FP, false positive)
被模型錯(cuò)誤地預(yù)測(cè)為正類(lèi)別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件(正類(lèi)別),但該電子郵件其實(shí)不是垃圾郵件。
假正例率(false positive rate, 簡(jiǎn)稱(chēng) FP 率)
ROC 曲線(xiàn)中的 x 軸。FP 率的定義如下:
假正例率假正例數(shù)假正例數(shù) +真負(fù)例數(shù)假正例率=假正例數(shù)假正例數(shù)+真負(fù)例數(shù)
特征 (feature)
在進(jìn)行預(yù)測(cè)時(shí)使用的輸入變量。
特征列 (FeatureColumns)
一組相關(guān)特征,例如用戶(hù)可能居住的所有國(guó)家 / 地區(qū)的集合。樣本的特征列中可能包含一個(gè)或多個(gè)特征。
TensorFlow 中的特征列內(nèi)還封裝了元數(shù)據(jù),例如:
特征的數(shù)據(jù)類(lèi)型
特征是固定長(zhǎng)度還是應(yīng)轉(zhuǎn)換為嵌套
特征列可以包含單個(gè)特征。
“特征列” 是 Google 專(zhuān)用的術(shù)語(yǔ)。特征列在 Yahoo/Microsoft 使用的VW系統(tǒng)中稱(chēng)為 “命名空間”,也稱(chēng)為場(chǎng)。
特征組合 (feature cross)
通過(guò)將單獨(dú)的特征進(jìn)行組合(相乘或求笛卡爾積)而形成的合成特征。特征組合有助于表示非線(xiàn)性關(guān)系。
特征工程 (feature engineering)
指以下過(guò)程:確定哪些特征可能在訓(xùn)練模型方面非常有用,然后將日志文件及其他來(lái)源的原始數(shù)據(jù)轉(zhuǎn)換為所需的特征。在 TensorFlow 中,特征工程通常是指將原始日志文件條目轉(zhuǎn)換為tf.Exampleproto buffer。另請(qǐng)參閱tf.Transform。
特征工程有時(shí)稱(chēng)為特征提取。
特征集 (feature set)
訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)采用的一組特征。例如,對(duì)于某個(gè)用于預(yù)測(cè)房?jī)r(jià)的模型,郵政編碼、房屋面積以及房屋狀況可以組成一個(gè)簡(jiǎn)單的特征集。
特征規(guī)范 (feature spec)
用于描述如何從tf.Exampleproto buffer 提取特征數(shù)據(jù)。由于 tf.Example proto buffer 只是一個(gè)數(shù)據(jù)容器,因此您必須指定以下內(nèi)容:
要提取的數(shù)據(jù)(即特征的鍵)
數(shù)據(jù)類(lèi)型(例如 float 或 int)
長(zhǎng)度(固定或可變)
Estimator API提供了一些可用來(lái)根據(jù)給定FeatureColumns列表生成特征規(guī)范的工具。
完整 softmax (full softmax)
請(qǐng)參閱softmax。與候選采樣相對(duì)。
全連接層 (fully connected layer)
一種隱藏層,其中的每個(gè)節(jié)點(diǎn)均與下一個(gè)隱藏層中的每個(gè)節(jié)點(diǎn)相連。
全連接層又稱(chēng)為密集層。
G
泛化 (generalization)
指的是模型依據(jù)訓(xùn)練時(shí)采用的數(shù)據(jù),針對(duì)以前未見(jiàn)過(guò)的新數(shù)據(jù)做出正確預(yù)測(cè)的能力。
廣義線(xiàn)性模型 (generalized linear model)
最小二乘回歸模型(基于高斯噪聲)向其他類(lèi)型的模型(基于其他類(lèi)型的噪聲,例如泊松噪聲或分類(lèi)噪聲)進(jìn)行的一種泛化。廣義線(xiàn)性模型的示例包括:
邏輯回歸
多類(lèi)別回歸
最小二乘回歸
可以通過(guò)凸優(yōu)化找到廣義線(xiàn)性模型的參數(shù)。
廣義線(xiàn)性模型具有以下特性:
最優(yōu)的最小二乘回歸模型的平均預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。
最優(yōu)的邏輯回歸模型預(yù)測(cè)的平均概率等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。
廣義線(xiàn)性模型的功能受其特征的限制。與深度模型不同,廣義線(xiàn)性模型無(wú)法 “學(xué)習(xí)新特征”。
梯度 (gradient)
偏導(dǎo)數(shù)相對(duì)于所有自變量的向量。在機(jī)器學(xué)習(xí)中,梯度是模型函數(shù)偏導(dǎo)數(shù)的向量。梯度指向最速上升的方向。
梯度裁剪 (gradient clipping)
在應(yīng)用梯度值之前先設(shè)置其上限。梯度裁剪有助于確保數(shù)值穩(wěn)定性以及防止梯度爆炸。
梯度下降法 (gradient descent)
一種通過(guò)計(jì)算并且減小梯度將損失降至最低的技術(shù),它以訓(xùn)練數(shù)據(jù)為條件,來(lái)計(jì)算損失相對(duì)于模型參數(shù)的梯度。通俗來(lái)說(shuō),梯度下降法以迭代方式調(diào)整參數(shù),逐漸找到權(quán)重和偏差的最佳組合,從而將損失降至最低。
圖 (graph)
TensorFlow 中的一種計(jì)算規(guī)范。圖中的節(jié)點(diǎn)表示操作。邊緣具有方向,表示將某項(xiàng)操作的結(jié)果(一個(gè)張量)作為一個(gè)操作數(shù)傳遞給另一項(xiàng)操作??梢允褂肨ensorBoard直觀呈現(xiàn)圖。
H
啟發(fā)法 (heuristic)
一種非最優(yōu)但實(shí)用的問(wèn)題解決方案,足以用于進(jìn)行改進(jìn)或從中學(xué)習(xí)。
隱藏層 (hidden layer)
神經(jīng)網(wǎng)絡(luò)中的合成層,介于輸入層(即特征)和輸出層(即預(yù)測(cè))之間。神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層。
合頁(yè)損失函數(shù) (hinge loss)
一系列用于分類(lèi)的損失函數(shù),旨在找到距離每個(gè)訓(xùn)練樣本都盡可能遠(yuǎn)的決策邊界,從而使樣本和邊界之間的裕度最大化。KSVM使用合頁(yè)損失函數(shù)(或相關(guān)函數(shù),例如平方合頁(yè)損失函數(shù))。對(duì)于二元分類(lèi),合頁(yè)損失函數(shù)的定義如下:
其中 “y'” 表示分類(lèi)器模型的原始輸出:
y′=b+w1x1+w2x2+…wnxn
“y” 表示真標(biāo)簽,值為 -1 或 +1。
因此,合頁(yè)損失與 (y * y') 的關(guān)系圖如下所示:
0-2-112312340合頁(yè)損失函數(shù)(y * y')
維持?jǐn)?shù)據(jù) (holdout data)
訓(xùn)練期間故意不使用(“維持”)的樣本。驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都屬于維持?jǐn)?shù)據(jù)。維持?jǐn)?shù)據(jù)有助于評(píng)估模型向訓(xùn)練時(shí)所用數(shù)據(jù)之外的數(shù)據(jù)進(jìn)行泛化的能力。與基于訓(xùn)練數(shù)據(jù)集的損失相比,基于維持?jǐn)?shù)據(jù)集的損失有助于更好地估算基于未見(jiàn)過(guò)的數(shù)據(jù)集的損失。
超參數(shù) (hyperparameter)
在模型訓(xùn)練的連續(xù)過(guò)程中,您調(diào)節(jié)的 “旋鈕”。例如,學(xué)習(xí)速率就是一種超參數(shù)。
與參數(shù)相對(duì)。
超平面 (hyperplane)
將一個(gè)空間劃分為兩個(gè)子空間的邊界。例如,在二維空間中,直線(xiàn)就是一個(gè)超平面,在三維空間中,平面則是一個(gè)超平面。在機(jī)器學(xué)習(xí)中更典型的是:超平面是分隔高維度空間的邊界。核支持向量機(jī)利用超平面將正類(lèi)別和負(fù)類(lèi)別區(qū)分開(kāi)來(lái)(通常是在極高維度空間中)。
I
獨(dú)立同分布 (i.i.d, independently and identically distributed)
從不會(huì)改變的分布中提取的數(shù)據(jù),其中提取的每個(gè)值都不依賴(lài)于之前提取的值。i.i.d. 是機(jī)器學(xué)習(xí)的理想氣體- 一種實(shí)用的數(shù)學(xué)結(jié)構(gòu),但在現(xiàn)實(shí)世界中幾乎從未發(fā)現(xiàn)過(guò)。例如,某個(gè)網(wǎng)頁(yè)的訪問(wèn)者在短時(shí)間內(nèi)的分布可能為 i.i.d.,即分布在該短時(shí)間內(nèi)沒(méi)有變化,且一位用戶(hù)的訪問(wèn)行為通常與另一位用戶(hù)的訪問(wèn)行為無(wú)關(guān)。不過(guò),如果將時(shí)間窗口擴(kuò)大,網(wǎng)頁(yè)訪問(wèn)者的分布可能呈現(xiàn)出季節(jié)性變化。
推斷 (inference)
在機(jī)器學(xué)習(xí)中,推斷通常指以下過(guò)程:通過(guò)將訓(xùn)練過(guò)的模型應(yīng)用于無(wú)標(biāo)簽樣本來(lái)做出預(yù)測(cè)。在統(tǒng)計(jì)學(xué)中,推斷是指在某些觀測(cè)數(shù)據(jù)條件下擬合分布參數(shù)的過(guò)程。(請(qǐng)參閱維基百科中有關(guān)統(tǒng)計(jì)學(xué)推斷的文章。)
輸入函數(shù) (input function)
在 TensorFlow 中,用于將輸入數(shù)據(jù)返回到Estimator的訓(xùn)練、評(píng)估或預(yù)測(cè)方法的函數(shù)。例如,訓(xùn)練輸入函數(shù)用于返回訓(xùn)練集中的批次特征和標(biāo)簽。
輸入層 (input layer)
神經(jīng)網(wǎng)絡(luò)中的第一層(接收輸入數(shù)據(jù)的層)。
實(shí)例 (instance)
是樣本的同義詞。
可解釋性 (interpretability)
模型的預(yù)測(cè)可解釋的難易程度。深度模型通常不可解釋?zhuān)簿褪钦f(shuō),很難對(duì)深度模型的不同層進(jìn)行解釋。相比之下,線(xiàn)性回歸模型和寬度模型的可解釋性通常要好得多。
評(píng)分者間一致性信度 (inter-rater agreement)
一種衡量指標(biāo),用于衡量在執(zhí)行某項(xiàng)任務(wù)時(shí)評(píng)分者達(dá)成一致的頻率。如果評(píng)分者未達(dá)成一致,則可能需要改進(jìn)任務(wù)說(shuō)明。有時(shí)也稱(chēng)為注釋者間一致性信度或評(píng)分者間可靠性信度。另請(qǐng)參閱Cohen's kappa(最熱門(mén)的評(píng)分者間一致性信度衡量指標(biāo)之一)。
迭代 (iteration)
模型的權(quán)重在訓(xùn)練期間的一次更新。迭代包含計(jì)算參數(shù)在單個(gè)批量數(shù)據(jù)上的梯度損失。
K
Keras
一種熱門(mén)的 Python 機(jī)器學(xué)習(xí)API。Keras能夠在多種深度學(xué)習(xí)框架上運(yùn)行,其中包括 TensorFlow(在該框架上,Keras 作為tf.keras提供)。
核支持向量機(jī) (KSVM, Kernel Support Vector Machines)
一種分類(lèi)算法,旨在通過(guò)將輸入數(shù)據(jù)向量映射到更高維度的空間,來(lái)最大化正類(lèi)別和負(fù)類(lèi)別之間的裕度。以某個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類(lèi)問(wèn)題為例。為了最大化正類(lèi)別和負(fù)類(lèi)別之間的裕度,KSVM 可以在內(nèi)部將這些特征映射到百萬(wàn)維度的空間。KSVM 使用合頁(yè)損失函數(shù)。
L
L1損失函數(shù) (L? loss)
一種損失函數(shù),基于模型預(yù)測(cè)的值與標(biāo)簽的實(shí)際值之差的絕對(duì)值。與L2損失函數(shù)相比,L1損失函數(shù)對(duì)離群值的敏感性弱一些。
L1正則化 (L? regularization)
一種正則化,根據(jù)權(quán)重的絕對(duì)值的總和來(lái)懲罰權(quán)重。在依賴(lài)稀疏特征的模型中,L1正則化有助于使不相關(guān)或幾乎不相關(guān)的特征的權(quán)重正好為 0,從而將這些特征從模型中移除。與L2正則化相對(duì)。
L2損失函數(shù) (L? loss)
請(qǐng)參閱平方損失函數(shù)。
L2正則化 (L? regularization)
一種正則化,根據(jù)權(quán)重的平方和來(lái)懲罰權(quán)重。L2正則化有助于使離群值(具有較大正值或較小負(fù)值)權(quán)重接近于 0,但又不正好為 0。(與L1 正則化相對(duì)。)在線(xiàn)性模型中,L2正則化始終可以改進(jìn)泛化。
標(biāo)簽 (label)
在監(jiān)督式學(xué)習(xí)中,標(biāo)簽指樣本的 “答案” 或“結(jié)果”部分。有標(biāo)簽數(shù)據(jù)集中的每個(gè)樣本都包含一個(gè)或多個(gè)特征以及一個(gè)標(biāo)簽。例如,在房屋數(shù)據(jù)集中,特征可以包括臥室數(shù)、衛(wèi)生間數(shù)以及房齡,而標(biāo)簽則可以是房?jī)r(jià)。在垃圾郵件檢測(cè)數(shù)據(jù)集中,特征可以包括主題行、發(fā)件人以及電子郵件本身,而標(biāo)簽則可以是 “垃圾郵件” 或“非垃圾郵件”。
有標(biāo)簽樣本 (labeled example)
包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中,模型從有標(biāo)簽樣本中進(jìn)行學(xué)習(xí)。
lambda
是正則化率的同義詞。
(多含義術(shù)語(yǔ),我們?cè)诖岁P(guān)注的是該術(shù)語(yǔ)在正則化中的定義。)
層 (layer)
神經(jīng)網(wǎng)絡(luò)中的一組神經(jīng)元,處理一組輸入特征,或一組神經(jīng)元的輸出。
此外還指 TensorFlow 中的抽象層。層是 Python 函數(shù),以張量和配置選項(xiàng)作為輸入,然后生成其他張量作為輸出。當(dāng)必要的張量組合起來(lái),用戶(hù)便可以通過(guò)模型函數(shù)將結(jié)果轉(zhuǎn)換為Estimator。
Layers API (tf.layers)
一種 TensorFlow API,用于以層組合的方式構(gòu)建深度神經(jīng)網(wǎng)絡(luò)。通過(guò) Layers API,您可以構(gòu)建不同類(lèi)型的層,例如:
通過(guò)tf.layers.Dense構(gòu)建全連接層。
通過(guò)tf.layers.Conv2D構(gòu)建卷積層。
在編寫(xiě)自定義 Estimator時(shí),您可以編寫(xiě) “層” 對(duì)象來(lái)定義所有隱藏層的特征。
Layers API 遵循 [Keras](#Keras) layers API 規(guī)范。也就是說(shuō),除了前綴不同以外,Layers API 中的所有函數(shù)均與 Keras layers API 中的對(duì)應(yīng)函數(shù)具有相同的名稱(chēng)和簽名。
學(xué)習(xí)速率 (learning rate)
在訓(xùn)練模型時(shí)用于梯度下降的一個(gè)變量。在每次迭代期間,梯度下降法都會(huì)將學(xué)習(xí)速率與梯度相乘。得出的乘積稱(chēng)為梯度步長(zhǎng)。
學(xué)習(xí)速率是一個(gè)重要的超參數(shù)。
最小二乘回歸 (least squares regression)
一種通過(guò)最小化L2損失訓(xùn)練出的線(xiàn)性回歸模型。
線(xiàn)性回歸 (linear regression)
一種回歸模型,通過(guò)將輸入特征進(jìn)行線(xiàn)性組合,以連續(xù)值作為輸出。
邏輯回歸 (logistic regression)
一種模型,通過(guò)將S 型函數(shù)應(yīng)用于線(xiàn)性預(yù)測(cè),生成分類(lèi)問(wèn)題中每個(gè)可能的離散標(biāo)簽值的概率。雖然邏輯回歸經(jīng)常用于二元分類(lèi)問(wèn)題,但也可用于多類(lèi)別分類(lèi)問(wèn)題(其叫法變?yōu)槎囝?lèi)別邏輯回歸或多項(xiàng)回歸)。
對(duì)數(shù)損失函數(shù) (Log Loss)
二元邏輯回歸中使用的損失函數(shù)。
損失 (Loss)
一種衡量指標(biāo),用于衡量模型的預(yù)測(cè)偏離其標(biāo)簽的程度?;蛘吒^地說(shuō)是衡量模型有多差。要確定此值,模型必須定義損失函數(shù)。例如,線(xiàn)性回歸模型通常將均方誤差用于損失函數(shù),而邏輯回歸模型則使用對(duì)數(shù)損失函數(shù)。
M
機(jī)器學(xué)習(xí) (machine learning)
一種程序或系統(tǒng),用于根據(jù)輸入數(shù)據(jù)構(gòu)建(訓(xùn)練)預(yù)測(cè)模型。這種系統(tǒng)會(huì)利用學(xué)到的模型根據(jù)從分布(訓(xùn)練該模型時(shí)使用的同一分布)中提取的新數(shù)據(jù)(以前從未見(jiàn)過(guò)的數(shù)據(jù))進(jìn)行實(shí)用的預(yù)測(cè)。機(jī)器學(xué)習(xí)還指與這些程序或系統(tǒng)相關(guān)的研究領(lǐng)域。
均方誤差 (MSE, Mean Squared Error)
每個(gè)樣本的平均平方損失。MSE 的計(jì)算方法是平方損失除以樣本數(shù)。TensorFlow Playground顯示的 “訓(xùn)練損失” 值和 “測(cè)試損失” 值都是 MSE。
指標(biāo) (metric)
您關(guān)心的一個(gè)數(shù)值??赡芸梢砸部赡懿豢梢灾苯釉跈C(jī)器學(xué)習(xí)系統(tǒng)中得到優(yōu)化。您的系統(tǒng)嘗試優(yōu)化的指標(biāo)稱(chēng)為目標(biāo)。
Metrics API (tf.metrics)
一種用于評(píng)估模型的 TensorFlow API。例如,tf.metrics.accuracy用于確定模型的預(yù)測(cè)與標(biāo)簽匹配的頻率。在編寫(xiě)自定義 Estimator時(shí),您可以調(diào)用 Metrics API 函數(shù)來(lái)指定應(yīng)如何評(píng)估您的模型。
小批次 (mini-batch)
從訓(xùn)練或推斷過(guò)程的一次迭代中一起運(yùn)行的整批樣本內(nèi)隨機(jī)選擇的一小部分。小批次的規(guī)模通常介于 10 到 1000 之間。與基于完整的訓(xùn)練數(shù)據(jù)計(jì)算損失相比,基于小批次數(shù)據(jù)計(jì)算損失要高效得多。
小批次隨機(jī)梯度下降法 (SGD, mini-batch stochastic gradient descent)
一種采用小批次樣本的梯度下降法。也就是說(shuō),小批次 SGD 會(huì)根據(jù)一小部分訓(xùn)練數(shù)據(jù)來(lái)估算梯度。Vanilla SGD使用的小批次的規(guī)模為 1。
ML
機(jī)器學(xué)習(xí)的縮寫(xiě)。
模型 (model)
機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容的表示形式。多含義術(shù)語(yǔ),可以理解為下列兩種相關(guān)含義之一:
一種TensorFlow圖,用于表示預(yù)測(cè)計(jì)算結(jié)構(gòu)。
該 TensorFlow 圖的特定權(quán)重和偏差,通過(guò)訓(xùn)練決定。
模型訓(xùn)練 (model training)
確定最佳模型的過(guò)程。
動(dòng)量 (Momentum)
一種先進(jìn)的梯度下降法,其中學(xué)習(xí)步長(zhǎng)不僅取決于當(dāng)前步長(zhǎng)的導(dǎo)數(shù),還取決于之前一步或多步的步長(zhǎng)的導(dǎo)數(shù)。動(dòng)量涉及計(jì)算梯度隨時(shí)間而變化的指數(shù)級(jí)加權(quán)移動(dòng)平均值,與物理學(xué)中的動(dòng)量類(lèi)似。動(dòng)量有時(shí)可以防止學(xué)習(xí)過(guò)程被卡在局部最小的情況。
多類(lèi)別分類(lèi) (multi-class classification)
區(qū)分兩種以上類(lèi)別的分類(lèi)問(wèn)題。例如,楓樹(shù)大約有 128 種,因此,確定楓樹(shù)種類(lèi)的模型就屬于多類(lèi)別模型。反之,僅將電子郵件分為兩類(lèi)(“垃圾郵件” 和 “非垃圾郵件”)的模型屬于二元分類(lèi)模型。
多項(xiàng)分類(lèi) (multinomial classification)
是多類(lèi)別分類(lèi)的同義詞。
N
NaN 陷阱 (NaN trap)
模型中的一個(gè)數(shù)字在訓(xùn)練期間變成NaN,這會(huì)導(dǎo)致模型中的很多或所有其他數(shù)字最終也會(huì)變成 NaN。
NaN 是 “非數(shù)字” 的縮寫(xiě)。
負(fù)類(lèi)別 (negative class)
在二元分類(lèi)中,一種類(lèi)別稱(chēng)為正類(lèi)別,另一種類(lèi)別稱(chēng)為負(fù)類(lèi)別。正類(lèi)別是我們要尋找的類(lèi)別,負(fù)類(lèi)別則是另一種可能性。例如,在醫(yī)學(xué)檢查中,負(fù)類(lèi)別可以是 “非腫瘤”。在電子郵件分類(lèi)器中,負(fù)類(lèi)別可以是 “非垃圾郵件”。另請(qǐng)參閱正類(lèi)別。
神經(jīng)網(wǎng)絡(luò) (neural network)
一種模型,靈感來(lái)源于腦部結(jié)構(gòu),由多個(gè)層構(gòu)成(至少有一個(gè)是隱藏層),每個(gè)層都包含簡(jiǎn)單相連的單元或神經(jīng)元(具有非線(xiàn)性關(guān)系)。
神經(jīng)元 (neuron)
神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn),通常是接收多個(gè)輸入值并生成一個(gè)輸出值。神經(jīng)元通過(guò)將激活函數(shù)(非線(xiàn)性轉(zhuǎn)換)應(yīng)用于輸入值的加權(quán)和來(lái)計(jì)算輸出值。
節(jié)點(diǎn) (node)
多含義術(shù)語(yǔ),可以理解為下列兩種含義之一:
隱藏層中的神經(jīng)元。
TensorFlow圖中的操作。
標(biāo)準(zhǔn)化 (normalization)
將實(shí)際的值區(qū)間轉(zhuǎn)換為標(biāo)準(zhǔn)的值區(qū)間(通常為 -1 到 +1 或 0 到 1)的過(guò)程。例如,假設(shè)某個(gè)特征的自然區(qū)間是 800 到 6000。通過(guò)減法和除法運(yùn)算,您可以將這些值標(biāo)準(zhǔn)化為位于 -1 到 +1 區(qū)間內(nèi)。
另請(qǐng)參閱縮放。
數(shù)值數(shù)據(jù) (numerical data)
用整數(shù)或?qū)崝?shù)表示的特征。例如,在房地產(chǎn)模型中,您可能會(huì)用數(shù)值數(shù)據(jù)表示房子大?。ㄒ云椒接⒊呋蚱椒矫诪閱挝唬?。如果用數(shù)值數(shù)據(jù)表示特征,則可以表明特征的值相互之間具有數(shù)學(xué)關(guān)系,并且與標(biāo)簽可能也有數(shù)學(xué)關(guān)系。例如,如果用數(shù)值數(shù)據(jù)表示房子大小,則可以表明面積為 200 平方米的房子是面積為 100 平方米的房子的兩倍。此外,房子面積的平方米數(shù)可能與房?jī)r(jià)存在一定的數(shù)學(xué)關(guān)系。
并非所有整數(shù)數(shù)據(jù)都應(yīng)表示成數(shù)值數(shù)據(jù)。例如,世界上某些地區(qū)的郵政編碼是整數(shù),但在模型中,不應(yīng)將整數(shù)郵政編碼表示成數(shù)值數(shù)據(jù)。這是因?yàn)猷]政編碼20000在效力上并不是郵政編碼 10000 的兩倍(或一半)。此外,雖然不同的郵政編碼確實(shí)與不同的房地產(chǎn)價(jià)值有關(guān),但我們也不能假設(shè)郵政編碼為 20000 的房地產(chǎn)在價(jià)值上是郵政編碼為 10000 的房地產(chǎn)的兩倍。郵政編碼應(yīng)表示成分類(lèi)數(shù)據(jù)。
數(shù)值特征有時(shí)稱(chēng)為連續(xù)特征。
Numpy
一個(gè)開(kāi)放源代碼數(shù)學(xué)庫(kù),在 Python 中提供高效的數(shù)組操作。Pandas就建立在 Numpy 之上。
O
目標(biāo) (objective)
算法嘗試優(yōu)化的指標(biāo)。
離線(xiàn)推斷 (offline inference)
生成一組預(yù)測(cè),存儲(chǔ)這些預(yù)測(cè),然后根據(jù)需求檢索這些預(yù)測(cè)。與在線(xiàn)推斷相對(duì)。
one-hot 編碼 (one-hot encoding)
一種稀疏向量,其中:
一個(gè)元素設(shè)為 1。
所有其他元素均設(shè)為 0。
one-hot 編碼常用于表示擁有有限個(gè)可能值的字符串或標(biāo)識(shí)符。例如,假設(shè)某個(gè)指定的植物學(xué)數(shù)據(jù)集記錄了 15000 個(gè)不同的物種,其中每個(gè)物種都用獨(dú)一無(wú)二的字符串標(biāo)識(shí)符來(lái)表示。在特征工程過(guò)程中,您可能需要將這些字符串標(biāo)識(shí)符編碼為 one-hot 向量,向量的大小為 15000。
一對(duì)多 (one-vs.-all)
假設(shè)某個(gè)分類(lèi)問(wèn)題有 N 種可能的解決方案,一對(duì)多解決方案將包含 N 個(gè)單獨(dú)的二元分類(lèi)器- 一個(gè)二元分類(lèi)器對(duì)應(yīng)一種可能的結(jié)果。例如,假設(shè)某個(gè)模型用于區(qū)分樣本屬于動(dòng)物、蔬菜還是礦物,一對(duì)多解決方案將提供下列三個(gè)單獨(dú)的二元分類(lèi)器:
動(dòng)物和非動(dòng)物
蔬菜和非蔬菜
礦物和非礦物
在線(xiàn)推斷 (online inference)
根據(jù)需求生成預(yù)測(cè)。與離線(xiàn)推斷相對(duì)。
操作 (op, Operation)
TensorFlow 圖中的節(jié)點(diǎn)。在 TensorFlow 中,任何創(chuàng)建、操縱或銷(xiāo)毀張量的過(guò)程都屬于操作。例如,矩陣相乘就是一種操作,該操作以?xún)蓚€(gè)張量作為輸入,并生成一個(gè)張量作為輸出。
優(yōu)化器 (optimizer)
梯度下降法的一種具體實(shí)現(xiàn)。TensorFlow 的優(yōu)化器基類(lèi)是tf.train.Optimizer。不同的優(yōu)化器(tf.train.Optimizer的子類(lèi))會(huì)考慮如下概念:
動(dòng)量(Momentum)
更新頻率 (AdaGrad= ADAptive GRADient descent;Adam= ADAptive with Momentum;RMSProp)
稀疏性 / 正則化 (Ftrl)
更復(fù)雜的計(jì)算方法 (Proximal, 等等)
甚至還包括NN 驅(qū)動(dòng)的優(yōu)化器。
離群值 (outlier)
與大多數(shù)其他值差別很大的值。在機(jī)器學(xué)習(xí)中,下列所有值都是離群值。
絕對(duì)值很高的權(quán)重。
與實(shí)際值相差很大的預(yù)測(cè)值。
值比平均值高大約 3 個(gè)標(biāo)準(zhǔn)偏差的輸入數(shù)據(jù)。
離群值常常會(huì)導(dǎo)致模型訓(xùn)練出現(xiàn)問(wèn)題。
輸出層 (output layer)
神經(jīng)網(wǎng)絡(luò)的 “最后” 一層,也是包含答案的層。
過(guò)擬合 (overfitting)
創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)過(guò)于匹配,以致于模型無(wú)法根據(jù)新數(shù)據(jù)做出正確的預(yù)測(cè)。
P
Pandas
面向列的數(shù)據(jù)分析 API。很多機(jī)器學(xué)習(xí)框架(包括 TensorFlow)都支持將 Pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入。請(qǐng)參閱Pandas 文檔。
參數(shù) (parameter)
機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如,權(quán)重就是一種參數(shù),它們的值是機(jī)器學(xué)習(xí)系統(tǒng)通過(guò)連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的。與超參數(shù)相對(duì)。
參數(shù)服務(wù)器 (PS, Parameter Server)
一種作業(yè),負(fù)責(zé)在分布式設(shè)置中跟蹤模型參數(shù)。
參數(shù)更新 (parameter update)
在訓(xùn)練期間(通常是在梯度下降法的單次迭代中)調(diào)整模型參數(shù)的操作。
偏導(dǎo)數(shù) (partial derivative)
一種導(dǎo)數(shù),除一個(gè)變量之外的所有變量都被視為常量。例如,f(x, y) 對(duì) x 的偏導(dǎo)數(shù)就是 f(x) 的導(dǎo)數(shù)(即,使 y 保持恒定)。f 對(duì) x 的偏導(dǎo)數(shù)僅關(guān)注 x 如何變化,而忽略公式中的所有其他變量。
分區(qū)策略 (partitioning strategy)
參數(shù)服務(wù)器中分割變量的算法。
性能 (performance)
多含義術(shù)語(yǔ),具有以下含義:
在軟件工程中的傳統(tǒng)含義。即:相應(yīng)軟件的運(yùn)行速度有多快(或有多高效)?
在機(jī)器學(xué)習(xí)中的含義。在機(jī)器學(xué)習(xí)領(lǐng)域,性能旨在回答以下問(wèn)題:相應(yīng)模型的準(zhǔn)確度有多高?即模型在預(yù)測(cè)方面的表現(xiàn)有多好?
困惑度 (perplexity)
一種衡量指標(biāo),用于衡量模型能夠多好地完成任務(wù)。例如,假設(shè)任務(wù)是讀取用戶(hù)使用智能手機(jī)鍵盤(pán)輸入字詞時(shí)輸入的前幾個(gè)字母,然后列出一組可能的完整字詞。此任務(wù)的困惑度 (P) 是:為了使列出的字詞中包含用戶(hù)嘗試輸入的實(shí)際字詞,您需要提供的猜測(cè)項(xiàng)的個(gè)數(shù)。
困惑度與交叉熵的關(guān)系如下:
流水線(xiàn) (pipeline)
機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)。流水線(xiàn)包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件、訓(xùn)練一個(gè)或多個(gè)模型,以及將模型導(dǎo)出到生產(chǎn)環(huán)境。
正類(lèi)別 (positive class)
在二元分類(lèi)中,兩種可能的類(lèi)別分別被標(biāo)記為正類(lèi)別和負(fù)類(lèi)別。正類(lèi)別結(jié)果是我們要測(cè)試的對(duì)象。(不可否認(rèn)的是,我們會(huì)同時(shí)測(cè)試這兩種結(jié)果,但只關(guān)注正類(lèi)別結(jié)果。)例如,在醫(yī)學(xué)檢查中,正類(lèi)別可以是 “腫瘤”。在電子郵件分類(lèi)器中,正類(lèi)別可以是 “垃圾郵件”。
與負(fù)類(lèi)別相對(duì)。
精確率 (precision)
一種分類(lèi)模型指標(biāo)。精確率指模型正確預(yù)測(cè)正類(lèi)別的頻率,即:
精確率 =真正例數(shù)真正例數(shù) +假正例數(shù)精確率=真正例數(shù)真正例數(shù)+假正例數(shù)
預(yù)測(cè) (prediction)
模型在收到輸入的樣本后的輸出。
預(yù)測(cè)偏差 (prediction bias)
一個(gè)值,用于表明預(yù)測(cè)平均值與數(shù)據(jù)集中標(biāo)簽的平均值相差有多大。
預(yù)創(chuàng)建的 Estimator (pre-made Estimator)
其他人已建好的Estimator。TensorFlow 提供了一些預(yù)創(chuàng)建的 Estimator,包括DNNClassifier、DNNRegressor和LinearClassifier。您可以按照這些說(shuō)明構(gòu)建自己預(yù)創(chuàng)建的 Estimator。
預(yù)訓(xùn)練模型 (pre-trained model)
已經(jīng)過(guò)訓(xùn)練的模型或模型組件(例如嵌套)。有時(shí),您需要將預(yù)訓(xùn)練的嵌套饋送到神經(jīng)網(wǎng)絡(luò)。在其他時(shí)候,您的模型將自行訓(xùn)練嵌套,而不依賴(lài)于預(yù)訓(xùn)練的嵌套。
先驗(yàn)信念 (prior belief)
在開(kāi)始采用相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練之前,您對(duì)這些數(shù)據(jù)抱有的信念。例如,L2正則化依賴(lài)的先驗(yàn)信念是權(quán)重應(yīng)該很小且應(yīng)以 0 為中心呈正態(tài)分布。
Q
隊(duì)列 (queue)
一種 TensorFlow操作,用于實(shí)現(xiàn)隊(duì)列數(shù)據(jù)結(jié)構(gòu)。通常用于 I/O 中。
R
等級(jí) (rank)
機(jī)器學(xué)習(xí)中的一個(gè)多含義術(shù)語(yǔ),可以理解為下列含義之一:
張量中的維度數(shù)量。例如,標(biāo)量等級(jí)為 0,向量等級(jí)為 1,矩陣等級(jí)為 2。
在將類(lèi)別從最高到最低進(jìn)行排序的機(jī)器學(xué)習(xí)問(wèn)題中,類(lèi)別的順序位置。例如,行為排序系統(tǒng)可以將狗狗的獎(jiǎng)勵(lì)從最高(牛排)到最低(枯萎的羽衣甘藍(lán))進(jìn)行排序。
評(píng)分者 (rater)
為樣本提供標(biāo)簽的人。有時(shí)稱(chēng)為 “注釋者”。
召回率 (recall)
一種分類(lèi)模型指標(biāo),用于回答以下問(wèn)題:在所有可能的正類(lèi)別標(biāo)簽中,模型正確地識(shí)別出了多少個(gè)?即:
召回率 =真正例數(shù)真正例數(shù) +假負(fù)例數(shù)召回率=真正例數(shù)真正例數(shù)+假負(fù)例數(shù)
修正線(xiàn)性單元 (ReLU, Rectified Linear Unit)
一種激活函數(shù),其規(guī)則如下:
如果輸入為負(fù)數(shù)或 0,則輸出 0。
如果輸入為正數(shù),則輸出等于輸入。
回歸模型 (regression model)
一種模型,能夠輸出連續(xù)的值(通常為浮點(diǎn)值)。請(qǐng)與分類(lèi)模型進(jìn)行比較,分類(lèi)模型輸出離散值,例如 “黃花菜” 或“虎皮百合”。
正則化 (regularization)
對(duì)模型復(fù)雜度的懲罰。正則化有助于防止出現(xiàn)過(guò)擬合,包含以下類(lèi)型:
L1正則化
L2正則化
丟棄正則化
早停法(這不是正式的正則化方法,但可以有效限制過(guò)擬合)
正則化率 (regularization rate)
一種標(biāo)量值,以 lambda 表示,用于指定正則化函數(shù)的相對(duì)重要性。從下面簡(jiǎn)化的損失公式中可以看出正則化率的影響:
minimize(loss function +λ(regularization function))
提高正則化率可以減少過(guò)擬合,但可能會(huì)使模型的準(zhǔn)確率降低。
表示法 (representation)
將數(shù)據(jù)映射到實(shí)用特征的過(guò)程。
受試者工作特征曲線(xiàn)(receiver operating characteristic, 簡(jiǎn)稱(chēng) ROC 曲線(xiàn))
不同分類(lèi)閾值下的真正例率和假正例率構(gòu)成的曲線(xiàn)。另請(qǐng)參閱曲線(xiàn)下面積。
根目錄 (root directory)
您指定的目錄,用于托管多個(gè)模型的 TensorFlow 檢查點(diǎn)和事件文件的子目錄。
均方根誤差 (RMSE, Root Mean Squared Error)
均方誤差的平方根。
S
SavedModel
保存和恢復(fù) TensorFlow 模型時(shí)建議使用的格式。SavedModel 是一種獨(dú)立于語(yǔ)言且可恢復(fù)的序列化格式,使較高級(jí)別的系統(tǒng)和工具可以創(chuàng)建、使用和轉(zhuǎn)換 TensorFlow 模型。
如需完整的詳細(xì)信息,請(qǐng)參閱《TensorFlow 編程人員指南》中的保存和恢復(fù)。
Saver
一種TensorFlow 對(duì)象,負(fù)責(zé)保存模型檢查點(diǎn)。
縮放 (scaling)
特征工程中的一種常用做法,是對(duì)某個(gè)特征的值區(qū)間進(jìn)行調(diào)整,使之與數(shù)據(jù)集中其他特征的值區(qū)間一致。例如,假設(shè)您希望數(shù)據(jù)集中所有浮點(diǎn)特征的值都位于 0 到 1 區(qū)間內(nèi),如果某個(gè)特征的值位于 0 到 500 區(qū)間內(nèi),您就可以通過(guò)將每個(gè)值除以 500 來(lái)縮放該特征。
另請(qǐng)參閱標(biāo)準(zhǔn)化。
scikit-learn
一個(gè)熱門(mén)的開(kāi)放源代碼機(jī)器學(xué)習(xí)平臺(tái)。請(qǐng)?jiān)L問(wèn)www.scikit-learn.org。
半監(jiān)督式學(xué)習(xí) (semi-supervised learning)
訓(xùn)練模型時(shí)采用的數(shù)據(jù)中,某些訓(xùn)練樣本有標(biāo)簽,而其他樣本則沒(méi)有標(biāo)簽。半監(jiān)督式學(xué)習(xí)采用的一種技術(shù)是推斷無(wú)標(biāo)簽樣本的標(biāo)簽,然后使用推斷出的標(biāo)簽進(jìn)行訓(xùn)練,以創(chuàng)建新模型。如果獲得有標(biāo)簽樣本需要高昂的成本,而無(wú)標(biāo)簽樣本則有很多,那么半監(jiān)督式學(xué)習(xí)將非常有用。
序列模型 (sequence model)
一種模型,其輸入具有序列依賴(lài)性。例如,根據(jù)之前觀看過(guò)的一系列視頻對(duì)觀看的下一個(gè)視頻進(jìn)行預(yù)測(cè)。
會(huì)話(huà) (session)
維持 TensorFlow 程序中的狀態(tài)(例如變量)。
S 型函數(shù) (sigmoid function)
一種函數(shù),可將邏輯回歸輸出或多項(xiàng)回歸輸出(對(duì)數(shù)幾率)映射到概率,以返回介于 0 到 1 之間的值。S 型函數(shù)的公式如下:
在邏輯回歸問(wèn)題中,
σ非常簡(jiǎn)單:
換句話(huà)說(shuō),S 型函數(shù)可將σ轉(zhuǎn)換為介于 0 到 1 之間的概率。
在某些神經(jīng)網(wǎng)絡(luò)中,S 型函數(shù)可作為激活函數(shù)使用。
softmax
一種函數(shù),可提供多類(lèi)別分類(lèi)模型中每個(gè)可能類(lèi)別的概率。這些概率的總和正好為 1.0。例如,softmax 可能會(huì)得出某個(gè)圖像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。(也稱(chēng)為完整 softmax。)
與候選采樣相對(duì)。
稀疏特征 (sparse feature)
一種特征向量,其中的大多數(shù)值都為 0 或?yàn)榭?。例如,某個(gè)向量包含一個(gè)為 1 的值和一百萬(wàn)個(gè)為 0 的值,則該向量就屬于稀疏向量。再舉一個(gè)例子,搜索查詢(xún)中的單詞也可能屬于稀疏特征 - 在某種指定語(yǔ)言中有很多可能的單詞,但在某個(gè)指定的查詢(xún)中僅包含其中幾個(gè)。
與密集特征相對(duì)。
平方合頁(yè)損失函數(shù) (squared hinge loss)
合頁(yè)損失函數(shù)的平方。與常規(guī)合頁(yè)損失函數(shù)相比,平方合頁(yè)損失函數(shù)對(duì)離群值的懲罰更嚴(yán)厲。
平方損失函數(shù) (squared loss)
在線(xiàn)性回歸中使用的損失函數(shù)(也稱(chēng)為L(zhǎng)2損失函數(shù))。該函數(shù)可計(jì)算模型為有標(biāo)簽樣本預(yù)測(cè)的值和標(biāo)簽的實(shí)際值之差的平方。由于取平方值,因此該損失函數(shù)會(huì)放大不佳預(yù)測(cè)的影響。也就是說(shuō),與L1損失函數(shù)相比,平方損失函數(shù)對(duì)離群值的反應(yīng)更強(qiáng)烈。
靜態(tài)模型 (static model)
離線(xiàn)訓(xùn)練的一種模型。
平穩(wěn)性 (stationarity)
數(shù)據(jù)集中數(shù)據(jù)的一種屬性,表示數(shù)據(jù)分布在一個(gè)或多個(gè)維度保持不變。這種維度最常見(jiàn)的是時(shí)間,即表明平穩(wěn)性的數(shù)據(jù)不隨時(shí)間而變化。例如,從 9 月到 12 月,表明平穩(wěn)性的數(shù)據(jù)沒(méi)有發(fā)生變化。
步 (step)
對(duì)一個(gè)批次的向前和向后評(píng)估。
步長(zhǎng) (step size)
是學(xué)習(xí)速率的同義詞。
隨機(jī)梯度下降法 (SGD, stochastic gradient descent)
批次規(guī)模為 1 的一種梯度下降法。換句話(huà)說(shuō),SGD 依賴(lài)于從數(shù)據(jù)集中隨機(jī)均勻選擇的單個(gè)樣本來(lái)計(jì)算每步的梯度估算值。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化 (SRM, structural risk minimization)
一種算法,用于平衡以下兩個(gè)目標(biāo):
期望構(gòu)建最具預(yù)測(cè)性的模型(例如損失最低)。
期望使模型盡可能簡(jiǎn)單(例如強(qiáng)大的正則化)。
例如,旨在將基于訓(xùn)練集的損失和正則化降至最低的模型函數(shù)就是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法。
如需更多信息,請(qǐng)參閱http://www.svms.org/srm/。
與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化相對(duì)。
總結(jié) (summary)
在 TensorFlow 中的某一步計(jì)算出的一個(gè)值或一組值,通常用于在訓(xùn)練期間跟蹤模型指標(biāo)。
監(jiān)督式機(jī)器學(xué)習(xí) (supervised machine learning)
根據(jù)輸入數(shù)據(jù)及其對(duì)應(yīng)的標(biāo)簽來(lái)訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類(lèi)似于學(xué)生通過(guò)研究一系列問(wèn)題及其對(duì)應(yīng)的答案來(lái)學(xué)習(xí)一些主題。在掌握了問(wèn)題和答案之間的對(duì)應(yīng)關(guān)系后,學(xué)生便可以回答關(guān)于同一主題的新問(wèn)題(以前從未見(jiàn)過(guò)的問(wèn)題)。請(qǐng)與非監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。
合成特征 (synthetic feature)
一種特征,不在輸入特征之列,而是從一個(gè)或多個(gè)輸入特征衍生而來(lái)。合成特征包括以下類(lèi)型:
將一個(gè)特征與其本身或其他特征相乘(稱(chēng)為特征組合)。
兩個(gè)特征相除。
對(duì)連續(xù)特征進(jìn)行分桶,以分為多個(gè)區(qū)間分箱。
通過(guò)標(biāo)準(zhǔn)化或縮放單獨(dú)創(chuàng)建的特征不屬于合成特征。
T
目標(biāo) (target)
是標(biāo)簽的同義詞。
時(shí)態(tài)數(shù)據(jù) (temporal data)
在不同時(shí)間點(diǎn)記錄的數(shù)據(jù)。例如,記錄的一年中每一天的冬外套銷(xiāo)量就屬于時(shí)態(tài)數(shù)據(jù)。
張量 (Tensor)
TensorFlow 程序中的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維(其中 N 可能非常大)數(shù)據(jù)結(jié)構(gòu),最常見(jiàn)的是標(biāo)量、向量或矩陣。張量的元素可以包含整數(shù)值、浮點(diǎn)值或字符串值。
張量處理單元 (TPU, Tensor Processing Unit)
一種 ASIC(應(yīng)用專(zhuān)用集成電路),用于優(yōu)化 TensorFlow 程序的性能。
張量等級(jí) (Tensor rank)
請(qǐng)參閱等級(jí)。
張量形狀 (Tensor shape)
張量在各種維度中包含的元素?cái)?shù)。例如,張量 [5, 10] 在一個(gè)維度中的形狀為 5,在另一個(gè)維度中的形狀為 10。
張量大小 (Tensor size)
張量包含的標(biāo)量總數(shù)。例如,張量 [5, 10] 的大小為 50。
TensorBoard
一個(gè)信息中心,用于顯示在執(zhí)行一個(gè)或多個(gè) TensorFlow 程序期間保存的摘要信息。
TensorFlow
一個(gè)大型的分布式機(jī)器學(xué)習(xí)的平臺(tái)。該術(shù)語(yǔ)還指 TensorFlow 堆棧中的基本 API 層,該層支持對(duì)數(shù)據(jù)流圖進(jìn)行一般計(jì)算。
雖然 TensorFlow 主要應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域,但也可用于需要使用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算的非機(jī)器學(xué)習(xí)任務(wù)。
TensorFlow Playground
一款用于直觀呈現(xiàn)不同的超參數(shù)對(duì)模型(主要是神經(jīng)網(wǎng)絡(luò))訓(xùn)練的影響的程序。要試用 TensorFlow Playground,請(qǐng)前往http://playground.tensorflow.org。
TensorFlow Serving
一個(gè)平臺(tái),用于將訓(xùn)練過(guò)的模型部署到生產(chǎn)環(huán)境。
測(cè)試集 (test set)
數(shù)據(jù)集的子集,用于在模型經(jīng)由驗(yàn)證集的初步驗(yàn)證之后測(cè)試模型。
與訓(xùn)練集和驗(yàn)證集相對(duì)。
tf.Example
一種標(biāo)準(zhǔn)的proto buffer,旨在描述用于機(jī)器學(xué)習(xí)模型訓(xùn)練或推斷的輸入數(shù)據(jù)。
時(shí)間序列分析 (time series analysis)
機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的一個(gè)子領(lǐng)域,旨在分析時(shí)態(tài)數(shù)據(jù)。很多類(lèi)型的機(jī)器學(xué)習(xí)問(wèn)題都需要時(shí)間序列分析,其中包括分類(lèi)、聚類(lèi)、預(yù)測(cè)和異常檢測(cè)。例如,您可以利用時(shí)間序列分析根據(jù)歷史銷(xiāo)量數(shù)據(jù)預(yù)測(cè)未來(lái)每月的冬外套銷(xiāo)量。
訓(xùn)練 (training)
確定構(gòu)成模型的理想?yún)?shù)的過(guò)程。
訓(xùn)練集 (training set)
數(shù)據(jù)集的子集,用于訓(xùn)練模型。
與驗(yàn)證集和測(cè)試集相對(duì)。
轉(zhuǎn)移學(xué)習(xí) (transfer learning)
將信息從一個(gè)機(jī)器學(xué)習(xí)任務(wù)轉(zhuǎn)移到另一個(gè)機(jī)器學(xué)習(xí)任務(wù)。例如,在多任務(wù)學(xué)習(xí)中,一個(gè)模型可以完成多項(xiàng)任務(wù),例如針對(duì)不同任務(wù)具有不同輸出節(jié)點(diǎn)的深度模型。轉(zhuǎn)移學(xué)習(xí)可能涉及將知識(shí)從較簡(jiǎn)單任務(wù)的解決方案轉(zhuǎn)移到較復(fù)雜的任務(wù),或者將知識(shí)從數(shù)據(jù)較多的任務(wù)轉(zhuǎn)移到數(shù)據(jù)較少的任務(wù)。
大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)都只能完成一項(xiàng)任務(wù)。轉(zhuǎn)移學(xué)習(xí)是邁向人工智能的一小步;在人工智能中,單個(gè)程序可以完成多項(xiàng)任務(wù)。
真負(fù)例 (TN, true negative)
被模型正確地預(yù)測(cè)為負(fù)類(lèi)別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件,而該電子郵件確實(shí)不是垃圾郵件。
真正例 (TP, true positive)
被模型正確地預(yù)測(cè)為正類(lèi)別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件,而該電子郵件確實(shí)是垃圾郵件。
真正例率(true positive rate, 簡(jiǎn)稱(chēng) TP 率)
是召回率的同義詞,即:
真正例率 =真正例數(shù)真正例數(shù) +假負(fù)例數(shù)真正例率=真正例數(shù)真正例數(shù)+假負(fù)例數(shù)
真正例率是ROC 曲線(xiàn)的 y 軸。
U
無(wú)標(biāo)簽樣本 (unlabeled example)
包含特征但沒(méi)有標(biāo)簽的樣本。無(wú)標(biāo)簽樣本是用于進(jìn)行推斷的輸入內(nèi)容。在半監(jiān)督式和非監(jiān)督式學(xué)習(xí)中,無(wú)標(biāo)簽樣本在訓(xùn)練期間被使用。
非監(jiān)督式機(jī)器學(xué)習(xí) (unsupervised machine learning)
訓(xùn)練模型,以找出數(shù)據(jù)集(通常是無(wú)標(biāo)簽數(shù)據(jù)集)中的模式。
非監(jiān)督式機(jī)器學(xué)習(xí)最常見(jiàn)的用途是將數(shù)據(jù)分為不同的聚類(lèi),使相似的樣本位于同一組中。例如,非監(jiān)督式機(jī)器學(xué)習(xí)算法可以根據(jù)音樂(lè)的各種屬性將歌曲分為不同的聚類(lèi)。所得聚類(lèi)可以作為其他機(jī)器學(xué)習(xí)算法(例如音樂(lè)推薦服務(wù))的輸入。在很難獲取真標(biāo)簽的領(lǐng)域,聚類(lèi)可能會(huì)非常有用。例如,在反濫用和反欺詐等領(lǐng)域,聚類(lèi)有助于人們更好地了解相關(guān)數(shù)據(jù)。
非監(jiān)督式機(jī)器學(xué)習(xí)的另一個(gè)例子是主成分分析 (PCA)。例如,通過(guò)對(duì)包含數(shù)百萬(wàn)購(gòu)物車(chē)中物品的數(shù)據(jù)集進(jìn)行主成分分析,可能會(huì)發(fā)現(xiàn)有檸檬的購(gòu)物車(chē)中往往也有抗酸藥。
請(qǐng)與監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。
V
驗(yàn)證集 (validation set)
數(shù)據(jù)集的一個(gè)子集,從訓(xùn)練集分離而來(lái),用于調(diào)整超參數(shù)。
與訓(xùn)練集和測(cè)試集相對(duì)。
W
權(quán)重 (weight)
線(xiàn)性模型中特征的系數(shù),或深度網(wǎng)絡(luò)中的邊。訓(xùn)練線(xiàn)性模型的目標(biāo)是確定每個(gè)特征的理想權(quán)重。如果權(quán)重為 0,則相應(yīng)的特征對(duì)模型來(lái)說(shuō)沒(méi)有任何貢獻(xiàn)。
寬度模型 (wide model)
一種線(xiàn)性模型,通常有很多稀疏輸入特征。我們之所以稱(chēng)之為 “寬度模型”,是因?yàn)檫@是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò),其大量輸入均直接與輸出節(jié)點(diǎn)相連。與深度模型相比,寬度模型通常更易于調(diào)試和檢查。雖然寬度模型無(wú)法通過(guò)隱藏層來(lái)表示非線(xiàn)性關(guān)系,但可以利用特征組合、分桶等轉(zhuǎn)換以不同的方式為非線(xiàn)性關(guān)系建模。
與深度模型相對(duì)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104948 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132312
原文標(biāo)題:【官方中文版】谷歌發(fā)布機(jī)器學(xué)習(xí)術(shù)語(yǔ)表(完整版)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論