電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程簡介

PyTorch教程簡介

61281 2023-06-02 | pdf | 1.92 MB | 次下載 | 3積分

資料介紹

直到最近，您在日常生活中可能與之交互的幾乎每個計算機程序都被編碼為一組嚴(yán)格的規(guī)則，精確指定了它應(yīng)該如何運行。假設(shè)我們要編寫一個應(yīng)用程序來管理電子商務(wù)平臺。在圍著白板思考幾個小時后，我們可能會確定一個可行解決方案的大致思路，例如：(i) 用戶通過在 Web 瀏覽器或移動應(yīng)用程序中運行的界面與應(yīng)用程序交互；(ii) 我們的應(yīng)用程序與商業(yè)級數(shù)據(jù)庫引擎交互，以跟蹤每個用戶的狀態(tài)并維護(hù)歷史交易記錄；(iii) 在我們應(yīng)用程序的核心，業(yè)務(wù)邏輯（你可能會說，大腦) 我們的應(yīng)用程序闡明了一組規(guī)則，將每一種可能的情況映射到我們的程序應(yīng)該采取的相應(yīng)行動。

為了構(gòu)建我們應(yīng)用程序的大腦，我們可能會枚舉我們的程序應(yīng)該處理的所有常見事件。例如，每當(dāng)客戶點擊將商品添加到他們的購物車時，我們的程序就應(yīng)該向購物車數(shù)據(jù)庫表添加一個條目，將用戶的 ID 與請求的產(chǎn)品 ID 相關(guān)聯(lián)。然后我們可能會嘗試遍歷每一個可能的極端情況，測試我們的規(guī)則的適當(dāng)性并進(jìn)行任何必要的修改。如果用戶使用空購物車開始購買會怎樣？雖然很少有開發(fā)人員第一次就完全正確（可能需要進(jìn)行一些測試才能解決問題），但在大多數(shù)情況下，我們可以編寫此類程序并自信地啟動它們見過真正的客戶。我們通常在新情況下手動設(shè)計驅(qū)動功能產(chǎn)品和系統(tǒng)的自動化系統(tǒng)的能力是一項了不起的認(rèn)知壯舉。當(dāng)您能夠設(shè)計出有效的解決方案時 \(100\%\)當(dāng)時，您通常不應(yīng)該擔(dān)心機器學(xué)習(xí)。

幸運的是，對于不斷壯大的機器學(xué)習(xí)科學(xué)家群體來說，我們想要自動化的許多任務(wù)并不容易屈從于人類的聰明才智。想象一下，你認(rèn)識的最聰明的人圍坐在白板周圍，但這一次你要解決以下問題之一：

編寫一個程序，根據(jù)地理信息、衛(wèi)星圖像和過去天氣的拖尾窗口預(yù)測明天的天氣。
編寫一個程序，接受一個以自由格式文本表達(dá)的事實型問題，并正確回答它。
編寫一個程序，根據(jù)給定的圖像識別圖像中描繪的所有人，并在每個人周圍畫出輪廓。
編寫一個程序，向用戶展示他們可能會喜歡但在自然瀏覽過程中不太可能遇到的產(chǎn)品。

對于這些問題，即使是精英程序員也很難從頭開始編寫解決方案。原因可能各不相同。有時我們正在尋找的程序遵循一種隨時間變化的模式，因此沒有固定的正確答案！在這種情況下，任何成功的解決方案都必須優(yōu)雅地適應(yīng)不斷變化的世界。在其他時候，關(guān)系（比如像素和抽象類別之間的關(guān)系）可能過于復(fù)雜，需要數(shù)千或數(shù)百萬次計算并遵循未知的原則。在圖像識別的情況下，執(zhí)行任務(wù)所需的精確步驟超出了我們的意識理解，即使我們的潛意識認(rèn)知過程毫不費力地執(zhí)行任務(wù)。

機器學(xué)習(xí)是對可以從經(jīng)驗中學(xué)習(xí)的算法的研究。隨著機器學(xué)習(xí)算法積累更多經(jīng)驗（通常以觀察數(shù)據(jù)或與環(huán)境交互的形式），其性能會提高。將此與我們的確定性電子商務(wù)平臺進(jìn)行對比，無論積累多少經(jīng)驗，它都遵循相同的業(yè)務(wù)邏輯，直到開發(fā)人員自己學(xué)習(xí)并決定是時候更新軟件了。在本書中，我們將向您介紹機器學(xué)習(xí)的基礎(chǔ)知識，尤其是深度學(xué)習(xí)，這是一套強大的技術(shù)，可在計算機視覺、自然語言處理、醫(yī)療保健和基因組學(xué)等不同領(lǐng)域推動創(chuàng)新。

1.1. 一個激勵人心的例子

在開始寫作之前，本書的作者和許多工作人員一樣，不得不喝下咖啡因。我們跳上車，開始開車。亞歷克斯使用 iPhone 喊出“Hey Siri”，喚醒了手機的語音識別系統(tǒng)。然后Mu命令“去Blue Bottle咖啡店的方向”。手機很快就顯示出他的命令抄錄。它還認(rèn)識到我們正在詢問方向并啟動了地圖應(yīng)用程序 (app) 來滿足我們的請求。啟動后，地圖應(yīng)用程序會識別出多條路線。在每條路線旁邊，手機會顯示預(yù)計的通行時間。雖然我們?yōu)榱私虒W(xué)方便而編造了這個故事，但它表明，在短短幾秒鐘的時間里，我們與智能手機的日?；涌梢陨婕岸喾N機器學(xué)習(xí)模型。

想象一下，只需編寫一個程序來響應(yīng)諸如“Alexa”、“OK Google”和“Hey Siri”之類的喚醒詞。嘗試自己在房間里用計算機和代碼編輯器編寫代碼，如圖1.1.1所示。你會如何根據(jù)第一性原理編寫這樣的程序？想一想……這個問題很難。每秒，麥克風(fēng)將收集大約 44000 個樣本。每個樣本都是對聲波振幅的測量。什么規(guī)則可以可靠地將一段原始音頻映射到自信的預(yù)測 \(\{\text{yes}, \text{no}\}\)關(guān)于片段是否包含喚醒詞？如果您被卡住了，請不要擔(dān)心。我們也不知道如何從頭開始編寫這樣的程序。這就是我們使用機器學(xué)習(xí)的原因。

圖 1.1.1識別喚醒詞。

這是訣竅。通常，即使我們不知道如何明確地告訴計算機如何將輸入映射到輸出，我們?nèi)匀荒軌蜃约和瓿烧J(rèn)知壯舉。換句話說，即使你不知道如何讓計算機識別“Alexa”這個詞，你自己也能識別它。有了這種能力，我們可以收集一個巨大的數(shù)據(jù)集，其中包含音頻片段和相關(guān)標(biāo)簽的示例，指示哪些片段包含喚醒詞。在機器學(xué)習(xí)的主流方法中，我們不會嘗試設(shè)計一個明確識別喚醒詞的系統(tǒng)。相反，我們定義了一個靈活的程序，其行為由許多參數(shù)決定. 然后我們使用數(shù)據(jù)集來確定可能的最佳參數(shù)值，即那些可以根據(jù)所選性能指標(biāo)提高程序性能的參數(shù)值。

您可以將參數(shù)視為我們可以轉(zhuǎn)動的旋鈕，從而操縱程序的行為。固定參數(shù)，我們稱程序為模型。我們僅通過操縱參數(shù)就可以生成的所有不同程序（輸入-輸出映射）的集合稱為模型族。而使用我們的數(shù)據(jù)集來選擇參數(shù)的元程序稱為學(xué)習(xí)算法。

在我們繼續(xù)使用學(xué)習(xí)算法之前，我們必須精確定義問題，確定輸入和輸出的確切性質(zhì)，并選擇合適的模型系列。在這種情況下，我們的模型接收一段音頻作為輸入，然后模型生成一個選擇\(\{\text{yes}, \text{no}\}\)作為輸出。如果一切按計劃進(jìn)行，模型對片段是否包含喚醒詞的猜測通常是正確的。

如果我們選擇正確的模型系列，應(yīng)該有一個旋鈕設(shè)置，這樣模型每次聽到“Alexa”這個詞時都會發(fā)出“是”。因為喚醒詞的確切選擇是任意的，我們可能需要一個足夠豐富的模型系列，通過旋鈕的另一種設(shè)置，它可以僅在聽到“Apricot”這個詞時發(fā)出“是”。我們期望相同的模型系列應(yīng)該適用于“Alexa”識別和“Apricot”識別，因為從直覺上看，它們似乎是相似的任務(wù)。然而，如果我們想要處理根本不同的輸入或輸出，比如我們想要從圖像映射到字幕，或者從英文句子映射到中文句子，我們可能需要完全不同的模型系列。

您可能會猜到，如果我們只是隨機設(shè)置所有旋鈕，我們的模型不太可能識別“Alexa”、“Apricot”或任何其他英文單詞。在機器學(xué)習(xí)中，學(xué)習(xí)是我們發(fā)現(xiàn)旋鈕的正確設(shè)置的過程，通過該過程可以從我們的模型中強制執(zhí)行所需的行為。換句話說，我們用數(shù)據(jù)訓(xùn)練我們的模型。如圖 1.1.2所示，訓(xùn)練過程通常如下所示：

從一個隨機初始化的模型開始，它不能做任何有用的事情。
抓取你的一些數(shù)據(jù)（例如，音頻片段和相應(yīng)的 \(\{\text{yes}, \text{no}\}\)標(biāo)簽）。
調(diào)整旋鈕以使模型在這些示例中評估時表現(xiàn)更好。
重復(fù)步驟 2 和 3，直到模型很棒。

https://file.elecfans.com/web2/M00/A9/2A/poYBAGR5TXyADWvuAAEU7rZEH_U178.svg

圖 1.1.2一個典型的訓(xùn)練過程。

總而言之，我們不是編寫喚醒詞識別器的代碼，而是編寫一個可以學(xué)習(xí)識別喚醒詞的程序，如果提供一個大型標(biāo)記數(shù)據(jù)集的話。您可以將這種通過向程序展示數(shù)據(jù)集來確定程序行為的行為視為使用數(shù)據(jù)進(jìn)行編程. 也就是說，我們可以通過為我們的機器學(xué)習(xí)系統(tǒng)提供許多貓和狗的例子來“編程”一個貓檢測器。這樣，檢測器最終將學(xué)習(xí)如果它是貓則發(fā)出一個非常大的正數(shù)，如果它是狗則發(fā)出一個非常大的負(fù)數(shù)，如果不確定則發(fā)出接近于零的值。這僅僅觸及了機器學(xué)習(xí)可以做什么的皮毛。我們稍后將更詳細(xì)地解釋深度學(xué)習(xí)，它只是解決機器學(xué)習(xí)問題的眾多流行方法之一。

1.2. 關(guān)鍵部件

在我們的喚醒詞示例中，我們描述了一個由音頻片段和二進(jìn)制標(biāo)簽組成的數(shù)據(jù)集，并且我們對如何訓(xùn)練模型來近似從片段到分類的映射給出了一個簡單的概念。這類問題，我們嘗試根據(jù)已知輸入預(yù)測指定的未知標(biāo)簽，給定由標(biāo)簽已知的示例組成的數(shù)據(jù)集，稱為 監(jiān)督學(xué)習(xí)。這只是眾多機器學(xué)習(xí)問題中的一種。在我們探索其他品種之前，我們想更清楚地了解一些核心組件，無論我們處理什么樣的機器學(xué)習(xí)問題，這些核心組件都會跟隨我們：

我們可以從中學(xué)習(xí)的數(shù)據(jù)。
如何轉(zhuǎn)換數(shù)據(jù)的模型。
量化模型運行情況的目標(biāo)函數(shù)。
調(diào)整模型參數(shù)以優(yōu)化目標(biāo)函數(shù)的算法。

1.2.1. 數(shù)據(jù)

不用說，沒有數(shù)據(jù)就無法進(jìn)行數(shù)據(jù)科學(xué)。我們可能會浪費數(shù)百頁來思考數(shù)據(jù)到底是什么，但現(xiàn)在，我們將專注于我們將關(guān)注的數(shù)據(jù)集的關(guān)鍵屬性。通常，我們關(guān)注示例的集合。為了有效地處理數(shù)據(jù)，我們通常需要提出合適的數(shù)字表示。每個示例（或數(shù)據(jù)點、數(shù)據(jù)實例、樣本）通常由一組稱為特征的屬性（有時稱為協(xié)變量或輸入)，模型必須基于此做出預(yù)測。在監(jiān)督學(xué)習(xí)問題中，我們的目標(biāo)是預(yù)測一個特殊屬性的值，稱為標(biāo)簽（或目標(biāo)），它不是模型輸入的一部分。

如果我們處理的是圖像數(shù)據(jù)，則每個示例都可能包含一張單獨的照片（特征）和一個指示照片所屬類別的數(shù)字（標(biāo)簽）。照片將以數(shù)字方式表示為三個數(shù)值網(wǎng)格，代表每個像素位置的紅光、綠光和藍(lán)光的亮度。例如，一個\(200\times 200\)彩色照片將包括\(200\times200\times3=120000\)數(shù)值。

或者，我們可以使用電子健康記錄數(shù)據(jù)來處理預(yù)測給定患者在接下來 30 天內(nèi)存活的可能性的任務(wù)。在這里，我們的特征可能包括一組現(xiàn)成的屬性和經(jīng)常記錄的測量值，包括年齡、生命體征、合并癥、當(dāng)前藥物治療和最近的程序。可用于訓(xùn)練的標(biāo)簽將是一個二進(jìn)制值，指示歷史數(shù)據(jù)中的每個患者是否在 30 天窗口內(nèi)存活。

在這種情況下，當(dāng)每個示例都具有相同數(shù)量的數(shù)字特征時，我們說輸入是固定長度的向量，我們將向量的（恒定）長度稱為數(shù)據(jù)的維度。正如您想象的那樣，固定長度的輸入可能很方便，讓我們不必?fù)?dān)心那么復(fù)雜。但是，并非所有數(shù)據(jù)都可以輕松表示為固定長度向量。雖然我們可能期望顯微鏡圖像來自標(biāo)準(zhǔn)設(shè)備，但我們不能期望從 Internet 中提取的圖像都以相同的分辨率或形狀顯示。對于圖像，我們可能會考慮將它們?nèi)坎眉魹闃?biāo)準(zhǔn)尺寸，但該策略只能讓我們走到這一步。我們冒著丟失裁剪部分信息的風(fēng)險。此外，文本數(shù)據(jù)更頑固地抵制固定長度的表示。考慮在亞馬遜、IMDb 和 TripAdvisor 等電子商務(wù)網(wǎng)站上留下的客戶評論。有些很短：“它很臭！”。其他人漫不經(jīng)心地尋找頁面。與傳統(tǒng)方法相比，深度學(xué)習(xí)的一大優(yōu)勢是現(xiàn)代模型可以相對優(yōu)雅地處理變長數(shù)據(jù)。

通常，我們擁有的數(shù)據(jù)越多，我們的工作就越容易。當(dāng)我們擁有更多數(shù)據(jù)時，我們可以訓(xùn)練更強大的模型，減少對先入為主的假設(shè)的依賴。從（相對）小數(shù)據(jù)到大數(shù)據(jù)的機制變化是現(xiàn)代深度學(xué)習(xí)成功的主要貢獻(xiàn)者。為了說明這一點，深度學(xué)習(xí)中許多最令人興奮的模型如果沒有大型數(shù)據(jù)集就無法工作。其他一些在小數(shù)據(jù)領(lǐng)域工作，但并不比傳統(tǒng)方法好。

最后，擁有大量數(shù)據(jù)并巧妙地處理數(shù)據(jù)是不夠的。我們需要正確的數(shù)據(jù)。如果數(shù)據(jù)充滿錯誤，或者如果所選特征不能預(yù)測感興趣的目標(biāo)數(shù)量，學(xué)習(xí)就會失敗。陳詞濫調(diào)很好地描述了這種情況：垃圾進(jìn)，垃圾出. 此外，糟糕的預(yù)測性能并不是唯一的潛在后果。在機器學(xué)習(xí)的敏感應(yīng)用中，例如預(yù)測性監(jiān)管、簡歷篩選和用于貸款的風(fēng)險模型，我們必須特別警惕垃圾數(shù)據(jù)的后果。一種常見的故障模式發(fā)生在訓(xùn)練數(shù)據(jù)中沒有代表某些人群的數(shù)據(jù)集中。想象一下，在以前從未見過黑色皮膚的野外應(yīng)用皮膚癌識別系統(tǒng)。當(dāng)數(shù)據(jù)不僅不能充分代表某些群體而且反映了社會偏見時，也可能會失敗。例如，如果過去的招聘決定被用來訓(xùn)練一個用于篩選簡歷的預(yù)測模型，那么機器學(xué)習(xí)模型可能會無意中捕捉到歷史上的不公正現(xiàn)象并將其自動化。

1.2.2. 楷模

大多數(shù)機器學(xué)習(xí)都涉及在某種意義上轉(zhuǎn)換數(shù)據(jù)。我們可能想要構(gòu)建一個系統(tǒng)來攝取照片并預(yù)測笑臉。或者，我們可能想要獲取一組傳感器讀數(shù)并預(yù)測讀數(shù)的正常與異常程度。按型號，我們表示用于攝取一種類型的數(shù)據(jù)并吐出可能不同類型的預(yù)測的計算機器。特別是，我們對可以從數(shù)據(jù)中估計的統(tǒng)計模型感興趣。雖然簡單的模型完全能夠解決適當(dāng)?shù)暮唵螁栴}，但我們在本書中關(guān)注的問題超出了經(jīng)典方法的局限性。深度學(xué)習(xí)與經(jīng)典方法的區(qū)別主要在于它關(guān)注的一組強大模型。這些模型由許多連續(xù)的數(shù)據(jù)轉(zhuǎn)換組成，這些數(shù)據(jù)從上到下鏈接在一起，因此得名深度學(xué)習(xí)。在討論深度模型的過程中，我們還將討論一些更傳統(tǒng)的方法。

1.2.3. 目標(biāo)函數(shù)

早些時候，我們將機器學(xué)習(xí)介紹為從經(jīng)驗中學(xué)習(xí)。通過在這里學(xué)習(xí)，我們的意思是隨著時間的推移在某些任務(wù)上有所改進(jìn)。但是誰能說什么是改進(jìn)呢？您可能會想象我們可以提議更新我們的模型，而有些人可能不同意提議的更新是改進(jìn)還是下降。

為了開發(fā)一個正式的學(xué)習(xí)機器數(shù)學(xué)系統(tǒng)，我們需要對我們的模型有多好（或多壞）有正式的衡量標(biāo)準(zhǔn)。在機器學(xué)習(xí)和更一般的優(yōu)化中，我們稱這些 為目標(biāo)函數(shù)。按照慣例，我們通常將目標(biāo)函數(shù)定義為越低越好。這只是一個慣例。您可以采用任何越高越好的函數(shù)，并通過翻轉(zhuǎn)符號將其轉(zhuǎn)換為質(zhì)量相同但越低越好的新函數(shù)。因為越低越好，這些函數(shù)有時被稱為損失函數(shù)。

當(dāng)嘗試預(yù)測數(shù)值時，最常見的損失函數(shù)是平方誤差，即預(yù)測值與真實目標(biāo)之間的差值的平方。對于分類，最常見的目標(biāo)是最小化錯誤率，即我們的預(yù)測與基本事實不一致的示例部分。一些目標(biāo)（例如，平方誤差）易于優(yōu)化，而其他目標(biāo)（例如，錯誤率）由于不可微性或其他復(fù)雜性而難以直接優(yōu)化。在這些情況下，通常會優(yōu)化替代目標(biāo)。

在優(yōu)化過程中，我們將損失視為模型參數(shù)的函數(shù)，并將訓(xùn)練數(shù)據(jù)集視為常數(shù)。我們通過最小化由為訓(xùn)練收集的一些示例組成的集合所產(chǎn)生的損失來學(xué)習(xí)模型參數(shù)的最佳值。然而，在訓(xùn)練數(shù)據(jù)上做得很好并不能保證我們在看不見的數(shù)據(jù)上也會做得很好。因此，我們通常希望將可用數(shù)據(jù)分成兩個部分：訓(xùn)練數(shù)據(jù)集（或訓(xùn)練集），用于學(xué)習(xí)模型參數(shù)；和測試數(shù)據(jù)集（或測試集), 用于評估。在一天結(jié)束時，我們通常會報告我們的模型在兩個分區(qū)上的表現(xiàn)。您可以將培訓(xùn)績效視為類似于學(xué)生在用于準(zhǔn)備某些實際期末考試的練習(xí)考試中取得的分?jǐn)?shù)。即使結(jié)果令人鼓舞，也不能保證在期末考試中取得成功。在學(xué)習(xí)過程中，學(xué)生可能會開始背誦練習(xí)題，看似掌握了主題，但在面對實際期末考試中以前沒見過的問題時卻步履蹣跚。當(dāng)一個模型在訓(xùn)練集上表現(xiàn)良好但無法泛化到看不見的數(shù)據(jù)時，我們說它對訓(xùn)練數(shù)據(jù)過度擬合。

1.2.4. 優(yōu)化算法

一旦我們獲得了一些數(shù)據(jù)源和表示、模型和定義明確的目標(biāo)函數(shù)，我們就需要一種能夠搜索最佳參數(shù)以最小化損失函數(shù)的算法。流行的深度學(xué)習(xí)優(yōu)化算法基于一種稱為梯度下降的方法。簡而言之，在每個步驟中，此方法都會檢查每個參數(shù)，以查看如果您對該參數(shù)進(jìn)行少量擾動，訓(xùn)練集損失將以何種方式移動。然后它在降低損失的方向上更新參數(shù)。

1.3. 機器學(xué)習(xí)問題的種類

我們激勵示例中的喚醒詞問題只是機器學(xué)習(xí)可以解決的眾多問題之一。為了進(jìn)一步激勵讀者并為我們提供一些貫穿全書的通用語言，我們現(xiàn)在提供機器學(xué)習(xí)問題公式的廣泛概述。

1.3.1. 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)描述的任務(wù)是給定一個包含特征和標(biāo)簽的數(shù)據(jù)集，并負(fù)責(zé)生成一個模型來預(yù)測給定輸入特征的標(biāo)簽。每個特征-標(biāo)簽對稱為一個示例。有時，當(dāng)上下文清楚時，我們可以使用術(shù)語示例引用一組輸入，即使相應(yīng)的標(biāo)簽未知。監(jiān)督發(fā)揮作用是因為為了選擇參數(shù)，我們（監(jiān)督者）為模型提供了一個由標(biāo)記示例組成的數(shù)據(jù)集。在概率方面，我們通常對估計給定輸入特征的標(biāo)簽的條件概率感興趣。雖然它只是機器學(xué)習(xí)中的幾種范式之一，但監(jiān)督學(xué)習(xí)占機器學(xué)習(xí)在工業(yè)中的大部分成功應(yīng)用。部分原因是，許多重要任務(wù)可以清晰地描述為在給定一組特定的可用數(shù)據(jù)的情況下估計未知事物的概率：

根據(jù)計算機斷層掃描圖像預(yù)測癌癥與非癌癥。
給出英語句子，預(yù)測正確的法語翻譯。
根據(jù)本月的財務(wù)報告數(shù)據(jù)預(yù)測下個月的股票價格。

雖然所有監(jiān)督學(xué)習(xí)問題都被簡單描述“預(yù)測給定輸入特征的標(biāo)簽”所捕獲，但監(jiān)督學(xué)習(xí)可以采取多種形式并需要大量建模決策，具體取決于（除其他考慮因素外）輸入的類型、大小和數(shù)量和輸出。例如，我們使用不同的模型來處理任意長度的序列和處理固定長度的向量表示。我們將在本書中深入探討其中的許多問題。

非正式地，學(xué)習(xí)過程如下所示。首先，獲取大量特征已知的示例，并從中隨機選擇一個子集，為每個示例獲取真實標(biāo)簽。有時這些標(biāo)簽可能是已經(jīng)收集到的可用數(shù)據(jù)（例如，患者是否在下一年內(nèi)死亡？），而其他時候我們可能需要使用人工注釋器來標(biāo)記數(shù)據(jù)（例如，將圖像分配給類別）。這些輸入和相應(yīng)的標(biāo)簽一起構(gòu)成了訓(xùn)練集。我們將訓(xùn)練數(shù)據(jù)集輸入監(jiān)督學(xué)習(xí)算法，該算法將數(shù)據(jù)集作為輸入并輸出另一個函數(shù)：學(xué)習(xí)模型。最后，我們可以將以前看不見的輸入提供給學(xué)習(xí)模型，使用其輸出作為相應(yīng)標(biāo)簽的預(yù)測。圖 1.3.1。

https://file.elecfans.com/web2/M00/A9/A4/pYYBAGR5TX6AVQ1oAAEU7Ladj7U685.svg

圖 1.3.1監(jiān)督學(xué)習(xí)。

1.3.1.1. 回歸

也許最簡單的監(jiān)督學(xué)習(xí)任務(wù)就是回歸。例如，考慮從房屋銷售數(shù)據(jù)庫中收集的一組數(shù)據(jù)。我們可以構(gòu)建一個表，其中每一行對應(yīng)不同的房子，每一列對應(yīng)一些相關(guān)屬性，例如房子的平方英尺、臥室數(shù)、浴室數(shù)和分鐘數(shù)（步行) 到市中心。在這個數(shù)據(jù)集中，每個例子都是一個特定的房子，對應(yīng)的特征向量是表格中的一行。如果你住在紐約或舊金山，而且你不是亞馬遜、谷歌、微軟或 Facebook 的首席執(zhí)行官，那么你家的（平方英尺、臥室數(shù)量、浴室數(shù)量、步行距離）特征向量可能看起來像：\([600, 1, 1, 60]\). 然而，如果你住在匹茲堡，它可能看起來更像\([3000, 4, 3, 10]\). 像這樣的固定長度特征向量對于大多數(shù)經(jīng)典機器學(xué)習(xí)算法來說都是必不可少的。

使問題回歸的實際上是目標(biāo)的形式。假設(shè)您正在市場上購買新房。考慮到上述某些特征，您可能想要估算房屋的公平市場價值。這里的數(shù)據(jù)可能包括歷史房屋清單，標(biāo)簽可能是觀察到的銷售價格。當(dāng)標(biāo)簽采用任意數(shù)值（即使在某個區(qū)間內(nèi)）時，我們稱之為回歸問題。目標(biāo)是生成一個模型，其預(yù)測非常接近實際標(biāo)簽值。

許多實際問題很容易描述為回歸問題。預(yù)測用戶對電影的評分可以被認(rèn)為是一個回歸問題，如果你在 2009 年設(shè)計了一個偉大的算法來完成這一壯舉，你可能會贏得 100 萬美元的 Netflix獎。預(yù)測患者住院時間的長短也是一個回歸問題。一個好的經(jīng)驗法則是多少？或者有多少？問題應(yīng)該建議回歸，例如：

這個手術(shù)需要幾個小時？
這個鎮(zhèn)在接下來的六個小時內(nèi)會有多少降雨量？

即使您以前從未接觸過機器學(xué)習(xí)，您也可能非正式地解決過回歸問題。想象一下，例如，您修理了下水道，而您的承包商花了 3 個小時從污水管道中清除垃圾。然后他寄給你一張 350 美元的賬單。現(xiàn)在想象一下，您的朋友雇用了同一個承包商 2 小時，他收到了一張 250 美元的賬單。如果隨后有人問你對他們即將開出的清除垃圾發(fā)票的期望值是多少，你可能會做出一些合理的假設(shè)，比如工作更多的時間會花費更多的錢。您可能還假設(shè)有一些基本費用，然后承包商按小時收費。如果這些假設(shè)成立，那么根據(jù)這兩個數(shù)據(jù)示例，您已經(jīng)可以確定承包商的定價結(jié)構(gòu)：每小時 100 美元外加 50 美元出現(xiàn)在你家。如果你遵循了這么多，那么你已經(jīng)理解了線性回歸背后的高級思想。

在這種情況下，我們可以生成與承包商價格完全匹配的參數(shù)。有時這是不可能的，例如，如果某些差異歸因于除您的兩個特征之外的幾個因素。在這些情況下，我們將嘗試學(xué)習(xí)最小化我們的預(yù)測與觀察值之間的距離的模型。在我們的大部分章節(jié)中，我們將重點關(guān)注最小化平方誤差損失函數(shù)。正如我們稍后將看到的，這種損失對應(yīng)于我們的數(shù)據(jù)被高斯噪聲破壞的假設(shè)。