不管你是機器學習的初學者,還是中級程序員,你都可能此問題感到困惑。如何建立備忘單?從本文中你能學到什么?
在機器學習中,沒有任何一種方案可以解決所有問題。由于算法種類繁多,很難找出正確的算法來解決問題。
不過無需擔心,在本文中,我們將介紹如何使用備忘單簡化機器學習方法,你可以使用該備忘單選擇適合解決問題的正確算法。
以下為備忘單-你需要了解機器學習的技巧。
備忘單使用指南
選擇算法時需要考慮的因素
有幾個因素會影響你的選擇。有一些問題較為特殊,需要專門的方法解決。例如,推薦系統(tǒng)可用于解決此類問題。雖然某些類型的問題是開放的,但它們需要反復試驗、排除錯誤。監(jiān)督學習、分類和回歸是解決開放類問題的方案。
你想對數據執(zhí)行什么操作—分類、回歸還是聚類?
大小:在選擇算法時,數據集的大小(無論大?。┖苤匾?。
質量:你的數據集中有多少變化,數據集是否平衡。
數據性質:我們是否標記了數據?模型的輸入和輸出如何表示?
時間可用性:你需要花費多少時間來構建和訓練模型。某些模型可以更快地構建,但準確性會遜色一些。
速度或準確性:對于可用于生產的模型,你可能對準確性有較高的要求,但有時計算速度更快的快速工作模型就可以滿足你的需求。
若想使用備忘單,你只需查看圖表上的選擇標簽,然后移向回答問題的箭頭。例如:
如果你想減少維度數量并且不需要主題建模,請使用PCA。
如果要預測某個變量的數值,且需要較高的準確性,則應嘗試使用“隨機森林”、“神經網絡”或“梯度提升”樹。
如果你沒有標記數據并想執(zhí)行聚類,則可以使用k-近鄰聚類算法。
選擇正確的算法
值得一提的是,即使是經驗豐富的數據科學家也無法在不嘗試其他算法的情況下分辨出哪種算法效果最好。條條大路通羅馬,該備忘單可能不是解決問題的唯一方法。該備忘單僅希望為你提供基于已知因素可以使用哪些算法的指導。
機器學習算法的類型
來源:zhihu
1. 監(jiān)督學習
監(jiān)督學習算法即對操作的直接監(jiān)督。我們使用數據來教導或訓練機器,這意味著數據被標記了正確的答案。使用一種算法來分析訓練數據并獲得輸入與輸出映射的功能。然后,可以根據訓練數據進行概括,使用該函數來預測未知輸入的輸出。監(jiān)督學習基本上用于以下兩種類型的問題。
分類:在分類問題中,你需要找到輸入數據的類別。例如,將圖像分類為“狗”或“貓”。
回歸:在回歸問題中,輸出為實數值。請嘗試根據輸入來預測變量的值。
2. 半監(jiān)督學習
監(jiān)督學習需要使用已標記的數據,如果其他人沒有從事類似項目,則要查找或生成這些數據可能會很困難。在半監(jiān)督方法中,我們將某些標記數據與未標記數據一起使用。
如你所見,數據沒有完全標記,這就是將其稱為半監(jiān)督學習的原因。通過將標記數據與未標記數據結合使用,可以提高模型的準確性。
3. 無監(jiān)督學習
無監(jiān)督學習應用于未標記的數據。機器必須在沒有任何監(jiān)督的情況下找出數據中的模式、異同之處,執(zhí)行聚類并減少維數。
集群:根據一些標準和相似性,數據被分組為一個或多個集群。例如,根據客戶的購買行為對其進行分組。
降維:某些數據的特征或維度可能并不用于模型訓練。使用某些算法,我們可以避免考慮維度和不相關的特征。此過程稱為降維。
4. 強化學習
強化學習能夠根據環(huán)境的反饋來優(yōu)化代理。當機器做出正確的決定并對其錯誤的決定進行懲罰時,代理商會對其給予獎勵。這項學習不需要我們事先收集數據再清理數據。該系統(tǒng)可自我維持,嘗試在現(xiàn)實世界中自我完善?;趶娀瘜W習的計算機程序AlphaGO擊敗了世界上最厲害的圍棋選手。
尾注
來源:Pexels
機器學習問題可以通過多種方式解決,你可以根據多種因素選擇算法,例如準確性、客觀性、數據大小和數據性質。你也可以參考備忘單,并快速開始構建模型。一旦解決了問題并獲得了結果,就可以進一步探索不同的算法,以找出最適合該特定問題的最佳算法。
評論
查看更多