近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰寫的新書《AUTOML:方法,系統(tǒng),挑戰(zhàn)》221頁的草稿版本已經放出,詳細講解了AutoML系統(tǒng)背后的基礎知識,以及對當前AutoML系統(tǒng)進行了深入描述。新書將由NIPS 2018出版發(fā)行。
近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰寫的《AUTOML:方法,系統(tǒng),挑戰(zhàn)》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221頁的草稿版本已經放出,詳細講解了所有AutoML系統(tǒng)背后的基礎知識,以及對當前AutoML系統(tǒng)進行了深入描述,Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等,最后介紹了AutoML的挑戰(zhàn)。作者當前正在完成這本新書的編輯工作,它將由NIPS 2018出版發(fā)行。
如果你用過機器學習算法,那一定體驗被算法調參支配的恐怖。面對錯綜復雜的算法參數,算法使用者們往往要花費無盡的黑夜去不斷嘗試,猶如大海撈針。有的時候加班到深夜,終于找到了一個靠譜的參數組合,然而找到的參數組合真的是最優(yōu)的么?天知道。
然而在搭建機器學習鏈路的過程中,往往不止調參這一步耗時耗力。好不容易生成了算法模型,怎么把模型部署成服務供手機、PC這些終端調用也是困擾開發(fā)同學的一大難題。有的時候,為了打通這樣的鏈路,要耗費整晚的時間調試不同格式的模型和服務端的關聯(lián)。
在2018年谷歌云全球NEXT大會(Google CloudNext 18)上,李飛飛宣布,谷歌AutoML Vision進入公共測試版,并推出了兩款新的AutoML產品:AutoML Natural Language和AutoML Translation。
這個名為Cloud AutoML的宏大項目浮出水面之時,被業(yè)內稱為“Google Cloud發(fā)展的戰(zhàn)略轉型”——一直以來面向機器學習人工智能開發(fā)者的Google Cloud,這次將服務對象轉向了普羅大眾。
當時這一已經從單純的視覺拓展到翻譯、視頻和自然語言處理領域。
谷歌的宏偉愿景由此可見一斑——你只需在改系統(tǒng)中上傳自己的標簽數據,大能得到一個訓練好的機器學習模型。整個過程,從導入數據到標記到模型訓練,都可以通過拖放界面完成。
其實在谷歌發(fā)布AutoML前后,機器學習自動化的產品風潮已經吹起:2017年底,微軟發(fā)布CustomVision.AI,涵蓋圖像、視頻、文本和語音等各個領域。今年 1 月,他們又推出了完全自動化的平臺 Microsoft Custom Vision Services(微軟定制視覺服務)。
此外,另一個比較火爆的AI自動化產品OneClick.AI 是 2017 年底出現在市場上的一個自動化機器學習(AML)平臺,其中既包括傳統(tǒng)的算法,也包括深度學習算法。同年,國內也出現了不少相關產品,稱能夠解放算法工程師,讓AI自動化。
AutoML 是什么?
傳統(tǒng)上,術語AutoML用于描述模型選擇和/或超參數優(yōu)化的自動化方法。這些方法適用于許多類型的算法,例如隨機森林,梯度提升機器(gradient boosting machines),神經網絡等。 AutoML領域包括開源AutoML庫,研討會,研究和比賽。初學者常常覺得他們在為模型測試不同的超參數時通常僅憑猜測,而將這部分過程的自動化可以使機器學習變得更加容易。即使是對經驗豐富的機器學習從業(yè)者而言,這一自動化過程也可以加快他們的速度。
業(yè)內現存有許多AutoML庫,其中最早出現的是AutoWEKA,它于2013年首次發(fā)布,可以自動選擇模型和超參數。其他值得注意的AutoML庫包括auto-sklearn(將AutoWEKA拓展到了python環(huán)境),H2O AutoML和TPOT。 AutoML.org(以前被稱為ML4AAD,Machine Learning for AutomatedAlgorithm Design)小組,自2014年以來一直在ICML機器學習學術會議上組織AutoML研討會。
AutoML 有用嗎?
AutoML提供了一種選擇模型和優(yōu)化超參數的方法。它還可以用于獲取對于一個問題可能性能的基準結果。這是否意味著數據科學家將被取代? 并非如此,因為我們知道,機器學習從業(yè)者還有許多其他事情要做。
對于許多機器學習項目,選擇模型不過是構建機器學習產品復雜過程中的一部分。 正如我在上一篇文章中所述,如果參與者不了解項目各個部分是如何相互關聯(lián)的,那么項目必然會失敗。我能想到過程中可能會涉及的30多個不同步驟。我必須要強調,機器學習(特別是深度學習)中最耗時的兩個方面是清理數據(這是機器學習中不可或缺的一部分)和訓練模型。 雖然AutoML可以幫助選擇模型并選擇超參數,但重要的是,我們仍然要理清有哪些數據科學的技能是需要的以及那些仍未解決的難題。
我將提出一些替代AutoML方法的建議,以使機器學習從業(yè)者在進行最后一步時更有效率。
參考文獻:
1.https://yq.aliyun.com/articles/629037
2.http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml
3.https://www.automl.org/book/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)新書獲取地址:
https://www.automl.org/book/
全文目錄如下:
第一部分:AutoML方法
本部分包含有關所有AutoML系統(tǒng)背后的基礎知識的最新概述。
第1章:超參數優(yōu)化。由Matthias Feurer和Frank Hutter撰寫
第2章:元學習。作者:Joaquin Vanschoren
第3章:神經架構搜索。作者:Thomas Elsken,Jan-Hendrik Metzen和Frank Hutter
第二部分:AutoML系統(tǒng)
本部分包含對各種可用AutoML系統(tǒng)的深入描述,這些系統(tǒng)可用于開箱即用的有效機器學習。
第4章:Auto-WEKA。作者:Lars Kotthoff,Chris Thornton, Holger H. Hoos, Frank Hutter和Kevin Leyton-Brown
第5章:Hyperopt-Sklearn。由Brent Komer和James Bergstra以及Chris Eliasmith撰寫
第6章:Auto-sklearn:高效,強大的自動機器學習。作者:MatthiasFeurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg和Manuel Blum以及Frank Hutter
第7章:自動網絡:自動調參的神經網絡。由Hector Mendoza和Aaron Klein以及Matthias Feurer和Jost Tobias Springenberg以及Matthias Urban和Michael Burkart以及Max Dippel和Marius Lindauer以及Frank Hutter
第8章:TPOT:自動機器學習的工具。作者:Randal S. Olson和Jason H. Moore
第9章:自動統(tǒng)計學家。ChristianSteinruecken和Emma Smith以及David Janz和James Lloyd以及Zoubin Ghahramani
第三部分:AutoML的挑戰(zhàn)
本部分對迄今為止所有的AutoML挑戰(zhàn)進行了深入分析。
第10章:分析2015-2018AutoML一系列挑戰(zhàn)。由Isabelle Guyon,Lisheng Sun-Hosoya,Marc Boull e,Hugo Jair Escalante,Sergio Escalera以及Zhengying Liu,Damir Jajetic,Bisakha Ray,Mehreen Saeed,Michele Sebag,Alexander Statnikov,Wei-Wei Tu和Evelyne Viegas編寫
-
算法
+關注
關注
23文章
4588瀏覽量
92505 -
人工智能
+關注
關注
1789文章
46669瀏覽量
237104 -
機器學習
+關注
關注
66文章
8353瀏覽量
132315
原文標題:告別調參,AutoML新書221頁免費下載
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論