數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)專家有必要閱讀研究論文嗎?
簡(jiǎn)而言之,答案是肯定的。如果你沒有正式的學(xué)術(shù)背景,或者只獲得了機(jī)器學(xué)習(xí)領(lǐng)域的本科學(xué)位,也不要擔(dān)心。
對(duì)于沒有廣泛教育背景的個(gè)人來說,閱讀學(xué)術(shù)研究論文可能會(huì)有威脅。然而,缺乏學(xué)術(shù)閱讀經(jīng)驗(yàn)不應(yīng)妨礙數(shù)據(jù)科學(xué)家利用 machine learning 和 AI development 的寶貴信息和知識(shí)來源。
這篇文章為任何技能水平的數(shù)據(jù)科學(xué)家提供了一個(gè)實(shí)踐教程,他們可以閱讀 NeurIPS 、 JMLR 、 ICML ,以及 等學(xué)術(shù)期刊上發(fā)表的研究論文。
在全神貫注于如何閱讀研究論文之前,學(xué)習(xí)如何閱讀研究論文的第一階段包括選擇相關(guān)主題和研究論文。
步驟 1 :確定一個(gè)主題
機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域擁有大量可以研究的學(xué)科領(lǐng)域。但這并不一定意味著在機(jī)器學(xué)習(xí)中處理每個(gè)主題是最好的選擇。
雖然建議入門級(jí)實(shí)踐者進(jìn)行泛化,但我猜當(dāng)涉及到長(zhǎng)期機(jī)器學(xué)習(xí)時(shí),職業(yè)前景、實(shí)踐者和行業(yè)興趣通常會(huì)轉(zhuǎn)向?qū)I(yè)化。
確定一個(gè)適合的主題可能很難,但很好。不過,經(jīng)驗(yàn)法則是選擇一個(gè) ML 領(lǐng)域,你要么對(duì)獲得專業(yè)職位感興趣,要么已經(jīng)有經(jīng)驗(yàn)。
深度學(xué)習(xí) 是我的興趣之一,我是一名計(jì)算機(jī)視覺工程師,在應(yīng)用程序中使用深度學(xué)習(xí)模型專業(yè)地解決 computer vision 問題。因此,我對(duì)姿勢(shì)估計(jì)、動(dòng)作分類和手勢(shì)識(shí)別等主題感興趣。
基于角色,以下是 ML / DS 職業(yè)和相關(guān)主題要考慮的例子。
圖 1 :機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)角色及相關(guān)主題。作者創(chuàng)造的形象 。
對(duì)于本文,我將選擇姿勢(shì)估計(jì)這一主題進(jìn)行探索,并選擇相關(guān)的研究論文進(jìn)行研究。
第二步:尋找研究論文
在閱讀與機(jī)器學(xué)習(xí)相關(guān)的研究論文、數(shù)據(jù)集、代碼和其他相關(guān)材料時(shí),最優(yōu)秀的工具之一是 PapersWithCode 。
我們使用 PapersWithCode 網(wǎng)站上的搜索引擎來獲取所選主題“姿勢(shì)估計(jì)”的相關(guān)研究論文和內(nèi)容下圖顯示了它是如何完成的。
搜索結(jié)果頁面包含對(duì)搜索主題的簡(jiǎn)短說明,然后是相關(guān)數(shù)據(jù)集、模型、論文和代碼的表格。在不深入太多細(xì)節(jié)的情況下,本用例感興趣的領(lǐng)域是“最偉大的代碼論文”。本節(jié)包含與任務(wù)或主題相關(guān)的論文。出于本文的目的,我將選擇 DensePose :野外密集的人類姿勢(shì)估計(jì) 。
第 3 步:第一步(獲得背景和理解)
在這一點(diǎn)上,我們選擇了一篇研究論文進(jìn)行研究,并準(zhǔn)備從其內(nèi)容中提取任何有價(jià)值的經(jīng)驗(yàn)教訓(xùn)和發(fā)現(xiàn)。
很自然,你的第一個(gè)沖動(dòng)就是開始寫筆記,從頭到尾地閱讀文檔,也許在其間休息一下。然而,為研究論文的內(nèi)容提供一個(gè)上下文是閱讀它的一種更實(shí)際的方式。標(biāo)題、摘要和結(jié)論是理解任何研究論文的三個(gè)關(guān)鍵部分。
您所選論文的第一關(guān)的目標(biāo)是實(shí)現(xiàn)以下目標(biāo):
確保論文是相關(guān)的。
通過學(xué)習(xí)論文的內(nèi)容、方法和發(fā)現(xiàn),了解論文的背景。
認(rèn)識(shí)作者的目標(biāo)、方法和成就。
標(biāo)題
標(biāo)題是作者和讀者之間信息共享的第一點(diǎn)。因此,研究論文的標(biāo)題是直接的,并且以一種不會(huì)留下歧義的方式組成。
研究論文的標(biāo)題是最能說明問題的方面,因?yàn)樗砻髁搜芯颗c你的工作的相關(guān)性。標(biāo)題的重要性在于對(duì)論文的內(nèi)容有一個(gè)簡(jiǎn)要的了解。
在這種情況下,標(biāo)題是“ DensePose :野外密集的人類姿勢(shì)估計(jì)”這提供了一個(gè)工作的廣泛概述,并意味著它將研究如何在高活動(dòng)水平和真實(shí)情況下提供姿勢(shì)估計(jì)。
摘要
摘要部分給出了論文的摘要。這是一個(gè)簡(jiǎn)短的部分,包含 300-500 字,簡(jiǎn)單地告訴你這篇論文是關(guān)于什么的。摘要是一篇簡(jiǎn)短的文章,概述了文章的內(nèi)容、研究人員的目標(biāo)、方法和技巧。
在閱讀機(jī)器學(xué)習(xí)研究論文摘要時(shí),您通常會(huì)遇到提到的數(shù)據(jù)集、方法、算法和其他術(shù)語。與文章內(nèi)容相關(guān)的關(guān)鍵字提供上下文。在這一點(diǎn)上記筆記和跟蹤所有關(guān)鍵字可能會(huì)有所幫助。
對(duì)于論文“ DensePose :野外密集的人類姿勢(shì)估計(jì) ”,我在摘要中確定了以下關(guān)鍵詞:姿勢(shì)估計(jì)、 COCO 數(shù)據(jù)集、 CNN 、基于區(qū)域的模型、實(shí)時(shí)。
總結(jié)
在你第一次通過考試時(shí),從上到下閱讀論文時(shí)會(huì)感到疲勞是很常見的,尤其是對(duì)于沒有高級(jí)學(xué)術(shù)經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家和從業(yè)者來說。雖然在長(zhǎng)時(shí)間的研究之后,從論文的后面部分提取信息可能看起來很乏味,但結(jié)論部分通常很短。因此,建議閱讀第一遍的結(jié)論部分。
結(jié)論部分簡(jiǎn)要概述了該作品的作者和/或貢獻(xiàn)、成就以及對(duì)未來發(fā)展和局限性的承諾。
在閱讀研究論文的主要內(nèi)容之前,先閱讀結(jié)論部分,看看研究者的貢獻(xiàn)、問題領(lǐng)域和結(jié)果是否符合你的需要。
遵循這一簡(jiǎn)單的第一步可以充分理解和概述研究論文的范圍和目標(biāo),以及內(nèi)容的背景。你可以用激光注意力再次瀏覽,從內(nèi)容中獲得更詳細(xì)的信息。
第 4 步:第二關(guān)(內(nèi)容熟悉)
內(nèi)容熟悉是一個(gè)與初始步驟相關(guān)的過程。閱讀本文研究論文的系統(tǒng)方法。熟悉過程是一個(gè)步驟,包括研究論文的引言部分和圖表。
如前所述,不需要直接深入研究論文的核心,因?yàn)橹R(shí)適應(yīng)可以在以后的過程中更輕松、更全面地檢查研究。
介紹
研究論文的導(dǎo)論部分旨在概述研究工作的目標(biāo)。該目標(biāo)提及并解釋了問題領(lǐng)域、研究范圍、先前的研究工作和方法。
使用相似或不同的方法,在這一領(lǐng)域找到與過去研究工作相似的地方是很正常的。其他論文的引用提供了問題領(lǐng)域的范圍和廣度,為讀者拓寬了探索領(lǐng)域。在這一點(diǎn)上,合并步驟 3 中概述的程序就足夠了。
導(dǎo)言部分提供的另一個(gè)好處是提供了接觸和理解研究論文內(nèi)容所需的必要知識(shí)。
圖表
研究論文中的說明性材料確保讀者能夠理解支持問題定義或所提出方法解釋的因素。通常,研究論文中使用表格來提供與類似方法相比的新技術(shù)定量性能的信息。
圖 4 : 顯示 DensePose 與其他單人姿勢(shì)估計(jì)解決方案比較的圖像。
一般來說,數(shù)據(jù)和性能的可視化表示可以幫助您直觀地理解論文的上下文。在前面提到的密集姿勢(shì)論文中,使用插圖描述了作者姿勢(shì)估計(jì)和創(chuàng)建方法的性能。全面了解生成和注釋數(shù)據(jù)樣本所涉及的步驟。
在深度學(xué)習(xí)領(lǐng)域,經(jīng)常會(huì)發(fā)現(xiàn)描述人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)鋱D。這再次為任何讀者創(chuàng)造了直觀的理解。通過插圖和數(shù)字,讀者可以自己解釋信息,并獲得更全面的觀點(diǎn),而不必對(duì)結(jié)果有任何先入為主的概念。
圖 5 : 顯示 DensePose 交叉級(jí)聯(lián)架構(gòu)的圖像。
第五步:第三遍(深度閱讀)
論文的第三遍與第二遍相似,盡管它涵蓋了正文的大部分。關(guān)于這個(gè)過程最重要的一點(diǎn)是,你要避免任何復(fù)雜的算術(shù)或技術(shù)公式,這對(duì)你來說可能是困難的。在此過程中,您還可以跳過任何您不理解或不熟悉的單詞和定義。應(yīng)注意這些不熟悉的術(shù)語、算法或技術(shù),以便稍后返回。
在本課程中,你的主要目標(biāo)是對(duì)論文內(nèi)容有一個(gè)廣泛的了解。接近論文,從摘要到結(jié)論再開始,但一定要在各部分之間進(jìn)行中間休息。此外,建議有一個(gè)記事本,在記事本中記錄所有重要的見解和收獲,以及不熟悉的術(shù)語和概念。
Pomodoro 技術(shù)是管理深度閱讀或?qū)W習(xí)時(shí)間的有效方法。簡(jiǎn)單地說, Pomodoro 技術(shù)將一天分成幾部分工作,然后是短暫的休息。
對(duì)我有效的是 50 / 15 分割,也就是說, 50 分鐘的學(xué)習(xí)和 15 分鐘的休息時(shí)間。我傾向于在延長(zhǎng) 30 分鐘的休息時(shí)間之前,連續(xù)執(zhí)行兩次分割。如果您不熟悉這種時(shí)間管理技巧,請(qǐng)采用相對(duì)簡(jiǎn)單的劃分,如 25 / 5 ,并根據(jù)您的注意力和時(shí)間容量調(diào)整時(shí)間劃分。
第六步:第四關(guān)(最后一關(guān))
最后一關(guān)通常涉及到發(fā)揮你的智力和學(xué)習(xí)能力,因?yàn)樗婕暗皆谇耙魂P(guān)中提到的不熟悉的術(shù)語、術(shù)語、概念和算法。這一關(guān)的重點(diǎn)是使用外部材料來理解論文中記錄的不熟悉的方面。
對(duì)不熟悉的主題進(jìn)行深入研究沒有規(guī)定的時(shí)間長(zhǎng)度,有時(shí)甚至需要幾天或幾周的時(shí)間。最終成功通過的關(guān)鍵因素是為進(jìn)一步勘探找到合適的油源。
不幸的是,互聯(lián)網(wǎng)上沒有一個(gè)來源能提供你所需要的豐富信息。盡管如此,有多個(gè)來源,如果協(xié)調(diào)使用并適當(dāng)使用,可以填補(bǔ)知識(shí)空白。下面是其中的一些資源。
機(jī)器學(xué)習(xí)子系統(tǒng)
深度學(xué)習(xí)子系統(tǒng)
PapersWithCode
頂級(jí)會(huì)議搜索為 NIPS 、 ICML 、 ICLR
Research Gate
機(jī)器學(xué)習(xí)蘋果
研究論文的參考部分提到了技術(shù)和算法。因此,當(dāng)前的論文要么從中汲取靈感,要么以之為基礎(chǔ),這就是為什么參考部分是一個(gè)有用的來源,可用于您的深度閱讀課程。
步驟 7 :摘要(可選)
在近十年的與技術(shù)相關(guān)的學(xué)科和角色的學(xué)術(shù)和專業(yè)研究中,通過重述所探索的主題,確保所學(xué)到的任何新信息保留在我的長(zhǎng)期記憶中的最有效方法。通過用我自己的語言重寫新信息,無論是書面的還是打字的,我都能夠以一種可理解和令人難忘的方式強(qiáng)化提出的觀點(diǎn)。
更進(jìn)一步,可以通過博客平臺(tái)和社交媒體宣傳學(xué)習(xí)成果和筆記。試圖向廣大讀者解釋新探索的概念,假設(shè)讀者不習(xí)慣該主題或主題,則需要理解主題的內(nèi)在細(xì)節(jié)。
結(jié)論
毫無疑問,為新手?jǐn)?shù)據(jù)科學(xué)家和 ML 實(shí)踐者閱讀研究論文是令人畏懼和具有挑戰(zhàn)性的;即使是經(jīng)驗(yàn)豐富的實(shí)踐者也發(fā)現(xiàn)很難一次成功地消化研究論文的內(nèi)容。
數(shù)據(jù)科學(xué)專業(yè)的性質(zhì)是非常實(shí)用和涉及的。這意味著,數(shù)據(jù)科學(xué)領(lǐng)域與人工智能密切相關(guān),人工智能仍然是一個(gè)發(fā)展中的領(lǐng)域,因此,它的從業(yè)者必須具備學(xué)術(shù)思維。
總而言之,以下是閱讀研究論文應(yīng)遵循的所有步驟:
確定一個(gè)主題。
尋找相關(guān)研究論文
閱讀標(biāo)題、摘要和結(jié)論,對(duì)研究工作目標(biāo)和成果有一個(gè)模糊的理解。
通過深入介紹,熟悉內(nèi)容;包括對(duì)文中給出的圖形和圖表的探索。
在自上而下閱讀論文的過程中,利用深度閱讀課程來消化論文的主要內(nèi)容。
使用外部資源探索不熟悉的術(shù)語、術(shù)語、概念和方法。
用你自己的話總結(jié)基本的要點(diǎn)、定義和算法。
關(guān)于作者
Richmond Alake 是一名機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺工程師,他與多家初創(chuàng)公司和公司合作,整合深度學(xué)習(xí)模型,以解決商業(yè)應(yīng)用中的計(jì)算機(jī)視覺任務(wù)。
審核編輯:郭婷
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131867 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120599
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論