原提問(wèn):
計(jì)算機(jī)視覺(jué)伴隨多個(gè)SOTA的完善和推進(jìn),已經(jīng)進(jìn)去深水區(qū),各個(gè)論壇社區(qū)的畢業(yè)生和從業(yè)者都一片卷聲,大呼卷的不行,各種勸退,認(rèn)為NLP目前才是藍(lán)海,是未來(lái)深度學(xué)習(xí)的自由之地。那么實(shí)際情況是怎么樣的呢?是因?yàn)镃V對(duì)硬件有要求而NLP不需要硬件還是技術(shù)門檻過(guò)低,亦或是從業(yè)人員眾多等。那么未來(lái)的深度學(xué)習(xí)應(yīng)用應(yīng)該朝哪個(gè)方向發(fā)力呢,才能做大蛋糕?
謝凌曦:
我沒(méi)看錯(cuò)吧?NLP是一片藍(lán)海是自由之地?CV比較完善進(jìn)入了深水區(qū)?一時(shí)間,我都不知道應(yīng)該從哪個(gè)點(diǎn)開(kāi)始吐槽了。
因?yàn)轭}主問(wèn)到了CV和NLP的比較。如果一定要橫向?qū)Ρ鹊脑?,那么CV和NLP長(zhǎng)期以來(lái)是互相學(xué)習(xí)、互相趕超的關(guān)系。雖然同屬于AI這個(gè)大領(lǐng)域,也同樣具有不確定性因而概率類方法占據(jù)絕對(duì)優(yōu)勢(shì),但兩者的性質(zhì)還是存在諸多不同。具體來(lái)說(shuō):
CV信號(hào)是天然存在的,而NLP信號(hào)是人類創(chuàng)造出來(lái)、用于存儲(chǔ)知識(shí)的。因此,CV信號(hào)維度高、信息密度低,而NLP信號(hào)維度低、信息密度高。這就意味著在NLP信號(hào)上進(jìn)行自監(jiān)督學(xué)習(xí)更容易,也意味著要在CV信號(hào)上進(jìn)行自監(jiān)督學(xué)習(xí),需要事先進(jìn)行某種意義上的信息提純。
CV信號(hào)描述了對(duì)象的細(xì)節(jié),具有一定的冗余度,而NLP信號(hào)是對(duì)象的抽象化描述,具有一定的模糊性。CV信號(hào)是層次化的,而NLP信號(hào)是結(jié)構(gòu)化的。這些明顯的對(duì)比,意味著要想在CV和NLP領(lǐng)域產(chǎn)生初級(jí)技術(shù)應(yīng)用,算法需要關(guān)注的點(diǎn)是不一樣的。CV更關(guān)注特征的抽象和domain之間的遷移,而NLP更關(guān)注單詞間的聯(lián)系和消歧義,等等。
當(dāng)前,CV和NLP面臨的共同困難,都是標(biāo)注信息的不完善——簡(jiǎn)單地說(shuō),人類提供的標(biāo)簽已經(jīng)無(wú)法很好地指導(dǎo)學(xué)習(xí)過(guò)程,具體描述可以參考我昨天寫的另一個(gè)回答:
目前計(jì)算機(jī)視覺(jué)中的很多自監(jiān)督方法的下游任務(wù)用有監(jiān)督分類的意義是什么?
這也就意味著,有監(jiān)督學(xué)習(xí)的紅利已經(jīng)基本吃完,業(yè)界急需從無(wú)標(biāo)簽數(shù)據(jù)中獲取邁向下一代人工智能的鑰匙。雖然這把鑰匙仍未找到,但是我們基本可以確定大規(guī)模上游預(yù)訓(xùn)練+小規(guī)模下游微調(diào)的套路。NLP已經(jīng)部分走通了這條路——雖然現(xiàn)在的GPT-3被批評(píng)為只有記憶沒(méi)有常識(shí),但是長(zhǎng)遠(yuǎn)看,這條路應(yīng)該是通的;而CV也需要迎頭趕上。
警告:以下是猜測(cè)
如果對(duì)CV的未來(lái)走向進(jìn)行判斷,我認(rèn)為一種很可能發(fā)生情況是復(fù)刻N(yùn)LP的軌跡,由大廠完成超大規(guī)模圖像預(yù)訓(xùn)練模型,隨后將模型release給廣大開(kāi)發(fā)者使用。這條路一旦走通,將會(huì)深遠(yuǎn)地改變當(dāng)前CV的格局和開(kāi)發(fā)模式。當(dāng)然,對(duì)于廣大開(kāi)發(fā)者而言,適應(yīng)新的算法并不困難,適應(yīng)新的生態(tài)可能會(huì)有一定的挑戰(zhàn)。
最后,談到內(nèi)卷的問(wèn)題。內(nèi)卷永遠(yuǎn)是存在的,只要大家認(rèn)為這個(gè)領(lǐng)域的從業(yè)者的數(shù)量超過(guò)了它能夠?qū)嶋H養(yǎng)活的數(shù)量。我對(duì)這個(gè)問(wèn)題的看法是,CV在實(shí)際應(yīng)用上的潛力遠(yuǎn)沒(méi)有被發(fā)揮出來(lái)。如果更先進(jìn)的技術(shù)路線能夠達(dá)成,那么整個(gè)行業(yè)能養(yǎng)活的工程師數(shù)量一定會(huì)增加,到時(shí)候還會(huì)不會(huì)卷,就看會(huì)不會(huì)有更多人跳進(jìn)這個(gè)坑里來(lái)了。
韋仕才:
作為一名入門煉丹師我來(lái)談?wù)勎业挠^點(diǎn)。
首先關(guān)于卷的這個(gè)問(wèn)題,我覺(jué)得并不僅僅是因?yàn)榛蛘咚艽蟪潭炔皇且驗(yàn)檎f(shuō)cv入門門檻低,或者深度學(xué)習(xí)入門門檻低啥的,好歹它還需一塊1080ti+是吧。看看隔壁的JAVA,那個(gè)真是有手就行(狗頭),但是你看有人說(shuō)開(kāi)發(fā)崗卷嗎?想必?zé)o數(shù)學(xué)長(zhǎng)學(xué)姐都告訴過(guò)大家,遇事不決就學(xué)JAVA,或者再加點(diǎn)c++。而大家,至少我應(yīng)該是幾乎沒(méi)聽(tīng)過(guò)說(shuō)JAVA開(kāi)發(fā)崗一片紅海找不到工作啥的,至多就是入職的996,35歲的中年危機(jī)。甚至我認(rèn)識(shí)的人很多是深度學(xué)習(xí)搞不下去了,找不到工作了,半年速成JAVA去找了開(kāi)發(fā)的工作。同樣都是那么多人入門,甚至轉(zhuǎn)開(kāi)發(fā)和JAVA的人更多,為啥就深度學(xué)習(xí)一片紅海,問(wèn)題出在哪呢?
問(wèn)題的核心其實(shí)在于供需失衡。首先是供給方,注意深度學(xué)習(xí)的紅利是真的曾經(jīng)存在過(guò)的!?。?,并不從一開(kāi)始就是泡沫。在15-17年那會(huì),前景看起來(lái)一片光明,學(xué)生們看到深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)帶來(lái)的巨大福利,老師們看到這個(gè)東西好發(fā)文章,申項(xiàng)目,于是紛紛轉(zhuǎn)向深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)。特別是隨著深度學(xué)習(xí)框架的普及和硬件資源的不斷升級(jí), 深度學(xué)習(xí)的入門門檻越來(lái)越低, 兩個(gè)月入門真的不是夢(mèng)想。就連李飛飛,吳恩達(dá),bengio,blabla等各路大神都紛紛離校創(chuàng)業(yè)或從業(yè),所以大家沒(méi)忍住誘惑走進(jìn)了這個(gè)坑真怪不了什么,我也沒(méi)忍住,畢竟那時(shí)候誰(shuí)能想到會(huì)是現(xiàn)在這樣,一切看起來(lái)都非常美好,智能時(shí)代仿佛近在眼前。但是現(xiàn)在在呢? 李飛飛又回到了斯坦福, 吳恩達(dá)開(kāi)始去搞教育, bengio的公司或許將要賤賣(以低于融資成本的價(jià)格賣出),知乎上開(kāi)始出現(xiàn)如何看待2019年算法崗一篇紅海, 2020年算法崗灰飛煙滅, 而我前不久也還在吐槽如何看待深度學(xué)習(xí)復(fù)現(xiàn)難的問(wèn)題。這中間發(fā)生了什么?
這就需要談到需求方的問(wèn)題。首先很明顯的是目前公司對(duì)算法崗,深度學(xué)習(xí)需求并沒(méi)有像大家所想象的那么大,不然也不至于出現(xiàn)現(xiàn)在大家所說(shuō)的一片紅?;绎w煙滅的問(wèn)題。可是為什么呢?說(shuō)好的工業(yè)4.0呢,說(shuō)好的光明前景呢?這就要談到另一個(gè)問(wèn)題,什么決定了公司的需求?夢(mèng)想?熱愛(ài)?不,是利益,99.9%公司都是如此。剩下的0.1%也會(huì)慢慢變成如此。這里我想起了之前和師兄的聊天
我的一個(gè)博士師兄是工作之后才來(lái)讀博的,他17年碩士畢業(yè)去了海信做圖像算法,后來(lái)有一天我們一起回寢室,師兄突然說(shuō)起還好辭職,不然現(xiàn)在海信大裁員指不定就裁到他了。我說(shuō)你們不是做算法的嗎,怎么會(huì)裁到你們。師兄說(shuō)裁的就是研發(fā)部門…,也就是算法崗可能的來(lái)源。我當(dāng)時(shí)心想,不應(yīng)該啊,研發(fā)部門不應(yīng)該都是像達(dá)摩院, FAIR這種,關(guān)乎一個(gè)公司能否把握未來(lái)機(jī)遇,抓住下一個(gè)風(fēng)口的重要部門嗎,怎么說(shuō)裁就裁。師兄說(shuō),因?yàn)椴粧赍X啊,我們公司墻上掛滿了各種專利,但是實(shí)際能用來(lái)產(chǎn)生效益的沒(méi)幾個(gè)。不是每一個(gè)公司都能有那么大的魄力和資金投入做自己的算法研發(fā)的。更多是用別人做好的接口開(kāi)發(fā)產(chǎn)品。
而像阿里,曠視,商湯這種提供算法支持的不應(yīng)該有很大的算法崗需求嗎?為什么還是會(huì)卷。其實(shí)他們的需求也沒(méi)那么大,原因還是一樣的,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)并沒(méi)能帶來(lái)大家所期望應(yīng)用和盈利。說(shuō)到這,其實(shí)大家眼里的眼里這些公司也不容易,也卷的不行,那么多公司就分人臉識(shí)別,智能安防等幾個(gè)領(lǐng)域的蛋糕,而且技術(shù)壁壘也沒(méi)有大到非某家不可的地步。而這歸根到底就是現(xiàn)在深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)能落地的場(chǎng)景真的不多。
所以這就談到第二點(diǎn)了,現(xiàn)在計(jì)算機(jī)視覺(jué)的瓶頸。以下觀點(diǎn)更多是從算法落地角度考慮的,可能存在一些局限。
做過(guò)算法落地的人應(yīng)該都深有體會(huì),那些頂刊頂會(huì)上的sota算法,你用到實(shí)際場(chǎng)景里,如果不適用額外數(shù)據(jù)做微調(diào),準(zhǔn)確率掉一個(gè)30%到40%,再正常不過(guò)了。而且很多時(shí)候視任務(wù)的難易程度準(zhǔn)確率從70%到85%甚至90%是可以靠數(shù)據(jù)堆出來(lái)的,但是再往上就沒(méi)那么容易了。當(dāng)然千萬(wàn)級(jí)別甚至更高數(shù)量級(jí)的數(shù)據(jù)那就另說(shuō)了,畢竟人工智能人工智能,有多少人工就有多少智能。即使如此還會(huì)有極端情況存在你加數(shù)據(jù)可能都無(wú)法解決
研一那會(huì)跟著師兄參加過(guò)一個(gè)復(fù)雜環(huán)境下人臉檢測(cè)識(shí)別挑戰(zhàn)賽,做的就是監(jiān)控視頻下白天黑夜各種復(fù)雜場(chǎng)景下的人臉識(shí)別。大家一看人臉識(shí)別,這不是做爛了嗎,還有什么好做的?我當(dāng)時(shí)也這么想,師兄可能開(kāi)始也這么想,然后師兄兩年就花在了上面,后來(lái)表示非常后悔。當(dāng)時(shí)的情況就是白天下還好,基本都能識(shí)別差不多,黑夜路燈下,準(zhǔn)確率極劇降到了10%各種優(yōu)化弄到20%就已經(jīng)慘不忍睹了,就這還拿了第五名。前面的是一起參賽的還有大華,云從這些大廠,這里就說(shuō)說(shuō)大華,專業(yè)做安防的,他們最后黑夜環(huán)境下準(zhǔn)確率大概是70%,而且這里還不確實(shí)他們是不是用了自己的數(shù)據(jù),總之我們是沒(méi)數(shù)據(jù)。
數(shù)據(jù)都不能解決,但還是要用,那怎么辦,一般就只能限制場(chǎng)景,麻煩用戶了?,F(xiàn)在大家所能看到的落地應(yīng)用多半是在一個(gè)盡量不影響用戶體驗(yàn)的場(chǎng)景限制里,采集海量數(shù)據(jù)集,擬合一個(gè)模型然后使用。這個(gè)過(guò)程中真正起了大作用的,不是大家以為的那些sota模型,而是那些場(chǎng)景的約束和海量數(shù)據(jù)。以我做的活體檢測(cè)為例,現(xiàn)在也有落地的應(yīng)用了,阿里,小視科技,但是你們?nèi)ビ玫臅r(shí)候它都會(huì)有請(qǐng)靠近遠(yuǎn)離攝像頭讓你距離攝像頭的位置在指定距離,請(qǐng)保持靜止blabla一些限制,甚至有時(shí)候我都已經(jīng)在這個(gè)范圍里還不給我檢測(cè),用的賊惡心。這些限制能不能不要?不行,因?yàn)椴患舆@東西就解決不了。
緊接著上面就是關(guān)于計(jì)算機(jī)視覺(jué)的未來(lái)。我始終認(rèn)為技術(shù)發(fā)展的終點(diǎn)就是產(chǎn)品,能夠切實(shí)的落地影響或改變?nèi)藗兊纳?,解決人們的實(shí)際需求。所以我一直覺(jué)得我今后會(huì)是一個(gè)工程師而不是科學(xué)家。而如果從這個(gè)角度看計(jì)算機(jī)視覺(jué)的未來(lái)那就是這樣的。
我數(shù)據(jù)量不夠的怎么辦——小樣本學(xué)習(xí),遷移學(xué)習(xí)。
數(shù)據(jù)標(biāo)注成本高怎么辦——半監(jiān)督,無(wú)監(jiān)督。
我數(shù)據(jù)分布不均衡怎么辦——長(zhǎng)尾分布。
如何利用各種可能的數(shù)據(jù)來(lái)優(yōu)化提高模型性能——多模態(tài)學(xué)習(xí)。
如何適應(yīng)復(fù)雜場(chǎng)景(自然的,人為的)——深度學(xué)習(xí)的魯棒性,泛化性研究,對(duì)抗學(xué)習(xí)。
算法出問(wèn)題我怎么糾正和修改——深度學(xué)習(xí)可解釋性問(wèn)題。
我的模型怎么快速高效部署用于實(shí)際產(chǎn)品——機(jī)器學(xué)習(xí)系統(tǒng),深度學(xué)習(xí)框架研究,模型壓縮
吉恒杉:
在企業(yè)里從事三年多cv業(yè)務(wù),感覺(jué)cv還是有很多東西沒(méi)有解決,比如類別無(wú)關(guān)的檢測(cè)問(wèn)題,圖像去模糊,畫質(zhì)評(píng)估,美學(xué)度量,以及和nlp的跨模態(tài)檢索等。由于cv開(kāi)源的好項(xiàng)目很多,整體開(kāi)箱可用率高,入門門檻低,前兩三年入坑的人也比較多,導(dǎo)致現(xiàn)在內(nèi)卷嚴(yán)重,這是實(shí)情,所以在招聘cv崗位的時(shí)候動(dòng)輒要求發(fā)表幾篇a類文章,競(jìng)爭(zhēng)還是很激烈的。加上今年經(jīng)濟(jì)形勢(shì)嚴(yán)重,不掙錢的業(yè)務(wù)招聘名額會(huì)縮減,所以建議想從事cv的同事盡量挑選李業(yè)務(wù)線比較近的部門,比如阿里的電商部門(打個(gè)小廣告,我們部門還有招聘名額,歡迎有意向點(diǎn)同事發(fā)簡(jiǎn)歷到 hengshan.jhs@alibaba-inc.com)。關(guān)于nlp,現(xiàn)在算法幾乎都是bert,transformer,關(guān)鍵看怎么抽象業(yè)務(wù)問(wèn)題,由于nlp的落地比cv要好一點(diǎn),所以nlp找工作確實(shí)比cv好找一點(diǎn)。但是nlp內(nèi)卷也會(huì)越來(lái)越嚴(yán)重。至于長(zhǎng)期cv的走向,可能還得跟學(xué)術(shù)的發(fā)展,可能跨模態(tài)檢索最近會(huì)好過(guò)一點(diǎn),cv一些問(wèn)題用nlp的transformer可以解決,感覺(jué)cv和nlp有統(tǒng)一起來(lái)的趨勢(shì)。
機(jī)器學(xué)習(xí)入坑者:
先來(lái)說(shuō)說(shuō)學(xué)界的寫論文,CV領(lǐng)域的難度很小,為啥?
因?yàn)椋捍a開(kāi)源+數(shù)據(jù)共享。
就拿目標(biāo)檢測(cè)或者圖像分割來(lái)說(shuō),github上面一堆優(yōu)秀的開(kāi)源項(xiàng)目,只要一鍵clone就能省去繁瑣的實(shí)驗(yàn)流程。
所以,搞CV的同學(xué)說(shuō):“我在辛辛苦苦做實(shí)驗(yàn)??!
”背后的潛臺(tái)詞可能是:“我下載了一份代碼,有幾個(gè)bug,應(yīng)該是python或者是pytorch的版本不對(duì)應(yīng)造成的,我重裝一下框架和cuda吧??!”
或者是潛臺(tái)詞是:“我的數(shù)據(jù)集格式和這個(gè)作者的不太一樣,怎么才能讀進(jìn)去呢?”
對(duì)于頂刊頂會(huì)論文,對(duì)于國(guó)內(nèi)大部分的課題組是無(wú)關(guān)緊要的,只要能發(fā)個(gè)SCI就算達(dá)標(biāo)了,有些學(xué)校只需要發(fā)中文核心。畢竟,每年發(fā)cvpr的幾個(gè)實(shí)驗(yàn)室,無(wú)非就是幾個(gè)名校和大廠。
對(duì)于導(dǎo)師來(lái)說(shuō),讓學(xué)生跑CV的實(shí)驗(yàn),數(shù)據(jù)可靠性也更高。為啥呢?
就拿圖像分類問(wèn)題來(lái)說(shuō),可以改一改ResNet的層數(shù),然后應(yīng)用到葉片病害分類、缺陷分類或者是其它的分類任務(wù)之中。
實(shí)驗(yàn)得到的數(shù)據(jù),通過(guò)預(yù)估甚至都能猜個(gè)差不多。比如論文A采用ResNet在工業(yè)數(shù)據(jù)集上獲得了88%的分類準(zhǔn)確率,某個(gè)論文B通過(guò)對(duì)ResNet的層數(shù)進(jìn)行增加或者刪減,或者是采用多尺度的策略,總是可以提升1-2%的準(zhǔn)確率。
都說(shuō)深度學(xué)習(xí)的結(jié)果很玄學(xué),但實(shí)際上,數(shù)據(jù)量充足的情況下總是可以通過(guò)提升算力來(lái)增強(qiáng)模型的性能。
fwtan:
多看看大佬的slides:Computer Vision: Looking Back to Look Forward, 覺(jué)得卷是因?yàn)榇蟛糠謈v從業(yè)者未必能把里面的每一頁(yè)都看懂
愛(ài)因斯坦:
cv小菜雞說(shuō)下自己的看法。
對(duì)于普通從業(yè)者來(lái)說(shuō),CV卷分為在學(xué)校卷和在企業(yè)卷。在學(xué)校卷原因是這個(gè)玩意入門門檻低,好發(fā)論文,和哪個(gè)領(lǐng)域都能排列組合一下,導(dǎo)致做這個(gè)的老師變多,進(jìn)而導(dǎo)致做這個(gè)的碩博變多;在企業(yè)卷是因?yàn)镃V資本泡沫還是有一些,各大獨(dú)角獸吸納了大量CV人才,之后餅畫不下去了,這些人就要一起競(jìng)爭(zhēng)。NLP看卷不卷同理,我認(rèn)為是要比CV好不少的,不過(guò)難保成為下一個(gè)卷起來(lái)的方向。
從未來(lái)應(yīng)用角度,感覺(jué)CV目標(biāo)是取代低端重復(fù)工作,NLP對(duì)應(yīng)的則是取代人,有點(diǎn)強(qiáng)ai的意思,有點(diǎn)遙遠(yuǎn),至少未來(lái)感覺(jué)CV還是要比NLP應(yīng)用廣闊很多的,無(wú)人車/醫(yī)療/工業(yè)/測(cè)繪/ARVR等。
不管是CV還是NLP,都是偏技術(shù)線,建議讀個(gè)博士,或者發(fā)幾篇頂會(huì),搞這些一個(gè)很大好處是可以最大限度發(fā)揮自己的科研經(jīng)歷的優(yōu)勢(shì)。選擇一個(gè)領(lǐng)域肯定要有做好的信心嘛,所以雖然CV卷了點(diǎn),但如果能做好覺(jué)得在十年的短期內(nèi)選CV還是好點(diǎn)的。
個(gè)人見(jiàn)解,如有錯(cuò)誤還請(qǐng)指正哈
責(zé)任編輯:lq
-
CV
+關(guān)注
關(guān)注
0文章
51瀏覽量
16801 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1685瀏覽量
45816 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5424瀏覽量
120628
原文標(biāo)題:如何看待計(jì)算機(jī)視覺(jué)未來(lái)的走向?
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論