18禁裸乳无遮挡啪啪无码免费,国产猛烈高潮大叫视频,国产成人精品亚洲av无人区一区

最近，我參加了幾個高強(qiáng)度的學(xué)術(shù)活動，包括CCF計算機(jī)視覺專委會的閉門研討會和VALSE線下大會。經(jīng)過與其他學(xué)者的交流，我產(chǎn)生了許多想法，千頭萬緒，便希望把它們整理下來，供自己和同行們參考。當(dāng)然，受限于個人的水平和研究范圍，文章中一定會存在許多不準(zhǔn)確甚至錯誤的地方，當(dāng)然也不可能覆蓋所有重要的研究方向。我期待與有興趣的學(xué)者們進(jìn)行交流，以充實(shí)這些觀點(diǎn)，更好地探討未來發(fā)展方向。

在這篇文章中，我將會著重分析計算機(jī)視覺領(lǐng)域，特別是視覺感知（即識別）方向所面臨的困難和潛在的研究方向。相較于針對具體算法的細(xì)節(jié)改進(jìn)，我更希望探討當(dāng)前算法（尤其是基于深度學(xué)習(xí)的預(yù)訓(xùn)練+微調(diào)范式）的局限性和瓶頸，并且由此得出初步的發(fā)展性結(jié)論，包括哪些問題是重要的、哪些問題是不重要的、哪些方向值得推進(jìn)、哪些方向的性價比較低，等。

在開始之前，我先畫出如下思維導(dǎo)圖。為了尋找合適的切入點(diǎn)，我將從計算機(jī)視覺和自然語言處理（人工智能中兩個最受關(guān)注的研究方向）的區(qū)別開始談起，引出圖像信號的三個根本性質(zhì)：信息稀疏性、域間差異性、無限粒度性，并將它們與幾個重要的研究方向相對應(yīng)。這樣，我們就能更好地了解每個研究方向所處的狀態(tài)：它已經(jīng)解決了哪些問題、還有哪些重要的問題沒有解決，然后針對性地分析今后的發(fā)展趨勢。

導(dǎo)圖：CV和NLP的差異、CV三大挑戰(zhàn)及應(yīng)對方法

CV的三大基本困難和對應(yīng)的研究方向

一直以來，NLP都走在CV的前面。不論是深度神經(jīng)網(wǎng)絡(luò)超越手工方法，還是預(yù)訓(xùn)練大模型開始出現(xiàn)大一統(tǒng)的趨勢，這些事情都先發(fā)生在NLP領(lǐng)域，并在不久之后被搬運(yùn)到了CV領(lǐng)域。這里的本質(zhì)原因是NLP的起點(diǎn)更高：自然語言的基礎(chǔ)單元是單詞，而圖像的基礎(chǔ)單元是像素；前者具有天然的語義信息，而后者未必能夠表達(dá)語義。從根本上說，自然語言是人類創(chuàng)造出來，用于存儲知識和交流信息的載體，所以必然具有高效和信息密度高的特性；而圖像則是人類通過各種傳感器捕捉的光學(xué)信號，它能夠客觀地反映真實(shí)情況，但相應(yīng)地就不具有強(qiáng)語義，且信息密度可能很低。從另一個角度看，圖像空間比文本空間要大得多，空間的結(jié)構(gòu)也要復(fù)雜得多。這就意味著，如果希望在空間中采樣大量樣本，并且用這些數(shù)據(jù)來表征整個空間的分布，采樣的圖像數(shù)據(jù)就要比采樣的文本數(shù)據(jù)大許多個數(shù)量級。順帶一提，這也是為什么自然語言預(yù)訓(xùn)練模型比視覺預(yù)訓(xùn)練模型用得更好的本質(zhì)原因——我們在后面還會提到這一點(diǎn)。

根據(jù)上述分析，我們已經(jīng)通過CV和NLP的差別，引出了CV的第一個基本困難，即語義稀疏性。而另外兩個困難，域間差異性和無限粒度性，也多少與上述本質(zhì)差別相關(guān)。正是由于圖像采樣時沒有考慮到語義，因而在采樣不同域（即不同分布，如白天和黑夜、晴天和雨天等場景）時，采樣結(jié)果（即圖像像素）與域特性強(qiáng)相關(guān)，導(dǎo)致了域間差異性。同時，由于圖像的基本語義單元很難定義（而文本很容易定義），且圖像所表達(dá)的信息豐富多樣，使得人類能夠從圖像中獲取近乎無限精細(xì)的語義信息，遠(yuǎn)遠(yuǎn)超出當(dāng)前CV領(lǐng)域任何一種評價指標(biāo)所定義的能力，這就是無限粒度性。關(guān)于無限粒度性，我曾經(jīng)寫過一篇文章，專門討論這個問題。

怎樣的視覺識別算法才是完整的？https://zhuanlan.zhihu.com/p/376145664

以上述三大基本困難為牽引，我們將業(yè)界近年來的研究方向總結(jié)如下：

語義稀疏性：解決方案為構(gòu)建高效計算模型（神經(jīng)網(wǎng)絡(luò)）和視覺預(yù)訓(xùn)練。此處的主要邏輯在于，想要提升數(shù)據(jù)的信息密度，就必須假設(shè)數(shù)據(jù)的非均勻分布（信息論）并對其建模（即學(xué)習(xí)數(shù)據(jù)的先驗(yàn)分布）。目前，最為高效的建模方式有兩類，一類是通過神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計，來捕捉數(shù)據(jù)無關(guān)的先驗(yàn)分布（例如卷積模塊對應(yīng)于圖像數(shù)據(jù)的局部性先驗(yàn)、transformer模塊對應(yīng)于圖像數(shù)據(jù)的注意力先驗(yàn)）；一類是通過在大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練，來捕捉數(shù)據(jù)相關(guān)的先驗(yàn)分布。這兩個研究方向，也是視覺識別領(lǐng)域最為基礎(chǔ)、受到關(guān)注最多的研究方向。

域間差異性：解決方案為數(shù)據(jù)高效的微調(diào)算法。根據(jù)以上分析，網(wǎng)絡(luò)體量越大、預(yù)訓(xùn)練數(shù)據(jù)集體量越大，計算模型中存儲的先驗(yàn)就越強(qiáng)。然而，當(dāng)預(yù)訓(xùn)練域和目標(biāo)域的數(shù)據(jù)分布具有較大差異時，這種強(qiáng)先驗(yàn)反而會帶來壞處，因?yàn)樾畔⒄摳嬖V我們：提升某些部分（預(yù)訓(xùn)練域）的信息密度，就一定會降低其他部分（預(yù)訓(xùn)練域沒有包含的部分，即預(yù)訓(xùn)練過程中認(rèn)為不重要的部分）的信息密度?，F(xiàn)實(shí)中，目標(biāo)域很可能部分或者全部落在沒有包含的部分，導(dǎo)致直接遷移預(yù)訓(xùn)練模型的效果很差（即過擬合）。此時，就需要通過在目標(biāo)域進(jìn)行微調(diào)來適應(yīng)新的數(shù)據(jù)分布?？紤]到目標(biāo)域的數(shù)據(jù)體量往往遠(yuǎn)小于預(yù)訓(xùn)練域，因而數(shù)據(jù)高效是必不可少的假設(shè)。此外，從實(shí)用的角度看，模型必須能夠適應(yīng)隨時變化的域，因而終身學(xué)習(xí)是必須。

無限粒度性：解決方案為開放域識別算法。無限粒度性包含開放域特性，是更高的追求目標(biāo)。這個方向的研究還很初步，特別是業(yè)界還沒有能被普遍接受的開放域識別數(shù)據(jù)集和評價指標(biāo)。這里最本質(zhì)的問題之一，是如何向視覺識別中引入開放域能力?？上驳氖?，隨著跨模態(tài)預(yù)訓(xùn)練方法的涌現(xiàn)（特別是2021年的CLIP），自然語言越來越接近成為開放域識別的牽引器，我相信這會是未來2-3年的主流方向。然而，我并不贊成在追求開放域識別的過程中，涌現(xiàn)出的各種zero-shot識別任務(wù)。我認(rèn)為zero-shot本身是一個偽命題，世界上并不存在也不需要zero-shot識別方法?，F(xiàn)有的zero-shot任務(wù)，都是使用不同方法，將信息泄露給算法，而泄露方式的千差萬別，導(dǎo)致不同方法之間難以進(jìn)行公平對比。在這個方向上，我提出了一種被稱為按需視覺識別的方法，以進(jìn)一步揭示、探索視覺識別的無限粒度性。

這里需要做一個補(bǔ)充說明。由于數(shù)據(jù)空間大小和結(jié)構(gòu)復(fù)雜度的差異，至少到目前為止，CV領(lǐng)域還不能通過預(yù)訓(xùn)練模型直接解決域間差異的問題，但是NLP領(lǐng)域已經(jīng)接近了這一點(diǎn)。因此，我們看到了NLP學(xué)者們利用prompt-based方法統(tǒng)一了幾十上百種下游任務(wù)，但是同樣的事情在CV領(lǐng)域并沒有發(fā)生。另外，在NLP中提出來的scaling law，其本質(zhì)在于使用更大的模型來過擬合預(yù)訓(xùn)練數(shù)據(jù)集。也就是說，對于NLP來說，過擬合已經(jīng)不再是一個問題，因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)集配合小型prompt已經(jīng)足以表征整個語義空間的分布。但是，CV領(lǐng)域還沒有做到這一點(diǎn)，因此還需要考慮域遷移，而域遷移的核心在于避免過擬合。也就是說，在接下來2-3年，CV和NLP的研究重心會有很大的差異，因而將任何一個方向的思維模式生搬硬套在另一個方向上，都是很危險的。

以下簡要分析各個研究方向

方向1a：神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計

2012年的AlexNet，奠定了深度神經(jīng)網(wǎng)絡(luò)在CV領(lǐng)域的基礎(chǔ)。隨后10年（至今），神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計，經(jīng)歷了從手工設(shè)計到自動設(shè)計，再回到手工設(shè)計（引入更復(fù)雜的計算模塊）的過程：

2012-2017年，手工構(gòu)建更深的卷積神經(jīng)網(wǎng)絡(luò)，探索一般優(yōu)化技巧。關(guān)鍵詞：ReLU、Dropout、3x3卷積、BN、跳躍連接，等。在這個階段，卷積操作是最基本的單元，它對應(yīng)于圖像特征的局部性先驗(yàn)。

2017-2020年，自動構(gòu)建更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。其中，網(wǎng)絡(luò)架構(gòu)搜索（NAS）盛行一時，最后定型為基礎(chǔ)工具。在任意給定的搜索空間中，自動設(shè)計都能夠達(dá)到稍微更好的結(jié)果，且能夠快速適配不同的計算開銷。

2020年至今，起源于NLP的transformer模塊從被引入CV，利用attention機(jī)制，補(bǔ)足了神經(jīng)網(wǎng)絡(luò)的遠(yuǎn)距離建模能力。如今，大部分視覺任務(wù)的最優(yōu)結(jié)果，都借助于包含transformer的架構(gòu)所達(dá)到。

對于這一方向的未來，我的判斷如下：

如果視覺識別任務(wù)沒有明顯改變，那么不論是自動設(shè)計，或者加入更復(fù)雜的計算模塊，都無法將CV推向新的高度。視覺識別任務(wù)的可能改變，大致可以分為輸入和輸出兩個部分。輸入部分的可能改變?nèi)鏴vent camera，它可能會改變規(guī)則化處理靜態(tài)或者時序視覺信號的現(xiàn)狀，催生特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；輸出部分的可能改變，則是某種統(tǒng)一各種識別任務(wù)的框架（方向3會談到），它有可能讓視覺識別從獨(dú)立任務(wù)走向大一統(tǒng)，從而催生出一種更適合視覺prompt的網(wǎng)絡(luò)架構(gòu)。

如果一定要在卷積和transformer之間做取舍，那么transformer的潛力更大，主要因?yàn)樗軌蚪y(tǒng)一不同的數(shù)據(jù)模態(tài)，尤其是文本和圖像這兩個最常見也最重要的模態(tài)。

可解釋性是一個很重要的研究方向，但是我個人對于深度神經(jīng)網(wǎng)絡(luò)的可解釋性持悲觀態(tài)度。NLP的成功，也不是建立在可解釋性上，而是建立在過擬合大規(guī)模語料庫上。對于真正的AI來說，這可能不是太好的信號。

方向1b：視覺預(yù)訓(xùn)練

作為如今CV領(lǐng)域炙手可熱的方向，預(yù)訓(xùn)練方法被寄予厚望。在深度學(xué)習(xí)時代，視覺預(yù)訓(xùn)練可以分為有監(jiān)督、無監(jiān)督、跨模態(tài)三類，大致敘述如下：

有監(jiān)督預(yù)訓(xùn)練的發(fā)展相對清晰。由于圖像級分類數(shù)據(jù)最容易獲取，因此早在深度學(xué)習(xí)爆發(fā)之前，就有了日后奠定深度學(xué)習(xí)基礎(chǔ)的ImageNet數(shù)據(jù)集，并被沿用至今。ImageNet全集超過1500萬的數(shù)據(jù)規(guī)模，至今沒有被其他非分類數(shù)據(jù)集所超越，因此至今仍是有監(jiān)督預(yù)訓(xùn)練上最常用的數(shù)據(jù)。另外一個原因，則是圖像級分類數(shù)據(jù)引入了較少bias，因而對于下游遷移更加有利——進(jìn)一步減少bias，就是無監(jiān)督預(yù)訓(xùn)練。

無監(jiān)督預(yù)訓(xùn)練，則經(jīng)歷了曲折的發(fā)展歷程。從2014年開始，出現(xiàn)了第一代基于幾何的無監(jiān)督預(yù)訓(xùn)練方法，如根據(jù)patch位置關(guān)系、根據(jù)圖像旋轉(zhuǎn)等進(jìn)行判斷，同時生成式方法也在不斷發(fā)展（生成式方法可以追溯到更早的時期，此處不贅述）。此時的無監(jiān)督預(yù)訓(xùn)練方法，還顯著地弱于有監(jiān)督預(yù)訓(xùn)練方法。到了2019年，對比學(xué)習(xí)方法經(jīng)過技術(shù)改進(jìn)，首次顯現(xiàn)出在下游任務(wù)上超越有監(jiān)督預(yù)訓(xùn)練方法的潛力，無監(jiān)督學(xué)習(xí)真正成為CV界關(guān)注的焦點(diǎn)。而2021年開始，視覺transformer的興起催生了一類特殊的生成式任務(wù)即MIM，它逐漸成為統(tǒng)治性方法。

除了純粹的有監(jiān)督和無監(jiān)督預(yù)訓(xùn)練，還有一類介于兩者之間的方法，是跨模態(tài)預(yù)訓(xùn)練。它使用弱配對的圖像和文本作為訓(xùn)練素材，一方面避免了圖像監(jiān)督信號帶來的bias，一方面又比無監(jiān)督方法更能學(xué)習(xí)弱語義。此外，在transformer的加持下，視覺和自然語言的融合也更自然、更合理。

基于上述回顧，我做出如下判斷：

從實(shí)際應(yīng)用上看，應(yīng)該將不同的預(yù)訓(xùn)練任務(wù)結(jié)合起來。也就是說，應(yīng)當(dāng)收集混合數(shù)據(jù)集，其中包含少量有標(biāo)簽數(shù)據(jù)（甚至是檢測、分割等更強(qiáng)的標(biāo)簽）、中量圖文配對數(shù)據(jù)、大量無任何標(biāo)簽的圖像數(shù)據(jù)，并且在這樣的混合數(shù)據(jù)集上設(shè)計預(yù)訓(xùn)練方法。

從CV領(lǐng)域看，無監(jiān)督預(yù)訓(xùn)練是最能體現(xiàn)視覺本質(zhì)的研究方向。即使跨模態(tài)預(yù)訓(xùn)練給整個方向帶來了很大的沖擊，我依然認(rèn)為無監(jiān)督預(yù)訓(xùn)練非常重要，必須堅持下去。需要指出，視覺預(yù)訓(xùn)練的思路很大程度上受到了自然語言預(yù)訓(xùn)練的影響，但是兩者性質(zhì)不同，因而不能一概而論。尤其是，自然語言本身是人類創(chuàng)造出來的數(shù)據(jù)，其中每個單詞、每個字符都是人類寫下來的，天然帶有語義，因此從嚴(yán)格意義上說，NLP的預(yù)訓(xùn)練任務(wù)不能被視為真正的無監(jiān)督預(yù)訓(xùn)練，至多算是弱監(jiān)督的預(yù)訓(xùn)練。但是視覺不同，圖像信號是客觀存在、未經(jīng)人類處理的原始數(shù)據(jù)，在其中的無監(jiān)督預(yù)訓(xùn)練任務(wù)一定更難?？傊?，即使跨模態(tài)預(yù)訓(xùn)練能夠在工程上推進(jìn)視覺算法，使其達(dá)到更好的識別效果，視覺的本質(zhì)問題還是要靠視覺本身來解決。

當(dāng)前，純視覺無監(jiān)督預(yù)訓(xùn)練的本質(zhì)在于從退化中學(xué)習(xí)。這里的退化，指的是從圖像信號中去除某些已經(jīng)存在的信息，要求算法復(fù)原這些信息：幾何類方法去除的是幾何分布信息（如patch的相對位置關(guān)系）；對比類方法去除的是圖像的整體信息（通過抽取不同的view）；生成類方法如MIM去除的是圖像的局部信息。這種基于退化的方法，都具有一個無法逾越的瓶頸，即退化強(qiáng)度和語義一致性的沖突。由于沒有監(jiān)督信號，視覺表征學(xué)習(xí)完全依賴于退化，因此退化必須足夠強(qiáng)；而退化足夠強(qiáng)時，就無法保證退化前后的圖像具有語義一致性，從而導(dǎo)致病態(tài)的預(yù)訓(xùn)練目標(biāo)。舉例說，對比學(xué)習(xí)從一張圖像中抽取的兩個view如果毫無關(guān)系，拉近它們的特征就不合理；MIM任務(wù)如果去除了圖像中的關(guān)鍵信息（如人臉），重建這些信息也不合理。強(qiáng)行完成這些任務(wù)，就會引入一定的bias，弱化模型的泛化能力。未來，應(yīng)該會出現(xiàn)一種無需退化的學(xué)習(xí)任務(wù)，而我個人相信，通過壓縮來學(xué)習(xí)是一條可行的路線。

方向2：模型微調(diào)和終身學(xué)習(xí)

關(guān)于這個方向，我認(rèn)為有兩個重要問題：

從孤立的setting向終身學(xué)習(xí)的統(tǒng)一。從學(xué)術(shù)界到工業(yè)界，必須拋棄“一次性交付模型”的思維，將交付內(nèi)容理解為以模型為中心，配套有數(shù)據(jù)治理、模型維護(hù)、模型部署等多種功能的工具鏈。用工業(yè)界的話說，一個模型或者一套系統(tǒng)，在整個項(xiàng)目的生命周期中，必須得到完整的看護(hù)。必須考慮到，用戶的需求是多變且不可預(yù)期的，今天可能會換個攝像頭，明天可能會新增要檢測的目標(biāo)種類，等等。我們不追求AI能自主解決所有問題，但是AI算法應(yīng)該有一個規(guī)范操作流程，讓不懂AI的人能夠遵循這個流程，新增他們想要的需求、解決平時遇到的問題，這樣才能讓AI真正平民化，解決實(shí)際問題。對于學(xué)術(shù)界，必須盡快定義出符合真實(shí)場景的終身學(xué)習(xí)setting，建立起相應(yīng)的benchmark，推動這一方向的研究。

在域間差異明顯的情況下，解決大數(shù)據(jù)和小樣本的沖突。這又是CV和NLP的不同點(diǎn)：NLP已經(jīng)基本不用考慮預(yù)訓(xùn)練和下游任務(wù)的域間差異性，因?yàn)檎Z法結(jié)構(gòu)和常見單詞完全一樣；而CV則必須假設(shè)上下游數(shù)據(jù)分布顯著不同，以致于上游模型未經(jīng)微調(diào)時，在下游數(shù)據(jù)中無法抽取底層特征（被ReLU等單元直接濾除）。因此，用小數(shù)據(jù)微調(diào)大模型，在NLP領(lǐng)域不是大問題（現(xiàn)在的主流是只微調(diào)prompt），但是在CV領(lǐng)域是個大問題。在這里，設(shè)計視覺友好的prompt也許是個好方向，但是目前的研究還沒有切入核心問題。

方向3：無限細(xì)粒度視覺識別任務(wù)

關(guān)于無限細(xì)粒度視覺識別（以及類似的概念），目前還沒有很多相關(guān)的研究。所以，我以自己的思路來敘述這個問題。我在今年VALSE報告上，對已有方法和我們的proposal做了詳細(xì)解讀。以下我給出文字?jǐn)⑹?，更詳?xì)的解讀請參考我的專題文章或者我在VALSE上做的報告：

按需視覺識別：愿景和初步方案https://zhuanlan.zhihu.com/p/546510418

我的VALSE-2022報告：PPT+視頻https://zhuanlan.zhihu.com/p/555377882

首先，我要闡述無限細(xì)粒度視覺識別的含義。簡單地說，圖像中包含的語義信息非常豐富，但不具有明確的基本語義單元。只要人類愿意，就可以從一張圖像中識別出越來越細(xì)粒度的語義信息（如下圖所示）；而這些信息，很難通過有限而規(guī)范的標(biāo)注（即使花費(fèi)足夠多的標(biāo)注成本），形成語義上完整的數(shù)據(jù)集，供算法學(xué)習(xí)。

即使如ADE20K這樣的精細(xì)標(biāo)注數(shù)據(jù)集，也缺少了大量人類能夠識別的語義內(nèi)容

我們認(rèn)為，無限細(xì)粒度視覺識別是比開放域視覺識別更難，也更加本質(zhì)的目標(biāo)。我們調(diào)研了已有識別方法，將其分為兩類，即基于分類的方法和語言驅(qū)動的方法，并論述它們無法實(shí)現(xiàn)無限細(xì)粒度的理由。

基于分類的方法：這包括傳統(tǒng)意義上的分類、檢測、分割等方法，其基本特點(diǎn)是給圖像中的每個基本語義單元（圖像、box、mask、keypoint等）賦予一個類別標(biāo)簽。這種方法的致命缺陷在于，當(dāng)識別的粒度增加時，識別的確定性必然下降，也就是說，粒度和確定性是沖突的。舉例說，在ImageNet中，存在著“家具”和“電器”兩個大類；顯然“椅子”屬于“家具”，而“電視機(jī)”屬于“家電”，但是“按摩椅”屬于“家具”還是“家電”，就很難判斷——這就是語義粒度的增加引發(fā)的確定性的下降。如果照片里有一個分辨率很小的“人”，強(qiáng)行標(biāo)注這個“人”的“頭部”甚至“眼睛”，那么不同標(biāo)注者的判斷可能會不同；但是此時，即使是一兩個像素的偏差，也會大大影響IoU等指標(biāo)——這就是空間粒度的增加引發(fā)的確定性的下降。

語言驅(qū)動的方法：這包括CLIP帶動的視覺prompt類方法，以及存在更長時間的visual grounding問題等，其基本特點(diǎn)是利用語言來指代圖像中的語義信息并加以識別。語言的引入，確實(shí)增強(qiáng)了識別的靈活性，并帶來了天然的開放域性質(zhì)。然而語言本身的指代能力有限（想象一下，在一個具有上百人的場景中指代某個特定個體），無法滿足無限細(xì)粒度視覺識別的需要。歸根結(jié)底，在視覺識別領(lǐng)域，語言應(yīng)當(dāng)起到輔助視覺的作用，而已有的視覺prompt方法多少有些喧賓奪主的感覺。

上述調(diào)研告訴我們，當(dāng)前的視覺識別方法并不能達(dá)到無限細(xì)粒度的目標(biāo)，而且在走向無限細(xì)粒度的路上還會遭遇難以逾越的困難。因此，我們我們想分析人是如何解決這些困難的。首先，人類在大多數(shù)情況下并不需要顯式地做分類任務(wù)：回到上述例子，一個人到商場里買東西，不管商場把“按摩椅”放在“家具”區(qū)還是“家電”區(qū)，人類都可以通過簡單的指引，快速找到“按摩椅”所在的區(qū)域。其次，人類并不僅限于用語言指代圖像中的物體，可以使用更靈活的方式（如用手指向物體）完成指代，進(jìn)而做更細(xì)致的分析。

結(jié)合這些分析，要達(dá)到無限細(xì)粒度的目標(biāo)，必須滿足以下三個條件。

開放性：開放域識別，是無限細(xì)粒度識別的一個子目標(biāo)。目前看，引入語言是實(shí)現(xiàn)開放性的最佳方案之一。

特異性：引入語言時，不應(yīng)被語言束縛，而應(yīng)當(dāng)設(shè)計視覺友好的指代方案（即識別任務(wù)）。

可變粒度性：并非總是要求識別到最細(xì)粒度，而是可以根據(jù)需求，靈活地改變識別的粒度。

在這三個條件的牽引下，我們設(shè)計出了按需視覺識別任務(wù)。與傳統(tǒng)意義上的統(tǒng)一視覺識別不同，按需視覺識別以request為單位進(jìn)行標(biāo)注、學(xué)習(xí)和評測。當(dāng)前，系統(tǒng)支持兩類request，分別實(shí)現(xiàn)了從instance到semantic的分割、以及從semantic到instance的分割，因而兩者結(jié)合起來，就能夠?qū)崿F(xiàn)任意精細(xì)程度的圖像分割。按需視覺識別的另一個好處在于，在完成任意數(shù)量的request之后停止下來，都不會影響標(biāo)注的精確性（即使大量信息沒有被標(biāo)注出來），這對于開放域的可擴(kuò)展性（如新增語義類別）有很大的好處。具體細(xì)節(jié)，可以參看按需視覺識別的文章（鏈接見上文）。

統(tǒng)一視覺識別和按需視覺識別的對比

在完成這篇文章之后，我還在不斷思考，按需視覺識別對于其他方向的影響是什么。這里提供兩個觀點(diǎn)：

按需視覺識別中的request，本質(zhì)上是一種視覺友好的prompt。它既能夠達(dá)到詢問視覺模型的目的，又避免了純語言prompt帶來的指代模糊性。隨著更多類型的request被引入，這個體系有望更加成熟。

按需視覺識別，提供了在形式上統(tǒng)一各種視覺任務(wù)的可能性。例如，分類、檢測、分割等任務(wù)，在這一框架下得到了統(tǒng)一。這一點(diǎn)可能對視覺預(yù)訓(xùn)練帶來啟發(fā)。目前，視覺預(yù)訓(xùn)練和下游微調(diào)的邊界并不清楚，預(yù)訓(xùn)練模型究竟應(yīng)該適用于不同任務(wù)，還是專注于提升特定任務(wù)，尚無定論。然而，如果出現(xiàn)了形式上統(tǒng)一的識別任務(wù)，那么這個爭論也許就不再重要。順便說，下游任務(wù)在形式上的統(tǒng)一，也是NLP領(lǐng)域享有的一大優(yōu)勢。

在上述方向之外

我將CV領(lǐng)域的問題分為三大類：識別、生成、交互，識別只是其中最簡單的問題。關(guān)于這三個子領(lǐng)域，簡要的分析如下：

在識別領(lǐng)域，傳統(tǒng)的識別指標(biāo)已經(jīng)明顯過時，因此人們需要更新的評價指標(biāo)。目前，在視覺識別中引入自然語言，是明顯且不可逆的趨勢，但是這樣還遠(yuǎn)遠(yuǎn)不夠，業(yè)界需要更多任務(wù)層面的創(chuàng)新。

生成是比識別更高級的能力。人類能夠輕易地識別出各種常見物體，但是很少有人能夠畫出逼真的物體。從統(tǒng)計學(xué)習(xí)的語言上說，這是因?yàn)樯墒侥Ｐ托枰獙β?lián)合分布p(x,y)進(jìn)行建模，而判別式模型只需要對條件分布p(y|x)進(jìn)行建模：前者能夠推導(dǎo)出后者，而后者不能推導(dǎo)出前者。從業(yè)界的發(fā)展看，雖然圖像生成質(zhì)量不斷提升，但是生成內(nèi)容的穩(wěn)定性（不生成明顯非真實(shí)的內(nèi)容）和可控性仍有待提升。同時，生成內(nèi)容對于識別算法的輔助還相對較弱，人們還難以完全利用虛擬數(shù)據(jù)、合成數(shù)據(jù)，達(dá)到和真實(shí)數(shù)據(jù)訓(xùn)練相媲美的效果。對于這兩個問題，我們的觀點(diǎn)都是，需要設(shè)計更好、更本質(zhì)的評價指標(biāo)，以替代現(xiàn)有的指標(biāo)（生成任務(wù)上替代FID、IS等，而生成識別任務(wù)需要結(jié)合起來，定義統(tǒng)一的評價指標(biāo)）。

1978年，計算機(jī)視覺先驅(qū)David Marr設(shè)想，視覺的主要功能，在于建立環(huán)境的三維模型，并且在交互中學(xué)習(xí)知識。相比于識別和生成，交互更接近人類的學(xué)習(xí)方式，但是現(xiàn)在業(yè)界的研究相對較少。交互方向研究的主要困難，在于構(gòu)建真實(shí)的交互環(huán)境——準(zhǔn)確地說，當(dāng)前視覺數(shù)據(jù)集的構(gòu)建方式來源于對環(huán)境的稀疏采樣，但交互需要連續(xù)采樣。顯然，要想解決視覺的本質(zhì)問題，交互是本質(zhì)。雖然業(yè)界已經(jīng)有了許多相關(guān)研究（如具身智能），但是還沒有出現(xiàn)通用的、任務(wù)驅(qū)動的學(xué)習(xí)目標(biāo)。我們再次重復(fù)計算機(jī)視覺先驅(qū)David Marr提出的設(shè)想：視覺的主要功能，在于建立環(huán)境的三維模型，并且在交互中學(xué)習(xí)知識。計算機(jī)視覺，包括其他AI方向，都應(yīng)該朝著這個方向發(fā)展，以走向真正的實(shí)用。

總之，在不同子領(lǐng)域，單純依靠統(tǒng)計學(xué)習(xí)（特別是深度學(xué)習(xí)）的強(qiáng)擬合能力的嘗試，都已經(jīng)走到了極限。未來的發(fā)展，一定建立在對CV更本質(zhì)的理解上，而在各種任務(wù)上建立更合理的評價指標(biāo)，則是我們需要邁出的第一步。

結(jié)語

經(jīng)過幾次密集的學(xué)術(shù)交流，我能夠明顯地感受到業(yè)界的迷茫，至少對于視覺感知（識別）而言，有意思、有價值的研究問題越來越少，門檻也越來越高。這樣發(fā)展下去，有可能在不久的將來，CV研究會走上NLP的道路，逐漸分化成兩類：一類使用巨量計算資源進(jìn)行預(yù)訓(xùn)練，不斷空虛地刷新SOTA；一類則不斷設(shè)計出新穎卻沒有實(shí)際意義的setting以強(qiáng)行創(chuàng)新。這對于CV領(lǐng)域顯然不是好事。為了避免這種事情，除了不斷探索視覺的本質(zhì)、創(chuàng)造出更有價值的評測指標(biāo)，還需要業(yè)界增加寬容性，特別是對于非主流方向的寬容性，不要一邊抱怨著研究同質(zhì)化，一邊對于沒有達(dá)到SOTA的投稿痛下殺手。當(dāng)前的瓶頸是所有人共同面對的挑戰(zhàn)，如果AI的發(fā)展陷入停滯，沒有人能夠獨(dú)善其身。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4718

瀏覽量
100060
CV

CV

+關(guān)注

關(guān)注
0

文章
51

瀏覽量
16801
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
585

瀏覽量
13426

原文標(biāo)題：關(guān)于視覺識別領(lǐng)域發(fā)展的個人觀點(diǎn)

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

使用TL103WB設(shè)計CC-CV反饋電路

電子發(fā)燒友網(wǎng)站提供《使用TL103WB設(shè)計CC-CV反饋電路.pdf》資料免費(fèi)下載

發(fā)表于 09-02 10:55 ?0次下載

使用TL103WB設(shè)計CC-<b class='flag-5'>CV</b>反饋電路

三菱plc脈沖與方向端口怎么組合

三菱PLC（Programmable Logic Controller，可編程邏輯控制器）在工業(yè)自動化領(lǐng)域中扮演著重要的角色。在實(shí)際應(yīng)用中，PLC常常需要控制步進(jìn)電機(jī)或伺服電機(jī)來實(shí)現(xiàn)精確的位置控制

發(fā)表于 08-19 14:56 ?371次閱讀

三菱plc脈沖+方向編程方法

三菱PLC（Programmable Logic Controller）是一種廣泛應(yīng)用于工業(yè)自動化領(lǐng)域的可編程邏輯控制器。在許多應(yīng)用場景中，如伺服電機(jī)控制、步進(jìn)電機(jī)控制等，都需要使用脈沖+方向的控制

發(fā)表于 06-12 14:10 ?1937次閱讀

計算機(jī)視覺的主要研究方向

計算機(jī)視覺（Computer Vision, CV）作為人工智能領(lǐng)域的一個重要分支，致力于使計算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展，計算機(jī)視覺的研究和應(yīng)用取得了顯著進(jìn)步。本文將對計算機(jī)視覺的主要

發(fā)表于 06-06 17:17 ?551次閱讀

cv1800外接解碼器聲卡創(chuàng)建成功但是i2s無波形輸出是怎么回事？

1835_max98357 - cv1835_max98357a cv1835_max98357a 1 [cv182xaadc]: cv182xa_adc -

發(fā)表于 05-17 14:50

功率電感的封裝對應(yīng)用有哪些影響

電子發(fā)燒友網(wǎng)站提供《功率電感的封裝對應(yīng)用有哪些影響.docx》資料免費(fèi)下載

發(fā)表于 02-28 10:12 ?1次下載

電路板上焊接芯片方向怎么區(qū)分

在焊接芯片到電路板上時，通常需要注意芯片的方向，以確保正確的引腳與焊盤相對應(yīng)。

發(fā)表于 12-11 18:11 ?1798次閱讀

高壓放大器研究方向及其應(yīng)用領(lǐng)域

高壓放大器是一種電子設(shè)備，用于將輸入信號的電壓增大到較高的輸出電壓。它在許多領(lǐng)域中有廣泛的應(yīng)用，包括通信、醫(yī)療、科學(xué)研究等。高壓放大器的研究方向主要集中在以下幾個方面：提高功率效率：高壓放大器

發(fā)表于 12-05 17:35 ?456次閱讀

高壓放大器<b class='flag-5'>研究</b><b class='flag-5'>方向</b>及其應(yīng)用領(lǐng)域

CP5674 CV/CC電源開關(guān)介紹

電子發(fā)燒友網(wǎng)站提供《CP5674 CV/CC電源開關(guān)介紹.pdf》資料免費(fèi)下載

發(fā)表于 12-05 09:40 ?1次下載

高壓放大器能夠進(jìn)行哪些領(lǐng)域和方向的研究

高壓放大器是一種專門用于放大高壓信號的設(shè)備，其功能是將輸入的低電壓信號放大到較高的電壓水平。由于高壓放大器的特殊性，它在許多領(lǐng)域和方向都有著廣泛的研究應(yīng)用。接下來，安泰電子將介紹高壓放大器在幾個典型

發(fā)表于 11-29 11:57 ?407次閱讀

高壓放大器能夠進(jìn)行哪些領(lǐng)域和<b class='flag-5'>方向</b>的<b class='flag-5'>研究</b>

Ambarella展示了在其CV3-AD芯片上運(yùn)行LLM的能力

Ambarella前不久展示了在其CV3-AD芯片上運(yùn)行LLM的能力。這款芯片是CV3系列中最強(qiáng)大的，專為自動駕駛設(shè)計。

發(fā)表于 11-28 09:05 ?1655次閱讀

Ambarella展示了在其<b class='flag-5'>CV</b>3-AD芯片上運(yùn)行LLM的能力

直流電源如何控制CC/CV模式的？

直流電源如何控制CC/CV模式的？直流電源是一種用來提供穩(wěn)定直流電流的設(shè)備，常用于電子設(shè)備、通信系統(tǒng)、電動機(jī)驅(qū)動等應(yīng)用中。在實(shí)際應(yīng)用中，常常需要控制直流電源的輸出電流或輸出電壓，以滿足不同的工作

發(fā)表于 11-16 14:15 ?2127次閱讀

OpenCV圖像處理之圖像梯度+Canny邊緣檢測

的參數(shù)分別是原圖像，cv.CV_64F是圖像深度，一般寫作-1就可以了，dx和dy分別表示x軸方向和y軸方向的算子，ksize就是內(nèi)核

發(fā)表于 11-14 15:54 ?428次閱讀

偏振三維成像技術(shù)的原理和研究進(jìn)展

目標(biāo)表面鏡面反射光與漫反射光間的相互干擾，造成高精度偏振三維成像實(shí)現(xiàn)困難。該綜述介紹了偏振三維成像物理機(jī)理、目標(biāo)表面出射光偏振特性，以及偏振三維成像

發(fā)表于 10-26 09:50 ?988次閱讀

迅為RK3568開發(fā)板Scharr濾波器算子邊緣檢測

scharrx = cv2.Scharr(img,cv2.CV_64F,1,0)# 使用 Sobel 算子進(jìn)行邊緣檢測，數(shù)據(jù)類型設(shè)置為 cv2.CV_64F,只算 x 5 方向梯度,

發(fā)表于 10-09 11:03

搜索歷史