0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NeurIPS 2023 | 大模型時代自監(jiān)督預訓練的隱性長尾偏見

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-10-30 11:05 ? 次閱讀

離開學校加入公司的業(yè)務部門已經半年多了,往后應該會努力抽時間做點開源項目,但暫時沒什么計劃再發(fā)一作論文了。這次介紹下我和我(前)實驗室一位非常優(yōu)秀的學弟 beier 合作的一篇 NeurIPS 2023 論文Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models,算是我入職前在學術界最后的回響吧。

這次學弟的文章主要嘗試解決我做長尾問題期間的一個始終縈繞在我腦袋里的疑慮,我覺得長尾領域最大的坎在于明明在研究一個普世的問題,但是學術界把問題模型簡化后做出來的算法卻只能在精心設計的實驗數據集上生效。 這次和學弟合作的這篇工作得益于模型自監(jiān)督預訓練帶來的優(yōu)秀 OOD 效果和我們提出的 GLA 算法對預訓練模型在下游任務上偏見的矯正,我們第一次基于長尾問題本身的特性設計出了一個通用的提點算法不僅能在狹義的傳統(tǒng) LT 數據集上生效,也能用于其他非 LT 設定的任務,比如我們的算法可以提升模型在原始的 ImageNet 測試集的效果,還有一些few-shot等其他任務。

wKgZomU_HoqAK7fvAACrPPIxt-4188.png

論文鏈接:

https://arxiv.org/pdf/2310.08106.pdf

代碼鏈接:

https://github.com/BeierZhu/GLA

wKgZomU_HoqAECPbAAAl6LOgh3c385.png

大模型時代的長尾分布研究該何去何從

在當下這個大模型群星閃耀的時代,想必過去兩三年中關注長尾任務的同學都面臨著何去何從的困惑。長尾問題固然普世,除了狹義的類間長尾還有廣義長尾問題 [1],但過去幾年學術界中研究的主流長尾算法卻并不同樣普世。 以最常見的圖像長尾分類任務為例,要想大多數長尾分類算法能夠生效,首先訓練過程中的長尾分布就必須是顯性的,要通過統(tǒng)計具體的類別分布來實現去偏。而大模型成功的根基,卻恰恰也給傳統(tǒng)長尾算法關上了大門,因為大模型所依賴的自監(jiān)督預訓練無法為下游任務提供一個顯性的長尾分布去矯正。 以大語言模型(如 GPT 等)和多模態(tài)模型(如 CLIP 等)為例,即便近來有一些論文嘗試去研究大模型在下游任務微調時的下游數據偏見問題,但卻并沒有工作能夠解決大模型預訓練階段本身的數據不均衡問題。但我們都知道在海量的預訓練數據之下,數據的長尾分布是必然的。之所以鮮有人嘗試去研究自監(jiān)督預訓練階段本身的數據偏見,是因為要想在大模型的自監(jiān)督預訓練中研究長尾問題存在三大挑戰(zhàn): 其一,原始文本數據的歧義性導致無法精準的統(tǒng)計類別的分布。比如以 CLIP 為例,其預訓練目標是將圖片與文本配對,而下游的視覺端 backbone 可以用作圖像分類任務,但此時如果下游是一個 {human, non-human} 的二分類,我們并不能直接用 human 關鍵詞的出現與否作為預訓練數據分布的統(tǒng)計標準,比如包含 a worker 的圖片雖然沒有 human 這個詞但也應該被統(tǒng)計為 human,因此文本天然的歧義和多意會給長尾分布研究帶來極大的困難和偏差。 其二,預訓練任務與下游任務的弱耦合導致無法明確數據分布的統(tǒng)計方式。大模型的強大之處在于可以通過一個簡單有效的預訓練支撐花樣百出的下游任務,然而這卻大大增加了研究預訓練數據偏見對下游任務影響的難度。比如 GPT 等大語言模型的預訓練是預測下一個或是缺失的 Token,雖然我們可以統(tǒng)計 Token 的詞頻,但如果我們的下游任務是對文本的語氣進行三分類 {positive, neutral, negative}。 此時單純統(tǒng)計 positive,neutral 和 negative 這三個詞在預訓練中的詞頻顯然并不完全合適,因為這幾個詞出現的場景并非都是語氣分類,要想精準統(tǒng)計不僅困難,其具體的下游任務更是無法在預訓練階段知曉的(下游任務太多了,模型提供者并不能知道模型被其他人拿到后會如何使用)。 最后,也是最重要的,預訓練數據的保密性也是不得不考慮的問題,出于用戶隱私和商業(yè)機密的考量,一個開源公司即便開放了大模型參數往往也不會開放預訓練數據,這使得研究預訓練數據的分布變得幾乎不可能。這也是目前鮮有該方面研究的主要原因之一。而在我們最新的工作中,我們不僅實現了在下游任務直接估計預訓練的偏見,更是完全規(guī)避了對預訓練數據本身的訪問,使得我們可以在只有模型權重沒有預訓練數據的情況下實現對自監(jiān)督預訓練模型的去偏。

wKgZomU_HoqAH3o0AAAuhh9-KLM141.png

自監(jiān)督預訓練引入的數據偏見

wKgZomU_HoqAJjVqAAHTQctOlo0444.png

▲ 圖一:自監(jiān)督預訓練階段引入的長尾數據偏見(可從 zero-shot 分類效果看出其對模型效果的影響)

目前大多數預訓練模型魯棒性相關的研究中,他們往往會把自監(jiān)督預訓練模型本身當作是一個無偏的基準,而強調模型在下游任務上微調時會引入下游任務的偏見,因此需要對下游任務去偏的同時盡可能保留預訓練模型的魯棒性,其中代表作有利用 zero-shot 模型和微調模型 Ensemble 的 WiSE-FT [2] 和利用梯度約束的 ProGrad [3]。但正如我上文說的,預訓練數據的偏見同樣無法忽視,這導致上述模型從理論上便不可能是最優(yōu)的。 事實上早在兩年前,長尾問題領域便有人嘗試利用自監(jiān)督學習來提取特征,并認為無需顯性標注的自監(jiān)督 loss 可以大大緩解模型的長尾偏見問題。于是在我們的工作開始前,我們首先便要推倒這個假設。自監(jiān)督預訓練并不是一味萬能藥。如圖一所示,我們將 CLIP-ViT/B16 預訓練模型在下游的 ImageNet 測試集上的分類效果按我們估計的類別分布(可視化中進行了平滑處理)進行排序,我們發(fā)現自監(jiān)督預訓練模型同樣有著明顯的長尾偏見(zero-shot 結果),尾部類別的準確率會有明顯的下滑。 尤其是當我們將 zero-shot 結果和微調結果(fine-tune)對比時,我們就會看到他們的頭部類別效果相當,而尾部類別 zero-shot 模型明顯更差,也就是說自監(jiān)督預訓練模型的長尾問題其實很嚴重,模型在下游任務上微調時其實類似于在一個更均衡的數據集上微調去提升尾部效果。 至于為什么之前的論文認為預訓練模型魯棒性更高,這就需要了解我之前一篇工作中提及的類間長尾和類內長尾兩個概念的區(qū)別了,我認為預訓練的魯棒性更多的體現在類內分布的魯棒性上,本文在這暫不展開,有興趣的同學可以看我另一篇文章(ECCV 2022 | 計算機視覺中的長尾分布問題還值得做嗎?)。 此時單純 zero-shot 和 fine-tune 的 Ensemble 模型 WiSE-FT 更像一個 Trade-off,用尾部的損失去提升頭部性能。而我們提出的 Generalized Logit Adjustment(GLA)通過在 Ensemble 之前先消除預訓練 zero-shot 模型的長尾偏見來有效的實現了頭尾全分布的同時提升。 而我們之所以叫 Generalized Logit Adjustment 是為了致敬在經典的狹義長尾分布任務上的一個非常優(yōu)雅且有效的算法 Logit Adjustment [4]。之所以無法簡單的套用到自監(jiān)督預訓練上,其實最重要的一個難點就是我上面說到的預訓練分布估計了。而僅利用模型參數不獲取預訓練數據就能在下游任務上估計預訓練階段數據偏見的算法也是我們文章的主要貢獻之一。 wKgZomU_HoqAB3zLAAAtJ0fTuoM163.png

預訓練數據中下游任務的類別分布估計

在本文中,我們主要以 CLIP 為引子,討論以圖文對比學習作為自監(jiān)督預訓練的多模態(tài)模型(主要是視覺端),不過本文提出的算法也可以推廣至以文本自監(jiān)督預訓練為基礎的大語言模型在下游文本分類任務上的偏見估計問題。 在給出本文提供的預訓練階段數據偏見估計算法之前,我們需要回顧一篇我非常推崇的 Google 的 Logit Adjustment 長尾算法。在不考慮類內不均衡 OOD 樣本的情況下,Logit Adjustment 研究已經從理論上提供了非常優(yōu)雅的最優(yōu)解:傳統(tǒng)分類問題的概率模型 可以通過貝葉斯分解為如下形式 。那么在訓練集與測試集獨立同分布(IID)的情況下,我們自然而然可以得到如下的也就是說對于分類模型 ,唯一的類別 bias 來自 中的第二項 。那么問題就簡單了,我們可以直接通過 來將類別分布從訓練分布更改為測試分布。如果以類別均衡的驗證集上的結果作為模型在無偏見下的表現的衡量標準, 就是平均分布,那么我們就可以去掉最后一項 。基于上文的 Logit Adjustment 長尾算法,我們不難發(fā)現,只要能給出自監(jiān)督預訓練模型的分布 ,我們就可以得到模型在類別均衡驗證集上的理論最優(yōu)解(給定模型 backbone 下)。那么換而言之,我們也可以利用這一特性來反向計算 ,如圖二所示,只要能提供一個額外的類別均衡的子集,我們就可以通過最小化 Risk 去學習一個對模型輸出的 logits 的偏置項,即通過最小化均衡子集上的誤差去估計 。詳細的理論推導和最優(yōu)保證請參考我們的原文和原文的補充材料。

wKgZomU_HouACwV9AAFki4sNuOw939.png

▲ 圖二:以 Logit Adjustment 推導結果的理論最優(yōu)解為前提,反向通過一個均衡子集去估計偏置項。

基于上述預訓練偏見估計的算法,我們不僅不需要獲取預訓練數據,更不需要預訓練過程是嚴格的傳統(tǒng)分類 loss,任意分類模型都可以僅僅通過權重本身在一個均衡子集上估算出其訓練階段積累的偏見。為了更好的體現我們的去偏效果,我們也可視化了我們的去偏算法在 CLIP zero-shot 模型的去偏效果,詳見圖三。

wKgZomU_HouAJrihAAIXG6OA5kQ748.png

▲ 圖三:模型在 CLIP 模型的 zero-shot 輸出結果上的去偏效果 wKgZomU_HouAJg5SAAAr2pbNr48184.png通用Logit矯正算法(GLA)應用于任意下游數據分布上述偏見估計算法雖然提供了解決模型在 zero-shot 設定下的預訓練偏見矯正問題,但是其取得的最優(yōu)僅限于類別均衡的下游數據。但目前最優(yōu)的模型還是利用 zero-shot 模型和微調模型 Ensemble 的 WiSE-FT [2],因為他們除了解決類間的不均衡,還通過微調更好的適配了下游數據分布 。 那么微調模型的偏見又該如何解決呢?如果下游任務提供的微調數據本身還帶有不均衡分布 ,且往往 ,我們還需要額外對微調模型 去偏,這里我們略過具體的推導和理論分析,先給出結論:我們認為如果微調模型在下游數據上收斂后,其所帶的偏見就是下游數據 的偏見,可以用原始 Logit Adjustment 解決。綜上,我們提出的 Generalized Logit Adjustment 框架就可以總結為如下公式:

wKgZomU_HouAWyX2AAAbyoWAJHo921.png

其中 為原始預訓練模型的 zero-shot 預測, 為預訓練模型在任意下游分布上微調后的預測, 為下游微調數據的分布(可直接統(tǒng)計), 為預訓練模型累計的偏見(通過第三節(jié)提出的算法間接估計),而 就是最后的無偏最優(yōu)估計。我們新提出的 GLA 算法在保留了原始 LA 算法的優(yōu)雅和簡介的同時,將該算法覆蓋到更復雜的預訓練+微調融合場景,解決了自監(jiān)督預訓練模型無法估計預訓練數據偏見的問題。 wKgZomU_HouAbotJAAAtTL4L6hI067.pngGLA算法的最終效果值得注意的是,GLA 算法據我所知是首個能“真正體現”長尾問題廣泛性的算法,該算法以長尾問題為切入點,但最后得到的模型不僅在長尾分類任務上有提升,更在經典分類任務與數據上,在 few-shot 任務上等都有提升。是第一個做到利用長尾算法提升傳統(tǒng)分類任務的工作。 經典分類場景(非 Long-Tailed,Few-shot 等細分場景):在傳統(tǒng)分類設定上,我們利用 CLIP ViT-B/32 和 ViT-B/16 兩個模型,在 ImageNet,CIFAR100,Stanford Cars 和 SUN397 上都取得了顯著的提升:

wKgZomU_HouAVSOIAAEL-LsZrjM562.png

GLA 在 ImageNet 上提升的詳細分析圖表(根據估計分布將類別劃分為 Head, Med, Tail,注意這里不是強行設置的 LT 設定,而是真實數據據分布);GLA 在多個基于 ImageNet 的魯棒性測試子集上的效果,我們基本與 WiSE-FT 持平且互有勝負,證明我們的提升不是犧牲魯棒性的過擬合。

wKgZomU_HoyAbN6JAAEh4Hi4dIE529.png

GLA 在 CLIP 的 11 個 few-shot 測試數據上的效果:

wKgZomU_HoyAAVYwAAQyDkhFoxo374.png

GLA 在 Few-shot 設定中的分布魯棒性,以 16shot 為例;對比單純的 Ensemble,我們可以發(fā)現 GLA 模型基本不會出現負提升的問題,這是因為我們對兩個模型都進行了去偏,真正的做到了各取所長:

wKgZomU_HoyADE7uAAFioOpGF5M494.png

wKgZomU_Ho2AFiA1AADS95iyJgM746.pngGLA 在傳統(tǒng) Long-Tail 設定數據集上提升:

wKgZomU_Ho2ANWoAAAKXPEAvZ5U540.png

wKgZomU_Ho2AZf8FAAAvmrE3n7I158.png總結

研究長尾問題對各個任務的具體影響可以說是貫穿我的博士生涯,從我研究開始該領域內便有個共識就是長尾問題是普世的,是任何實際問題都繞不開的坎。但奈何長尾問題卻又無比復雜,不僅有類間長尾還有類內屬性長尾,因此學術界不得不對任務做了很多簡化,但這也導致了長尾問題明明是個普世的問題,該領域的算法卻只能在精心設計的實驗室環(huán)境下生效。

而如今大模型時代借助于預訓練模型本身對于 OOD 的魯棒性,以及我們提出的預訓練偏見估計算法對于分布的矯正,我們終于拼上了最后一塊拼圖,第一次提出一個基于分布矯正和 Ensemble 的真正通用的長尾算法,可以在實際問題實際應用中提升各種任務的表現,而不僅限于精心設計的長尾數據集。

我們也希望這個研究可以為大模型時代的研究者打開一扇研究預訓練分布偏見的大門,而不用因為無法訪問預訓練數據在大模型偏見研究的門口束手無策。希望這篇文章沒有浪費大家的時間,能給大家以啟發(fā)。

@inproceedings{zhu2023generalized,
title={GeneralizedLogitAdjustment:CalibratingFine-tunedModelsbyRemovingLabelBiasinFoundationModels},
author={Zhu,BeierandTang,KaihuaandSun,QianruandandZhang,Hanwang},
journal={NeurIPS},
year={2023}
}

wKgZomVA6_SAbHzvAAAC0jQz1zo317.svg

參考文獻

wKgZomVA6_SAbHzvAAAC0jQz1zo317.svg ?[1] https://arxiv.org/abs/2207.09504[2] https://arxiv.org/abs/2109.01903[3] https://arxiv.org/abs/2205.14865[4] https://arxiv.org/abs/2007.07314

·


原文標題:NeurIPS 2023 | 大模型時代自監(jiān)督預訓練的隱性長尾偏見

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2895

    文章

    43498

    瀏覽量

    366941

原文標題:NeurIPS 2023 | 大模型時代自監(jiān)督預訓練的隱性長尾偏見

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    訓練和遷移學習的區(qū)別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發(fā)揮著關鍵作用。本文將從定義、原理、應用、區(qū)別和聯系等方面詳細探討
    的頭像 發(fā)表于 07-11 10:12 ?392次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發(fā)展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識
    的頭像 發(fā)表于 07-11 10:11 ?266次閱讀

    神經網絡如何用無監(jiān)督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監(jiān)督學習是一種重要的訓練策略。無監(jiān)督學習旨在從未標記的數據中發(fā)現數據內在的結構、模式或規(guī)律,從而提取有用的特征表示。這種
    的頭像 發(fā)表于 07-09 18:06 ?587次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發(fā)表于 07-03 18:20 ?1496次閱讀

    【大語言模型:原理與工程實踐】大語言模型訓練

    大語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養(yǎng)通用的處理能力。然而,隨著學習容量的增加,對訓練數據的需求也相
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然語言處理訓練的經典結構Transformer,以及其工作原理,
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    訓練和微調,直到模型的部署和性能評估。以下是對這些技術的綜述: 模型架構: LLMs通常采用深層的神經網絡架構,最常見的是Transformer網絡,它包含多個
    發(fā)表于 05-05 10:56

    李彥宏:開源模型將逐漸滯后,文心大模型提升訓練與推理效率

    李彥宏解釋道,百度研的基礎模型——文心 4.0,能夠根據需求塑造出適應各類場景的微型版模型,并支持精細調整以及后訓練。相較于直接使用開源
    的頭像 發(fā)表于 04-16 14:37 ?347次閱讀

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:從理論到實踐

    榜銷售TOP1的桂冠,可想大家對本書的認可和支持! 這本書為什么如此受歡迎?它究竟講了什么?下面就給大家詳細~~ 本書主要內容 本書圍繞大語言模型構建的四個主要階段——訓練、有監(jiān)督
    發(fā)表于 03-11 15:16

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢,而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?646次閱讀

    動態(tài)場景下的監(jiān)督單目深度估計方案

    監(jiān)督單目深度估計的訓練可以在大量無標簽視頻序列來進行,訓練集獲取很方便。但問題是,實際采集的視頻序列往往會有很多動態(tài)物體,而
    發(fā)表于 11-28 09:21 ?491次閱讀
    動態(tài)場景下的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>單目深度估計方案

    NeurIPS 2023 | AI Agents先行者CAMEL:首個基于大模型的多智能體框架

    頂級人工智能會議 NeurIPS 2023 錄用。 論文題目: CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 論文
    的頭像 發(fā)表于 11-26 21:25 ?848次閱讀
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | AI Agents先行者CAMEL:首個基于大<b class='flag-5'>模型</b>的多智能體框架

    Backbone之戰(zhàn):計算機視覺任務模型大比較

    盡管Vision Transformer(ViTs)和監(jiān)督學習(SSL)越來越受歡迎,但在大多數任務中,文章發(fā)現在大型訓練集上以監(jiān)督方式
    的頭像 發(fā)表于 11-13 15:41 ?732次閱讀
    Backbone之戰(zhàn):計算機視覺任務<b class='flag-5'>模型</b>大比較

    NeurIPS 2023 | 全新的監(jiān)督視覺訓練代理任務:DropPos

    ://arxiv.org/pdf/2309.03576 代碼鏈接:? https://github.com/Haochen-Wang409/DropPos 今天介紹我們在 監(jiān)督視覺訓練
    的頭像 發(fā)表于 10-15 20:25 ?438次閱讀
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | 全新的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>視覺<b class='flag-5'>預</b><b class='flag-5'>訓練</b>代理任務:DropPos

    中科院&amp;曠視提出DropPos:全新的監(jiān)督視覺訓練代理任務

    我們提出了一種全新的監(jiān)督代理任務 DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings (PE),然后利用簡單的 cross-entropy loss
    的頭像 發(fā)表于 10-10 17:10 ?567次閱讀
    中科院&amp;曠視提出DropPos:全新的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>視覺<b class='flag-5'>預</b><b class='flag-5'>訓練</b>代理任務