0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何創(chuàng)建高質(zhì)量、大規(guī)模、多語言的數(shù)據(jù)集

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-29 10:22 ? 次閱讀

多模式視覺語言模型依賴大量數(shù)據(jù)集來對圖像和文本之間的關系進行建模。一般來說,這些數(shù)據(jù)集有兩種創(chuàng)建方法:手動為圖像添加文字說明,或抓取網(wǎng)頁并提取替代文本 (alt-text)作為文字說明。雖然前一種方法更利于產(chǎn)生更高質(zhì)量的數(shù)據(jù),但高強度的人工注釋過程限制了可創(chuàng)建的數(shù)據(jù)量。另一方面,雖然自動提取方法可以產(chǎn)生更大的數(shù)據(jù)集,但卻需要通過啟發(fā)式算法以及仔細過濾來確保數(shù)據(jù)質(zhì)量,或者擴展模型來保證強大性能。現(xiàn)有數(shù)據(jù)集的另一個缺點是極少涉及非英語語言。這不禁讓我們產(chǎn)生疑問:我們能否突破這些限制,創(chuàng)建包含各種內(nèi)容的高質(zhì)量、大規(guī)模、多語言數(shù)據(jù)集?

圖像和文本之間的關系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

確保數(shù)據(jù)質(zhì)量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

對此,我們推出了基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集。這是一個大型多模式數(shù)據(jù)集,通過從維基百科文章和 Wikimedia 圖像鏈接中提取與圖像相關的多種不同文本選擇集創(chuàng)建而成。在創(chuàng)建過程中會執(zhí)行嚴格的過濾環(huán)節(jié),以便僅保留高質(zhì)量的圖像文本集。

基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集

https://github.com/google-research-datasets/wit

如我們在 SIGIR 2021 上發(fā)布的“WIT:適用于多模式、多語言機器學習的基于維基百科的圖像文本數(shù)據(jù)集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中詳細說明的那樣,該過程產(chǎn)生一個包含 3750 萬個實體豐富的圖像文本示例精選集,其中涵蓋 1150 萬張獨特的圖像,跨越 108 種語言。大家可憑知識共享許可下載并使用 WIT 數(shù)據(jù)集。此外,我們也很高興地宣布,我們將與 Wikimedia Research 以及其他外部協(xié)作者攜手在 Kaggle 舉辦 WIT 數(shù)據(jù)集的競賽。

數(shù)據(jù)集 圖像
數(shù)量
文本 上下文
文本
語言數(shù)量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(僅限測試)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往數(shù)據(jù)集,WIT 的語言更多,規(guī)模更大

WIT 數(shù)據(jù)集的獨特優(yōu)勢包括:

1. 大規(guī)模:WIT 是公開提供的最大的圖像文本示例多模式數(shù)據(jù)集。

2.多語言:WIT 擁有 108 種語言,是其他數(shù)據(jù)集的十倍或以上。

3.上下文信息:與典型的多模式數(shù)據(jù)集(每個圖像只有一個文字說明)不同,WIT 包含許多頁面級和部分級上下文信息。

4.現(xiàn)實世界實體:維基百科是一個覆蓋廣泛的知識庫,其豐富的現(xiàn)實世界實體可以在 WIT 中得以體現(xiàn)。

5.具有挑戰(zhàn)性的測試集:在我們最近獲得 EMNLP 接受的研究中,所有最先進的模型在 WIT 上表現(xiàn)出的性能都明顯低于傳統(tǒng)評估集,例如平均召回率 (recall)下降約 30 點。

最近獲得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

數(shù)據(jù)集的創(chuàng)建過程

WIT 的主要目標是在不犧牲質(zhì)量和概念覆蓋面的情況下創(chuàng)建大型數(shù)據(jù)集。因此,我們選擇利用當今最大的在線百科全書:維基百科。

就可用信息的深度而言,我們以維基百科上的“Half Dome”(加州約塞米蒂國家公園)頁面為例如下所示,文章為圖像提供了許多有趣的文本說明和相關的上下文信息,如頁面標題、主要頁面描述以及其他上下文信息和元數(shù)據(jù)。

我們首先選擇包含圖像的維基百科頁面,然后提取各種圖像文本關聯(lián)內(nèi)容和周圍的上下文。為進一步優(yōu)化數(shù)據(jù),我們執(zhí)行嚴格的過濾環(huán)節(jié)來確保數(shù)據(jù)質(zhì)量。過濾過程包含:

基于文本的過濾,以確保文字說明的可用性、長度和質(zhì)量(例如通過刪除通用默認填充文本);

基于圖像的過濾,以確保每個圖像都具有特定的大小且擁有允許的許可;

基于圖像和文本實體的過濾,以確保適合研究(例如排除仇恨類言論)。

接著我們進一步對圖像文字說明集隨機抽樣,由真人進行校對評估,他們中絕大多數(shù)人都認可一個結論:98% 樣本其圖像與文字說明一致。

高度語言多樣性

WIT 擁有 108 種語言的數(shù)據(jù),是首個大規(guī)模、多語言、多模式數(shù)據(jù)集。

圖像文本集數(shù)量 獨特語言
數(shù)量
圖像數(shù)量 獨特語言
數(shù)量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨語言覆蓋統(tǒng)計信息

首個上下文圖像文字數(shù)據(jù)集

大多數(shù)多模式數(shù)據(jù)集僅為給定圖像提供單個文本說明(或類似文字說明的多個版本)。WIT 是首個提供上下文信息的數(shù)據(jù)集, 可以幫助研究人員就上下文對圖像文字說明以及圖像選擇的影響進行建模。

具體而言,可能有助于研究的 WIT 關鍵文本字段包括:

文本說明:WIT 提供三種不同的圖像文字說明,包括(可能受上下文影響的)“參考描述”、(可能不受上下文影響的)“屬性描述”,以及“替代文本描述”。

上下文信息:包括頁面標題、頁面描述、網(wǎng)址和有關維基百科部分的局部上下文(包括部分標題和文本)。

如下所示,WIT 在以下不同字段具有廣泛的覆蓋。

WIT 圖像
文字字段
訓練 Val 測試 合計/獨特
行/元組 37.1M 261.8K 210.7K 37.6M
獨特的圖像 11.4M 58K 57K 11.5M
參考描述 16.9M 150K 104K 17.2M/16.7M
屬性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的關鍵字段兼有文本說明和上下文信息

高質(zhì)量訓練集與

具有挑戰(zhàn)性的評估基準

維基百科廣泛覆蓋各種概念,這意味著 WIT 評估集作為評估基準非常具有挑戰(zhàn)性,即使對于最先進的模型而言也是如此。在圖像文本檢索方面,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)集的平均召回分數(shù) (mean recall scores)為 80 秒,而對于 WIT 測試集而言,資源豐富的語言為 40 秒,資源不足的語言為 30 秒。我們希望這可以轉(zhuǎn)而幫助研究人員構建更強大、更穩(wěn)健的模型。

WIT 數(shù)據(jù)集與 Wikimedia 和

Kaggle 攜手開展競賽

此外,非常高興地宣布,我們將攜手 Wikimedia Research 以及一些外部協(xié)作者共同組織 WIT 測試集的競賽。競賽將在 Kaggle 舉辦,競賽任務為圖像文本檢索。我們將給定一組圖像和文本說明,而參賽者的任務是為每個圖像檢索適當?shù)奈淖终f明。

為促進該領域的研究,維基百科為大部分訓練和測試數(shù)據(jù)集提供了 300 像素分辨率的圖像和基于 Resnet-50 的圖像嵌入向量。除 WIT 數(shù)據(jù)集以外,Kaggle 還將托管所有圖像數(shù)據(jù),并提供 Colab notebooks。此外,參賽者屆時可訪問 Kaggle 論壇,以便分享代碼和開展協(xié)作。任何對多模態(tài)感興趣的人都可以借此輕松開始并運行實驗。我們很高興并且期待各位參賽者可以在 Kaggle 平臺,通過 WIT 數(shù)據(jù)集和維基百科圖像為我們帶來精彩表現(xiàn)。

結論

我們相信 WIT 數(shù)據(jù)集將幫助研究人員構建更好的多模態(tài)多語言模型,并識別更好的學習和表征技術,最終借助視覺語言數(shù)據(jù)在現(xiàn)實世界任務中優(yōu)化機器學習模型。如有任何問題,請聯(lián)系 wit-dataset@google.com。我們非常愿意傾聽您如何使用 WIT 數(shù)據(jù)集。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    6819

    瀏覽量

    88746
  • 模型
    +關注

    關注

    1

    文章

    3116

    瀏覽量

    48660
  • 機器學習
    +關注

    關注

    66

    文章

    8353

    瀏覽量

    132315

原文標題:基于維基百科的圖像文本數(shù)據(jù)集 (WIT)

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰(zhàn)和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優(yōu)勢。 1. 多語言理解能力 ChatGPT 的多語言支持首先
    的頭像 發(fā)表于 10-25 17:30 ?602次閱讀

    OpenHarmony開發(fā)技術:【國際化】實例

    ArkUI開發(fā)框架對多語言的支持比較友好,只需要在?`resources`?目錄下創(chuàng)建對應國家的文件夾,名稱對國家簡碼,例如中國為?`zh`?,則在?`resources`?下創(chuàng)建?`zh`?文件夾,然后在?`zh`?文件下
    的頭像 發(fā)表于 04-11 09:40 ?357次閱讀
    OpenHarmony開發(fā)技術:【國際化】實例

    這個多語言包 怎么搜不到

    大家好,這個多語言包怎么搜不到 seven language lib 誰有離線包不 感謝分享,
    發(fā)表于 03-24 10:06

    云知聲入選中國信通院《數(shù)字醫(yī)療產(chǎn)品及服務高質(zhì)量發(fā)展全景圖》

    3月15日,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟醫(yī)學人工智能委員會2024年第一次工作會在??谡匍_,會上發(fā)布首批《數(shù)字醫(yī)療產(chǎn)品及服務高質(zhì)量發(fā)展全景圖》與《數(shù)字醫(yī)療產(chǎn)品及服務高質(zhì)量發(fā)展案例》,憑借在智慧醫(yī)療領域
    的頭像 發(fā)表于 03-15 19:23 ?2133次閱讀

    北斗芯片產(chǎn)業(yè)的高質(zhì)量發(fā)展之路

    高質(zhì)量發(fā)展是全面建設社會主義現(xiàn)代化國家的首要任務”,二十大報告中對高質(zhì)量發(fā)展有著明確的論斷和要求。在2023年的全國兩會中還指出,加快實現(xiàn)高水平科技自立自強,是推動高質(zhì)量發(fā)展的必由之路。中國衛(wèi)星
    的頭像 發(fā)表于 03-15 14:03 ?343次閱讀
    北斗芯片產(chǎn)業(yè)的<b class='flag-5'>高質(zhì)量</b>發(fā)展之路

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:從理論到實踐

    參數(shù)的訓練。這一階段的難點在于如何構建訓練數(shù)據(jù),以及如何高效地進行分布式訓練。 有監(jiān)督微調(diào)階段利用少量高質(zhì)量數(shù)據(jù),其中包含用戶輸入的提示詞和對應的理想輸出結果。提示詞可以是問題、閑
    發(fā)表于 03-11 15:16

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內(nèi)部處理過程,并探討了模型中是否存在特定于語言的神經(jīng)元。
    發(fā)表于 03-07 14:44 ?528次閱讀
    大<b class='flag-5'>語言</b>模型(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題

    穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級?高質(zhì)量發(fā)展 | 聯(lián)誠發(fā)高質(zhì)量發(fā)展工作推進會議召開

    2月21日下午,聯(lián)誠發(fā)LCF以“穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級?高質(zhì)量發(fā)展”為主題的企業(yè)高質(zhì)量發(fā)展工作推進大會在聯(lián)誠發(fā)深圳總部隆重召開。擂起奮進催征的戰(zhàn)鼓,爭分奪秒搶抓寶貴春光,明確企業(yè)重點目標任務,全力以赴
    的頭像 發(fā)表于 02-22 11:33 ?435次閱讀
    穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級?<b class='flag-5'>高質(zhì)量</b>發(fā)展 | 聯(lián)誠發(fā)<b class='flag-5'>高質(zhì)量</b>發(fā)展工作推進會議召開

    捷易科技出席廣東省韶關市高質(zhì)量發(fā)展大會

    ABSTRACT摘要2月19日,2024年韶關市高質(zhì)量發(fā)展招商大會在韶關舉行,來自政府、科技、企業(yè)各界專家代表共同探討韶關高質(zhì)量發(fā)展。捷易科技總經(jīng)理韓運恒出席大會。JAEALOT2024年2月19日
    的頭像 發(fā)表于 02-22 08:25 ?426次閱讀
    捷易科技出席廣東省韶關市<b class='flag-5'>高質(zhì)量</b>發(fā)展大會

    為工業(yè) 4.0 工廠的大規(guī)模定制、高質(zhì)量和可持續(xù)運營提供支持

    作者:Jeff Shepard 投稿人:DigiKey 北美編輯 對于工業(yè) 4.0 自動化制造系統(tǒng)的設計人員來說,利用高質(zhì)量和可持續(xù)的生產(chǎn)流程來支持大規(guī)模定制可能具有一定挑戰(zhàn)性。他們需要在各種有線
    的頭像 發(fā)表于 02-13 14:31 ?633次閱讀
    為工業(yè) 4.0 工廠的<b class='flag-5'>大規(guī)模</b>定制、<b class='flag-5'>高質(zhì)量</b>和可持續(xù)運營提供支持

    商湯科技與庫醇科技達成合作 為垂域大模型構建高質(zhì)量大規(guī)模的領域微調(diào)數(shù)據(jù)

    數(shù)字化轉(zhuǎn)型,為垂域大模型構建高質(zhì)量大規(guī)模的領域微調(diào)數(shù)據(jù)。 ? 本次合作將基于商湯通用大模型進行二次開發(fā),給模型注入領域知識, 訓練一個專門根據(jù)葡萄酒愛好者問題生成關鍵詞的大模型 。 ? ? 商湯科技副總裁張果琲(右四)、庫醇科技CEO郭俊
    的頭像 發(fā)表于 01-10 09:46 ?668次閱讀
    商湯科技與庫醇科技達成合作 為垂域大模型構建<b class='flag-5'>高質(zhì)量大規(guī)模</b>的領域微調(diào)<b class='flag-5'>數(shù)據(jù)</b>

    雙目測寬儀高質(zhì)量生產(chǎn)利器 測寬儀價格

    光,它能做到無損檢測,實時監(jiān)測報警,數(shù)據(jù)存儲,數(shù)據(jù)分析,是為軋鋼工作人員提供重要指導依據(jù)的設備,是高質(zhì)量生產(chǎn)的利器。
    發(fā)表于 12-04 17:10

    多語言開發(fā)的流程詳解

    現(xiàn)在不少應用都是要求有多語言切換的, 使用QT開發(fā)上位機也同樣需要做多語言功能, 不過QT是自帶了多語言翻譯功能, 可以很方便的借助原生工具進行, 下面就簡單來看看多語言開發(fā)的流程!
    的頭像 發(fā)表于 11-30 09:08 ?1020次閱讀

    卓越領航!廣和通獲評“2023高質(zhì)量發(fā)展領軍企業(yè)”

    廣和通要聞 11月28日,以“協(xié)同新發(fā)展、引領新示范”為主題的第四屆高質(zhì)量發(fā)展高峰論壇暨2023高質(zhì)量發(fā)展領軍企業(yè)、領軍人物頒獎盛典順利舉辦。大會揭曉了“2023高質(zhì)量發(fā)展領軍企業(yè)、領軍人物”榜單
    的頭像 發(fā)表于 11-29 18:00 ?472次閱讀
    卓越領航!廣和通獲評“2023<b class='flag-5'>高質(zhì)量</b>發(fā)展領軍企業(yè)”

    S7-1500:設置CPU語言的步驟

    對于CPU上文本的多語言管理,必須使用CPU的多語言屬性來選擇項目中所需的語言。這是例如 ProDiag消息文本使用多種語言所必需的。
    的頭像 發(fā)表于 11-16 16:13 ?870次閱讀
    S7-1500:設置CPU<b class='flag-5'>語言</b>的步驟