0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)在GitHub上一個(gè)開源的鑒黃圖像數(shù)據(jù)集

電子工程師 ? 來源:lq ? 2019-02-18 09:53 ? 次閱讀

前方高能預(yù)警,非戰(zhàn)斗人士請火速撤離……

今天給大家介紹一個(gè)在 GitHub 上一個(gè)開源的鑒黃圖像數(shù)據(jù)集,它擁有 158萬的數(shù)據(jù)量,叫做 NSFW data source URLs,目前該項(xiàng)目已收獲 918 star 了。

項(xiàng)目地址:

https://github.com/EBazarov/nsfw_data_source_urls

在 raw_data 文件夾里,可以找到不同的 .txt 格式的文檔,每個(gè)文檔都含有一組 URL,以下是關(guān)于該數(shù)據(jù)集的一些統(tǒng)計(jì)信息

159個(gè) 不同的類別

158.9331 萬個(gè) URL

下載并清洗后大約有 500GB,或者說有 130 萬張 NSFW 圖像

以下為項(xiàng)目中圖片截圖示例:

注意事項(xiàng):

1. 建議下載后清洗下數(shù)據(jù)集,例如:

刪除重復(fù)圖片

移動(dòng)被禁止/刪除掉的圖片(它們有一個(gè)特殊的圖像占位符)

找出損壞的數(shù)據(jù)并將其刪除

2. 注意噪聲,一些資源提供了 NSFW 和中性圖像的高度混合數(shù)據(jù)。

3. 該庫還可以幫助檢索 NSFW 圖像,針對中性圖像沒有專用的 URL。

值得一提的是,在該項(xiàng)目之前還有一個(gè)類似的開源項(xiàng)目 nsfw_data_scrapper,里面有 22 萬張圖像,同樣也可以用來檢測或訓(xùn)練鑒黃系統(tǒng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    461

    瀏覽量

    16237

原文標(biāo)題:上班時(shí)間請勿打開,158萬張鑒黃圖片數(shù)據(jù)集來嘍~

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    個(gè)socket對應(yīng)個(gè)連接嗎

    的接口,允許不同計(jì)算機(jī)之間建立連接,進(jìn)行數(shù)據(jù)交換。個(gè)socket可以看作是兩個(gè)程序之間的通信端點(diǎn),由IP地址和端口號唯
    的頭像 發(fā)表于 08-16 10:55 ?238次閱讀

    esp32無法燒錄github上的個(gè)固件,為什么?

    我準(zhǔn)備用esp32-s2模組來做一個(gè)簡易的激光雕刻機(jī) 代碼是github上的https://github.com/bdring/FluidNC 在運(yùn)行安裝腳本的時(shí)候,提示我芯片是esp32-s2
    發(fā)表于 06-17 08:00

    開源項(xiàng)目】自制個(gè)創(chuàng)客專屬的無反相機(jī)

    /T-Display-S3-Pro</span> 然后這里有個(gè)測試用的示例相機(jī)程序:<span>https://github.com/moononournation
    發(fā)表于 02-29 15:50

    spi讀取多個(gè)字節(jié)的時(shí)候該怎么判斷UART的上一個(gè)字節(jié)已經(jīng)讀完了?

    想問下 spi 的 SPI_SpiIsBusBusy() 的這個(gè)API UART 中怎么實(shí)現(xiàn),讀取多個(gè)字節(jié)的時(shí)候該怎么判斷 UART 的上一個(gè)字節(jié)已經(jīng)讀完了?
    發(fā)表于 02-02 06:54

    Harvard FairSeg:第一個(gè)用于醫(yī)學(xué)分割的公平性數(shù)據(jù)

    為了解決這些挑戰(zhàn),我們提出了第一個(gè)大規(guī)模醫(yī)學(xué)分割領(lǐng)域的公平性數(shù)據(jù), Harvard-FairSeg。該數(shù)據(jù)旨在用于研究公平性的cup-d
    的頭像 發(fā)表于 01-25 16:52 ?426次閱讀
    Harvard FairSeg:第<b class='flag-5'>一個(gè)</b>用于醫(yī)學(xué)分割的公平性<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    OpenCV4中聯(lián)通組件分析的個(gè)缺點(diǎn)

    最近別人給了我個(gè)生物數(shù)據(jù)分割的標(biāo)注數(shù)據(jù),讓我訓(xùn)練下,發(fā)現(xiàn)這個(gè)
    的頭像 發(fā)表于 01-04 15:51 ?347次閱讀
    OpenCV4中聯(lián)通組件分析的<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>缺點(diǎn)

    mysql怎么新建個(gè)數(shù)據(jù)

    mysql怎么新建個(gè)數(shù)據(jù)庫 如何新建個(gè)數(shù)據(jù)MySQL中 創(chuàng)建
    的頭像 發(fā)表于 12-28 10:01 ?715次閱讀

    個(gè)用于6D姿態(tài)估計(jì)和跟蹤的統(tǒng)基礎(chǔ)模型

    今天筆者將為大家分享NVIDIA的最新開源方案FoundationPose,是個(gè)用于 6D 姿態(tài)估計(jì)和跟蹤的統(tǒng)基礎(chǔ)模型。只要給出CAD模型或少量參考
    的頭像 發(fā)表于 12-19 09:58 ?687次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>用于6D姿態(tài)估計(jì)和跟蹤的統(tǒng)<b class='flag-5'>一</b>基礎(chǔ)模型

    GitHub入門與實(shí)踐

    GitHub 提供了個(gè)方便的平臺,讓開發(fā)者能夠托管、分享和協(xié)作編寫代碼。通過 Git 版本控制系統(tǒng),可以有效地進(jìn)行團(tuán)隊(duì)協(xié)作和版本管理。協(xié)作和社交: 用戶可以
    發(fā)表于 12-14 09:53 ?4次下載

    重塑GitHub、顛覆程序開發(fā):GitHub Universe 2023發(fā)布重大更新

    GitHub 首席執(zhí)行官 Thomas Dohmke 表示,他們正在逐步將 Copilot 與 GitHub 各方面融合,并將其作為個(gè)重要組成部分。可以說,這是
    的頭像 發(fā)表于 11-09 15:54 ?654次閱讀
    重塑<b class='flag-5'>GitHub</b>、顛覆程序開發(fā):<b class='flag-5'>GitHub</b> Universe 2023發(fā)布重大更新

    Akshare:個(gè)非常好用的開源A股數(shù)據(jù)獲取模塊

    Akshare是個(gè)非常好用的開源A股數(shù)據(jù)獲取模塊,它是基于 Python 的財(cái)經(jīng)數(shù)據(jù)接口庫,目的是實(shí)現(xiàn)對A股、美股、期貨等金融產(chǎn)品的基本面
    的頭像 發(fā)表于 10-21 10:58 ?5053次閱讀
    Akshare:<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>非常好用的<b class='flag-5'>開源</b>A股<b class='flag-5'>數(shù)據(jù)</b>獲取模塊

    FPGA個(gè)時(shí)鐘周期可以讀取多個(gè)RAM數(shù)據(jù)嗎?

    FPGA個(gè)時(shí)鐘周期可以讀取多個(gè)RAM數(shù)據(jù)嗎?如何理解FPGA中存放程序的RAM? FPGA
    的頭像 發(fā)表于 10-18 15:28 ?1058次閱讀

    個(gè)開源MCU級的命令行交互組件

    個(gè)開源MCU級命令行交互組件~
    的頭像 發(fā)表于 10-17 16:26 ?327次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個(gè)</b><b class='flag-5'>開源</b>MCU級的命令行交互組件

    Streamlit:個(gè)開箱即用的工具

    于 streamlit 來說,請你相信我,這是個(gè)你可以無腦去學(xué)習(xí)的框架,我之所以這么說,是因?yàn)槲蚁嘈沤K有天,你定能用得上它。 Streamlit 是
    的頭像 發(fā)表于 10-17 11:13 ?1323次閱讀
    Streamlit:<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>開箱即用的工具<b class='flag-5'>集</b>

    開源項(xiàng)目】YMFC開源小四軸無人飛行器

    接收機(jī)實(shí)現(xiàn),只要可以買到支持PPM輸出的遙控器和接收機(jī),插上去就能用。 圖傳:直接綁上一個(gè)模擬攝像頭+發(fā)射機(jī)模塊就行。圖傳接收機(jī)可以是直接買商用模塊,或者參考視頻教程[第六]用軟件無線電實(shí)現(xiàn)。 配套
    發(fā)表于 09-26 13:53