0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TFRecorder已開源

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-09-23 09:12 ? 次閱讀

在訓(xùn)練計(jì)算機(jī)視覺機(jī)器學(xué)習(xí)模型時(shí),數(shù)據(jù)加載是一種常見的性能瓶頸,可能導(dǎo)致 GPU 或 TPU 資源在等待數(shù)據(jù)加載到模型時(shí)得不到充分利用。以高效 TensorFlow Record (TFRecord)格式存儲(chǔ)數(shù)據(jù)集是解決這些問題的好方法,只不過,創(chuàng)建 TFRecords 往往需要大量的復(fù)雜代碼。

TensorFlow Record
https://tensorflow.google.cn/tutorials/load_data/tfrecord

我們上周開源了 TensorFlow Recorder 項(xiàng)目(也就是 TFRecorder),如此一來,數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師AI/ML 工程師只需幾行代碼即可創(chuàng)建基于圖像的 TFRecords。使用 TFRecords 對(duì)于創(chuàng)建高效 TensorFlow ML 流水線非常重要,而過去的創(chuàng)建方法非常繁瑣。在 TFRecorder 之前,要大規(guī)模創(chuàng)建 TFRecords,必須編寫一個(gè)數(shù)據(jù)流水線來解析結(jié)構(gòu)化數(shù)據(jù),從存儲(chǔ)中加載圖像并將結(jié)果序列化為 TFRecord 格式。TFRecorder 允許您直接從 Pandas dataframe 或 CSV 寫入 TFRecords,無需編寫任何復(fù)雜的代碼。

TensorFlow Recorder
https://github.com/google/tensorflow-recorder

以下是 TFRecoder 的示例,但我們先談?wù)?TFRecords 的一些特定優(yōu)勢(shì)。

TFRecords 如何提供幫助

TFRecord 文件格式可以將數(shù)據(jù)存儲(chǔ)在文件集中,每個(gè)文件都包含序列化為二進(jìn)制記錄的 Protocol Buffers 序列,可以非常高效地讀取,有助于減少上述數(shù)據(jù)加載瓶頸。

Protocol Buffers
https://developers.google.com/protocol-buffers/

在使用 TFRecord 格式的同時(shí)實(shí)現(xiàn)預(yù)提取和并行交錯(cuò),可以進(jìn)一步提高數(shù)據(jù)加載性能。當(dāng)模型在當(dāng)前步驟上執(zhí)行訓(xùn)練時(shí),使用 prefetch 可以提前獲取下一個(gè)訓(xùn)練步驟的數(shù)據(jù),從而縮短每個(gè)模型訓(xùn)練步驟的時(shí)間,Parallel interleave 允許您讀取多個(gè) TFRecords 分片(TFRecord 文件的一部分),并對(duì)這些交錯(cuò)的數(shù)據(jù)流進(jìn)行預(yù)處理。這能夠減少讀取訓(xùn)練批次所需的延遲,特別適用于從網(wǎng)絡(luò)讀取數(shù)據(jù)。

預(yù)提取和并行交錯(cuò)
https://tensorflow.google.cn/guide/data_performance

使用 TensorFlow Recorder

使用 TFRecorder 只需幾行代碼即可創(chuàng)建 TFRecord。工作原理如下。

import pandas as pd import tfrecorder df = pd.read_csv(...) df.tensorflow.to_tfrecord(output_dir="gs://my/bucket")

TFRecorder 目前預(yù)期數(shù)據(jù)與 Google AutoML Vision 格式相同。

AutoML Vision
https://cloud.google.com/vision/automl/docs/prepare

這種格式與 Pandas dataframe 或 CSV 格式類似:

split image_uri label
TRAIN gs://my/bucket/image1.jpg cat

其中:

split 可以取值 TRAIN、VALIDATION 和 TEST

image_uri 指定圖像文件的本地或 Google Cloud Storage 位置。

label 可以是將被整數(shù)化的基于文本的標(biāo)簽,也可以是一個(gè)整數(shù)

將來,我們希望進(jìn)一步擴(kuò)展 TensorFlow Recorder,支持所有格式的數(shù)據(jù)。

這個(gè)示例雖然能夠?qū)⑸锨€(gè)圖像順利轉(zhuǎn)換成 TFRecords,但擴(kuò)展到百萬計(jì)的圖像可能就難以處理。為了擴(kuò)展到龐大的數(shù)據(jù)集,TensorFlow Recorder 提供了與 Google Cloud Dataflow 的連接,后者是一款無服務(wù)器 Apache Beam 流水線運(yùn)行器。擴(kuò)展到 DataFlow 僅需要多一點(diǎn)配置。

Google Cloud Dataflow
https://cloud.google.com/dataflow
Apache Beam
https://beam.apache.org/

df.tensorflow.to_tfrecord( output_dir="gs://my/bucket", runner="DataFlowRunner", project="my-project", region="us-central1)

未來計(jì)劃

我們希望您愿意嘗試 TensorFlow Recorder。您可以從 GitHub 獲取,或者直接 pip 安裝 tfrecorder。

TensorFlow Recorder 剛剛面世,我們非常期待您的反饋、建議和 Pull Requests。

原文標(biāo)題:創(chuàng)建 TFRecords 的救星 — TensorFlow Recorder 現(xiàn)已開源!

文章出處:【微信公眾號(hào):TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128146
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    343

    瀏覽量

    24044
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1685

    瀏覽量

    45811
  • Record
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    6634

原文標(biāo)題:創(chuàng)建 TFRecords 的救星 — TensorFlow Recorder 現(xiàn)已開源!

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Matepad pro12.2 為什么不開源

    Matepad pro12.2 為什么不開源呀,是不是有點(diǎn)違背開源精神了
    發(fā)表于 08-27 17:27

    Matepad pro12.2 上市半個(gè)月,但是還沒有在開源網(wǎng)站看到該項(xiàng)目的開源信息,違背開源精神

    Matepad pro12.2 上市半個(gè)月,本人自己也購(gòu)買了同款12+256的pad,想要同步學(xué)習(xí)下這款pad的一些體驗(yàn)還不錯(cuò)的功能點(diǎn),但是目前為止還沒有在開源網(wǎng)站看到該項(xiàng)目的開源信息,也查詢不到
    發(fā)表于 08-27 17:25

    開啟開源布道新篇章 — LF開源軟件學(xué)園誠(chéng)邀開源精英加入成為OSPO講師

    OSPO——企業(yè)開源戰(zhàn)略的引擎在當(dāng)今數(shù)字化時(shí)代,開源軟件已成為推動(dòng)全球技術(shù)創(chuàng)新的加速器。它不僅重塑了軟件開發(fā)的模式,更成為企業(yè)構(gòu)建競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵。然而,隨著開源文化的深入人心,企業(yè)面臨著如何高效管理
    的頭像 發(fā)表于 07-04 08:36 ?196次閱讀
    開啟<b class='flag-5'>開源</b>布道新篇章 — LF<b class='flag-5'>開源</b>軟件學(xué)園誠(chéng)邀<b class='flag-5'>開源</b>精英加入成為OSPO講師

    【議題征集】國(guó)際開源及RISC-V人才暨開源技術(shù)與生態(tài)之旅

    【議題征集】國(guó)際開源及RISC-V人才暨開源技術(shù)與生態(tài)之旅
    的頭像 發(fā)表于 07-02 08:36 ?165次閱讀
    【議題征集】國(guó)際<b class='flag-5'>開源</b>及RISC-V人才暨<b class='flag-5'>開源</b>技術(shù)與生態(tài)之旅

    迅龍軟件加入開放原子開源基金會(huì)和OpenHarmony?項(xiàng)目,共建開源新生態(tài)

    近日,迅龍軟件與“開放原子開源基金會(huì)”簽署協(xié)議,加入“開放原子開源基金會(huì)”(以下簡(jiǎn)稱“開源基金會(huì)”),成為開源基金會(huì)白銀捐贈(zèng)人,這標(biāo)志著迅龍軟件將在更大平臺(tái)上、更大范圍內(nèi)推動(dòng)
    的頭像 發(fā)表于 04-30 17:50 ?917次閱讀
    迅龍軟件加入開放原子<b class='flag-5'>開源</b>基金會(huì)和OpenHarmony?項(xiàng)目,共建<b class='flag-5'>開源</b>新生態(tài)

    [開源]萬界星空開源MES系統(tǒng),支持低代碼大屏設(shè)計(jì)

    萬界星空科技免費(fèi)MES、開源MES、商業(yè)開源MES、商業(yè)開源低代碼MES、市面上最好的開源MES、MES源代碼、免費(fèi)MES、免費(fèi)智能制造系統(tǒng)、免費(fèi)排產(chǎn)系統(tǒng)、免費(fèi)排班系統(tǒng)、免費(fèi)質(zhì)檢系統(tǒng)、
    的頭像 發(fā)表于 01-12 13:43 ?535次閱讀
    [<b class='flag-5'>開源</b>]萬界星空<b class='flag-5'>開源</b>MES系統(tǒng),支持低代碼大屏設(shè)計(jì)

    超強(qiáng)解析!《開源態(tài)勢(shì)洞察》——開源基金會(huì)篇正式發(fā)布,趕緊收藏!

    大家的洞察,更好的開源。由開放原子開源基金會(huì)出品的《開源態(tài)勢(shì)洞察》致力于搭建一個(gè)平臺(tái),連接開源領(lǐng)域的專家與尋求幫助的組織和個(gè)人,分享有價(jià)值的觀點(diǎn)與方法,成為業(yè)內(nèi)人士獲取洞見和靈感的寶貴
    的頭像 發(fā)表于 01-08 19:35 ?427次閱讀
    超強(qiáng)解析!《<b class='flag-5'>開源</b>態(tài)勢(shì)洞察》——<b class='flag-5'>開源</b>基金會(huì)篇正式發(fā)布,趕緊收藏!

    開源FPGA項(xiàng)目有哪些

    請(qǐng)問開源FPGA項(xiàng)目有哪些?
    發(fā)表于 12-26 12:09

    書寫開源之魂|2023 年活力開源貢獻(xiàn)者、開源項(xiàng)目揭曉

    開源事業(yè)的蓬勃發(fā)展,離不開持之以恒的開源貢獻(xiàn)者。他們用一行行代碼孕育出無數(shù)獨(dú)具特色的產(chǎn)品,凝聚成了源遠(yuǎn)流長(zhǎng)、代代相傳的開源精神。集眾智、采眾長(zhǎng),他們以堅(jiān)定的信念和滿腔的熱情傳播開源文化
    的頭像 發(fā)表于 12-22 09:26 ?523次閱讀
    書寫<b class='flag-5'>開源</b>之魂|2023 年活力<b class='flag-5'>開源</b>貢獻(xiàn)者、<b class='flag-5'>開源</b>項(xiàng)目揭曉

    軟件定義世界 開源共筑未來 首屆“開放原子開源大賽”火熱進(jìn)行中

    近日,2023 首屆開放原子開源大賽正在火熱進(jìn)行中。本次大賽以“軟件定義世界,開源共筑未來”為主題,旨在聯(lián) 合開源組織、企事業(yè)單位、高等院校、科研院所、行業(yè)組織、投融資機(jī)構(gòu)等多方資源,充分發(fā)揮產(chǎn)業(yè)鏈
    的頭像 發(fā)表于 12-21 14:40 ?280次閱讀
    軟件定義世界 <b class='flag-5'>開源</b>共筑未來 首屆“開放原子<b class='flag-5'>開源</b>大賽”火熱進(jìn)行中

    開源大俠請(qǐng)留步!您有一份開源集市攻略!

    分為 A、B、C 三大區(qū)域 擺下攤位等各位開源大俠前去挑戰(zhàn) 同時(shí),開放原子開源基金會(huì)作為門派盟主還為大家單獨(dú)準(zhǔn)備了兌換獎(jiǎng)品環(huán)節(jié)。前往各門派攤位集章,最終兌換花樣獎(jiǎng)品,絕對(duì)不容錯(cuò)過! 規(guī)則如下: ●大俠們可選擇任意攤位進(jìn)行挑戰(zhàn)
    的頭像 發(fā)表于 12-21 09:11 ?232次閱讀
    <b class='flag-5'>開源</b>大俠請(qǐng)留步!您有一份<b class='flag-5'>開源</b>集市攻略!

    中國(guó)開源開發(fā)者躍居全球第二,邁向開源強(qiáng)國(guó)

    數(shù)據(jù)顯示,我國(guó)開源軟件開發(fā)者人數(shù)超過 800 萬,穩(wěn)坐世界老二位置。據(jù)中國(guó)科學(xué)院倪光南院士透露,我國(guó)已有望實(shí)現(xiàn)從開源大國(guó)向開源強(qiáng)國(guó)的跨越式轉(zhuǎn)變。
    的頭像 發(fā)表于 12-19 10:43 ?554次閱讀

    書寫開源之魂|2023年活力開源貢獻(xiàn)者、開源項(xiàng)目揭曉

    開源事業(yè)的蓬勃發(fā)展,離不開持之以恒的開源貢獻(xiàn)者。他們用一行行代碼孕育出無數(shù)獨(dú)具特色的產(chǎn)品,凝聚成了源遠(yuǎn)流長(zhǎng)、代代相傳的開源精神。集眾智、采眾長(zhǎng),他們以堅(jiān)定的信念和滿腔的熱情傳播開源文化
    的頭像 發(fā)表于 12-18 15:55 ?384次閱讀

    開源大俠請(qǐng)留步!您有一份開源集市攻略!

    分為A、B、C三大區(qū)域 擺下攤位等各位開源大俠前去挑戰(zhàn) 同時(shí),開放原子開源基金會(huì)作為門派盟主還為大家單獨(dú)準(zhǔn)備了兌換獎(jiǎng)品環(huán)節(jié)。前往各門派攤位集章,最終兌換花樣獎(jiǎng)品,絕對(duì)不容錯(cuò)過! 規(guī)則如下: ●大俠們可選擇任意攤位進(jìn)行挑戰(zhàn),每
    的頭像 發(fā)表于 12-11 22:20 ?412次閱讀

    用“開源”的方式講開源的合規(guī),合規(guī)“診所”,等你來問!

    和法律體系,鼓勵(lì)企業(yè)開放軟件源代碼、硬件設(shè)計(jì)和應(yīng)用服務(wù)” 。 ——十四五規(guī)劃 近年來,我國(guó)開源生態(tài)發(fā)展態(tài)勢(shì)迅猛,“開源吞噬軟件”的態(tài)勢(shì)在我國(guó)悄然揭開新篇章。隨之而來的開源合規(guī)問題,也
    的頭像 發(fā)表于 12-05 19:35 ?616次閱讀
    用“<b class='flag-5'>開源</b>”的方式講<b class='flag-5'>開源</b>的合規(guī),合規(guī)“診所”,等你來問!