資料介紹
描述
盲人和視障人士經(jīng)常遇到各種社會(huì)經(jīng)濟(jì)挑戰(zhàn),這些挑戰(zhàn)可能會(huì)阻礙他們獨(dú)立生活和充分參與社會(huì)的能力。然而,機(jī)器學(xué)習(xí)的出現(xiàn)為輔助技術(shù)的發(fā)展開辟了新的可能性。在這項(xiàng)研究中,我們利用圖像字幕和文本轉(zhuǎn)語音技術(shù)創(chuàng)建了一種設(shè)備,可以幫助視力受損或失明的人。圖像字幕與文字轉(zhuǎn)語音技術(shù)相結(jié)合,可以為視障人士和盲人提供幫助。
此外,我想分享我使用TensorRT優(yōu)化深度學(xué)習(xí)模型以縮短其推理時(shí)間的經(jīng)驗(yàn)。有關(guān)詳細(xì)信息,請參閱 TechRxiv 上的預(yù)印本,標(biāo)題為:適用于視障人士和盲人的圖像字幕:低資源語言的秘訣。
為簡單起見,我們假設(shè)一切都已安裝。
隨著單板計(jì)算機(jī) (SBC) 越來越流行用于運(yùn)行 AI 和深度學(xué)習(xí)項(xiàng)目,有些甚至專門設(shè)計(jì)用于運(yùn)行 AI 和深度學(xué)習(xí)項(xiàng)目。我們使用來自SeeedStudio (@seeedstudio)的 reComputer NVIDIA Jetson Xavier NX作為我們系統(tǒng)的大腦。reComputer J20 配備 Jetson Xavier NX,可提供高達(dá) 21 TOPS 的性能,使其成為嵌入式和邊緣系統(tǒng)中高性能計(jì)算和 AI 的理想選擇。
NVIDIA Jetson 設(shè)備緊湊且節(jié)能,能夠?qū)崟r(shí)執(zhí)行機(jī)器學(xué)習(xí)算法。然而,在這些內(nèi)存有限的設(shè)備上部署復(fù)雜的深度學(xué)習(xí)模型可能很困難。為了克服這個(gè)問題,我們使用了TensorRT等推理優(yōu)化工具,它使我們能夠通過減少內(nèi)存占用來在邊緣設(shè)備上執(zhí)行深度學(xué)習(xí)模型。
圖像描述模型部署管道
我們使用流行的 Microsoft COCO 2014 (COCO) 基準(zhǔn)數(shù)據(jù)集來訓(xùn)練ExpansionNet v2圖像描述模型。該數(shù)據(jù)集由 123, 287 張圖像組成,每張圖像都有五個(gè)人工注釋的說明,總共有超過 600, 000 個(gè)圖像-文本對。我們將數(shù)據(jù)集拆分為訓(xùn)練(113、287 張圖像)、驗(yàn)證(5、000 張圖像)和測試(5、000 張圖像)集,使用Karpathy拆分策略進(jìn)行離線評估。為了生成哈薩克語的字幕,我們使用免費(fèi)提供的谷歌翻譯服務(wù)翻譯了原始的英文字幕。
為了訓(xùn)練哈薩克語字幕的模型,我們遵循了ExpansioNet v2的原始工作中定義的模型架構(gòu)。預(yù)訓(xùn)練的 Swin Transformer 被用作骨干網(wǎng)絡(luò),從輸入圖像生成視覺特征。該模型在Nvidia DGX-2 服務(wù)器的四個(gè) V100 圖形處理單元 (GPU) 上進(jìn)行訓(xùn)練。
最后,圖像字幕模型 ExpansionNet v2 部署在 Nvidia Jetson Xavier NX 板上。按下按鈕觸發(fā)相機(jī)捕捉分辨率為 640 × 480 像素的 RGB 圖像。然后,將捕獲的圖像調(diào)整為 384 × 384 并傳遞給 ExpansionNet v2 模型以生成說明。接下來,使用文本到語音模型將生成的字幕文本轉(zhuǎn)換為音頻。在我們的研究中,我們利用KazakhTTS模型將哈薩克文本轉(zhuǎn)換為語音。最后,生成的音頻通過用戶的耳機(jī)播放,使盲人或視障人士能夠理解他們面前的內(nèi)容。
ONNX 概述
ONNX 是一種用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的開放格式。它允許您將來自不同框架(例如 TensorFlow、PyTorch、MATLAB、Caffe 和 Keras)的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為單一格式。
該工作流程包括以下步驟:
- 將常規(guī) PyTorch 模型文件轉(zhuǎn)換為 ONNX 格式。ONNX 轉(zhuǎn)換腳本可在此處獲得。
- 使用 trtexec 實(shí)用程序創(chuàng)建 TensorRT 引擎
trtexec --onnx=./model.onnx --saveEngine=./model_fp32.engine --workspace=200
- 從 TensorRT 引擎運(yùn)行推理。
使用 TensorRT 進(jìn)行推理優(yōu)化
TensorRT 是 NVIDIA 開發(fā)的高性能深度學(xué)習(xí)推理引擎。它優(yōu)化神經(jīng)網(wǎng)絡(luò)模型并生成可在 NVIDIA GPU 上運(yùn)行的高度優(yōu)化的推理引擎。TensorRT 使用靜態(tài)和動(dòng)態(tài)優(yōu)化的組合來實(shí)現(xiàn)高性能,包括層融合、內(nèi)核自動(dòng)調(diào)整和精度校準(zhǔn)。
另一方面,PyTorch 是一種流行的深度學(xué)習(xí)框架,廣泛用于研究和開發(fā)。PyTorch 提供了一個(gè)動(dòng)態(tài)計(jì)算圖,允許用戶動(dòng)態(tài)定義和修改他們的模型,這使得嘗試不同的架構(gòu)和訓(xùn)練方法變得容易。
與 PyTorch 模型相比,TensorRT 模型似乎提供了更快的推理結(jié)果。與 PyTorch 模型相比,TensorRT 模型處理圖像的時(shí)間減少了大約 50%,盡管它的文件大小更小。
簡而言之,如果速度和效率是您的首要關(guān)注點(diǎn),那么 TensorRT 可能是更好的選擇。這對于大多數(shù)實(shí)時(shí)對象檢測應(yīng)用來說已經(jīng)足夠快了。
在推理過程中,您可以使用jetson-stats實(shí)用程序檢查 Nvidia Jetson 板的當(dāng)前性能。您可以實(shí)時(shí)監(jiān)控模型正在使用的資源,并最大限度地利用硬件。
以佩戴圖像字幕輔助設(shè)備的人類為對象的真實(shí)世界實(shí)驗(yàn)
該圖說明了我們的圖像字幕輔助系統(tǒng)的真實(shí)世界實(shí)驗(yàn),該系統(tǒng)包括一個(gè)攝像頭、一個(gè)單板深度學(xué)習(xí)計(jì)算機(jī)(Nvidia Jetson Xavier NX)、一個(gè)按鈕和耳機(jī)。
攝像頭通過通用串行總線(USB)連接到單板機(jī),按鈕和耳機(jī)分別連接到單板機(jī)的通用輸入/輸出(GPIO)引腳和音頻端口. 攝像頭使用可調(diào)節(jié)的帶子固定在用戶的額頭上,而用戶則將單板計(jì)算機(jī)(和移動(dòng)電源)放在背包中,并在操作過程中佩戴耳機(jī)。
結(jié)論和進(jìn)一步改進(jìn)
視障人士和盲人在日常生活中面臨著獨(dú)特的挑戰(zhàn),包括無法獨(dú)立獲取視覺信息。圖像字幕技術(shù)已顯示出為該社區(qū)提供幫助的希望。
除了現(xiàn)有的圖像字幕和文本轉(zhuǎn)語音技術(shù)外,我們的目標(biāo)是將視覺問答 (VQA) 功能整合到我們?yōu)橐曊先耸亢兔と颂峁┑妮o助設(shè)備中。這將使用戶能夠提出有關(guān)圖像的問題并獲得口頭答復(fù)。
為了進(jìn)一步優(yōu)化我們的深度學(xué)習(xí)模型并提高其性能,我們將執(zhí)行從 FP32 到 FP16 或 INT8 的量化。這將減少推理所需的內(nèi)存占用和計(jì)算時(shí)間,使我們的輔助設(shè)備更加高效。
如果您對我們的項(xiàng)目感興趣,請考慮為我們在github上的存儲庫加星。多謝!
我希望您發(fā)現(xiàn)這項(xiàng)研究有用,并感謝您閱讀它。如果您有任何問題或反饋,請?jiān)谙路桨l(fā)表評論。敬請關(guān)注!
致謝
- 該項(xiàng)目得到了智能系統(tǒng)與人工智能研究所工作人員的支持、指導(dǎo)和協(xié)助,得以順利完成。
- Image captioning 模型的實(shí)現(xiàn)依賴于ExpansioNet v2。
- 視障人士智能手杖開源硬件
- 基于超聲波傳感器的盲人智能眼鏡 0次下載
- 基于超聲波傳感器的視障人士夾克 0次下載
- 為聽障人士設(shè)計(jì)的智能房間控制器
- 為視障人士設(shè)計(jì)的支持Arduino的PCB設(shè)備
- 帶有顯示時(shí)間的自動(dòng)車碼表避障程序下載 0次下載
- 用于視障人士的集成無線室內(nèi)導(dǎo)航系統(tǒng) 16次下載
- 如何設(shè)計(jì)面向視障人士的RFID和GPS組合導(dǎo)航系統(tǒng)智能機(jī)器人 5次下載
- 使用Arduino設(shè)計(jì)的智能小車自動(dòng)避障的接線說明 18次下載
- 使用AudioGuid系統(tǒng)和GPS接收器設(shè)計(jì)視障人士戶外行走輔助系統(tǒng)的研究 3次下載
- 設(shè)計(jì)雙目視覺移動(dòng)機(jī)器人的路徑規(guī)劃和避障系統(tǒng)的研究說明 3次下載
- 智能小車進(jìn)行避障的詳細(xì)資料說明如何讓小車看到障礙物 33次下載
- 圖像處理教程之圖像復(fù)原的詳細(xì)資料說明 7次下載
- 圖像處理教程之圖像運(yùn)算的詳細(xì)資料說明 12次下載
- 一個(gè)基于語音識別的盲人上網(wǎng)輔助系統(tǒng)的設(shè)計(jì)
- 技術(shù)指南丨深視智能3D相機(jī)上下對射測厚操作流程 170次閱讀
- 全對稱多面鏡單視點(diǎn)折反射周視系統(tǒng)概述 755次閱讀
- Lesson38 圖像傳感器介紹與設(shè)計(jì)架構(gòu) 518次閱讀
- 使用傾斜傳感器為視障人士設(shè)計(jì)水平儀 921次閱讀
- 基于單片機(jī)和GS-89m-J定位模塊實(shí)現(xiàn)智能拐杖系統(tǒng)的設(shè)計(jì) 2424次閱讀
- Linux服務(wù)器排障相關(guān)的性能問題、優(yōu)化和便利工具 1662次閱讀
- 可以實(shí)現(xiàn)寬動(dòng)態(tài)及LED閃爍抑制的汽車圖像傳感器OX01D10的說明 1190次閱讀
- 最基礎(chǔ)的圖像處理常用算法 3156次閱讀
- 機(jī)器人視覺避障的常用傳感器介紹和原理說明 1.3w次閱讀
- 如何解決機(jī)器人“避障”的問題 4442次閱讀
- VizWiz數(shù)據(jù)集:用計(jì)算機(jī)視覺回答盲人的問題 7079次閱讀
- ISP圖像處理芯片 1.9w次閱讀
- 圖像分割算法有哪些 3w次閱讀
- 超聲波傳感器在智能小車避障系統(tǒng)中的應(yīng)用 1.3w次閱讀
- 什么是無人機(jī)避障技術(shù) 在消費(fèi)級無人機(jī)領(lǐng)域?yàn)槭裁椿鸩涣耍?/a> 3146次閱讀
下載排行
本周
- 1XL4015+LM358恒壓恒流電路圖
- 0.38 MB | 137次下載 | 1 積分
- 2elmo直線電機(jī)驅(qū)動(dòng)調(diào)試細(xì)則
- 4.76 MB | 9次下載 | 6 積分
- 3ADL-GPIB IEEE 488命令集函數(shù)參考手冊
- 0.67 MB | 2次下載 | 5 積分
- 4儀表培訓(xùn)課件
- 1.82 MB | 2次下載 | 1 積分
- 5PCB布線和布局電路設(shè)計(jì)規(guī)則
- 0.40 MB | 2次下載 | 免費(fèi)
- 6DTSD1352導(dǎo)軌式多功能電能表安裝使用說明書 V2.15
- 1.19 MB | 1次下載 | 免費(fèi)
- 7BQ79616-Q1和BQ75614-Q1 GUI用戶指南
- 4.51MB | 1次下載 | 免費(fèi)
- 8INA226EVM用戶指南
- 4.7MB | 1次下載 | 免費(fèi)
本月
- 1XL4015+LM358恒壓恒流電路圖
- 0.38 MB | 137次下載 | 1 積分
- 2新概念模擬電路第四冊信號處理電路電子書免費(fèi)下載
- 10.69 MB | 60次下載 | 免費(fèi)
- 3800VA純正弦波逆變器的參考設(shè)計(jì)
- 2.96MB | 33次下載 | 免費(fèi)
- 4純電動(dòng)汽?的主要部件及?作原理
- 5.76 MB | 15次下載 | 5 積分
- 5JESD79-5C_v1.30-2024 內(nèi)存技術(shù)規(guī)范
- 2.71 MB | 10次下載 | 免費(fèi)
- 6elmo直線電機(jī)驅(qū)動(dòng)調(diào)試細(xì)則
- 4.76 MB | 9次下載 | 6 積分
- 7明偉電源模塊RSP-3000圖紙
- 0.30 MB | 8次下載 | 免費(fèi)
- 8使用BQ76PL102系列電量計(jì)進(jìn)行BQ78PL114的快速入門指南
- 4.04MB | 7次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935115次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420061次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233084次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191366次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183329次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73805次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65985次下載 | 10 積分
評論
查看更多