前言
計算機視覺可以學習美式手語,進而幫助聽力障礙群體嗎?數(shù)據(jù)科學家David Lee用一個項目給出了答案。
如果聽不到了,你會怎么辦?如果只能用手語交流呢?
當對方無法理解你時,即使像訂餐、討論財務事項,甚至和朋友家人對話這樣簡單的事情也可能令你氣餒。對普通人而言輕輕松松的事情對于聽障群體可能是很困難的,他們甚至還會因此遭到歧視。
在很多場景下,他們無法獲取合格的翻譯服務,從而導致失業(yè)、社會隔絕和公共衛(wèi)生問題。為了讓更多人聽到聽障群體的聲音,數(shù)據(jù)科學家 David Lee 嘗試利用數(shù)據(jù)科學項目來解決這一問題:計算機視覺可以學習美式手語,進而幫助聽力障礙群體嗎?
如果通過機器學習應用可以精確地翻譯美式手語,即使從最基礎的字母表開始,我們也能向著為聽力障礙群體提供更多的便利和教育資源前進一步。
數(shù)據(jù)和項目介紹
出于多種原因,David Lee決定創(chuàng)建一個原始圖像數(shù)據(jù)集。首先,基于移動設備或攝像頭設置想要的環(huán)境,需要的分辨率一般是720p或1080p?,F(xiàn)有的幾個數(shù)據(jù)集分辨率較低,而且很多不包括字母「J」和「Z」,因為這兩個字母需要一些動作才能完成。
為此,David Lee 在社交平臺上發(fā)送了手語圖像數(shù)據(jù)收集請求,介紹了這個項目和如何提交手語圖像的說明,希望借此提高大家的認識并收集數(shù)據(jù)。
數(shù)據(jù)變形和過采樣
David Lee 為該項目收集了 720 張圖片,其中還有幾張是他自己的手部圖像。由于這個數(shù)據(jù)集規(guī)模較小,于是 David 使用 labelImg 軟件手動進行邊界框標記,設置變換函數(shù)的概率以基于同一張圖像創(chuàng)建多個實例,每個實例上的邊界框有所不同。下圖展示了數(shù)據(jù)增強示例:
經(jīng)過數(shù)據(jù)增強后,該數(shù)據(jù)集的規(guī)模從 720 張圖像擴展到 18,000 張圖像。
建模
David 選擇使用 YOLOv5 進行建模。將數(shù)據(jù)集中 90% 的圖像用作訓練數(shù)據(jù),10% 的圖像用作驗證集。使用遷移學習和 YOLOv5m 預訓練權(quán)重訓練 300 個 epoch。
在驗證集上成功創(chuàng)建具備標簽和預測置信度的新邊界框。
由于損失值并未出現(xiàn)增長,表明模型未過擬合,因此該模型或許可以訓練更多輪次。模型最終獲得了 85.27% 的 mAP@.5:.95 分數(shù)。
圖像推斷測試
David 額外收集了他兒子的手部圖像數(shù)據(jù)作為測試集。事實上,還沒有兒童手部圖像用于訓練該模型。理想情況下,再多幾張圖像有助于展示模型的性能,但這只是個開始。
26 個字母中,有 4 個沒有預測結(jié)果(分別是 G、H、J 和 Z)。四個沒有得到準確預測:
D 被預測為 F;
E 被預測為 T;
P 被預測為 Q;
R 被預測為 U。
視頻推斷測試
即使只有幾個手部圖像用于訓練,模型仍能在如此小的數(shù)據(jù)集上展現(xiàn)不錯的性能,而且還能以一定的速度提供優(yōu)秀的預測結(jié)果,這一結(jié)果表現(xiàn)出了很大的潛力。更多數(shù)據(jù)有助于創(chuàng)建可在多種新環(huán)境中使用的模型。如以上視頻所示,即使字母有一部分出框了,模型仍能給出不錯的預測結(jié)果。最令人驚訝的是,字母 J 和 Z 也得到了準確識別。
其他測試
執(zhí)行其他一些測試,例如:左手手語測試
幾乎所有原始圖像都顯示的是右手,但驚喜地發(fā)現(xiàn)數(shù)據(jù)增強在這里起到了作用,因為有 50% 的可能性是針對左手用戶進行水平翻轉(zhuǎn)。
兒童手語測試
兒童的手語數(shù)據(jù)未被用于訓練集,但模型對此仍有不錯的預測。
多實例
盡管手語的使用和視頻中有所不同,但這個示例表明當多個人出現(xiàn)在屏幕上時,模型可以分辨出不止一個手語實例。
模型局限性
發(fā)現(xiàn)該模型還有一些地方有待改進。
距離
許多原始圖像是用手機拍攝的,手到攝像頭的距離比較近,這對遠距離推斷有一定負面影響。
新環(huán)境
這支視頻來自于志愿者,未用于模型訓練。盡管模型看到過很多字母,但對此的預測置信度較低,還有一些錯誤分類。
背景推斷
該測試旨在驗證不同的背景會影響模型的性能。
結(jié)論
這個項目表明:計算機視覺可用于幫助聽力障礙群體獲取更多便利和教育資源!該模型在僅使用小型數(shù)據(jù)集的情況下仍能取得不錯的性能。即使對于不同環(huán)境中的不同手部,模型也能實現(xiàn)良好的檢測結(jié)果。
而且一些局限性是可以通過更多訓練數(shù)據(jù)得到解決的。經(jīng)過調(diào)整和數(shù)據(jù)集的擴大,該模型或許可以擴展到美式手語字母表以外的場景。
責任編輯:lq
-
手勢識別
+關注
關注
8文章
225瀏覽量
47760 -
計算機視覺
+關注
關注
8文章
1694瀏覽量
45901 -
數(shù)據(jù)集
+關注
關注
4文章
1200瀏覽量
24621
原文標題:YOLOv5的項目實踐 | 手勢識別項目落地全過程(附源碼)
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論