來(lái)自中國(guó)清華大學(xué)的研究人員推出了YOLOv10,這是一種具有卓越進(jìn)步的創(chuàng)新模型,展示了在計(jì)算機(jī)視覺(jué)領(lǐng)域的重要突破。這次發(fā)布體現(xiàn)了讓AI既易于使用又功能強(qiáng)大的承諾,標(biāo)志著重大進(jìn)展和改進(jìn)。
YOLO(You Only Look Once)系列一直是實(shí)時(shí)目標(biāo)檢測(cè)的基準(zhǔn),成功平衡了計(jì)算成本和檢測(cè)性能。盡管在架構(gòu)設(shè)計(jì)和優(yōu)化策略方面取得了進(jìn)展,但對(duì)非最大值抑制(NMS)的依賴阻礙了端到端部署,影響了推理延遲。YOLOv10通過(guò)消除NMS并優(yōu)化模型架構(gòu)推進(jìn)了效率和性能的邊界。
在這些進(jìn)展的背景下,OpenSistemas在AI領(lǐng)域脫穎而出,特別是在訓(xùn)練、測(cè)試和部署如YOLOv10這樣的模型方面。憑借對(duì)前沿技術(shù)的深刻理解和專長(zhǎng),OpenSistemas能夠充分利用YOLOv10的功能,提升目標(biāo)檢測(cè)任務(wù)的精度和效率。這種合作象征著創(chuàng)新與實(shí)際應(yīng)用的融合,推動(dòng)了AI技術(shù)的可能性。
YOLOv10 的特別之處
YOLOv10的主要顯著進(jìn)步是消除了非最大值抑制(NMS)。NMS是許多目標(biāo)檢測(cè)模型中用于消除檢測(cè)到同一對(duì)象的冗余邊界框的后處理步驟。它通過(guò)保留得分最高的邊界框并移除其他重疊顯著的框來(lái)工作。盡管有效,但NMS增加了計(jì)算復(fù)雜性并增加了推理延遲,這會(huì)減慢實(shí)時(shí)應(yīng)用的速度。
YOLOv10通過(guò)采用一致的雙分配方法進(jìn)行無(wú)NMS訓(xùn)練,改變了模型處理重疊檢測(cè)的方式。通過(guò)將這一過(guò)程集成到模型的架構(gòu)和訓(xùn)練策略中,YOLOv10減少了后處理的需要,大大縮短了推理時(shí)間。這種延遲的減少對(duì)于速度和效率至關(guān)重要的實(shí)時(shí)應(yīng)用,如自動(dòng)駕駛、監(jiān)控和實(shí)時(shí)視頻分析至關(guān)重要。消除NMS不僅簡(jiǎn)化了部署過(guò)程,還通過(guò)提高模型的效率和響應(yīng)能力來(lái)提升其性能。
預(yù)訓(xùn)練模型
自從Ultralytics發(fā)布YOLOv5以來(lái),我們已經(jīng)習(xí)慣了每次YOLO發(fā)布時(shí)提供各種模型尺寸:nano、small、medium、large和xlarge。YOLOv10也不例外,清華大學(xué)的研究人員也提供了一系列預(yù)訓(xùn)練模型,可以用于各種目標(biāo)檢測(cè)任務(wù)。
所有這些模型在延遲和平均精度(AP)方面表現(xiàn)出優(yōu)于之前YOLO版本的性能,如下圖所示:
(圖:各YOLO模型在延遲(左)和參數(shù)數(shù)量(右)方面的性能比較)
你可以在下表中查看實(shí)際性能:
(表:可用的YOLOv10預(yù)訓(xùn)練模型,來(lái)源:Ultralytics網(wǎng)站)
使用
我們將嘗試使用原始的倉(cāng)庫(kù):
git clone https://github.com/THU-MIG/yolov10 cd yolov10 pip install -e . # Choose the size of your model I will use the XLarge version wget https://github.com/THU-MIG/yolov10/releases/download/v1.1/yolov10n/s/m/b/l/x.pt
然后,使用方法類似于YOLOv8:
from ultralytics import YOLOv10 # Note the "v10" in the end # Load a model model = YOLOv10('yolov10x.pt') # load an official model # Predict with the model model.predict(0) # predict on your webcam
CLI
yolo predict model=yolov10x.pt source=0 # predict with official model on webcam
Ultralytics框架的預(yù)測(cè)源也可用:
(圖:可用于預(yù)測(cè)的源,來(lái)源:Ultralytics文檔)
結(jié)果
(圖:YOLOv10的目標(biāo)檢測(cè)示例。推理分辨率為384x640)
YOLOv8 vs YOLOv10: 推理延遲
比較YOLOv8和YOLOv10時(shí),最顯著的改進(jìn)之一是推理延遲的減少。推理延遲,即模型處理圖像并進(jìn)行預(yù)測(cè)所需的時(shí)間,對(duì)于自動(dòng)駕駛、視頻監(jiān)控和交互式AI系統(tǒng)等實(shí)時(shí)應(yīng)用至關(guān)重要。
YOLOv8盡管高效且強(qiáng)大,但依賴于非最大值抑制(NMS)來(lái)過(guò)濾冗余邊界框。這個(gè)額外步驟雖然有效地提高了檢測(cè)準(zhǔn)確性,但增加了計(jì)算開銷并延長(zhǎng)了整體推理時(shí)間。
而YOLOv10通過(guò)一致的雙分配方法進(jìn)行無(wú)NMS訓(xùn)練,消除了對(duì)NMS的需求。通過(guò)將這一過(guò)程集成到模型架構(gòu)中,YOLOv10顯著減少了推理過(guò)程中所需的計(jì)算步驟。這使得處理時(shí)間更快,延遲更低,使YOLOv10更適合高速實(shí)時(shí)應(yīng)用。
在同一個(gè)視頻上,我使用NVIDIA GeForce RTX 4060 Laptop GPU, 7940MiB,得到的日志顯示差異非常大:
(圖:YOLOv10在384x640分辨率下的推理延遲)
(圖:YOLOv8在384x640分辨率下的推理延遲)
導(dǎo)出模型
如果你想了解導(dǎo)出模型的好處,可以查看這篇詳細(xì)介紹速度改進(jìn)的文章。類似于其他任務(wù),如檢測(cè)、分割和姿勢(shì)估計(jì),你可以使用Ultralytics框架導(dǎo)出YOLOv10模型。此過(guò)程包括將模型轉(zhuǎn)換為ONNX、CoreML、TensorFlow Lite等格式,確保與各種平臺(tái)和設(shè)備的兼容性。
這種多功能性允許在不同環(huán)境中更廣泛的集成,從移動(dòng)應(yīng)用到邊緣設(shè)備。與前輩一樣,YOLOv10框架支持模型導(dǎo)出,便于在各種平臺(tái)上無(wú)縫部署。
Python
from ultralytics import YOLOv10 # Load a model model = YOLOv10('yolov10x.pt') # load an official model model = YOLOv10('path/to/best.pt') # load a custom trained model # Export the model model.export(format='onnx')
CLI
yolo export model=yolov10x.pt format=onnx # export official model yolo export model=path/to/best.pt format=onnx # export custom trained model
結(jié)論
清華大學(xué)研究人員推出的YOLOv10,作為首個(gè)無(wú)NMS目標(biāo)檢測(cè)模型,代表了計(jì)算機(jī)視覺(jué)領(lǐng)域的重大進(jìn)步。與YOLOv8相比,YOLOv10顯著減少了推理延遲,使其更適合高速實(shí)時(shí)應(yīng)用,如自動(dòng)駕駛、視頻監(jiān)控和交互式AI系統(tǒng)。這種推理過(guò)程中計(jì)算步驟的減少突顯了YOLOv10的效率和響應(yīng)能力。
此外,YOLOv10采用了新的無(wú)NMS訓(xùn)練方法,對(duì)其各部分進(jìn)行了微調(diào)以提高性能,并在速度和準(zhǔn)確性之間達(dá)到了很好的平衡。這些升級(jí)使得模型的部署更容易,性能更強(qiáng),速度更快,響應(yīng)更迅速。
-
AI
+關(guān)注
關(guān)注
87文章
29886瀏覽量
268174 -
目標(biāo)檢測(cè)
+關(guān)注
關(guān)注
0文章
202瀏覽量
15579 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1695瀏覽量
45910
原文標(biāo)題:YOLOv10:無(wú)NMS實(shí)時(shí)目標(biāo)檢測(cè)的先鋒
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論