国产欧色美视频综合二区小,不见星空槿晓婷1080P下载

異常檢測任務(wù)旨在識別明顯偏離正常數(shù)據(jù)分布的異常值，在工業(yè)檢驗、醫(yī)學診斷、視頻監(jiān)控和欺詐檢測等多個領(lǐng)域都發(fā)揮了重要作用。傳統(tǒng)的異常檢測方法主要依賴于描述正常數(shù)據(jù)分布以進行正異常樣本的區(qū)分。然而，對于實際的應(yīng)用而言，異常檢測也需要理解數(shù)據(jù)的高層語義，從而深入理解 “什么是異?！薄?/p>

要實現(xiàn)更準確且智能的異常檢測，我們需要關(guān)注以下關(guān)鍵步驟：

1. 理解多樣數(shù)據(jù)類型和類別

不同領(lǐng)域的數(shù)據(jù)集包含各種數(shù)據(jù)類型和類別，如圖像、視頻、點云、時間序列等。每種數(shù)據(jù)類型可能需要不同的異常檢測方法，每個物體類別可能對應(yīng)不同的正常標準，因此深入理解數(shù)據(jù)的多樣性至關(guān)重要。

2. 確定正常狀態(tài)標準

一旦理解了數(shù)據(jù)的類型和類別，我們需要推斷正常狀態(tài)的標準。這需要高級數(shù)據(jù)語義信息的理解，以確保我們能夠正確識別正常數(shù)據(jù)的特征和模式。

3. 評估數(shù)據(jù)的符合度

最后，我們需要評估提供的數(shù)據(jù)是否符合已建立的正常數(shù)據(jù)分布。任何偏離這些數(shù)據(jù)分布的情況都可以被歸類為異常。

最近，大型多模態(tài)模型（LMM）迅猛發(fā)展，其中 OpenAI 最近推出的 GPT-4V （ision）表現(xiàn)最為出色，具有強大的多模態(tài)感知能力，在場景理解，圖片生成等多個任務(wù)中都取得了良好表現(xiàn)。我們認為，LMM 的出現(xiàn)為通用異常檢測的研究提供了新的范式和新的機會。

為了評估 GPT-4V 在通用異常檢測中的性能，來自華中科技大學、密歇根大學和多倫多大學的研究者聯(lián)合進行了一項研究，在涉及 4 個數(shù)據(jù)模態(tài)，9 個異常檢測任務(wù)的 15 個異常檢測數(shù)據(jù)集上對 GPT-4V 進行了全面的測試。具體而言，測試的數(shù)據(jù)集包括圖像、點云、視頻、時序等模態(tài)，并涵蓋了工業(yè)圖像異常檢測 / 定位，醫(yī)療圖像異常檢測 / 定位，點云異常檢測，邏輯異常檢測，行人異常檢測，交通異常檢測，時序異常檢測等 9 個異常檢測任務(wù)。

論文地址：https://arxiv.org/pdf/2311.02782.pdf

項目地址：https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

觀察與分析

本文在多種模態(tài)和領(lǐng)域的異常檢測數(shù)據(jù)集上對 GPT4V 的性能進行了測試。我們認為，GPT4V 已經(jīng)初步具備了多模態(tài)的通用異常檢測能力。具體而言，GPT-4V 不僅能夠有效理解多樣數(shù)據(jù)類型和類別，而且可以建模正常數(shù)據(jù)的空間分布，并評估測試數(shù)據(jù)的分布情況。

除此以外，GPT-4V 在異常檢測任務(wù)中還具有以下特點：

GPT-4V 能夠在零 / 單樣本下處理多模態(tài)、多領(lǐng)域的異常檢測任務(wù)

多模態(tài)異常檢測：GPT-4V 可有效處理多種模態(tài)數(shù)據(jù)的異常檢測任務(wù)。例如，它在識別圖像、點云、MRI、X-ray 等數(shù)據(jù)模態(tài)上均表現(xiàn)出了不俗的異常檢測能力。多模態(tài)異常檢測能力使 GPT-4V 能夠突破傳統(tǒng)單模態(tài)異常檢測器的限制，完成現(xiàn)實世界的復雜異常檢測任務(wù)。

多領(lǐng)域異常檢測：GPT-4V 在工業(yè)、醫(yī)療、行人、交通和時間序列異常檢測等多個領(lǐng)域表現(xiàn)優(yōu)異。

零 / 單樣本下的異常檢測：GPT-4V 在零樣本及單樣本（即提供了一張正常的參考圖片）任務(wù)中均表現(xiàn)不俗。在沒有參考圖像的情況下，GPT-4V 可以有效地使用語言提示信息來檢測異常。當提供正常參考圖像時，GPT-4V 能夠更好的對齊文本格式的正常標準與正常的圖像內(nèi)容，其異常檢測準確性進一步提高。

GPT-4V 可以理解異常檢測任務(wù)所需的全局和細粒度語義

全局語義理解能力：GPT-4V 對全局語義的理解能力表現(xiàn)在它能夠識別整體的異常模式或行為。例如，在交通異常檢測中，它可以分辨正常的交通流和不規(guī)則事件之間的區(qū)別，并且提供了關(guān)于異常檢出的詳細解釋。這種全局理解使其非常適合在開放世界中識別偏離正常分布的異常點。

細粒度語義理解能力：GPT-4V 對細粒度語義的理解能力在一些情況下表現(xiàn)出色，使得它不僅能夠檢測異常，還能夠精確地在復雜數(shù)據(jù)中定位異常。例如，在工業(yè)圖像異常檢測中，它可以準確定位細節(jié)，如傾斜的蠟燭燭芯、瓶口周圍的輕微劃痕。這種細粒度理解增強了它在復雜數(shù)據(jù)中檢測微小異常的能力，從而提高了其整體檢測。

GPT-4V 具備自動推理異常檢測的能力

GPT-4V 能夠根據(jù)復雜的正常標準自動推理、拆分子任務(wù)。例如，在邏輯異常檢測中，GPT-4V 能夠理解所給的正常圖像標準，并拆分為子任務(wù)，依次檢驗圖像內(nèi)容是否滿足指定內(nèi)容。這種內(nèi)在的推理能力增強了其異常檢測結(jié)果的可解釋性，使其成為理解和解決通用異常檢測的有效工具。

GPT-4V 可以通過增加提示進一步增強異常檢測能力

評估結(jié)果顯示，提供更多文本和圖像信息對 GPT-4V 的異常檢測性能有積極影響。通過增加類別信息、人類專業(yè)知識、參考圖像，模型獲得了更多的上下文信息，異常檢測性能也得到顯著提升。該特點允許用戶通過提供相關(guān)的補充信息來微調(diào)和增強模型的性能。

GPT-4V 在實際應(yīng)用中可能受到限制，但仍具有潛力

本報告發(fā)現(xiàn) GPT-4V 在實際應(yīng)用中仍面臨一些挑戰(zhàn)。例如，GPT-4V 可能在處理工業(yè)應(yīng)用中的復雜場景時面臨困難，導致其出現(xiàn)錯誤檢測。醫(yī)療領(lǐng)域的倫理約束也使其在判斷腫瘤等異常情況時趨于保守。但我們相信它在各種異常檢測任務(wù)中仍然具有潛力。為了有效解決這些挑戰(zhàn)，可能需要進一步增強、專門的精細調(diào)整或補充技術(shù)。總結(jié)而言，GPT-4V 在通用異常檢測中具有明顯潛力，有望開啟異常檢測任務(wù)的高層次感知時代。

應(yīng)用場景展示

工業(yè)圖像異常檢測

工業(yè)圖像異常檢測旨在維護產(chǎn)品質(zhì)量，是制造過程的重要環(huán)節(jié)。近年來，許多方法在此領(lǐng)域蓬勃發(fā)展，其中一些方法著眼于開發(fā)適用于任意產(chǎn)品類別的統(tǒng)一模型。本研究探討了 GPT-4V 在工業(yè)圖像異常檢測中的應(yīng)用，包括對不同類型的信息進行測試，以及展示其性能和局限性。

我們從工業(yè)圖像中選擇了幾個示例，如瓶子和蠟燭的圖像。即使只提供簡單的語言提示，GPT-4V 能夠有效地識別這些圖像中的異常，展示了其能力和多樣性。此外，GPT-4V 不僅能夠檢測期望的異常，還能夠識別微觀結(jié)構(gòu)異常。在復雜情況下，如電路板中的異常檢測，GPT-4V 能夠識別圖像中的細節(jié)，但也存在一定的局限性?？偟膩碚f，GPT-4V 在圖像上下文理解和類別特定異常理解方面表現(xiàn)出色。

工業(yè)圖像異常定位

與工業(yè)圖像異常檢測不同，工業(yè)圖像異常定位旨在精確識別異常的位置。為了實現(xiàn)這一目標，我們采用了與 SoM（Set-of-mark）類似的方法，使用圖像 - 掩模對來提示 GPT-4V。我們研究了 GPT-4V 在不同場景下的表現(xiàn)，展示了其在細粒度異常定位方面的能力和局限性。

我們展示了 GPT-4V 在工業(yè)圖像異常定位中的性能，包括定位彎曲的電線、堅果上的空洞以及識別電路板異常。GPT-4V 在一些情況下能夠準確識別異常位置，例如能夠有效定位堅果中的空洞，并且由于結(jié)合了視覺提示技術(shù)，GPT-4V 將異常定位問題轉(zhuǎn)化為了對掩膜的分類問題，有效降低了問題復雜度，且提升了定位精度。因此，結(jié)合視覺提示技術(shù)和 GPT-4V 可有效解決工業(yè)圖像異常定位問題。

點云異常檢測

點云異常檢測在工業(yè)領(lǐng)域具有重要作用。CPMF 提出了一種新方法，將點云轉(zhuǎn)化為深度圖像，以利用圖像基礎(chǔ)模型來提高點云異常檢測的性能。我們借助 CPMF，將點云轉(zhuǎn)為深度圖像，從而使得 GPT-4V 可處理點云異常檢測任務(wù)。

我們展示了 GPT-4V 在點云異常檢測中的性能，包括識別袋圈中的小突起、檢測繩子上的異常以及查找工件中的異常。GPT-4V 能夠有效地識別這些異常，但在某些情況下也存在局限性，特別是在渲染質(zhì)量較低的情況下?？偟膩碚f，GPT-4V 在點云異常檢測中表現(xiàn)出了潛力。

邏輯異常檢測

邏輯異常檢測任務(wù)由 MVTec LOCO 數(shù)據(jù)集提出。該任務(wù)通常出現(xiàn)在裝配過程中，需要識別各個組件是否正確組合。現(xiàn)有的邏輯異常檢測方法通常依賴于視覺全局 - 局部對應(yīng)關(guān)系，但本質(zhì)上并沒有真正理解圖像內(nèi)容。我們研究了 GPT-4V 在邏輯異常檢測中的應(yīng)用，探討了其對圖像內(nèi)容的理解能力。

我們展示了 GPT-4V 在邏輯異常檢測中的性能，包括識別復雜的邏輯規(guī)則、檢測邏輯異常并提供詳細的解釋。盡管 GPT-4V 在大多數(shù)情況下能夠準確識別邏輯異常，但在某些復雜情況下存在一定的局限性，尤其是對于細節(jié)問題。不過，結(jié)合多輪對話和特定語言提示有望顯著改善 GPT-4V 在這些情況下的性能。

醫(yī)學圖像異常檢測

醫(yī)學圖像異常檢測是醫(yī)學影像領(lǐng)域的關(guān)鍵任務(wù)，旨在識別不符合預期數(shù)據(jù)分布的異常值。我們研究了 GPT-4V 在醫(yī)學圖像異常檢測中的應(yīng)用，包括不同疾病和成像模式的醫(yī)學圖像。我們測試了 GPT-4V 的泛化能力，揭示了其在醫(yī)學圖像異常檢測中的性能和局限性。

我們展示了 GPT-4V 在醫(yī)學圖像異常檢測中的性能，包括識別不同疾病和成像模式的異常圖像。即使只提供簡單的語言提示，GPT-4V 能夠有效地識別異常，并提供詳細的解釋。此外，引入更多信息，如疾病信息和專業(yè)知識，可以進一步提高 GPT-4V 的性能。然而，GPT-4V 在某些情況下可能會產(chǎn)生錯誤的異常檢測，因此仍需要醫(yī)生的最終判斷。

醫(yī)學圖像異常定位

在檢測到醫(yī)學異常后，需要進一步精確定位醫(yī)學圖像中存在的異常，例如病灶等。對醫(yī)學圖像異常的準確的定位可有效幫助臨床醫(yī)生理解病理的程度和性質(zhì)。然而，在現(xiàn)實世界的醫(yī)學圖像異常定位任務(wù)中使用 GPT-4V 直接預測異常掩膜十分困難。受到 SoM 的啟發(fā)，我們希望測試 GPT-4V 模型在視覺提示下的異常定位能力。

結(jié)合 SoM，我們標定了醫(yī)療圖像中可能存在的異常位置。在圖像中的視覺提示指導下，GPT-4V 傾向于學習和描述標記周圍的區(qū)域。對于容易識別和定位的案例，GPT-4V 可以清楚地區(qū)分異常區(qū)域和背景。但在一個人工合成異常的案例中，由于感興趣區(qū)域與背景具有相似的紋理和形狀，GPT4V 的判斷出現(xiàn)了偏差。這表明該模型在對抗攻擊和復雜背景下仍需要增強其檢測和定位能力。

交通檢測

交通檢測是城市交通管理和自動駕駛領(lǐng)域的關(guān)鍵任務(wù)，它旨在監(jiān)測交通情況，檢測交通違規(guī)行為和危險情況。我們研究了 GPT-4V 在交通檢測中的應(yīng)用，包括車輛識別、交通標志識別和交通違規(guī)檢測。我們測試了 GPT-4V 在不同場景下的性能，展示了其潛力和局限性。

我們展示了 GPT-4V 在交通檢測中的性能，包括識別不同類型的車輛、檢測各種交通標志和識別交通違規(guī)行為。GPT-4V 能夠有效地處理這些任務(wù)，尤其是在規(guī)范場景下。然而，在復雜交通環(huán)境中，性能可能會下降，因為它需要理解并解釋復雜的情境。

行人檢測

行人檢測是自動駕駛、安全監(jiān)控和智能城市等領(lǐng)域的關(guān)鍵任務(wù)，它旨在識別圖像或視頻中的行人。我們研究了 GPT-4V 在行人檢測中的應(yīng)用，測試了其對行人的識別能力和性能。

我們展示了 GPT-4V 在行人檢測中的性能，包括檢測行人在不同背景下的能力。GPT-4V 通常能夠識別行人，但在復雜背景下可能會出現(xiàn)錯誤。與專門的行人檢測模型相比，性能可能相對較差，但它的優(yōu)勢在于它能夠提供更多的語言解釋。

時序檢測

時序檢測是一種涉及到時間序列數(shù)據(jù)的異常檢測任務(wù)，例如傳感器數(shù)據(jù)、金融時間序列等。我們研究了 GPT-4V 在時序檢測中的應(yīng)用，測試了其在分析和檢測時間序列異常方面的能力。

我們展示了 GPT-4V 在時序檢測中的性能，包括檢測傳感器數(shù)據(jù)中的異常、金融交易數(shù)據(jù)中的異常等。GPT-4V 在分析時間序列數(shù)據(jù)方面表現(xiàn)出色，能夠識別不同類型的異常情況。然而，需要注意的是，時序檢測通常需要更多的領(lǐng)域?qū)I(yè)知識，而 GPT-4V 在這些情況下可能需要結(jié)合專家的建議。

結(jié)論

GPT-4V 在工業(yè)圖像異常檢測、工業(yè)圖像異常定位、點云異常檢測、邏輯異常檢測、醫(yī)學圖像異常檢測、交通檢測、行人檢測和時序檢測等領(lǐng)域都展示出了出色的潛力。它能夠理解多模態(tài)數(shù)據(jù)，對圖像內(nèi)容進行有效理解，并在很多情況下都能準確檢測并解釋異常。然而，在復雜場景中，GPT-4V 的異常檢測能力仍然存在一定的局限性。綜合來看，GPT-4V 為通用異常檢測提供了全新的研究范式，但其實際應(yīng)用仍需要進一步的研究和改進。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24538
GPT

GPT

+關(guān)注

關(guān)注
0

文章
347

瀏覽量
15182
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
992

瀏覽量
6263

原文標題：GPT-4V在異常檢測上有多少強？華科大等最新測評來了！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該模型在MMLU上得分為82%，在LMSYS排行榜上的聊天偏好測試中表

發(fā)表于 07-21 10:20 ?657次閱讀

OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開發(fā)教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的強大工具，可用于自然語言處理和多模態(tài)任務(wù)。在國內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細介紹GPT-4o模型以及如何獲取

發(fā)表于 06-08 00:33 ?3515次閱讀

國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)<b class='flag-5'>GPT4</b>o API調(diào)用開發(fā)教程！

開發(fā)者如何調(diào)用OpenAI的GPT-4o API以及價格詳情指南

，高達每分鐘1000萬字符。速度：GPT-4o的速度是GPT-4 Turbo的兩倍。視覺能力：在視覺能力相關(guān)的評估中，GPT-4o表現(xiàn)優(yōu)于G

發(fā)表于 05-29 16:00 ?7979次閱讀

TC367在GPT中斷下驅(qū)動PWM輸出會導致定時器發(fā)生時延怎么解決？

該指令的消耗時間為ns級別，遠遠小于3us： PWM使用的是GTM的ATOM生成并不使用PWM中斷，Timer使用GPT的T2/3/4，現(xiàn)象均相同。在Timer中斷內(nèi)生成PWM的操作是非法的嗎？還是二者模塊的子模塊

發(fā)表于 05-28 07:24

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

當?shù)貢r間5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎(chǔ)上，這種迭代擁有顯著的改進。在發(fā)布會的演示中，OpenAI展示

發(fā)表于 05-27 15:43

OpenAI推出面向所有用戶的AI模型GPT-4o

在周一的直播盛會上，OpenAI揭開了其最新的人工智能模型GPT-4o的神秘面紗。這款新模型旨在為其著名的聊天機器人ChatGPT提供更強大、更經(jīng)濟的支持。GPT-4o是此前備受矚目的GPT-

發(fā)表于 05-15 09:23 ?314次閱讀

OpenAI發(fā)布GPT-4o模型，供全體用戶免費使用

OpenAI首席技術(shù)官穆里·穆拉蒂（Muri Murati）指出，GPT-4o具備與GPT-4相同的智能水平，且在文本、圖像及語音處理方面有顯著進步。

發(fā)表于 05-14 11:17 ?370次閱讀

科大訊飛星火大模型V4.0預計六月發(fā)布，逼近GPT-4水平

在博鰲2024年會上，科大訊飛副總裁、研究院院長劉聰透露，公司正在積極訓練對標GPT-4能力的訊飛星火大模型V4.0，并預計將于今年6月正式發(fā)布。

發(fā)表于 03-28 13:59 ?686次閱讀

ChatGPT plus有什么功能？OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

截止、擴展的上下文窗口、預算友好的定價等。什么是GPT-4 Turbo？ GPT-4 Turbo是現(xiàn)有GPT-4大語言模型的更新。它帶來了

發(fā)表于 12-13 09:19 ?944次閱讀

華秋喜獲“2023深圳行業(yè)領(lǐng)袖企業(yè)100強”稱號

優(yōu)勢，榮獲了“2023深圳行業(yè)領(lǐng)袖企業(yè)100強” 的稱號，再次證明了華秋在電子產(chǎn)業(yè)互聯(lián)網(wǎng)賽道的領(lǐng)先地位和卓越影響力。該榜單的評選歷時6個月，通過各機構(gòu)推薦、企業(yè)申報、企業(yè)調(diào)研、專家評審等

發(fā)表于 12-08 09:57

OpenAI發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能？

OpenAI的GPT-4 Turbo以前所未有的功能和價格改變?nèi)斯ぶ悄艿奈磥?在人工智能領(lǐng)域的一次里程碑式活動中，OpenAI開發(fā)者大會上發(fā)布了GPT-4 Turbo，這是突破性人工智能模型

發(fā)表于 12-05 17:57 ?2228次閱讀

ChatGPT重磅更新　OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3

構(gòu)建各種各樣的用例；有超過92%的財富世界500強企業(yè)以我們的產(chǎn)品為基礎(chǔ)；GPT的周活躍用戶達到大約1億?！?OpenAI的重點來了： OpenAI發(fā)布了GPT-4 Turbo，

發(fā)表于 11-07 18:20 ?2602次閱讀

178頁，128個案例，GPT-4V醫(yī)療領(lǐng)域全面測評，離臨床應(yīng)用與實際決策尚有距離

上海交大上海AI Lab發(fā)布178頁GPT-4V醫(yī)療案例測評，首次全面揭秘GPT-4V醫(yī)療領(lǐng)域視覺性能。在大型基礎(chǔ)模型的推動下，人工智能的發(fā)展近來取得了巨大進步，尤其是 OpenAI

發(fā)表于 11-05 20:15 ?493次閱讀

高性能計算與多模態(tài)處理的探索之旅：英偉達GH200性能優(yōu)化與GPT-4V的算力加速未來

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)大模型成為越來越重要的發(fā)展趨勢。GPT-4V（GPT-4 近日開放的視覺模態(tài)）大型多模型（LMMs）擴展大型語言模型（LLMs）以增強多感知技能（如視覺理解等）從而

發(fā)表于 10-19 10:45 ?1214次閱讀

ChatGPT Plus怎么支付 GPT4得訂閱嗎？

自去年年底 OpenAI 轉(zhuǎn)型發(fā)布 ChatGPT 以來，生成式 AI 成為許多硅谷投資者關(guān)注的焦點。該聊天機器人使用從互聯(lián)網(wǎng)和其他地方抓取的大量數(shù)據(jù)來對人類提示產(chǎn)生預測響應(yīng)。GPT-4 的許多方面

發(fā)表于 10-10 12:16 ?1666次閱讀