0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對話三位IEEE專家:如何理解SAM視覺大模型

IEEE電氣電子工程師 ? 來源:IEEE電氣電子工程師 ? 2023-08-23 16:32 ? 次閱讀

正在流行的視覺AI大模型SAM究竟是一種什么樣的技術(shù),會形成什么樣的產(chǎn)業(yè)影響?經(jīng)濟觀察報就此采訪三位IEEE(電氣電子工程師學會)專家,解讀了視覺大模型SAM技術(shù)、應用路線以及對原有產(chǎn)業(yè)的影響。

今年4月,Meta公布了一款名為SAM(Segment Anything Model)的技術(shù),這是一款用于圖像分割的AI大模型,會對圖像進行觀察、感知、思考、邏輯推理、得出結(jié)果,且操作極其簡單,類似于ChatGPT用人類語言對話的方式給機器下命令。

IEEE高級會員、天津理工大學教授、AR/VR技術(shù)專家羅訓對記者表示,SAM是視覺領(lǐng)域的通用大模型,很多報道中把它比喻成視覺領(lǐng)域的ChatG-PT,SAM和ChatGPT的支撐技術(shù)和應用場景都是不同的,但是在通用性這一點上,它們都是當前技術(shù)發(fā)展趨勢的代表者。

SAM技術(shù)、應用路線和顛覆性

作為AI的一個重要分支,機器視覺的目標是讓計算機模仿人類視覺系統(tǒng),實現(xiàn)圖像和視頻的理解和處理。

IEEE數(shù)字化轉(zhuǎn)型聯(lián)合會策略與架構(gòu)主席汪齊齊對記者表示,高效準確的圖像分割結(jié)果,對于日常生活和商業(yè)場景,甚至科研領(lǐng)域都具有重大意義。正因為如此,其在計算機視覺領(lǐng)域一直是個重要的課題。SAM的圖像分割功能,是機器視覺的核心任務之一。過去,機器視覺分割圖像的過程需要大量圖像標注、堆疊算法,消耗大量算力。如今,SAM更容易地實現(xiàn)了機器視覺的目標。

Meta將SAM大模型和背后數(shù)據(jù)集一并開源,相關(guān)的研究手稿也于今年4月5日發(fā)布在arXiv上(用于學術(shù)交流的預印本平臺),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在開源社區(qū)Github上獲得大量關(guān)注,一些華人學者又照此原理提出了相關(guān)的大模型GroundingDI-NO,用于物體檢測,不久GitHub上有人再創(chuàng)新,將GroundingDINO和SAM結(jié)合,達到了對圖像識別、檢測、分割的效果。

汪齊齊表示,該模型在準確程度、效率上,達到了驚人的提升。尤其是SAM開源的SA-1B數(shù)據(jù)庫,用巨量的圖像以及更加巨量的Mask(這里譯為圖層遮罩),將有助于許多科研項目和商業(yè)化項目在高起點上快速更新迭代,產(chǎn)生更好的模型和更優(yōu)化的數(shù)據(jù)。

Meta從AR、VR、內(nèi)容創(chuàng)建等領(lǐng)域,介紹了SAM的應用場景。中國的專家看到了更廣泛的應用場景。

羅訓對記者表示,鑒于計算機視覺的廣泛應用場景,SAM的發(fā)布對產(chǎn)業(yè)的影響也會是巨大的,會賦能更多的長尾創(chuàng)新者進入產(chǎn)業(yè),并進一步豐富應用場景和商業(yè)模式。

汪齊齊表示,早前人工智能技術(shù)就能實現(xiàn)回答用戶問題的功能,而Chat-GPT第一次讓很多人產(chǎn)生了“生成的回復可以在接受的比例下用于日常、商用和科研”,并因此達到了在這個垂直領(lǐng)域前所未有的高度。目前SAM的分割結(jié)果,以及其公開的大量供公眾使用的資源來看,SAM在其擅長的垂直領(lǐng)域也達到了相當可觀的高度,并會從技術(shù)、數(shù)據(jù)以及對于這個領(lǐng)域的關(guān)注度等多方面幫助計算機視覺在短時間內(nèi)產(chǎn)生大量突破,而計算機視覺,是一個非常重要的“廣義AI生態(tài)”中的基礎(chǔ)設(shè)施,該方面的突破將實現(xiàn)對數(shù)字化世界的理解和升級,帶來質(zhì)變的效率和價值提升。

IEEE會士、河海大學信息科學與工程學院院長韓光潔對記者表示,SAM將會在自動駕駛、安防控制、醫(yī)學影像處理等應用領(lǐng)域改變業(yè)態(tài)布局,甚至引發(fā)技術(shù)革命。SAM作為一個基礎(chǔ)模型,可為這些應用領(lǐng)域快速孵化出適用性更強的專用網(wǎng)絡(luò)模型。

SAM的變革性可能會顛覆一批原有的AI技術(shù)優(yōu)勢。汪齊齊表示,視覺大模型會在相當多的領(lǐng)域抵消技術(shù)壁壘,這在任何一次產(chǎn)業(yè)技術(shù)升級中都多次出現(xiàn),也是無法避免的。

羅訓表示,通用大模型就相當于AI的能力開放平臺,之前頭部企業(yè)的AI能力優(yōu)勢,會因為通用大模型的興起而被一定程度削弱。但是這些企業(yè)是否本身會變?nèi)?,取決于它們的轉(zhuǎn)型。

羅訓舉例稱,回顧移動計算在本世紀前十年的變化,iOS和安卓的能力開放平臺在賦能長尾創(chuàng)新者方面起到了非常重要的作用,極大增加了移動計算產(chǎn)業(yè)規(guī)模。在移動計算領(lǐng)域,WindowsMobile和塞班的封閉平臺最終因為缺乏競爭力而退出了市場。

汪齊齊表示,作為有核心技術(shù)儲備和深入理解的企業(yè),首先是需要擁抱大模型,尤其是應該感謝相對公開的大模型,將自己對于產(chǎn)業(yè)的理解和領(lǐng)先部分,在大模型的加持下快速升級,演化出更新的形態(tài)。同時,計算機視覺領(lǐng)域也一定會有大模型目前還不擅長的領(lǐng)域,仍然可以作為技術(shù)壁壘,并在這些方面繼續(xù)深挖獨有優(yōu)勢。

AIGC帶來知識和技術(shù)的平權(quán)?

此前有科技企業(yè)表示,AIGC的本質(zhì)是技術(shù)平權(quán)和知識平權(quán),這在很大程度上將大廠與小廠拉到了同一起跑線上。

羅訓就該觀點對記者表示,技術(shù)和知識平權(quán)的說法并不是很準確,因為之前并沒有系統(tǒng)性的歧視。AIGC帶來的是“易得”,本質(zhì)上是市場規(guī)模急劇擴大后的成本降低。AIGC會促進整個社會對算力和計算模式使用的轉(zhuǎn)型升級,大規(guī)模提高AI使用者的生產(chǎn)效率,同時利好AI軟硬件設(shè)施生態(tài)企業(yè)。過程中,巨頭和大廠是技術(shù)進步的先期投入者,它們在其周期內(nèi)獲取回報也是合理的,因為它們付出了更高的成本,也承擔了更大的風險。

汪齊齊認為,AIGC確實帶來了一定的技術(shù)平權(quán),但技術(shù)本身是有一個價值屬性的。例如,曾經(jīng)做網(wǎng)頁可以帶來不菲的收入,隨著工具升級和模板的完善,一個漂亮網(wǎng)頁制作難度數(shù)量級地下降,但是他帶來的價值也產(chǎn)生數(shù)量級地下降。

同樣,AIGC將一個需要大量技術(shù)和知識儲備才能產(chǎn)生優(yōu)質(zhì)內(nèi)容的時代,帶入輕易產(chǎn)生的優(yōu)質(zhì)內(nèi)容的時代,這會讓原有定義的“優(yōu)質(zhì)內(nèi)容”的平均價值急速下降。

汪齊齊表示,AIGC是否帶來了知識平權(quán)仍然有待商榷。長期來看,AIGC可能會使人們更容易獲取到真實有用的知識。但是今天,人們還處于“技術(shù)帶來了前所未有的體量的知識,也同時讓篩選這些知識的可用度達到了前所未有的高成本”。

汪齊齊表示,盡管AIGC可以產(chǎn)生大量的知識和內(nèi)容,但其準確性和可信度是個挑戰(zhàn),相當部分AIGC是基于老的訓練數(shù)據(jù),“一本正經(jīng)供應錯誤知識”的案例已經(jīng)有很多。目前在大量、無法辨別真?zhèn)蔚臄?shù)據(jù)和內(nèi)容的情況下,是否真正達到了知識平權(quán),是要打問號的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SAM
    SAM
    +關(guān)注

    關(guān)注

    0

    文章

    111

    瀏覽量

    33452
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1517

    瀏覽量

    6930
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    332

    瀏覽量

    1372
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2136

    瀏覽量

    1980

原文標題:對話三位IEEE專家:如何理解SAM視覺大模型

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    英偉達推出Eagle系列模型

    英偉達最新推出的Eagle系列模型,以其1024×1024像素的高分辨率處理能力,重新定義了視覺信息處理的邊界。該模型通過多專家視覺編碼器架
    的頭像 發(fā)表于 09-03 16:13 ?310次閱讀

    計算機視覺技術(shù)的AI算法模型

    計算機視覺技術(shù)作為人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標,計算機視覺技術(shù)依賴于多種先進的AI算法模型。以下將詳細介紹幾種常
    的頭像 發(fā)表于 07-24 12:46 ?355次閱讀

    三位半和四半萬用表的區(qū)別

    三位半和四半萬用表是電子測量領(lǐng)域中常用的兩種數(shù)字萬用表,它們在測量精度、顯示方式、應用范圍等方面存在一定的差異。本文將從多個方面詳細分析這兩種萬用表的區(qū)別。 一、基本概念 三位半萬用表 三位
    的頭像 發(fā)表于 07-14 14:23 ?2355次閱讀

    極化繼電器的三位置式的特點是什么

    極化繼電器是一種特殊類型的繼電器,它具有個位置:正常位置、極化位置和反極化位置。這種繼電器廣泛應用于電力系統(tǒng)、自動化控制、通信設(shè)備等領(lǐng)域。本文將詳細介紹極化繼電器的三位置式的特點,包括其工作原理
    的頭像 發(fā)表于 06-24 09:34 ?232次閱讀

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集)

    + 文生圖 + 設(shè)備控制該示例展示了如何通過大模型實現(xiàn)語音輸入意圖的理解,實現(xiàn)對話、繪圖和控制開發(fā)板屏幕顏色進行切換,用戶可參考代碼與教程自行修改。 4接入自定義應用講解如何在云端快速建立一個
    發(fā)表于 06-18 17:33

    大語言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始,先來整體理解一下大語言模型。一、發(fā)展歷史大
    的頭像 發(fā)表于 06-04 08:27 ?668次閱讀
    大語言<b class='flag-5'>模型</b>(LLM)快速<b class='flag-5'>理解</b>

    【大語言模型:原理與工程實踐】大語言模型的評測

    和產(chǎn)品化提供了有力的數(shù)據(jù)支持。 對于生活閑聊類評測任務,模型的回答主要從人性化程度、內(nèi)容質(zhì)量和社交適應性個方面進行考察。這些方面共同反映了模型在日常對話中的自然度、流暢度和應變能力
    發(fā)表于 05-07 17:12

    蘋果與谷歌探索iOS/iPadOS引入Gemini模型

    確認Apple與Google確已開啟會談,下一代iPhone或?qū)⒋钶dGemini的生成式AI模型。三位知情人士表示,如今的談判尚屬初級階段,潛在交易的具體細節(jié)暫未確定。
    的頭像 發(fā)表于 03-20 10:38 ?376次閱讀

    三位通電磁閥基本結(jié)構(gòu)及工作原理

    三位通電磁閥是一種常用的控制執(zhí)行元件,廣泛應用于各種自動化領(lǐng)域。它們通常用于控制液壓、氣動系統(tǒng)中的液體和氣體的流動,并實現(xiàn)各種不同的控制功能。本文將詳細介紹三位通電磁閥的基本結(jié)構(gòu)和
    的頭像 發(fā)表于 01-24 11:00 ?3887次閱讀

    一種新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次優(yōu)提示時的性能比較,Stable-SAM明顯優(yōu)于其他算法。這里也推薦工坊推出的新課程《如何將深度學習
    的頭像 發(fā)表于 12-29 14:35 ?509次閱讀
    一種新的分割<b class='flag-5'>模型</b>Stable-<b class='flag-5'>SAM</b>

    matlab怎么取三位數(shù)的每一

    在MATLAB中,可以使用一些基本的算術(shù)和邏輯運算來取得一個三位數(shù)的每一。下面是一種基本的方法: 步驟1: 輸入一個三位數(shù) 首先,需要在MATLAB中輸入一個三位數(shù)??梢允褂?inp
    的頭像 發(fā)表于 12-28 14:44 ?1645次閱讀

    請問ADXL355 0X24 REGISTER中的ACT_Z ACT_Y ACT_X是干么用的,測量軸加速度值時需要將這三位都設(shè)置為1嗎?

    請問ADXL3550X24 REGISTER中的ACT_ZACT_YACT_X是干么用的,測量軸加速度值時需要將這三位都設(shè)置為1嗎?謝謝!
    發(fā)表于 12-28 07:21

    Holtek HT45F5Q 控制三位數(shù)七段顯示器 請益

    我用Holtek HT45F5Q 控制三位數(shù)七段顯示器,透過根PIN來控制 目前沒辦法個顯示不同的數(shù)字,想請教各位大大有沒有想法或是我的程式上有問題,謝謝
    發(fā)表于 12-18 15:48

    哈工大提出Myriad:利用視覺專家進行工業(yè)異常檢測的大型多模態(tài)模型

    最近,大型多模態(tài)(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務上表現(xiàn)
    的頭像 發(fā)表于 11-21 16:08 ?1305次閱讀
    哈工大提出Myriad:利用<b class='flag-5'>視覺</b><b class='flag-5'>專家</b>進行工業(yè)異常檢測的大型多模態(tài)<b class='flag-5'>模型</b>

    模型國際標準啟動,商湯共同發(fā)起成立IEEE模型標準工作組

    指導下和深圳市市場監(jiān)督管理局支持下順利召開,近300產(chǎn)業(yè)專家參加大會。 會上,商湯科技與中國電子技術(shù)標準化研究院、 上海人工智能實驗室、 華為云、百度、騰訊、螞蟻、360、中興通訊、美的、海信集團等 國內(nèi)首批11家單位共同啟動了IEE
    的頭像 發(fā)表于 11-07 20:50 ?648次閱讀