0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是圖像識別?如何實現(xiàn)圖像識別?

JsPm_robot_1hjq ? 來源:未知 ? 作者:李倩 ? 2018-08-03 17:31 ? 次閱讀

無論怎樣,我們不得不承認,在我們所處的當(dāng)今時代,技術(shù)發(fā)展對現(xiàn)代生活有著決定性的影響。

但令人喜憂參半的是,科技變化如此之快,我們幾乎無法跟上它的腳步,更不用說預(yù)測未來了。 其中發(fā)展最快速,影響力最大和最吸引人的技術(shù)進步之一就是圖像識別。

什么是圖像識別?

圖像識別是計算機視覺的機制之一,而計算機視覺是人工智能的一個分支。

正如我們在AI、機器學(xué)習(xí)深度學(xué)習(xí)的區(qū)別一文中提到的那樣,人工智能(也稱AI)是一種能夠模仿人類特征并勝任通常需要人類智能才能完成的任務(wù)的計算機系統(tǒng)。

為了讓AI更有說服力,我們需要所謂的“計算機視覺”。根據(jù)Venture Beat的說法,計算機視覺是“計算機獲取,處理和分析主要來自視覺提示或熱傳感器,超聲波等類似來源的數(shù)據(jù)。

簡而言之,計算機視覺使得機器能夠“看”事物——甚至包括人類無法看到的事物。例如,位于匹茲堡(美國)的卡內(nèi)基梅隆大學(xué)實際上正致力于研究名為“呼吸凸輪”的計算機視覺應(yīng)用。該應(yīng)用配備了四個云連接攝像頭,可以讓用戶監(jiān)控和記錄空氣污染,甚至可以追溯到污染的源頭。是的,它“看到”了空氣質(zhì)量。

然而,要想讓機器做到人類無法做到的事情,我們必須首先使機器能夠做到人類可以做的事情:看到并標(biāo)記物體和生物。這是圖像識別的主要功能。

Tensorflow是一個由Google開發(fā)人員創(chuàng)建的開源軟件庫,它將圖像識別定義為計算機將圖像或視頻分解為像素,識別形狀,以便“看到”這些圖像的內(nèi)容,并對它們進行分類的過程。

例如,股票網(wǎng)站每天都有數(shù)百萬張圖片上傳和數(shù)十億的搜索量。通常,網(wǎng)站建設(shè)者必須為他們上傳的每張照片添加標(biāo)簽和說明,以便與用戶的搜索詞匹配。通過安裝圖像識別應(yīng)用,一旦圖像傳輸?shù)椒?wù)器,機器就可以自動識別圖像中的人物或物體。然后,它可以自動對圖像進行描述,比人類的描述更加具體,從而優(yōu)化搜索引擎并改善用戶體驗。

如何實現(xiàn)圖像識別?

目前,深度學(xué)習(xí)是最有可能讓機器實現(xiàn)“看”的能力的技術(shù)。簡單地說,深度學(xué)習(xí)就是一種機器學(xué)習(xí)框架,通過模仿人類的神經(jīng)元系統(tǒng),為計算機提供自主學(xué)習(xí)能力。因此,計算機可以準(zhǔn)確識別圖片中的內(nèi)容,而無需根據(jù)指令安裝手動編碼的軟件——但它需要大量數(shù)據(jù)才能完成識別。

因此,全世界都在致力于開發(fā)大量數(shù)據(jù),其中最典型的例子就是ImageNet和PASCAL數(shù)據(jù)集。經(jīng)過多年的努力,這些龐大且免費的數(shù)據(jù)集包含數(shù)百萬張圖像,每張圖像都標(biāo)記有圖像內(nèi)容相關(guān)的關(guān)鍵字

1. ImageNet:由普林斯頓大學(xué)的研究人員于2009年創(chuàng)建,這個可視化數(shù)據(jù)集擁有從Flickr等搜索引擎收集的超過1400萬個URL圖像。在數(shù)據(jù)集創(chuàng)建過程中,工作人員和志愿者對提交的圖片進行了詳細地注釋,并將其分類為約1000個對象類。

2. PASCAL:PASCAL由歐盟國家各大學(xué)聯(lián)合創(chuàng)建,與ImageNet數(shù)據(jù)集相比,PASCAL相形見絀 —— 僅有20個對象類,共20,000個訓(xùn)練圖像。

正如您可能已經(jīng)從兩者在類數(shù)量上的巨大差異中猜到的那樣,PASCAL的分類更具通用性。相反,ImageNet注重圖像識別技術(shù)發(fā)展一個關(guān)鍵特征:類間差異性——機器能夠識別兩張包含同一物種或物體的不同類型的圖像,因此圖像被分在不同的類別中。例如,雖然同一圖片在PASCAL中僅屬于“狗”這一類別,但它在ImageNet中可能被分類為“柯基犬”,“牧羊犬”或“哈巴狗”等類。

為什么要投資圖像學(xué)習(xí)?

看起來每個人都在這樣做,不是嗎?因為他們確實在這樣做。

2012年,Qualcomm Connected Experiences公司首次推出Vuforia軟件平臺。該平臺利用圖像識別技術(shù)提供大量的AR和VR相關(guān)功能,使得移動應(yīng)用程序開發(fā)人員能夠隨意擴展視野。

Facebook于2016年開始幫助盲人“看”照片和圖像。通過使用圖像識別,F(xiàn)acebook IOS應(yīng)用程序?qū)槊繌堈掌擅枋?,并為用戶大聲朗讀。

在今年早些時候,谷歌 - 世界上最值得關(guān)注的人工智能公司之一 推出了Cloud AutoML--一種旨在簡化AI在企業(yè)運營中的應(yīng)用的工具。 Cloud AutoML首先啟動了圖像識別功能,允許Google用戶拖入圖像并教會用戶系統(tǒng)在Google云上識別圖像。迪士尼和Urban Outfitters等公司已將其應(yīng)用于網(wǎng)站搜索,使結(jié)果更符合用戶需求。

然而,人工智能應(yīng)用并非大公司的特權(quán)。根據(jù)彭博首席經(jīng)濟學(xué)家McDonough的分析,自2015年中期以來,提及“AI”或“AI公司”的企業(yè)財報電話會議越來越多。事實上,80%的受訪公司表示在生產(chǎn)中應(yīng)用了AI應(yīng)用程序。

為什么有數(shù)十億美元投入到這項技術(shù)? 我們的猜測是圖像識別潛力巨大。

圖像識別是一個非常抽象的領(lǐng)域。但是,當(dāng)應(yīng)用于具體情境時,其改變企業(yè)的潛力是無可辯駁的。讓我們看看各個行業(yè)和企業(yè)流程中圖像識別的幾種潛在應(yīng)用:

1. 醫(yī)療保?。簣D像識別最突出的能力之一是協(xié)助創(chuàng)建增強現(xiàn)實(AR)——一種“將計算機生成的圖像疊加在用戶對現(xiàn)實世界的視角之上”的技術(shù)。如果給人工智能提供AR技術(shù)和包含疾病視覺提示的數(shù)據(jù)集,你將有一個永生難忘的醫(yī)療助理。 有了它,醫(yī)生就可以在檢查期間獲得患者傷口的的實時詳細診斷建議或醫(yī)療文件。

2. 教育:圖像識別可以讓有學(xué)習(xí)困難或身體殘疾的學(xué)生以他們能夠感知的形式獲得所需的教育。計算機視覺支持的應(yīng)用程序可以提供文本到語音和圖像到語音功能,幫助視力受損或有閱讀障礙的學(xué)生“閱讀”所提供的內(nèi)容。

3. 食品和飲料:通過使用圖像識別,智能手機上的簡單應(yīng)用可以獲得Instagram和Facebook上圖像的視覺提示,分析它們并提供實時數(shù)據(jù)。 例如,根據(jù)這些照片,該應(yīng)用程序可以告訴你新加坡的某家咖啡館是您家人和朋友經(jīng)常去的地方,還是一個舉辦瘋狂聚會的場所。通過這種方式,用戶可以一目了然地獲得本地定制方案,而餐廳也可以有效地接觸到目標(biāo)受眾。

4. 電子商務(wù):想象一個用戶在街上看到他們想買的東西,但他們找不到人問在哪里可以買到它,因此他拍了一張照片。然后,該用戶將其上傳到配備圖像識別技術(shù)的電子商務(wù)網(wǎng)站。算法本身可以“看”圖片,掃描數(shù)百萬個可選項,并推薦一個看起來與客戶所尋求的相同,至少是最接近的選項。這正是Savvycom在2018年3月創(chuàng)建新AI Lab時的初衷?,F(xiàn)在,我們的工程師正在研發(fā)人工智能視覺搜索工具,以利用擁有數(shù)千種產(chǎn)品的大型電子商務(wù)數(shù)據(jù)集,擴大電商體驗。

5. 企業(yè)流程管理:先進的圖像識別系統(tǒng)還可以在企業(yè)經(jīng)營時協(xié)助識別。例如,機器可以進行面部識別,這將取代傳統(tǒng)身份證,來確定某人是否被授予執(zhí)行某項任務(wù)的權(quán)利:如訪問文件存儲系統(tǒng),參加會議或檢查工作。然而,我們不得不承認,由于個人情感、化妝等因素的影響,“看”和“識別”人臉比識別物體要復(fù)雜得多。因此,Savvycom的目標(biāo)是盡快在即將開展的項目中解決這個問題。

圖像識別技術(shù)發(fā)展面臨哪些障礙?

圖像識別并非一個新領(lǐng)域,但放眼全局,它仍處于早期階段。就像任何一個典型的成長中少年一樣,在適應(yīng)現(xiàn)實世界時也存在問題。

還記得“80%的組織表示他們在生產(chǎn)中應(yīng)用了AI應(yīng)用程序”嗎?在這些應(yīng)用了人工智能技術(shù)的公司中,約有33%的公司表示采用人工智能技術(shù)的最大障礙是不穩(wěn)定性 - 不成熟且未經(jīng)證實。34%認為很難招聘到合格的工程師,40%表示信息技術(shù)基礎(chǔ)設(shè)施建設(shè)阻礙了人工智能技術(shù)的引進,且很容易對公司的財務(wù)造成不利影響。

資金也是一個重要影響因素。由于用于數(shù)據(jù)流編程的開源軟件庫越來越多,如Microsoft CNTK和Accord.Net,機器學(xué)習(xí)愛好者能夠以極低的成本進行研究和學(xué)習(xí)。然而,并非所有問題都能得到解決,因為并非一切都是已知的。為了實現(xiàn)產(chǎn)品創(chuàng)意,要平衡預(yù)算,公司仍有很長的路要走。

有一種解決方案可以解決許多上述問題:外包。IT外包公司專注于技能和專業(yè)知識,能以可預(yù)測的管理成本提供高端工具和最佳實踐操作。簡而言之,他們知道自己在做什么。那是他們的工作。

總而言之,圖像識別是計算機視覺時代到來的早期征兆。無論它將如何應(yīng)用或?qū)?yīng)用于哪些行業(yè),圖像識別技術(shù)永遠不可能孤立發(fā)展。只有通過訪問更多圖片,實時數(shù)據(jù),花費更多的時間和精力才能使其更加強大。只有認識到這一點,并充分利用這些聯(lián)系的企業(yè)才可能在未來取得成功。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    518

    瀏覽量

    38212
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237073
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1694

    瀏覽量

    45901

原文標(biāo)題:圖像識別技術(shù):究竟能在商業(yè)世界掀起多大波瀾?

文章出處:【微信號:robot-1hjqr,微信公眾號:1號機器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于DSP的快速紙幣圖像識別技術(shù)研究

    本課題通過對現(xiàn)有圖像識別技術(shù)進行研究和分析,針對當(dāng)前DSP(數(shù)字信號處理)技術(shù)的新發(fā)展,提出了基于DSP的快速圖像識別概念??焖?b class='flag-5'>圖像識別技術(shù)以嵌入式系統(tǒng)為算法的實現(xiàn)平臺,它結(jié)合了當(dāng)前最
    發(fā)表于 11-05 14:43

    怎么做圖像識別?

    怎么做圖像識別
    發(fā)表于 07-22 23:23

    圖像識別模組(包括PCB圖、圖像識別模組源代碼)

    圖像識別模組電路原理圖、圖像識別模組PCB圖、圖像識別模組源代碼、圖像識別模組用戶使用手冊
    發(fā)表于 01-02 19:14 ?121次下載

    如何實現(xiàn)圖像識別?為什么要入局圖像識別?

    圖像識別技術(shù)能讓機器像人一樣看到世界,甚至看到人類都看不到醫(yī)療保?。?b class='flag-5'>圖像識別最突出的能力之一是協(xié)助創(chuàng)建增強現(xiàn)實(AR)——一種“將計算機生成的圖像疊加在用戶對現(xiàn)實世界的視角之上”的技術(shù)。如果給人
    的頭像 發(fā)表于 08-29 10:46 ?7986次閱讀

    如何在APT-Pi上實現(xiàn)圖像識別功能

    不用自己訓(xùn)練模型,也能進行 AI 圖像識別;借助百度云平臺,我們可以在 APT-Pi 上實現(xiàn)圖像識別功能。 創(chuàng)建圖像識別應(yīng)用 1、打開鏈接 百度智能云, 申請賬號;2、打開控制臺 3、
    的頭像 發(fā)表于 10-09 15:46 ?9726次閱讀
    如何在APT-Pi上<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>圖像識別</b>功能

    圖像識別技術(shù)原理 深度學(xué)習(xí)的圖像識別應(yīng)用研究

      圖像識別是人工智能領(lǐng)域的一個重要方向。經(jīng)過多年的研究,圖像識別技術(shù)取得了一定的研究進展。圖像識別主要包含特征提取和分類識別,而其中的特征 提取是
    發(fā)表于 07-19 10:27 ?2次下載

    Imagga利用DGX Station實現(xiàn)快速圖像識別

    Imagga利用DGX Station實現(xiàn)快速圖像識別
    的頭像 發(fā)表于 08-01 15:10 ?611次閱讀

    模擬矩陣在圖像識別中的應(yīng)用

    訊維模擬矩陣在圖像識別中的應(yīng)用主要是通過構(gòu)建一個包含多種圖像數(shù)據(jù)的模擬矩陣,來訓(xùn)練和測試深度學(xué)習(xí)模型,從而提高圖像識別的準(zhǔn)確性和效率。 在圖像識別中,訊維模擬矩陣可以用來做以下幾方面的
    的頭像 發(fā)表于 09-04 14:17 ?540次閱讀
    模擬矩陣在<b class='flag-5'>圖像識別</b>中的應(yīng)用

    如何使用Python進行圖像識別的自動學(xué)習(xí)自動訓(xùn)練?

    如何使用Python進行圖像識別的自動學(xué)習(xí)自動訓(xùn)練? 使用Python進行圖像識別的自動學(xué)習(xí)和自動訓(xùn)練需要掌握一些重要的概念和技術(shù)。在本文中,我們將介紹如何使用Python中的一些常用庫和算法來實現(xiàn)
    的頭像 發(fā)表于 01-12 16:06 ?518次閱讀

    圖像識別技術(shù)原理 圖像識別技術(shù)的應(yīng)用領(lǐng)域

    。圖像識別技術(shù)已經(jīng)在各個領(lǐng)域廣泛應(yīng)用,其應(yīng)用領(lǐng)域包括但不限于以下幾個方面。 一、智能安防領(lǐng)域 圖像識別技術(shù)在智能安防領(lǐng)域得到了廣泛的應(yīng)用。通過對監(jiān)控攝像頭中的圖像進行實時分析和處理,可以實現(xiàn)
    的頭像 發(fā)表于 02-02 11:01 ?2188次閱讀

    如何利用CNN實現(xiàn)圖像識別

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)領(lǐng)域中一種特別適用于圖像識別任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通過模擬人類視覺系統(tǒng)的處理方式,利用卷積、池化等操作,自動提取圖像中的特征,進而實現(xiàn)高效的圖像識別。本
    的頭像 發(fā)表于 07-03 16:16 ?1001次閱讀

    圖像識別屬于人工智能嗎

    屬于。圖像識別是人工智能(Artificial Intelligence, AI)領(lǐng)域的一個重要分支。 一、圖像識別概述 1.1 定義 圖像識別是指利用計算機技術(shù)對圖像中的內(nèi)容進行分析
    的頭像 發(fā)表于 07-16 10:44 ?880次閱讀

    圖像識別技術(shù)的原理是什么

    圖像識別技術(shù)是一種利用計算機視覺和機器學(xué)習(xí)技術(shù)對圖像進行分析和理解的技術(shù)。它可以幫助計算機識別和理解圖像中的對象、場景和活動。 圖像預(yù)處理
    的頭像 發(fā)表于 07-16 10:46 ?791次閱讀

    圖像識別算法的優(yōu)缺點有哪些

    圖像識別算法是一種利用計算機視覺技術(shù)對圖像進行分析和理解的方法,它在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)療診斷、安全監(jiān)控等。然而,圖像識別算法也存在一些優(yōu)缺點。 一、圖像識別算法的優(yōu)
    的頭像 發(fā)表于 07-16 11:09 ?1224次閱讀

    圖像識別算法都有哪些方法

    圖像識別算法是計算機視覺領(lǐng)域的核心任務(wù)之一,它涉及到從圖像中提取特征并進行分類、識別和分析的過程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,圖像識別算法已經(jīng)取得了顯著的進展。本文將介紹
    的頭像 發(fā)表于 07-16 11:14 ?4934次閱讀