無論怎樣,我們不得不承認,在我們所處的當(dāng)今時代,技術(shù)發(fā)展對現(xiàn)代生活有著決定性的影響。
但令人喜憂參半的是,科技變化如此之快,我們幾乎無法跟上它的腳步,更不用說預(yù)測未來了。 其中發(fā)展最快速,影響力最大和最吸引人的技術(shù)進步之一就是圖像識別。
什么是圖像識別?
圖像識別是計算機視覺的機制之一,而計算機視覺是人工智能的一個分支。
正如我們在AI、機器學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別一文中提到的那樣,人工智能(也稱AI)是一種能夠模仿人類特征并勝任通常需要人類智能才能完成的任務(wù)的計算機系統(tǒng)。
為了讓AI更有說服力,我們需要所謂的“計算機視覺”。根據(jù)Venture Beat的說法,計算機視覺是“計算機獲取,處理和分析主要來自視覺提示或熱傳感器,超聲波等類似來源的數(shù)據(jù)。
簡而言之,計算機視覺使得機器能夠“看”事物——甚至包括人類無法看到的事物。例如,位于匹茲堡(美國)的卡內(nèi)基梅隆大學(xué)實際上正致力于研究名為“呼吸凸輪”的計算機視覺應(yīng)用。該應(yīng)用配備了四個云連接攝像頭,可以讓用戶監(jiān)控和記錄空氣污染,甚至可以追溯到污染的源頭。是的,它“看到”了空氣質(zhì)量。
然而,要想讓機器做到人類無法做到的事情,我們必須首先使機器能夠做到人類可以做的事情:看到并標(biāo)記物體和生物。這是圖像識別的主要功能。
Tensorflow是一個由Google開發(fā)人員創(chuàng)建的開源軟件庫,它將圖像識別定義為計算機將圖像或視頻分解為像素,識別形狀,以便“看到”這些圖像的內(nèi)容,并對它們進行分類的過程。
例如,股票網(wǎng)站每天都有數(shù)百萬張圖片上傳和數(shù)十億的搜索量。通常,網(wǎng)站建設(shè)者必須為他們上傳的每張照片添加標(biāo)簽和說明,以便與用戶的搜索詞匹配。通過安裝圖像識別應(yīng)用,一旦圖像傳輸?shù)椒?wù)器,機器就可以自動識別圖像中的人物或物體。然后,它可以自動對圖像進行描述,比人類的描述更加具體,從而優(yōu)化搜索引擎并改善用戶體驗。
如何實現(xiàn)圖像識別?
目前,深度學(xué)習(xí)是最有可能讓機器實現(xiàn)“看”的能力的技術(shù)。簡單地說,深度學(xué)習(xí)就是一種機器學(xué)習(xí)框架,通過模仿人類的神經(jīng)元系統(tǒng),為計算機提供自主學(xué)習(xí)能力。因此,計算機可以準(zhǔn)確識別圖片中的內(nèi)容,而無需根據(jù)指令安裝手動編碼的軟件——但它需要大量數(shù)據(jù)才能完成識別。
因此,全世界都在致力于開發(fā)大量數(shù)據(jù),其中最典型的例子就是ImageNet和PASCAL數(shù)據(jù)集。經(jīng)過多年的努力,這些龐大且免費的數(shù)據(jù)集包含數(shù)百萬張圖像,每張圖像都標(biāo)記有圖像內(nèi)容相關(guān)的關(guān)鍵字
1. ImageNet:由普林斯頓大學(xué)的研究人員于2009年創(chuàng)建,這個可視化數(shù)據(jù)集擁有從Flickr等搜索引擎收集的超過1400萬個URL圖像。在數(shù)據(jù)集創(chuàng)建過程中,工作人員和志愿者對提交的圖片進行了詳細地注釋,并將其分類為約1000個對象類。
2. PASCAL:PASCAL由歐盟國家各大學(xué)聯(lián)合創(chuàng)建,與ImageNet數(shù)據(jù)集相比,PASCAL相形見絀 —— 僅有20個對象類,共20,000個訓(xùn)練圖像。
正如您可能已經(jīng)從兩者在類數(shù)量上的巨大差異中猜到的那樣,PASCAL的分類更具通用性。相反,ImageNet注重圖像識別技術(shù)發(fā)展一個關(guān)鍵特征:類間差異性——機器能夠識別兩張包含同一物種或物體的不同類型的圖像,因此圖像被分在不同的類別中。例如,雖然同一圖片在PASCAL中僅屬于“狗”這一類別,但它在ImageNet中可能被分類為“柯基犬”,“牧羊犬”或“哈巴狗”等類。
為什么要投資圖像學(xué)習(xí)?
看起來每個人都在這樣做,不是嗎?因為他們確實在這樣做。
2012年,Qualcomm Connected Experiences公司首次推出Vuforia軟件平臺。該平臺利用圖像識別技術(shù)提供大量的AR和VR相關(guān)功能,使得移動應(yīng)用程序開發(fā)人員能夠隨意擴展視野。
Facebook于2016年開始幫助盲人“看”照片和圖像。通過使用圖像識別,F(xiàn)acebook IOS應(yīng)用程序?qū)槊繌堈掌擅枋?,并為用戶大聲朗讀。
在今年早些時候,谷歌 - 世界上最值得關(guān)注的人工智能公司之一 推出了Cloud AutoML--一種旨在簡化AI在企業(yè)運營中的應(yīng)用的工具。 Cloud AutoML首先啟動了圖像識別功能,允許Google用戶拖入圖像并教會用戶系統(tǒng)在Google云上識別圖像。迪士尼和Urban Outfitters等公司已將其應(yīng)用于網(wǎng)站搜索,使結(jié)果更符合用戶需求。
然而,人工智能應(yīng)用并非大公司的特權(quán)。根據(jù)彭博首席經(jīng)濟學(xué)家McDonough的分析,自2015年中期以來,提及“AI”或“AI公司”的企業(yè)財報電話會議越來越多。事實上,80%的受訪公司表示在生產(chǎn)中應(yīng)用了AI應(yīng)用程序。
為什么有數(shù)十億美元投入到這項技術(shù)? 我們的猜測是圖像識別潛力巨大。
圖像識別是一個非常抽象的領(lǐng)域。但是,當(dāng)應(yīng)用于具體情境時,其改變企業(yè)的潛力是無可辯駁的。讓我們看看各個行業(yè)和企業(yè)流程中圖像識別的幾種潛在應(yīng)用:
1. 醫(yī)療保?。簣D像識別最突出的能力之一是協(xié)助創(chuàng)建增強現(xiàn)實(AR)——一種“將計算機生成的圖像疊加在用戶對現(xiàn)實世界的視角之上”的技術(shù)。如果給人工智能提供AR技術(shù)和包含疾病視覺提示的數(shù)據(jù)集,你將有一個永生難忘的醫(yī)療助理。 有了它,醫(yī)生就可以在檢查期間獲得患者傷口的的實時詳細診斷建議或醫(yī)療文件。
2. 教育:圖像識別可以讓有學(xué)習(xí)困難或身體殘疾的學(xué)生以他們能夠感知的形式獲得所需的教育。計算機視覺支持的應(yīng)用程序可以提供文本到語音和圖像到語音功能,幫助視力受損或有閱讀障礙的學(xué)生“閱讀”所提供的內(nèi)容。
3. 食品和飲料:通過使用圖像識別,智能手機上的簡單應(yīng)用可以獲得Instagram和Facebook上圖像的視覺提示,分析它們并提供實時數(shù)據(jù)。 例如,根據(jù)這些照片,該應(yīng)用程序可以告訴你新加坡的某家咖啡館是您家人和朋友經(jīng)常去的地方,還是一個舉辦瘋狂聚會的場所。通過這種方式,用戶可以一目了然地獲得本地定制方案,而餐廳也可以有效地接觸到目標(biāo)受眾。
4. 電子商務(wù):想象一個用戶在街上看到他們想買的東西,但他們找不到人問在哪里可以買到它,因此他拍了一張照片。然后,該用戶將其上傳到配備圖像識別技術(shù)的電子商務(wù)網(wǎng)站。算法本身可以“看”圖片,掃描數(shù)百萬個可選項,并推薦一個看起來與客戶所尋求的相同,至少是最接近的選項。這正是Savvycom在2018年3月創(chuàng)建新AI Lab時的初衷?,F(xiàn)在,我們的工程師正在研發(fā)人工智能視覺搜索工具,以利用擁有數(shù)千種產(chǎn)品的大型電子商務(wù)數(shù)據(jù)集,擴大電商體驗。
5. 企業(yè)流程管理:先進的圖像識別系統(tǒng)還可以在企業(yè)經(jīng)營時協(xié)助識別。例如,機器可以進行面部識別,這將取代傳統(tǒng)身份證,來確定某人是否被授予執(zhí)行某項任務(wù)的權(quán)利:如訪問文件存儲系統(tǒng),參加會議或檢查工作。然而,我們不得不承認,由于個人情感、化妝等因素的影響,“看”和“識別”人臉比識別物體要復(fù)雜得多。因此,Savvycom的目標(biāo)是盡快在即將開展的項目中解決這個問題。
圖像識別技術(shù)發(fā)展面臨哪些障礙?
圖像識別并非一個新領(lǐng)域,但放眼全局,它仍處于早期階段。就像任何一個典型的成長中少年一樣,在適應(yīng)現(xiàn)實世界時也存在問題。
還記得“80%的組織表示他們在生產(chǎn)中應(yīng)用了AI應(yīng)用程序”嗎?在這些應(yīng)用了人工智能技術(shù)的公司中,約有33%的公司表示采用人工智能技術(shù)的最大障礙是不穩(wěn)定性 - 不成熟且未經(jīng)證實。34%認為很難招聘到合格的工程師,40%表示信息技術(shù)基礎(chǔ)設(shè)施建設(shè)阻礙了人工智能技術(shù)的引進,且很容易對公司的財務(wù)造成不利影響。
資金也是一個重要影響因素。由于用于數(shù)據(jù)流編程的開源軟件庫越來越多,如Microsoft CNTK和Accord.Net,機器學(xué)習(xí)愛好者能夠以極低的成本進行研究和學(xué)習(xí)。然而,并非所有問題都能得到解決,因為并非一切都是已知的。為了實現(xiàn)產(chǎn)品創(chuàng)意,要平衡預(yù)算,公司仍有很長的路要走。
有一種解決方案可以解決許多上述問題:外包。IT外包公司專注于技能和專業(yè)知識,能以可預(yù)測的管理成本提供高端工具和最佳實踐操作。簡而言之,他們知道自己在做什么。那是他們的工作。
總而言之,圖像識別是計算機視覺時代到來的早期征兆。無論它將如何應(yīng)用或?qū)?yīng)用于哪些行業(yè),圖像識別技術(shù)永遠不可能孤立發(fā)展。只有通過訪問更多圖片,實時數(shù)據(jù),花費更多的時間和精力才能使其更加強大。只有認識到這一點,并充分利用這些聯(lián)系的企業(yè)才可能在未來取得成功。
-
圖像識別
+關(guān)注
關(guān)注
9文章
518瀏覽量
38212 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237073 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901
原文標(biāo)題:圖像識別技術(shù):究竟能在商業(yè)世界掀起多大波瀾?
文章出處:【微信號:robot-1hjqr,微信公眾號:1號機器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論