清華大學《人工智能前沿與產業(yè)趨勢》系列講座第四講,深睿醫(yī)療首席科學家、美國計算機協會杰出科學家、IEEE Fellow俞益洲為大家介紹了目前計算機視覺的應用和落地,特別是在醫(yī)療影像方面的發(fā)展狀況、遭遇的挑戰(zhàn)、以及克服挑戰(zhàn)的思路。最后和清華大學自動化系副教授、博導魯繼文以及知名天使投資人、梅花創(chuàng)投創(chuàng)始合伙人吳世春一起對計算機視覺的落地機會進行了暢想。
首先由清華大學海峽研究院大數據AI中心專家委員、百度七劍客之一、酷我音樂創(chuàng)始人雷鳴老師做開場,對計算機視覺方面的技術和應用場景做了一個整體的解讀。
雷鳴講到在技術方面,目前計算機視覺可以大致分為圖像處理、人臉識別、圖像預測以及生成技術。單個照片的處理技術現在已日臻成熟,接下來正在大力發(fā)展3D影像和視頻流處理技術。在應用領域,人臉識別被廣泛的應用于多種場景例如酒店、安防、醫(yī)學影像、金融、工業(yè)以及農業(yè)中。
接下來由深睿醫(yī)療首席科學家、美國計算機協會杰出科學家、IEEE Fellow俞益洲為大家?guī)怼队嬎銠C視覺的應用與落地》。最后由雷鳴、俞益洲和清華大學自動化系副教授、博導魯繼文以及知名天使投資人、梅花創(chuàng)投創(chuàng)始合伙人吳世春對計算機視覺方面的創(chuàng)業(yè)機會進行了討論。
什么是計算機視覺?和圖像處理的區(qū)別在哪里?
圖像處理的輸入是圖像,輸出仍然是圖像。而計算機視覺則是在更高層面能夠對輸入的圖像進行分析和理解,最終輸出的不一定是圖像,可能是數值或符號,這些數值或符號構成輸入圖像的描述。計算機視覺的主要任務包括圖像識別、運動分析、場景重建和圖像恢復等。
首先,圖像識別完成對圖像內容的描述,如果和其他模態(tài)的信息匯總,就能夠得到對圖像的整體理解,進而起到輔助決策的作用;其次,目前很多圖像都是以視頻的形式或動態(tài)圖像的形式呈現,對這類圖像的運動進行分析可以得到更多的信息;場景重建是對輸入的二維圖像通過分析之后還原成真實世界里的三維物體;最后,雖然圖像恢復嚴格意義上不是視覺,但現在大家普遍將圖像處理作為視覺的一個分支來考慮,叫做底層計算機視覺。
基于深度學習的計算機視覺
俞益洲說,在計算機視覺里面用到的深度學習,主要就是卷積神經網絡(CNN)。CNN是Yann LeCun發(fā)明的一種具有特殊連接關系的神經網絡。神經網絡有很多種,包括單層和多層網絡。卷積神經網絡特別的地方在于其卷積操作與信號處理里面的卷積操作相似,特別適合于對圖像進行理解。
Yann LeCun最初把CNN應用于手寫體郵編的自動識別。在這個任務上CNN在80年代末90年代初就已經達到了98%以上的準確率。當時能夠處理的圖片還很小, 直到2012年,另外一個機器學習先驅Hinton把原來的卷積神經網絡推廣到更大尺寸的輸入圖像上。
同時訓練圖像的數量也大幅上升,從原來的幾萬張圖像上升至2012年的100萬張ImageNet訓練圖像。感謝GPU,原來耗時很長的模型訓練也變得可以接受。但即使用GPU訓練模型,當時100萬張訓練圖像也需要跑大約兩周。
在那以后大家繼續(xù)改進神經網絡的架構,到2015年在ImageNet上top-5的錯誤率下降到了3.57%,已經低于人在圖像識別方面的錯誤率。卷積神經網絡能達到這樣的性能是因為它逐層對圖像都有更深刻的理解。
計算機視覺的應用
俞益洲說,第一個應用場景是智能安防,它包括了大部分人臉識別的應用場景,如機場、車站、出入境,也包括智慧交通,如車輛管理、車牌識別、智能紅綠燈等,通過這些技術可以追蹤車輛什么時候上的高速,什么時候下的高速。智能安防也包括視頻監(jiān)控,對人的行為和行蹤進行跟蹤等等。
人臉識別包含兩個子問題,首先是一對一的身份驗證,對比本人和身份證上的照片是不是同一個人,現在準確率遠遠超過了99%;其次是一對多識別,比如門禁,如何識別出某個人是否是小區(qū)業(yè)主,現在準確率還有提升空間,在十幾萬人中的識別準確率還比較令人滿意,但是如果接近100萬人的話,準確率就會明顯下降。
視頻監(jiān)控在跨攝像頭人物跟蹤方面解決得還不夠好。比如一個人從攝像頭A視野中消失后,進入了裝在另一個地點的攝像頭B,因為可能拍不到人臉而且兩個攝像頭捕捉到的圖像可能在視角,光線和成像質量等方面存在多種差異,在識別的時候就會出現問題。所以這種跨攝像頭的人物跟蹤和識別仍是一個熱門的研究課題。
安防系統(tǒng)從功能上可以分為視頻監(jiān)控、出入口控制、樓宇門禁、防盜報警等,從應用場景上分為平安城市、智能交通、智能樓宇+智能家居,以及其他應用如金融、文教等。
俞益洲提到,安防市場規(guī)模巨大。全球安防市場到2020年有望達到3000多億美元規(guī)模,中國市場到明年有望達到1萬億人民幣,占全球安防市場將近50%。
計算機視覺的第二個應用場景是自動駕駛,包括道路檢測、車輛檢測、行人檢測、路標指示牌識別、道路兩側的物體如建筑物識別等。因為道路上有各種指示信息(比如指示牌、限速標志、道路分叉等等),所以不僅要把這些指示牌檢測出來,同時也需要識別指示牌上的信息。
自動駕駛是一項綜合技術,不光涉及到計算機視覺,還需要用到激光雷達及其他傳感器,牽涉到運動規(guī)劃和車輛的運動控制等。根據麥肯錫調研,十年后自動駕駛會超過現在的安防市場規(guī)模。
第三個應用場景是增強現實,跟內容的合成有關系?,F在手機端有很多這方面的增強現實技術,比如手機打開就可以化妝,或者在人臉上加一些實時的卡通元素。
俞益洲還提到以前做的一個項目:首先給校園里的建筑建模,然后將圖像里面的信息映射到三維模型上,就可以把虛擬的攝像頭移到任何你想去的地方。
從粗糙的三維模型合成非常逼真的照片,在當時是一個實時的技術,后來被別人用到了電影特效中。黑客帝國電影里最著名的躲子彈鏡頭,就是起源于這項技術。俞益洲提到,到2020年左右增強現實有望達到一千多億人民幣的市場規(guī)模。
第四個應用場景是無人零售,從亞馬遜無人店開始,國內很多企業(yè)也推出了自己的無人店、無人超市。無人零售需要很多計算機視覺技術,需要用到行人檢測、定位跟蹤、人臉識別、手勢識別等,相當于一個封閉環(huán)境內的監(jiān)控系統(tǒng)。這是一個新興且處于上升階段的市場。據2018年新消費崛起趨勢白皮書,無人零售市場規(guī)模將來有望超過萬億。
第五個應用場景是智慧醫(yī)療,包括手術機器人、醫(yī)學影像的輔助診斷、機器人問診、臨床支持決策系統(tǒng)等。通過把基于人工智能的智慧醫(yī)療技術推廣到地方醫(yī)院可以幫助這些醫(yī)院提高診療水平,吸引更多的病人。
如果只考慮醫(yī)療影像,市場潛力仍然是巨大的。比如在中國最近幾年醫(yī)療影像市場規(guī)模就在4000億人民幣,每年還在繼續(xù)增加,近期有望達到6000到8000億人民幣,但是整個醫(yī)療的支出占GDP比重只有6%,還是遠低于美國的水平(17%),所以還有很多上升空間。
我國醫(yī)療行業(yè)的現狀有很多改善的空間。三甲醫(yī)院數量最少但病人卻最多,地方醫(yī)院的病人則較少,這是一個不合理的分布。如果能夠引進人工智能技術,將醫(yī)學影像的輔助診斷、機器人問診推廣到地方醫(yī)院和??漆t(yī)院,就有可能把大部分病人吸引到這些醫(yī)院去治療,可以使病人在各級醫(yī)院的分布更加合理,促進有效地利用各級醫(yī)療機構的資源。三甲醫(yī)院則不必忙碌地治療各種常見病,而是把主要精力集中在疑難病癥上。
計算機視覺與醫(yī)學影像分析
俞益洲說,深度學習和計算機視覺中的圖像識別技術如果用于醫(yī)學影像分析,可以對醫(yī)學影像進行輔助診斷。現代醫(yī)學越來越依賴于醫(yī)學影像信息,去醫(yī)院看病,經常被要求去拍各種醫(yī)學影像,如CT、核磁等,醫(yī)生則根據影像報告做最后的診斷,沒有醫(yī)學影像報告,他們一般不輕易下結論。
所以現在看來,80%的臨床問題需要影像檢查來得到最終的診斷結果。所以影像檢查就成為一個瓶頸,放射科醫(yī)生的工作負擔非常重,他們每天需要閱讀大量影像,讀完之后還要寫報告。
近年來隨著深度學習的快速發(fā)展,圖像識別和自然語言處理取得了很多突破性進展。另一方面,在醫(yī)學影像中尋找病灶甚至判別它們的良惡性從本質上來說就是圖像識別。所以很自然地就會想到把深度學習和圖像識別技術應用于醫(yī)學影像分析,這種結合推動醫(yī)學影像走向智能化。
圖像識別里面有幾個基本任務,第一個是圖像分類,給一幅輸入圖像,決定圖像里面的物體屬于哪一類;接下來可能會關心定位,圖像里面的物體位置,可以用物體的包圍框表達出來。但這些問題主要針對只有單個物體的圖像而言,面對多個物體,需要解決幾個任務,第一個是物體檢測,第二個是語義分割。
不論輸入圖像中有多少個物體,物體檢測需要把每個物體的位置都用包圍框的形式表達出來,然后對每個包圍框決定一個物體類別。與圖像分類相似,但是要在包圍框級別給出一個類別的信息。
語義分割則要求知道每個像素屬于哪個類別,也就是說,每個像素被哪個類別的物體覆蓋。這樣每個像素都有一個類別標簽,是一種密集的圖像識別。
把物體檢測和語義分割結合起來,就得到最后一個任務叫做實例分割。實例分割要把具有同一個類別標簽的多個物體分割開來,同時把每個物體的輪廓找出來。
圖像識別在醫(yī)療影像上已經有很多成功案例,比如皮膚癌分類(Nature 2017)和糖尿病眼病檢測(JAMA 2016)屬于圖像分類任務,肺結節(jié)檢出和乳腺腫塊檢測屬于物體檢測任務,肝分割和腦白質分割可以歸為語義分割任務。所以很多醫(yī)學影像分析任務都可以歸結為這些圖像識別的基本任務。
俞益洲還介紹了深睿醫(yī)療在醫(yī)學影像分析方面的探索和成果。深睿醫(yī)療的主要業(yè)務是為各級醫(yī)療機構提供基于人工智能和互聯網的醫(yī)療解決方案,在人工智能和深度學習方面積累了很多核心技術。
作為醫(yī)學影像分析實例,他介紹了深睿醫(yī)療在基于CT的肺結節(jié)良惡性判別、基于CT/MRI的腦卒中輔助診斷、胸部X光片的病灶檢測、兒童骨齡的輔助評估、基于鉬靶的乳腺癌診斷等方面的成果。
肺結節(jié)檢測是肺癌篩查的第一步,之后還需要判斷檢出的肺結節(jié)是良性還是惡性。深睿醫(yī)療在這方面有比較多的積累,其中一種方法根據肺結節(jié)形態(tài)方面的屬性來訓練良惡性判別模型,這主要從醫(yī)生通常采用的以形態(tài)屬性為依據的診斷過程得到啟發(fā)。
我們可以訓練網絡,對許多種不同的屬性進行識別,然后把識別出來的屬性做為中間表達,再輸入到后面的分類網絡,最后得到一個良惡性的判別。這種方法在公開數據集LIDC上可以達到97.58%的準確性。此外,多種判別良惡性的方法可以整合起來做最終判別。
去年8月份,深睿醫(yī)療把AI的結果和江蘇省放射協會的126名不同職稱級別的醫(yī)生進行對比。醫(yī)生分為高級、中級和初級職稱三個組,其中高級職稱組的平均AUC為0.779,平均準確性為73.8%。而AI模型的AUC達到0.873,準確性為85.0%。此后對AI模型進行持續(xù)改進,目前它的AUC已經達到0.927,準確性達到86.0%。
第二個實例是腦出血的輔助診斷。診斷腦出血是一件爭分奪秒的事情,輔助診斷的主要任務是把大腦里的出血區(qū)域找出來,然后決定出血量。解決這個問題需要用到剛才提到的語義分割技術?;谏疃葘W習的語義分割算法對出血區(qū)域進行分割,測量它的體積,估計出血量,各項性能指標已經達到了很高的準確性。
第三個實例是基于X光的胸部病灶檢測。因為X光片是三維的信息投影到二維空間上得到的結果,投影把很多三維信息疊加在一起,疊加之后用肉眼就比較難區(qū)分不同的病灶區(qū)域,至少對沒有訓練過的人來說很難看出來。但是用深度學習就能檢測出這些病灶,只要圖像上面存在細微的差異,深度學習模型就有可能識別出來。
此外,也可以為兒童骨齡的輔助評估和乳腺鉬靶輔助診斷建立深度學習模型。俞益洲稱,深睿醫(yī)療針對這兩個問題研發(fā)的深度學習算法目前在行業(yè)內處于領先水平。以乳腺鉬靶鈣化檢出為例,在不同誤報個數下的陽性召回率都明顯高于其它解決方案。
俞益洲還分享了醫(yī)學影像分析領域一些特有的挑戰(zhàn)。比如說在醫(yī)學影像方面訓練樣本少,因為醫(yī)學數據收集比較困難;數據標注成本高,因為需要經驗豐富的醫(yī)學專家進行標注,而且也只是相對來說比較準,無法做到100%準確。不同醫(yī)生去標注同一幅圖像,結果也可能會有比較明顯的差異,一致性相對比較差。
俞益洲也介紹了一些解決方案,比如針對數據標簽的一致性,希望設計算法能夠在訓練模型的同時,對數據標簽進行修正。針對數據標注成本高的問題,可以適當降低數據標注量,用半監(jiān)督或者混合監(jiān)督的形式訓練模型。深睿醫(yī)療在胸部X光片診斷方面已經做了一些研究,設計了一種混合監(jiān)督學習算法,能夠比較準確地檢測病灶區(qū)域。
計算機視覺團隊角色如何配置?
吳世春回答了雷鳴提出的“在投資中如何對團隊進行考量”的問題,他認為團隊里一定要有計算機視覺的大牛以及行業(yè)專家,需要考慮團隊成員之間的互補性,對于行業(yè)的理解占第一位,然后第二位有這種視覺的專家,但不一定是活躍在學術圈的大牛,只要能夠把好的東西應用過來就夠了。其次是工程人才和銷售人才,這4類人才是必不可缺的。
計算機視覺落地機會在哪里?
最后,幾位專家對計算機視覺技術落地進行了暢想。
俞益洲提到人機交互以后會有較大的發(fā)展空間。多模態(tài)信息融合與理解的能力,可以應用在服務行業(yè)、教育和動作類游戲。
吳世春提到,首先可以應用在選礦,區(qū)分有色金屬以及廢礦有沒有開采價值;其次,可以應用在垃圾分類,可以極大地變廢為寶。
魯繼文提到,AI在手機領域會有很大的發(fā)展空間,可以想象新生代的年輕人每人都有一個便攜式自動化小機器人;針對特定行業(yè)的自動化例如農業(yè)無人機。
雷鳴提到,娛樂和內容方面AI也會有很大的發(fā)展機會,特別在動畫影視方面。
-
機器視覺
+關注
關注
161文章
4326瀏覽量
120011 -
人工智能
+關注
關注
1791文章
46698瀏覽量
237190 -
清華大學
+關注
關注
2文章
68瀏覽量
17841
原文標題:【機器視覺】計算機視覺應用將達到8000億規(guī)模
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論