亚洲日韩欧美少妇精品,亚洲最大黄色网站,亚洲精品国产福利

騰訊 AI Lab & Robotics X 主任，ACM Fellow, IEEE Fellow, CVPR 2017 大會主席張正友博士為 CCF-GAIR 2019 主會場「AI 前沿專場」做了題為「計算機視覺的三生三世」的大會報告。以下為報告全文——

大家好！非常感謝雷鋒網(wǎng)的邀請，讓我有這個機會給大家做個分享。今年是中國人工智能四十周年，在這四十年間發(fā)生了很多事情，雷鋒網(wǎng)讓我跟大家講一講計算機視覺的前世、今生和可能的未來。其實這個報告應(yīng)該由我的好朋友香港科技大學(xué)權(quán)龍教授來講，他比我早一年出國，而且他現(xiàn)在還在港科大潛心研究計算機視覺。我這些年間，還有好多年在做語音處理和識別、多媒體處理和機器人，所以我在計算機視覺上的研究史還不算很長。不過權(quán)龍教授有事沒法參加，我只能濫竽充數(shù)，給大家講講計算機視覺的一些故事。

雷鋒網(wǎng)找我是聽說我開始研究計算機視覺比較早。我 1985 年浙大本科畢業(yè)，1986 年去法國，參與研發(fā)了可能是世界上第一臺用立體視覺導(dǎo)航的移動機器人。

1986 年其實發(fā)生了很多事情，1986 年是我第一次參加國際會議，是在巴黎召開的 ICPR（世界模式識別大會）。在這次大會上，我碰到了復(fù)旦大學(xué)的吳立德教授，他帶領(lǐng)了一支中國的代表團，并在會上做了一場大會報告，介紹了中國在模式識別上的研究現(xiàn)狀，他們準備申請 1988 年的 ICPR 在中國召開。

這里需要提到一個關(guān)鍵性的人物，那就是普渡大學(xué)的傅京孫教授，他是模式識別領(lǐng)域的鼻祖。他是 1973 年第一屆 ICPR 的主席，1976 年創(chuàng)建了 IAPR，1978 年創(chuàng)刊了 IEEE TPAMI，并擔(dān)任第一屆主編。本來他是支持 1988 年 ICPR 在中國召開的，但不幸的是 1985 年他去世了，所以 1988 年的申請沒有成功。如果 1988 年 ICPR 能在中國召開，也許中國在模式識別和計算機視覺上的發(fā)展會更提前。當(dāng)然歷史沒有如果。ICPR 在中國的召開等到了三十年以后，2018 年在譚鐵牛院士的帶領(lǐng)下，ICPR 第一次在中國召開。

1986 年還有一個很重要的事件，就是我的法國學(xué)長馬頌德回國，他創(chuàng)立了 NLPR（國家模式識別重點實驗室）。NLPR 創(chuàng)立之后，吸引了大批國外的學(xué)者回國，同時邀請了很多國外的訪問學(xué)者，中國計算機視覺領(lǐng)域開始與國際接軌。當(dāng)然馬頌德是中國科技界重要人物，后來擔(dān)任科技部副部長。1997 年他還創(chuàng)立了中法聯(lián)合實驗室，這個實驗室一半的研究人員都是法國人，這在中國也是一個壯舉。

提到計算機視覺，離不開一個標(biāo)志性人物，MIT 的教授 David Marr。1979 年，剛好 40 年前，他提出了視覺計算的理論框架。Marr 的理論框架有三個層次，從計算什么，到如何表達和計算，到硬件的實施。

具體到三維重建，Marr 認為從圖像要經(jīng)過幾個步驟，第一個步驟叫 primal sketch，也就是圖像處理，比如邊緣提取。所以到八十年代中葉，計算機視覺的主要工作是圖像處理。最有名的工作可能是 1986 年 MIT 一個碩士生發(fā)表的 Canny 邊緣檢測算子，基本上解決了邊緣提取的問題。如下圖所示，左邊是原始圖像，右邊是檢測出的邊緣。

那時候還有一個比較有名的工作是華人科學(xué)家沈俊做的，他那時在法國波爾多大學(xué)。他比較了不同的算子。他的算子在有些圖像方面要比 Canny 檢測器要好。所以到了八十年代中葉，當(dāng)我留學(xué)法國的時候，圖像處理已經(jīng)做的差不多了。

立體視覺及三維重建

幸運的是，幾何視覺剛開始興起。有兩位代表人物，一位是法國的 Olivier Faugeras，他是我的博士導(dǎo)師，另一位是美國的 Thomas Huang，我們叫他 Tom。他們是好朋友，還一起寫過文章。我 1987 年就認識 Tom，他對我有非常大的幫助。他培養(yǎng)了 100 多位博士，包括不少活躍在中國學(xué)術(shù)界和工業(yè)界的計算機視覺專家，他對中國計算機視覺的貢獻是非常巨大的。

我很榮幸?guī)煆?Olivier Faugeras，參與開發(fā)了世界上第一臺用立體視覺導(dǎo)航的移動機器人。1988 年我的第一個研究成果發(fā)表在第二屆 ICCV 上，右邊是在美國 Florida 開會的一張照片。那時候計算機視覺還沒有紅火，那屆 ICCV 大概只有 200 個參會者，華人就更少了，大概只有我、權(quán)龍，還有 Tom 的學(xué)生翁巨揚。我在博士期間圍繞三維動態(tài)場景分析做了不少工作，1992 年把這些整合成一本書發(fā)表。

現(xiàn)在我想舉一個簡單的例子，不定性的建模和計算，希望通過下面這一頁 PPT 你們就能明白什么是三維計算機視覺。

這里需要用到概率與統(tǒng)計，這非常重要，但現(xiàn)在做視覺的人往往忽略了。下面兩條線代表了兩個圖像平面。左邊圖像上一個白點對應(yīng)右邊圖像上一個白點。每個圖像點對應(yīng)空間一條直線，兩條直線相交就得到一個三維點，這就是三維重建。同樣，左邊圖像的黑點對應(yīng)右邊圖像的黑點，兩線相交得到一個三維點。但是圖像的點是檢測出來的，是有噪聲的。我們用橢圓來代表不定性，那么圖像的一個點就不對應(yīng)一條線了，而是一個椎體。兩個椎體相交，就代表了三維重建的點的不定性。這里可以看到，近的點要比遠的點精確。當(dāng)我們用這些三維重建點的時候就需要考慮這些不定性。比如當(dāng)機器人從一個地方移動到另一個地方，需要估計它的運動時就必須考慮數(shù)據(jù)的不定性。

90 年代初我提出了 ICP 算法，通過迭代點的匹配來對齊不同的曲線或曲面。這個算法也用在很多地方。我們現(xiàn)在經(jīng)常聽到的SLAM，它其實就是我們以前做的從運動中估計結(jié)構(gòu)，三維重建，不定性估計，ICP。事實上，SLAM 在 90 年代初理論上已經(jīng)解決了。

1995 年我提出了魯棒的圖像匹配和極線幾何估計方法，同時把程序放到網(wǎng)上，大家都以此作為參照。這可能是世界上第一個，至少是之一，把計算機視覺的程序放到網(wǎng)上讓別人用真實圖像來測試的。所以這個算法那時候就成為計算機視覺的通用方法。

1998 年我提出了一個新的攝像機標(biāo)定法，后來大家都稱它為「張氏方法」，現(xiàn)在它已經(jīng)在全世界的三維視覺、機器人、自動駕駛上普遍應(yīng)用，也獲得了IEEE Helmholtz 時間考驗獎。

1998 年我和馬頌德對日益成熟的幾何視覺做了總結(jié)，作為研究生教材由科學(xué)出版社出版。

1998 年還發(fā)生了很多事情，一個是 MSRA（微軟亞洲研究院）的成立，一個是騰訊公司的成立。這兩家看似無關(guān)的機構(gòu)其實對中國計算機視覺的發(fā)展，對中國人工智能的發(fā)展，起了不可估量的作用。MSRA 給中國帶來了國際先進的研究方法和思路，培養(yǎng)了一大批中國的優(yōu)秀學(xué)者，同時也請了一些國外的研究學(xué)者來到中國。騰訊促進了中國互聯(lián)網(wǎng)的發(fā)展，因為有互聯(lián)網(wǎng)，中國研究人員能夠幾乎實時地接觸到國際最頂尖的研究成果。所以這兩個結(jié)合，對中國人工智能領(lǐng)域的發(fā)展起到了很大的作用。

中國計算機視覺界一個重要的標(biāo)志性事件是 2005 年 ICCV 在北京召開，馬頌德和 Harry Shum 擔(dān)任大會主席，這標(biāo)志著中國計算機視覺的研究水平已經(jīng)得到國際的認同。我也很榮幸地從 Tom Huang 前輩手中接過 IEEE Fellow 的證書。

深度學(xué)習(xí)的崛起

可能幾何視覺的理論已經(jīng)比較成熟了，90 年代末，計算機視覺的研究開始進入物體和場景的檢測和識別，主要方法是傳統(tǒng)特征加上機器學(xué)習(xí)。

那時候我做幾何視覺做了很長時間，1997 年，我也開始嘗試，開發(fā)了世界上第一個用神經(jīng)網(wǎng)絡(luò)來識別人臉表情的系統(tǒng)，用的特征是 Gabor 小波。雖然 20 多年前就開始人臉表情識別，但那時數(shù)據(jù)太少，一直到 2016 年我們才在微軟把人臉表情識別技術(shù)商業(yè)化，在微軟的認知服務(wù)上，大家都可以調(diào)用。

在傳統(tǒng)特征加機器學(xué)習(xí)的年代，需要提一下一個里程碑的工作，那就是 2001 年的 Viola-Jones Detector。通過 Harr 特征加級聯(lián)分類器，人臉的檢測能夠做得非?？欤?20 年前的機器上就能做到實時。這對計算機視覺產(chǎn)生了很大的影響。此后的循環(huán)是一波一波的新數(shù)據(jù)集推出，加一波一波的算法刷榜。

2009 年一個叫 ImageNet 的數(shù)據(jù)集出現(xiàn)了，這是斯坦福大學(xué)李飛飛團隊推出的，這個數(shù)據(jù)集非常重要，它的意義不在于這個數(shù)據(jù)集很大，而在于幾年后催生了深度學(xué)習(xí)時代。

2012 年，Geoffrey Hinton 的兩個學(xué)生開發(fā)了 AlexNet，用了 8 層神經(jīng)網(wǎng)絡(luò)，6 千萬參數(shù)，誤差比傳統(tǒng)方法降了十幾個百分點，從 26% 降到 15%，從此開啟了計算機視覺的深度學(xué)習(xí)時代。這個 AlexNet 結(jié)構(gòu)其實和 1989 年 Yann LeCun 用于手寫數(shù)字識別的神經(jīng)網(wǎng)絡(luò)沒有很大區(qū)別，只是更深更大。

由于 Geoffrey Hinton, Yoshua Bengio, Yann LeCun 對深度學(xué)習(xí)的貢獻，他們共同獲得了 2018 年的圖靈獎。這個獎他們當(dāng)之無愧。要知道 Geoffrey Hinton 1986 年就提出了 backpropagation，坐了 25 年的冷板凳。

在深度學(xué)習(xí)時代還有一個里程碑的工作，2015 年，微軟亞洲研究院的何愷明和孫劍提出 ResNet，用了 152 層神經(jīng)網(wǎng)絡(luò)，在 ImageNet 測試集上的誤差比人還低，降到了 4% 以下。

我在深度學(xué)習(xí)領(lǐng)域也有一點貢獻。2014 年我和 UCSD 的屠卓文合作，提出了 DSN（Deeply- Supervised Nets）深度監(jiān)督網(wǎng)絡(luò)，雖然影響沒有 ResNet 大，但也有近一千次引用。我們的想法是直接讓輸出監(jiān)督中間層，使得最底層盡可能最大逼近要學(xué)習(xí)的函數(shù)，同時也緩解梯度「爆炸」或「消失」。

剛剛過去的 CVPR2019 可以被稱為是華人的盛典，在組織者里面有很多華人面孔，包括大會主席朱松純、程序委員會主席華剛和屠卓文。在五千多篇投稿中，40% 來自大陸，最佳論文獎和最佳學(xué)生論文獎的第一作者也都是華人。所以中國的計算機視覺能力還是很強的，這一點值得驕傲。

計算機視覺的研究要回歸初心

現(xiàn)在讓我們回顧一下計算機視覺研究的演變，從最初的圖像處理、立體視覺與三維重建、物體檢測和識別，到光度視覺、幾何視覺和語義視覺，到現(xiàn)在的深度學(xué)習(xí)打遍天下。這是讓我擔(dān)憂的。深度學(xué)習(xí)有很多局限性。

我認為接下來應(yīng)該要回歸初心，讓光度視覺、幾何視覺和語義視覺緊密結(jié)合起來，同時注入常識和領(lǐng)域知識，和語言進行多模態(tài)融合，通過學(xué)習(xí)不斷演變。

我們騰訊 AI Lab 在這方面也開始做了一點點工作。比如我們的看圖說話項目能夠用語言描述一張照片的內(nèi)容，2018 年 1 月，我們上線 QQ 空間 app 讓視障用戶「看到」圖片。

我們還整合了計算機視覺、語音識別和自然語言處理技術(shù)，開發(fā)了一個虛擬人產(chǎn)品，探索多模態(tài)人機交互，賦能其他場景，助力社交。我們還開發(fā)了二次元的虛擬人來做游戲解說，它能實時理解游戲場景并將它描述出來。

那么現(xiàn)在的人工智能真的智能嗎？想象一下，如果一個人想要蓋住你的眼睛，你會怎么做？我是會躲開的。但是從我剛才播放的視頻中可以看到，現(xiàn)在的監(jiān)控系統(tǒng)顯然沒有這樣的舉止?，F(xiàn)在的人工智能只是機器學(xué)習(xí)：從大量的標(biāo)注數(shù)據(jù)去學(xué)習(xí)一個映射。

什么是真正的智能？我想目前還沒有定論，而且我們對我們自己的智能還沒有足夠的了解。不過我很認同瑞士認知科學(xué)家 Jean Piaget 說的，智能是當(dāng)你不知道如何做的時候你用的東西。我認為這個定義是非常有道理的。當(dāng)你無法用你學(xué)到的東西或天賦去面對時，你動用的東西就是智能。如何去實現(xiàn)有智能的系統(tǒng)呢？可能有很多條路，但我認為一條很重要的路是需要把載體考慮進去，做有載體的智能，也就是機器人。

在機器人領(lǐng)域，我提出了 A2G 理論。A 是 AI，機器人必須能看能聽能說能思考，B 是 Body 本體，C 是 Control 控制，ABC 組成了機器人的基礎(chǔ)能力。D 是 Developmental Learning，發(fā)育學(xué)習(xí)，E 是 EQ，情感理解、擬人化，F(xiàn) 是 Flexible Manipulation，靈活操控。最后要達到 G，G 是 Guardian Angel，守護天使。

騰訊做了三款機器人：絕藝圍棋機器人、桌上冰球機器人，還有機器狗?？梢詾榇蠹艺故緳C器狗的視頻，機器狗具備感知系統(tǒng)，能夠繞開障礙物，看到懸空的障礙物能匍匐前進，看到前面一個人能蹲下來看著人。

我的報告就到這里，騰訊的 AI 使命是 Make AI Everywhere，我們一定會善用人工智能，讓人工智能造福人類，因為科技向善。謝謝大家。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46669

瀏覽量
237103
計算機視覺

計算機視覺

+關(guān)注

關(guān)注
8

文章
1694

瀏覽量
45901

原文標(biāo)題：騰訊張正友：計算機視覺的三生三世

文章出處：【微信號：AItists，微信公眾號：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

計算機視覺有哪些優(yōu)缺點

計算機視覺作為人工智能領(lǐng)域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動了多個行業(yè)的變革，也帶來了諸多優(yōu)勢，但同時也伴隨著一些挑戰(zhàn)和局限

發(fā)表于 08-14 09:49 ?659次閱讀

機器視覺和計算機視覺有什么區(qū)別

機器視覺和計算機視覺是兩個密切相關(guān)但又有所區(qū)別的概念。一、定義機器視覺機器視覺，又稱為計算機

發(fā)表于 07-16 10:23 ?442次閱讀

計算機視覺的五大技術(shù)

計算機視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一，其技術(shù)涵蓋了多個方面，為人工智能的發(fā)展開拓了廣闊的道路。以下是對計算機視覺五大技術(shù)的詳細解析，包括圖像分類、對象檢測、目標(biāo)跟蹤、語義分割

發(fā)表于 07-10 18:26 ?1146次閱讀

計算機視覺的工作原理和應(yīng)用

計算機視覺（Computer Vision，簡稱CV）是一門跨學(xué)科的研究領(lǐng)域，它利用計算機和數(shù)學(xué)算法來模擬人類視覺系統(tǒng)對圖像和視頻進行識別、理解、分析和處理。其核心目標(biāo)在于使

發(fā)表于 07-10 18:24 ?1500次閱讀

計算機視覺與人工智能的關(guān)系是什么

引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個領(lǐng)域的知識。人工智能則是研究如何使計算

發(fā)表于 07-09 09:25 ?484次閱讀

計算機視覺與智能感知是干嘛的

引言 計算機視覺（Computer Vision）是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個領(lǐng)域，是人工智能的重要組成部分。智能

發(fā)表于 07-09 09:23 ?658次閱讀

計算機視覺和機器視覺區(qū)別在哪

計算機視覺和機器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。一、定義 計算機視覺 計算機

發(fā)表于 07-09 09:22 ?384次閱讀

計算機視覺和圖像處理的區(qū)別和聯(lián)系

計算機視覺和圖像處理是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計算機視覺 計算機視覺

發(fā)表于 07-09 09:16 ?1088次閱讀

計算機視覺屬于人工智能嗎

屬于，計算機視覺是人工智能領(lǐng)域的一個重要分支。引言 計算機視覺是一門研究如何使計算機具有視覺能

發(fā)表于 07-09 09:11 ?1029次閱讀

計算機視覺的主要研究方向

計算機視覺（Computer Vision, CV）作為人工智能領(lǐng)域的一個重要分支，致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展，計算機

發(fā)表于 06-06 17:17 ?778次閱讀

計算機視覺成新寵兒，三防平板助力醫(yī)療保健

計算機視覺是醫(yī)療保健行業(yè)的一個相當(dāng)新的趨勢，其中圖像用于幫助識別和預(yù)測患者的診斷，提高準確性，利用計算機圖像來做到這一點。圖像被拍攝并上傳到系統(tǒng)中，然后通過

發(fā)表于 04-19 16:50 ?252次閱讀

計算機視覺的十大算法

隨著科技的不斷發(fā)展，計算機視覺領(lǐng)域也取得了長足的進步。本文將介紹計算機視覺領(lǐng)域的十大算法，包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)

發(fā)表于 02-19 13:26 ?1177次閱讀

機器視覺、工業(yè)視覺和計算機視覺這三者的關(guān)系

機器視覺、工業(yè)視覺和計算機視覺這三者的關(guān)系

發(fā)表于 01-24 10:51 ?1149次閱讀

什么是計算機視覺？計算機視覺的三種方法

計算機視覺是指通過為計算機賦予人類視覺這一技術(shù)目標(biāo)，從而賦能裝配線檢查到駕駛輔助和機器人等應(yīng)用。計算機缺乏像人類一樣憑直覺產(chǎn)生

發(fā)表于 11-16 16:38 ?4414次閱讀

最適合AI應(yīng)用的計算機視覺類型是什么？

計算機視覺是指為計算機賦予人類視覺這一技術(shù)目標(biāo)，從而賦能裝配線檢查到駕駛輔助和機器人等應(yīng)用。計算機缺乏像人類一樣憑直覺產(chǎn)生

發(fā)表于 11-15 16:38 ?407次閱讀