0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動(dòng)攝影仍是未攻克的一道難題,相機(jī)能自動(dòng)捕捉不平凡的瞬間嗎?

Tensorflowers ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-07 10:53 ? 次閱讀

發(fā)布人:Clips 內(nèi)容團(tuán)隊(duì)負(fù)責(zé)人兼研究員 Aseem Agarwala

在我看來(lái),攝影就是在一瞬間內(nèi)認(rèn)識(shí)到某個(gè)事件的重要性,同時(shí)通過(guò)精準(zhǔn)的形態(tài)組合完整記錄其面貌。

-Henri Cartier-Bresson

在過(guò)去幾年中,人工智能經(jīng)歷了一場(chǎng)類(lèi)似寒武紀(jì)的大爆發(fā),借助深度學(xué)習(xí)方法,計(jì)算機(jī)視覺(jué)算法已能夠識(shí)別出優(yōu)質(zhì)照片的許多元素,包括人、微笑、寵物、日落和著名地標(biāo),等等。然而,盡管近期取得了一系列進(jìn)展,自動(dòng)攝影仍是未攻克的一道難題。相機(jī)能自動(dòng)捕捉不平凡的瞬間嗎?

前些日子,我們發(fā)布了 Google Clips,這是一款全新的免持相機(jī),可自動(dòng)捕捉生活中的有趣瞬間。我們?cè)谠O(shè)計(jì) Google Clips 時(shí)遵循了下面三個(gè)重要原則:

我們希望所有計(jì)算都在設(shè)備端執(zhí)行。除了延長(zhǎng)電池壽命和縮短延遲時(shí)間之外,設(shè)備端處理還意味著,除非保存或共享短片,否則任何短片都不會(huì)離開(kāi)設(shè)備,這是一項(xiàng)重要的隱私控制措施。

我們希望設(shè)備能夠拍攝短視頻,而不是單張照片。因?yàn)閯?dòng)作能更好地記錄瞬間的形態(tài),留下更真實(shí)的記憶,而且,為一個(gè)重要瞬間拍攝視頻往往比即時(shí)捕捉一個(gè)完美瞬間更容易。

我們希望專(zhuān)注于捕捉人和寵物的真實(shí)瞬間,而不是將精力放在捕捉藝術(shù)圖像這種更抽象、更主觀的問(wèn)題上。也就是說(shuō),我們并未試圖教 Clips 思考構(gòu)圖、色彩平衡和燈光等問(wèn)題,而是專(zhuān)注于如何選取包含人和動(dòng)物進(jìn)行有趣活動(dòng)的瞬間。

學(xué)習(xí)識(shí)別不平凡的瞬間

如何訓(xùn)練算法來(lái)識(shí)別有趣的瞬間?與大多數(shù)機(jī)器學(xué)習(xí)問(wèn)題一樣,我們首先從數(shù)據(jù)集入手。先設(shè)想 Clips 的各種應(yīng)用場(chǎng)景,在此基礎(chǔ)上創(chuàng)建出一個(gè)由數(shù)千個(gè)視頻組成的數(shù)據(jù)集。同時(shí),我們還確保這些數(shù)據(jù)集涵蓋廣泛的種族、性別和年齡群體。然后我們聘請(qǐng)了專(zhuān)業(yè)攝影師和視頻剪輯師仔細(xì)檢查視頻,從中選出最佳的短視頻片段。這些前期處理方式為我們的算法提供了可以模仿的實(shí)例。然而,僅僅依據(jù)專(zhuān)業(yè)人士的主觀選擇來(lái)訓(xùn)練算法并不容易,我們需要平滑的標(biāo)簽梯度來(lái)教會(huì)算法識(shí)別內(nèi)容的質(zhì)量(從"完美"到"糟糕")。

為了解決這個(gè)問(wèn)題,我們采取了另一種數(shù)據(jù)收集方法,目標(biāo)是為整個(gè)視頻創(chuàng)建連續(xù)的質(zhì)量得分。我們將每個(gè)視頻剪輯成短片段(類(lèi)似于 Clips 捕捉到的內(nèi)容),然后隨機(jī)選擇片段對(duì),并要求人類(lèi)評(píng)分者選擇他們喜歡的片段。

之所以采用這種成對(duì)比較的方法,而不是讓評(píng)分者直接為視頻打分,是因?yàn)閮烧邠衿鋬?yōu)要比給出具體分?jǐn)?shù)容易得多。我們發(fā)現(xiàn)評(píng)分者在成對(duì)比較時(shí)的結(jié)論非常一致,而在直接評(píng)分時(shí)則有較大分歧。如果為任意給定視頻提供足夠多的成對(duì)比較短片,我們就能計(jì)算整個(gè)視頻的連續(xù)質(zhì)量得分。通過(guò)這一過(guò)程,我們從 1000 多個(gè)視頻中收集了超過(guò) 5000 萬(wàn)對(duì)成對(duì)比較短片。如果單純依靠人力,這項(xiàng)工作將異常辛苦。

訓(xùn)練 Clips 質(zhì)量模型

掌握質(zhì)量得分訓(xùn)練數(shù)據(jù)后,下一步是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型來(lái)評(píng)估設(shè)備捕捉到的任意照片的質(zhì)量。我們首先做了一個(gè)基本假設(shè),即了解照片中的內(nèi)容(例如人、狗和樹(shù)等)有助于確定"有趣性"。如果此假設(shè)正確,那么我們可以學(xué)習(xí)一個(gè)函數(shù),通過(guò)識(shí)別到的照片內(nèi)容來(lái)預(yù)測(cè)其質(zhì)量得分(如上文所述,得分基于人類(lèi)的對(duì)比評(píng)估結(jié)果)。

為了確定訓(xùn)練數(shù)據(jù)中的內(nèi)容標(biāo)簽,我們使用了支持 Google 圖像搜索和 Google 照片的 Google 機(jī)器學(xué)習(xí)技術(shù),這項(xiàng)技術(shù)可以識(shí)別超過(guò) 27000 個(gè)描述物體、概念和動(dòng)作的不同標(biāo)簽。我們當(dāng)然不需要所有標(biāo)簽,也無(wú)法在設(shè)備上對(duì)所有標(biāo)簽進(jìn)行計(jì)算,因此請(qǐng)專(zhuān)業(yè)攝影師從中選擇了幾百個(gè)他們認(rèn)為與預(yù)測(cè)照片"有趣性"最相關(guān)的標(biāo)簽。我們還添加了與評(píng)分者質(zhì)量得分關(guān)聯(lián)度最高的標(biāo)簽。

有了這個(gè)標(biāo)簽子集之后,我們需要設(shè)計(jì)一個(gè)緊湊高效的模型,在電量和發(fā)熱嚴(yán)格受限的條件下于設(shè)備端預(yù)測(cè)任意給定圖像的標(biāo)簽。這項(xiàng)工作提出了不小的難題,因?yàn)橛?jì)算機(jī)視覺(jué)所依托的深度學(xué)習(xí)技術(shù)通常需要強(qiáng)大的桌面 GPU,并且移動(dòng)設(shè)備上運(yùn)行的算法遠(yuǎn)遠(yuǎn)落后于桌面設(shè)備或云端的最新技術(shù)。為了在設(shè)備端模型上進(jìn)行此項(xiàng)訓(xùn)練,我們首先收集了大量照片,然后再次使用 Google 基于服務(wù)器的強(qiáng)大識(shí)別模型來(lái)預(yù)測(cè)上述每個(gè)"有趣"標(biāo)簽的置信度。我們隨后訓(xùn)練了一個(gè) MobileNet 圖像內(nèi)容模型 (ICM) 來(lái)模仿基于服務(wù)器的模型的預(yù)測(cè)。這個(gè)緊湊模型能夠識(shí)別照片中最有趣的元素,同時(shí)忽略不相關(guān)的內(nèi)容。

最后一步是使用 5000 萬(wàn)成對(duì)比較短片作為訓(xùn)練數(shù)據(jù),利用 ICM 預(yù)測(cè)的照片內(nèi)容預(yù)測(cè)輸入照片的質(zhì)量得分。得分通過(guò)逐段線(xiàn)性回歸模型進(jìn)行計(jì)算,將 ICM 輸出轉(zhuǎn)換為幀質(zhì)量得分。視頻片段中的幀質(zhì)量得分取平均值即為瞬間得分。給定一組成對(duì)比較短片,我們模型計(jì)算出的人類(lèi)偏好的視頻片段的瞬間得分應(yīng)當(dāng)更高一些。訓(xùn)練模型的目的是使其預(yù)測(cè)結(jié)果盡可能與人類(lèi)的成對(duì)比較結(jié)果一致。

生成幀質(zhì)量得分的訓(xùn)練過(guò)程圖示。逐段線(xiàn)性回歸模型將 ICM 嵌入映射為幀質(zhì)量得分,視頻片段中的所有幀質(zhì)量得分取平均值即為瞬間得分。人類(lèi)偏好的視頻片段的瞬間得分應(yīng)當(dāng)更高。

通過(guò)此過(guò)程,我們訓(xùn)練出一個(gè)將 Google 圖像識(shí)別技術(shù)與人類(lèi)評(píng)分者智慧(5000 萬(wàn)條關(guān)于內(nèi)容有趣性的評(píng)估意見(jiàn))完美融合的模型。

這種基于數(shù)據(jù)的得分在識(shí)別有趣(和無(wú)趣)瞬間方面已經(jīng)做得很好,我們?cè)诖嘶A(chǔ)上又做了一些補(bǔ)充,針對(duì)我們希望 Clips 捕捉的事件的整體質(zhì)量得分增加了一些獎(jiǎng)勵(lì),這些事件包括臉部(特別是因經(jīng)常出現(xiàn)而比較"熟悉"的臉部)、微笑和寵物。在最新版本中,我們?yōu)榭蛻?hù)特別想捕捉的某些活動(dòng)(如擁抱、親吻、跳躍和跳舞)增加了獎(jiǎng)勵(lì)。要識(shí)別到這些活動(dòng),需要擴(kuò)展 ICM 模型。

拍照控制

基于這款強(qiáng)大的場(chǎng)景"有趣性"預(yù)測(cè)模型,Clips 相機(jī)可以決定哪些瞬間需要實(shí)時(shí)捕捉。它的拍照控制算法遵循以下三大原則:

重視耗電量和發(fā)熱:我們希望 Clips 的電池能夠續(xù)航大約三小時(shí),同時(shí)不想設(shè)備過(guò)熱,因此設(shè)備不能一直全速運(yùn)轉(zhuǎn)。Clips 大部分時(shí)間都處于每秒拍攝一幀的低電耗模式。如果這一幀的質(zhì)量超出根據(jù) Clips 最近拍攝量所設(shè)置的閾值,它將進(jìn)入高電耗模式,以 15 fps 的速度進(jìn)行拍攝。Clips 隨后會(huì)在遇到第一次質(zhì)量高峰時(shí)保存短片。

避免冗余:我們不希望 Clips 一次捕捉所有瞬間,而忽略了其他內(nèi)容。因此,我們的算法將這些瞬間聚合成視覺(jué)相似的組,并限制每一集群中短片的數(shù)量。

后見(jiàn)之明的好處:查看拍攝的所有短片之后再選擇最佳短片顯然要簡(jiǎn)單得多。因此,Clips 捕捉的瞬間要比預(yù)期展示給用戶(hù)的多。當(dāng)短片要傳輸?shù)?a target="_blank">手機(jī)時(shí),Clips 設(shè)備會(huì)花一秒時(shí)間查看其拍攝成果,只把最好和最不冗余的內(nèi)容傳輸過(guò)去。

機(jī)器學(xué)習(xí)的公平性

除了確保視頻數(shù)據(jù)集展現(xiàn)人口群體多樣性之外,我們還構(gòu)建了多項(xiàng)測(cè)試來(lái)評(píng)估我們算法的公平性。我們通過(guò)從不同性別和膚色中均勻采樣,同時(shí)保持內(nèi)容類(lèi)型、時(shí)長(zhǎng)和環(huán)境條件等變量恒定,來(lái)創(chuàng)建可控的數(shù)據(jù)集。然后,我們使用此數(shù)據(jù)集測(cè)試算法在應(yīng)用到其他群體時(shí)是否具備類(lèi)似性能。為了幫助檢測(cè)提升瞬間質(zhì)量模型時(shí)可能發(fā)生的任何公平性回歸,我們?yōu)樽詣?dòng)系統(tǒng)增加了公平性測(cè)試。對(duì)軟件進(jìn)行的任何變更都要進(jìn)行這些測(cè)試,并且要求必須通過(guò)。但需要注意的是,由于我們無(wú)法針對(duì)每一個(gè)可能的場(chǎng)景和結(jié)果進(jìn)行測(cè)試,因此,這種方法并不能確保公平性。但實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的公平性畢竟任重而道遠(yuǎn),無(wú)法一蹴而就,而這些測(cè)試將有助于促進(jìn)目標(biāo)的最終實(shí)現(xiàn)。

結(jié)論

大多數(shù)機(jī)器學(xué)習(xí)算法都是圍繞客觀特性評(píng)估而設(shè)計(jì),例如,判斷照片中是否有貓咪。在我們的用例中,我們的目標(biāo)是捕捉一個(gè)更難捉摸、更主觀的特性,即判斷個(gè)人照片是否有趣。因此,我們將照片的客觀、語(yǔ)義內(nèi)容與主觀人類(lèi)偏好相結(jié)合,在 Google Clips 中實(shí)現(xiàn)了人工智能。此外,Clips 的設(shè)計(jì)目標(biāo)是與人協(xié)同,而不是自主工作;為了獲得良好的拍攝效果,拍攝人仍要具備取景意識(shí)并確保相機(jī)對(duì)準(zhǔn)有趣的拍攝內(nèi)容。我們對(duì) Google Clips 的出色表現(xiàn)感到欣慰,期待繼續(xù)改進(jìn)算法來(lái)捕捉"完美"瞬間!

致謝

本文介紹的算法由眾多 Google 工程師、研究員和其他人共同構(gòu)想并實(shí)現(xiàn)。圖片由 Lior Shapira 制作。同時(shí)感謝 Lior 和 Juston Payne 提供視頻內(nèi)容。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)案例:Google Clips 自動(dòng)攝影

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    [轉(zhuǎn)帖]紀(jì)念不平凡的2008,超印速免費(fèi)為您印制10本博客書(shū)

    2008年即將過(guò)去,相信每個(gè)人都在這樣個(gè)如此不平凡年中留下了許許多多也許已經(jīng)無(wú)法磨滅的痕跡。或許在這年當(dāng)中,對(duì)生活,對(duì)生命,對(duì)民族,對(duì)挫折,我們領(lǐng)悟和學(xué)習(xí)到了很多很多??赡苣?/div>
    發(fā)表于 12-03 21:19

    [轉(zhuǎn)帖]紀(jì)念不平凡的2008,超印速免費(fèi)為您印制10本博客書(shū)

    2008年即將過(guò)去,相信每個(gè)人都在這樣個(gè)如此不平凡年中留下了許許多多也許已經(jīng)無(wú)法磨滅的痕跡。或許在這年當(dāng)中,對(duì)生活,對(duì)生命,對(duì)民族,對(duì)挫折,我們領(lǐng)悟和學(xué)習(xí)到了很多很多??赡苣?/div>
    發(fā)表于 12-03 21:35

    [分享]紀(jì)念不平凡的2008,超印速免費(fèi)為您印制10本博客書(shū)

    2008年即將過(guò)去,相信每個(gè)人都在這樣個(gè)如此不平凡年中留下了許許多多也許已經(jīng)無(wú)法磨滅的痕跡?;蛟S在這年當(dāng)中,對(duì)生活,對(duì)生命,對(duì)民族,對(duì)挫折,我們領(lǐng)悟和學(xué)習(xí)到了很多很多??赡苣?/div>
    發(fā)表于 12-03 15:45

    [原創(chuàng)]紀(jì)念不平凡的2008,超印速免費(fèi)為您印制10本博客書(shū)

    2008年即將過(guò)去,相信每個(gè)人都在這樣個(gè)如此不平凡年中留下了許許多多也許已經(jīng)無(wú)法磨滅的痕跡?;蛟S在這年當(dāng)中,對(duì)生活,對(duì)生命,對(duì)民族,對(duì)挫折,我們領(lǐng)悟和學(xué)習(xí)到了很多很多??赡苣?/div>
    發(fā)表于 12-19 11:13

    游標(biāo)自動(dòng)捕捉問(wèn)題

    波形圖表中如何設(shè)置,才能讓游標(biāo)在程序停止時(shí)自動(dòng)捕捉到最大值,哪位可以幫幫忙
    發(fā)表于 06-28 19:31

    自動(dòng)對(duì)焦在智能手機(jī)的應(yīng)用

    作者:高級(jí)產(chǎn)品營(yíng)銷(xiāo)經(jīng)理Jason Whetstone當(dāng)今最想要的智能手機(jī)特性對(duì)于許多用戶(hù),相機(jī)性能已成為臺(tái)智能手機(jī)最重要的方面。社交媒體和線(xiàn)上業(yè)務(wù)使每個(gè)人都成為攝影師或影片導(dǎo)演,輔以幾百萬(wàn)像素
    發(fā)表于 07-16 08:50

    智能家居解決各平臺(tái)互聯(lián)互通仍是個(gè)難題

    智能家居解決各平臺(tái)互聯(lián)互通仍是個(gè)難題
    發(fā)表于 05-21 07:09

    LED面臨哪些技術(shù)上的難題?如何去攻克

    LED具有哪些傳統(tǒng)光源所不能比擬的優(yōu)勢(shì)?LED面臨哪些技術(shù)上的難題?如何去攻克?
    發(fā)表于 06-03 07:15

    FPGA是ASIC設(shè)計(jì)者的一道普通難題?

    FPGA是ASIC設(shè)計(jì)者的一道普通難題摘要:隨著開(kāi)發(fā) ASIC 與 SOC 的掩膜費(fèi)用、復(fù)雜度和工具成本的上升,今天很多設(shè)計(jì)小組正在選用 FPGA 實(shí)現(xiàn)自己的產(chǎn)品設(shè)計(jì)。但是,在設(shè)計(jì)者跨
    發(fā)表于 06-18 16:21 ?10次下載

    業(yè)余攝影師巧捉鷺鷥捕捉地鼠精彩瞬間

    業(yè)余攝影師巧捉鷺鷥捕捉地鼠精彩瞬間 據(jù)《每日郵報(bào)》報(bào)道如果你喜歡囊地鼠的話(huà),請(qǐng)你把腦袋移開(kāi)。美國(guó)野生生物攝影愛(ài)好者史蒂夫·施恩在加利
    發(fā)表于 03-31 09:19 ?622次閱讀

    屏下攝像頭從幕后到臺(tái)前 攻克100%全面屏前的最后一道關(guān)卡

    6月3日,oppo和小米同時(shí)發(fā)布了屏下攝像頭的工程機(jī),實(shí)現(xiàn)100%全面屏?xí)r代的最后一道關(guān)卡被攻克!
    的頭像 發(fā)表于 06-06 15:52 ?3286次閱讀

    自動(dòng)駕駛芯片賽道的玩家眾多 已形成百舸爭(zhēng)流之勢(shì)

    如果自動(dòng)駕駛的研發(fā)和落地看成場(chǎng)通向星辰大海的征程,其中遇到的每顆星星就代表著攻克一道難題,那
    發(fā)表于 11-20 16:55 ?418次閱讀

    一道防線(xiàn)-Secure Boot安全開(kāi)機(jī)

    一道防線(xiàn)-Secure Boot安全開(kāi)機(jī)
    的頭像 發(fā)表于 08-11 14:46 ?558次閱讀
    第<b class='flag-5'>一道</b>防線(xiàn)-Secure Boot安全開(kāi)機(jī)

    泰克示波器如何捕捉瞬間波形?

    泰克示波器(Tektronix Oscilloscope)作為種常見(jiàn)的電子測(cè)量?jī)x器,用于顯示電信號(hào)的波形。在許多應(yīng)用中,電路中的瞬間波形非常重要,因?yàn)樗鼈兲峁┝藢?duì)電路行為的詳細(xì)了解。泰克示波器
    的頭像 發(fā)表于 04-28 10:19 ?434次閱讀
    泰克示波器如何<b class='flag-5'>捕捉</b><b class='flag-5'>瞬間</b>波形?

    深圳18650電池焊接機(jī)廠家:攻克自動(dòng)點(diǎn)焊機(jī)虛焊難題

    在電池制造行業(yè)中,焊接是至關(guān)重要的環(huán)。然而,自動(dòng)點(diǎn)焊機(jī)在焊接18650電池時(shí),時(shí)常會(huì)面臨虛焊問(wèn)題,這不僅影響電池的性能,還可能帶來(lái)安全隱患。本文將深入探討虛焊問(wèn)題的成因,并提出相應(yīng)的解決方法,幫助深圳的電池焊接機(jī)廠家攻克
    的頭像 發(fā)表于 05-24 09:43 ?290次閱讀
    深圳18650電池焊接機(jī)廠家:<b class='flag-5'>攻克</b><b class='flag-5'>自動(dòng)</b>點(diǎn)焊機(jī)虛焊<b class='flag-5'>難題</b>