0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI看了100部電影,學(xué)會了接吻是什么樣子

DPVg_AI_era ? 來源:lq ? 2019-07-13 08:19 ? 次閱讀

斯坦福大學(xué)研究人員給AI模型看了100部好萊塢電影,讓AI看懂了什么是接吻,并從視頻片段中分割識別出接吻的鏡頭場景,而且把接吻和***場景區(qū)分開來。嗯,想開車的朋友可能要等等,但想看吻戲的朋友這回可以一次看個夠了。

和大多數(shù)沒有接過吻的人一樣,AI學(xué)接吻這件事最開始也是通過觀看愛情電影片段進行的。AI通過看電影來了解關(guān)于接吻的基本知識,尤其是看看那些好萊塢明星的嘴唇動作究竟是什么樣的。

研究人員對熟練掌握識別面部識別和目標(biāo)識別的深度學(xué)習(xí)算法進行了訓(xùn)練,識別由專業(yè)演員戲劇化的熱吻場景,這表明,AI系統(tǒng)已經(jīng)能夠更深入地了解最親密的人類“交流”活動。

電影《泰坦尼克號》中男女主角著名的“船頭接吻”鏡頭

這項研究來自Netflix的高級數(shù)據(jù)科學(xué)家Amir Ziai,他正在斯坦福大學(xué)攻讀AI專業(yè)研究生。Ziai從過去一個世紀(jì)的好萊塢電影數(shù)據(jù)庫中挑選了100部電影的代表性片段。然后手動將不同的電影片段標(biāo)記為接吻/非接吻場景,并使用來自這些片段的靜止圖像幀和聲音片段來訓(xùn)練深度學(xué)習(xí)算法,以檢測影片中親吻的場景和聲音。

尋找非交叉接吻動作分割片段的算法偽代碼

不過請不要誤會,目前還不清楚這個測吻的方法是否可以用于親吻之外的進一步***場景的識別。對此,Ziai 表示:“在我的訓(xùn)練數(shù)據(jù)集中有意遠(yuǎn)離了過度的***場景,以確保模型不會混淆接吻和***”。

Ziai目前的雇主Netflix沒有參與斯坦福大學(xué)的這項研究,該研究一發(fā)表在預(yù)印本服務(wù)器arXiv上。Ziai尚未研究該技術(shù)在Netflix上的能否獲得一些應(yīng)用前景。但不難想象,這類視頻識別技術(shù)可能會讓Netflix或其他公司(如YouTube,F(xiàn)acebook,InstagramTikTok)很感興趣,由此技術(shù)開發(fā)出的商業(yè)應(yīng)用可以處理大量流媒體或存儲視頻。

2019年4月,谷歌宣布其Pixel智能手機已經(jīng)能夠接收Photobooth功能更新,可以在智能手機攝像頭拍攝的視頻中檢測到接吻時進行自動拍照。Ziai展示了與視頻有關(guān)的接吻檢測技術(shù),未來的應(yīng)用可以對視頻內(nèi)容進行自動分類,為用戶打造個性化的視頻推薦列表,甚至可能充當(dāng)在線視頻審核的部分作用,對某些內(nèi)容的視頻進行篩選。

“這是一個很好的例子,說明現(xiàn)代計算機視覺技術(shù)如何能夠相當(dāng)容易地開發(fā)特定的'感知和響應(yīng)'軟件,提示定性/非結(jié)構(gòu)化的東西(如場景中的接吻),”O(jiān)penAI策略與轉(zhuǎn)播主管杰克·克拉克說,他的導(dǎo)入人工智能新聞通訊,最近突出了親吻檢測研究?!拔艺J(rèn)為這是AI改變個人軟件開發(fā)方面,未來受關(guān)注潛力最高的領(lǐng)域之一?!?/p>

目前對親吻場景識別最成功的深度學(xué)習(xí)模型是ResNet-18,這是一種圖像分類算法,已經(jīng)基于ImageNet數(shù)據(jù)庫中的超過一百萬張圖像進行了預(yù)訓(xùn)練。為了能夠正確識別接吻的聲音,使用名為VGGish的深度學(xué)習(xí)模型,利用每個接吻場景的一秒鐘片段的后960毫秒的音頻進行了訓(xùn)練。

使用這種雙管齊下的訓(xùn)練方式,AI模型處理接吻的圖像和音頻的方式,讓整個模型獲得了高達(dá)的0.95的F1分?jǐn)?shù) - 這一分?jǐn)?shù)用于衡量算法(對于誤報和假陰性的)精度的加權(quán)平均值。

但是,面對一些電影場景中視頻編輯過多,以及和攝像機角度問題時,模型可能會無能為力。拍攝演員接吻的遠(yuǎn)景鏡頭有時會騙過算法,因為這種情況下,大部分相機鏡框內(nèi)都是風(fēng)景背景??旃?jié)奏的視頻剪輯和不包括兩個演員的鏡頭也證明是具有挑戰(zhàn)性的。

要弄清究竟是AI模型究竟是根據(jù)哪些特定數(shù)據(jù)模式進行預(yù)測是比較困難的事情。人類嘗試?yán)斫釧I邏輯的一種方法是使用顯著性圖來突出顯示在分析過程中受到AI最多關(guān)注的數(shù)據(jù)。在好萊塢電影中的親吻場景中,深度學(xué)習(xí)模型似乎更加關(guān)注與演員面部相關(guān)的圖像像素。

Ziai說,一些“有限的實驗”也表明,AI模型更依賴視覺特征,而不是音頻特征來識別接吻場景。實驗表明,利用更加“精心調(diào)整的數(shù)據(jù)集”會更有利于接吻探測系統(tǒng)的性能發(fā)揮,并且可能利用更多的背景信息,而不僅僅是靠靜止圖像來識別接吻場景。

電影《幽靈》(1990)中的接吻場景

目前還不清楚AI模型在全部100部好萊塢電影中的識別表現(xiàn)如何,如《安娜·卡列尼娜》(1935),《幽靈》(1990)和《皇家賭場》(2006)將在更大的電影數(shù)據(jù)集中發(fā)揮作用。但是,在訓(xùn)練數(shù)據(jù)集超過80個視頻后,該模型僅僅出現(xiàn)了“邊際化的性能提升”,Ziai說。好萊塢電影數(shù)據(jù)集和一些計算資源由斯坦福大學(xué)計算機科學(xué)助理教授Kayvon Fatahalian實驗室提供。

另一個問題是,這種接吻AI識別模型是否能夠在檢測社交媒體上常見的視頻中的接吻場景時表現(xiàn)出相當(dāng)?shù)木?。這一挑戰(zhàn)可能需要對更大的視頻數(shù)據(jù)集進行額外的訓(xùn)練。盡管如此,一些初步測試仍然表明,這種方式有望誕生更廣泛的AI接吻檢測應(yīng)用。

“這項研究的嘗試是使用多樣化的數(shù)據(jù)集,讓模型不會過度適應(yīng)任何特定類型的電影,”Ziai說?!坝腥さ氖?,它似乎在我發(fā)現(xiàn)的一些YouTube視頻上的性能表現(xiàn)相當(dāng)不錯?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266254
  • 面部識別
    +關(guān)注

    關(guān)注

    1

    文章

    375

    瀏覽量

    26581
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120594

原文標(biāo)題:斯坦福研究人員讓AI看了100部好萊塢大片,養(yǎng)出一個“吻戲識別大師”

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI模擬器

    問題, 第二:下次發(fā)送,先清除之前提問,避免重復(fù)提問 第三步:獲取ai反饋相關(guān)問題答案,目前虛擬數(shù)據(jù),可自行設(shè)置答案結(jié)果 四、效果展示 五:代碼展示: import { MsgRoleEnum
    發(fā)表于 08-22 17:28

    索尼電影攝影機在未來電影制作教育中的作用

    日本大學(xué)藝術(shù)學(xué)院自成立以來,作為日本第一所藝術(shù)學(xué)院,100多年來培養(yǎng)了許多從事專業(yè)電影制作人才。在電影研究系,引入了索尼電影攝影機“FX9”、“FX6” 和 “FX30” 進行實踐教學(xué)
    的頭像 發(fā)表于 08-16 11:06 ?486次閱讀

    數(shù)十萬一臺的電影機,需要何種傳感器與之匹配

    還是CMOS都用到了可靠性和性能最高的硬件,尤其是對于CMOS而言,圖像質(zhì)量才是對其唯一的要求。 ? 安森美 ? 在高端電影機市場占比第一的Arri,至今已經(jīng)有了100多年的歷史,在2024年奧斯卡的10最佳影片提名中,有6
    的頭像 發(fā)表于 04-27 00:56 ?3133次閱讀
    數(shù)十萬一臺的<b class='flag-5'>電影</b>機,需要何種傳感器與之匹配

    怎么在NanoEdge AI Studio設(shè)定交叉編譯器呢?

    20231009\", 那么問題來了,怎么在NanoEdge AI Studio設(shè)定交叉編譯器呢,比如設(shè)置為armcc、armclang、iccram,因為我需要將庫加到keil或者iar工程里面。 看樣子這個軟件生成的庫是arm-gcc編譯的,那它只能用于官方的STM
    發(fā)表于 03-07 06:28

    基于HTTP/3構(gòu)建SSH協(xié)議會是什么樣呢?

    來自UCLouvain的Fran?ois Michel 和Olivier Bonaventure在研究中思考了一個問題:如果使用最新的網(wǎng)絡(luò)技術(shù)來重新設(shè)計SSH協(xié)議,那新協(xié)議會是什么樣子呢?
    的頭像 發(fā)表于 02-20 17:07 ?510次閱讀
    基于HTTP/3構(gòu)建SSH協(xié)議會是<b class='flag-5'>什么樣</b>呢?

    華誼兄弟電影樂園聯(lián)合亮風(fēng)臺解鎖新玩法,邀你在電影元宇宙里“過大年”

    2024年賀歲檔即將來到,九影片燃爆集結(jié),堪稱“神仙打架”!看電影一直都是“春節(jié)主菜”,而就在大年初一(2月10日),蘇州華誼兄弟電影樂園的電影工坊將解鎖酷炫觀影新方式,讓游客“酥酥
    的頭像 發(fā)表于 02-19 12:18 ?2829次閱讀
    華誼兄弟<b class='flag-5'>電影</b>樂園聯(lián)合亮風(fēng)臺解鎖新玩法,邀你在<b class='flag-5'>電影</b>元宇宙里“過大年”

    沒有10年工作經(jīng)驗,我猜你都不會用電磁場來分析高速問題吧?

    問了很多朋友,總結(jié)了研究高速信號的三個階段:工作2年學(xué)會了從時域上看波形和眼圖;工作5年學(xué)會了從頻域去研究通道性能;工作10年了,咋滴,還沒學(xué)會結(jié)合電磁場來分析和定位問題嗎?
    的頭像 發(fā)表于 02-01 14:46 ?311次閱讀
    沒有10年工作經(jīng)驗,我猜你都不會用電磁場來分析高速問題吧?

    在發(fā)生超范圍情況時,ADC的輸出數(shù)據(jù)是什么樣子

    在發(fā)生超范圍情況時,ADC的輸出數(shù)據(jù)是什么樣子?
    發(fā)表于 12-21 06:20

    中國機械工業(yè)學(xué)會、工業(yè)和信息化調(diào)研海默機器人

    由中國機械工業(yè)學(xué)會、工程院戰(zhàn)略咨詢中心、工業(yè)和信息化電子第五研究所、湖北省機器人產(chǎn)業(yè)創(chuàng)新聯(lián)盟及其專家委員會專家、南京航空航天大學(xué)組成聯(lián)合調(diào)研組共
    的頭像 發(fā)表于 12-04 08:12 ?427次閱讀
    中國機械工業(yè)<b class='flag-5'>學(xué)會</b>、工業(yè)和信息化<b class='flag-5'>部</b>調(diào)研海默機器人

    微軟發(fā)布自研AI芯片——Azure Maia100

    Azure Maia 是一款AI 加速器芯片,用于OpenAI 模型、ChatGPT、Bing、GitHub Copilot 等AI 工作負(fù)載,Azure Maia 100 則是該系列第一代產(chǎn)品,采取5 納米制程生產(chǎn)。
    發(fā)表于 11-17 11:49 ?336次閱讀

    RISC-V mcu何時進軍AI

    今天看了篇文章,講述MCU界“六大天王”ST、NXP、Microchip、Renesas、TI、Infineon都在加大布局邊緣AI,這也應(yīng)該是RISC-V MCU 的一次機遇??!
    發(fā)表于 11-04 09:58

    OTP操作是什么樣子

    OTP操作的大概樣子 OTP寄存器和FLASH數(shù)據(jù)區(qū)域很類似,1能被改寫為0,但0永遠(yuǎn)也不能寫成1.如果有一個32位的OTP寄存器,出產(chǎn)的值是0xFFFFFFFF,如果用戶通過編程,將OTP寄存器
    的頭像 發(fā)表于 10-31 15:29 ?593次閱讀

    中斷的完整流程是什么樣子

    如何從軟件與硬件的角度去看一個中斷,一個中斷的完整流程應(yīng)該是什么樣子? ?創(chuàng)建對應(yīng)的中斷服務(wù)函數(shù)(軟件):在編寫操作系統(tǒng)或應(yīng)用程序時,需要為每個中斷源創(chuàng)建一個對應(yīng)的中斷服務(wù)函數(shù)(Interrupt
    的頭像 發(fā)表于 10-30 17:12 ?995次閱讀

    arm異常響應(yīng)和異常返回機制是什么樣子的?

    arm異常響應(yīng)和異常返回機制是什么樣子的?? ARM是一種RISC指令集架構(gòu),廣泛用于無線電視、移動電話、嵌入式系統(tǒng)等領(lǐng)域。ARM中異常響應(yīng)和異常返回機制是實現(xiàn)ARM處理器在面對異常情況時候的重要
    的頭像 發(fā)表于 10-19 16:36 ?805次閱讀

    當(dāng)物聯(lián)網(wǎng)端側(cè)開始擁抱AI,什么樣的MCU才能堪重任?

    當(dāng)物聯(lián)網(wǎng)端側(cè)開始擁抱AI什么樣的MCU才能堪重任?
    的頭像 發(fā)表于 10-17 17:54 ?503次閱讀
    當(dāng)物聯(lián)網(wǎng)端側(cè)開始擁抱<b class='flag-5'>AI</b>,<b class='flag-5'>什么樣</b>的MCU才能堪重任?