0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能可以像人一樣描述圖像?

姚小熊27 ? 來源:人工智能實(shí)驗(yàn)室 ? 作者:人工智能實(shí)驗(yàn)室 ? 2020-10-16 10:58 ? 次閱讀

準(zhǔn)確地描述圖像,而不僅僅是像一個(gè)毫無頭緒的機(jī)器人,長(zhǎng)期以來一直是人工智能的目標(biāo)。2016年,谷歌表示,其人工智能可以為圖像添加幾乎與人類一樣的字幕,準(zhǔn)確率為94%?,F(xiàn)在微軟說它已經(jīng)更進(jìn)一步:研究人員已經(jīng)建立了一個(gè)比人類更精確的人工智能系統(tǒng),以至于它現(xiàn)在位于nocaps圖像捕獲基準(zhǔn)的排行榜首位。微軟聲稱,它比自2015年以來一直使用的圖像字幕模型好兩倍。

雖然這本身就是一個(gè)值得注意的里程碑,但微軟并不只是將這項(xiàng)技術(shù)獨(dú)家。它現(xiàn)在提供新的字幕模型作為Azure認(rèn)知服務(wù)的一部分,這樣任何開發(fā)者都可以把它帶到他們的應(yīng)用程序中。今天,它也可以在Seeing AI中使用,這是微軟為盲人和視障用戶開發(fā)的應(yīng)用程序,可以幫助他們了解周圍的世界。今年晚些時(shí)候,字幕模式還將改進(jìn)您在PowerPoint中用于Web、Windows和Mac的演示文稿,它還會(huì)在桌面平臺(tái)上的Word和Outlook中彈出。

Azure AI首席副總裁埃里克博伊德說:“[圖像字幕]是人工智能中最棘手的問題之一。它不僅代表著理解場(chǎng)景中的物體,還代表了它們是如何交互的,以及如何描述它們?!眱?yōu)化字幕技術(shù)可以幫助每一個(gè)用戶:它讓你更容易在搜索引擎中找到你正在尋找的圖像。對(duì)于視障用戶來說,它可以讓網(wǎng)絡(luò)和軟件導(dǎo)航變得非常好。

看到公司吹噓他們的人工智能研究創(chuàng)新并不少見,但這些發(fā)現(xiàn)迅速部署到運(yùn)輸產(chǎn)品中的情況要罕見得多。Azure AI認(rèn)知服務(wù)CTO黃學(xué)冬,考慮到對(duì)用戶的潛在好處,力推將其快速整合到Azure中。他的團(tuán)隊(duì)用標(biāo)有特定關(guān)鍵字的圖像訓(xùn)練了這個(gè)模型,這幫助它提供了一種大多數(shù)人工智能框架所沒有的視覺語言。通常,這些類型的模型使用圖像和完整的字幕進(jìn)行訓(xùn)練,這使得模型更難了解特定對(duì)象是如何交互的。

黃學(xué)冬在一篇博客文章中說:“這種視覺詞匯的預(yù)訓(xùn)練本質(zhì)上是訓(xùn)練系統(tǒng)所需的教育;我們正在努力教育這種運(yùn)動(dòng)記憶?!边@就是為什么這個(gè)新模型在nocaps基準(zhǔn)中占據(jù)了一席之地,該基準(zhǔn)專注于確定人工智能對(duì)他們以前從未見過的圖像的字幕能力有多好。

但是,雖然打破基準(zhǔn)意義重大,但對(duì)微軟新模式的真正考驗(yàn)將是它在現(xiàn)實(shí)世界中的運(yùn)作方式。根據(jù)Boyd的說法,看到人工智能開發(fā)人員Saqib Shaik,他自己也是一個(gè)盲人,也在微軟推動(dòng)更好的可訪問性,他將其描述為比他們之前提供的產(chǎn)品有了戲劇性的改進(jìn)?,F(xiàn)在微軟已經(jīng)建立了一個(gè)新的里程碑,看看谷歌和其他研究人員的競(jìng)爭(zhēng)模型如何競(jìng)爭(zhēng)將是一件有趣的事情。
責(zé)任編輯:YYX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6554

    瀏覽量

    103899
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46671

    瀏覽量

    237142
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Vicor技術(shù)如何改進(jìn)生成式人工智能的供電

    生成式人工智能(genAI)帶來的文化革命可能互聯(lián)網(wǎng)普及一樣對(duì)人類產(chǎn)生深遠(yuǎn)影響。從您的角度來看,目前情況如何?
    的頭像 發(fā)表于 10-16 09:54 ?251次閱讀
    Vicor技術(shù)如何改進(jìn)生成式<b class='flag-5'>人工智能</b>的供電

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章AI與能源科學(xué)讀后感

    幸得好書,特此來分享。感謝平臺(tái),感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學(xué)領(lǐng)域中的巨大潛力和廣泛應(yīng)用。這
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    周末收到本新書,非常高興,也非常感謝平臺(tái)提供閱讀機(jī)會(huì)。 這是本挺好的書,包裝精美,內(nèi)容詳實(shí),干活滿滿。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》這本書的第章,作為整
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    RISC-V在人工智能圖像處理領(lǐng)域的應(yīng)用前景十分廣闊,這主要得益于其開源性、靈活性和低功耗等特點(diǎn)。以下是對(duì)RISC-V在人工智能圖像處理應(yīng)用前景的詳細(xì)分析:
    發(fā)表于 09-28 11:00

    請(qǐng)問studio中可以裸機(jī)一樣調(diào)用定時(shí)器中斷嗎?

    studio中可以裸機(jī)一樣調(diào)用定時(shí)器中斷嗎?我調(diào)用后顯示出錯(cuò)了,使用hal庫還需要添加什么嗎
    發(fā)表于 09-13 08:18

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    ! 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家起去了解: 人工智能究竟幫科學(xué)家做了什么? 人工智能
    發(fā)表于 09-09 13:54

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場(chǎng)可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    人工智能如何改變著各行各樣

    人工智能的風(fēng)起云涌,幾乎顛覆了千行百業(yè)創(chuàng)新的節(jié)奏,今天的人工智能就如同揮舞著“指揮棒”一樣,改變著各行各樣本來的“模樣”。
    的頭像 發(fā)表于 07-19 10:58 ?453次閱讀
    <b class='flag-5'>人工智能</b>如何改變著各行各樣

    圖像識(shí)別屬于人工智能

    屬于。圖像識(shí)別是人工智能(Artificial Intelligence, AI)領(lǐng)域的個(gè)重要分支。 、圖像識(shí)別概述 1.1 定義
    的頭像 發(fā)表于 07-16 10:44 ?883次閱讀

    Meta高管稱大語言模型永遠(yuǎn)無法人類一樣

    Meta的人工智能主管楊立昆近日表示,盡管ChatGPT等生成式人工智能產(chǎn)品備受矚目,但其背后的大型語言模型(LLM)永遠(yuǎn)無法實(shí)現(xiàn)像人類一樣的推理和計(jì)劃能力。
    的頭像 發(fā)表于 05-27 09:50 ?403次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    ://t.elecfans.com/v/27221.html *附件:初學(xué)者完整學(xué)習(xí)流程實(shí)現(xiàn)手寫數(shù)字識(shí)別案例_V2-20240506.pdf 人工智能 語音對(duì)話機(jī)器案例 26分03秒 https
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    *附件:初學(xué)者完整學(xué)習(xí)流程實(shí)現(xiàn)手寫數(shù)字識(shí)別案例.pdf 人工智能 語音對(duì)話機(jī)器案例 26分03秒 https://t.elecfans.com/v/27185.html *附件:語音對(duì)話機(jī)器
    發(fā)表于 04-01 10:40

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛在嵌入式人工智能
    發(fā)表于 02-26 10:17

    中國人工智能發(fā)展的發(fā)展如何

    人工智能的發(fā)展歷史只有六七十年。人工智能也叫人造智能,就是由人制造出來的模仿智能,般通過機(jī)
    發(fā)表于 11-17 18:14 ?645次閱讀