微軟開發(fā)了一種新的圖像字幕算法,在某些有限的測試中,其準確率超過了人類。該人工智能系統(tǒng)已被用于更新該公司為視障人士提供的助理應用程序 “Seeing AI”,并將很快被納入Word、Outlook和PowerPoint等其他微軟產(chǎn)品中。在那里,它將被用于為圖像創(chuàng)建alt文本等任務,這一功能對于提高無障礙性尤為重要。
這些應用包括微軟自己的Seeing AI,該公司于2017年首次發(fā)布。Seeing AI利用計算機視覺為視障人士描述通過智能手機攝像頭看到的世界。它可以識別家庭物品,閱讀和掃描文本,描述場景,甚至識別朋友。它還可以用來描述其他應用中的圖像,包括電子郵件客戶端、社交媒體應用和WhatsApp等消息應用。
微軟沒有披露Seeing AI的用戶數(shù)量,但Azure AI的企業(yè)副總裁Eric Boyd告訴The Verge,該軟件是 “為盲人或低視力人士提供的領先應用之一”。Seeing AI已經(jīng)連續(xù)三年被盲人和低視力iOS用戶社區(qū)AppleVis評選為最佳應用或最佳輔助應用。
微軟新的圖像字幕算法將顯著提高Seeing AI的性能,因為它不僅能識別物體,還能更精確地描述它們之間的關系。因此,該算法可以在看一張圖片時,不僅能說出圖片中包含哪些物品和物體(如 “一個人、一把椅子、一個手風琴”),還能說出它們之間的互動關系(如 “一個人坐在椅子上,正在拉手風琴”)。微軟表示,該算法是其之前自2015年開始使用的圖像字幕系統(tǒng)的兩倍。
該算法在9月份發(fā)表的一篇預印論文中進行了描述,在一個被稱為 “nocaps ”的圖像字幕基準測試上取得了有史以來最高的分數(shù)。這是一個業(yè)界領先的圖像字幕評分板,不過它有自己的限制條件。nocaps基準測試由超過166,000個人類生成的字幕組成,描述了從Open Images Dataset中提取的約15,100張圖片。這些圖片涵蓋了一系列場景,從運動到假日抓拍,再到美食攝影等等。
責任編輯:YYX
-
微軟
+關注
關注
4文章
6554瀏覽量
103897 -
AI
+關注
關注
87文章
29822瀏覽量
268111
發(fā)布評論請先 登錄
相關推薦
評論