繼谷歌、蘋果、亞馬遜、Facebook等科技巨頭紛紛被曝出人工收集用戶語(yǔ)音數(shù)據(jù)后,微軟也承認(rèn)了類似做法。根據(jù)一份泄密文件,微軟承包商的酬勞很低,每小時(shí)要處理大約200條數(shù)據(jù),而且他們?cè)贑ortana錄音中聽(tīng)到過(guò)很私人的敏感信息。
近段時(shí)間,包括谷歌、蘋果、亞馬遜、Facebook等在內(nèi)的科技巨頭紛紛被曝出人工收集用戶語(yǔ)音數(shù)據(jù)。
而最近,微軟承認(rèn)員工和供應(yīng)商會(huì)收聽(tīng)Skype和Cortana的語(yǔ)音數(shù)據(jù)和錄音,來(lái)改善微軟產(chǎn)品和服務(wù)的語(yǔ)音識(shí)別、翻譯、意圖理解等功能。
那么,這些科技巨頭雇傭的人工到底做了什么呢?根據(jù)一份泄密文件,這些人做的是一些辛苦耗時(shí)的重復(fù)性工作。
“我為微軟所做的大部分工作都集中在注釋和轉(zhuǎn)錄Cortana命令,”一位微軟承包商表示。
關(guān)于對(duì)這類數(shù)據(jù)進(jìn)行分類的使用說(shuō)明書(shū)有幾百頁(yè),承包商要從令人眼花繚亂的選項(xiàng)中對(duì)數(shù)據(jù)進(jìn)行分類,以及他們需要遵循的標(biāo)點(diǎn)符號(hào)樣式指南。
承包商表示,他們每小時(shí)要處理大約200條數(shù)據(jù),而且他們?cè)贑ortana錄音中聽(tīng)到過(guò)很私人的敏感信息。文件顯示,對(duì)于某些工作,承包商需要每小時(shí)完成至少200項(xiàng)任務(wù)。
任務(wù)繁重,報(bào)酬很低
這項(xiàng)工作的報(bào)酬并不高。每小時(shí)只有12-15美元不等。其中要求特別關(guān)注觸發(fā)命令“Hey,Cortana”,注意區(qū)分記錄不同的語(yǔ)言和口音的發(fā)音,包括德語(yǔ)、中文、日語(yǔ)和澳大利亞語(yǔ),加拿大語(yǔ)和美式英語(yǔ)等。 另外,微軟要求將很多發(fā)音類似的單詞轉(zhuǎn)錄為“Cortana”,比如用戶的發(fā)音是“Cortona”或“Cortina”,也要能夠激活Cortana。微軟認(rèn)為,用戶的本意就是如此。此外,有些任務(wù)需要明確地將與聯(lián)系人或其他個(gè)人信息相關(guān)的專有名詞大寫(xiě)。” 微軟發(fā)言人在一封電子郵件聲明中表示,“我們一直在尋求提高透明度,幫助客戶做出更明智的選擇。我們披露的信息表明,我們使用Cortana和Skype Translator的客戶內(nèi)容是為了改進(jìn)這些產(chǎn)品,我們邀請(qǐng)了第三方專家協(xié)助這一過(guò)程,并采取措施抹去這些信息,以保護(hù)人們的隱私?!? 在媒體曝出微軟對(duì)Skype翻譯功能和Cortana中的用戶語(yǔ)音進(jìn)行審核后,微軟更新了其產(chǎn)品隱私政策頁(yè)面,明確說(shuō)明了可能會(huì)有人收聽(tīng)所收集的音頻信息。 其實(shí)這些人的主要工作是對(duì)用戶的語(yǔ)音數(shù)據(jù)其進(jìn)行分類。微軟要求承包商將每份錄音按照“領(lǐng)域”或“主題”來(lái)劃分。這些包括“日歷”、“報(bào)警”、“捕獲”。其他領(lǐng)域包括游戲,電子郵件、通信、反饋、媒體控制和“訂購(gòu)食品”。還有一個(gè)“通用”域,可以放入多個(gè)域的通用命令,并向其中添加文檔。 每個(gè)域都有幾個(gè)不同的“意圖”。比如說(shuō)“警報(bào)”域,包括設(shè)置警報(bào)、關(guān)閉警報(bào)、查找警報(bào),更改警報(bào)、設(shè)置/查找計(jì)時(shí)器等。 微軟的承包商會(huì)分析這些Cortana命令,然后確定適當(dāng)?shù)挠?意圖。還有一些音頻中涉及“雙重意圖”,即用戶要求Cortana一次完成兩項(xiàng)任務(wù),對(duì)于這些信息,承包商也必須注意。 谷歌、蘋果都這么干過(guò),被曝光后已暫停
此前不久,蘋果和谷歌的語(yǔ)音助手Siri和Google Assistant都被曝出以人工收集并審核用戶語(yǔ)音數(shù)據(jù)的事件。兩家公司在事件曝光后均承認(rèn)了這一點(diǎn),并很快宣布暫停人工審核。
今年7月中旬,谷歌宣布Google Assistant錄音審核政策在歐盟國(guó)家范圍內(nèi)暫停至少三個(gè)月,德國(guó)的一家隱私監(jiān)管機(jī)構(gòu)于8月1日啟動(dòng)了對(duì)谷歌的調(diào)查。 谷歌的一位發(fā)言人表示,“在機(jī)密音頻數(shù)據(jù)泄露事件曝光后,我們立即暫停了語(yǔ)音助手的人工審核,開(kāi)始調(diào)查。我們目前與德國(guó)的隱私保護(hù)機(jī)構(gòu)保持著接觸,正在對(duì)語(yǔ)音的審核方式進(jìn)行評(píng)估,幫助用戶理解我們對(duì)數(shù)據(jù)的使用方式?!? 谷歌一位產(chǎn)品經(jīng)理David Monsees表示,谷歌人工審核的語(yǔ)音錄音只占全部錄音的0.2%。 8月2日,蘋果宣布停止由承包商人工審核用戶的語(yǔ)音錄音,并表示將更新軟件,用戶可以選擇拒絕人工審核選項(xiàng)。 根據(jù)蘋果的Siri和聽(tīng)寫(xiě)服務(wù)條款,用戶錄制和聽(tīng)寫(xiě)的內(nèi)容可能會(huì)被發(fā)送至蘋果,包括名字、合約和與用戶之間的關(guān)系等信息,還包括用戶家中支持家庭套件服務(wù)的設(shè)備、手機(jī)上還安裝了哪些app等,都在可能被發(fā)送的內(nèi)容之列。蘋果對(duì)此未予置評(píng)。 目前,用戶無(wú)法通過(guò)Siri獲取或刪除自己的錄音;我們可以選擇停止使用Siri或刪除Apple帳戶。然而,蘋果的條款表明,如果Siri和dictation都被禁用,蘋果將刪除用戶數(shù)據(jù)和最近的錄音。任何與原始用戶無(wú)關(guān)的東西——包括音頻文件、transcripts、用戶在提出請(qǐng)求時(shí)的位置和性能統(tǒng)計(jì)數(shù)據(jù)——都可用于蘋果改進(jìn)Siri和dictation。
要在Apple設(shè)備上禁用iOS 11+中的Siri,需要這樣做:
1.設(shè)置> Siri & Search 2.關(guān)閉“Listen for 'Hey Siri'”和“Press Side Button for Siri”(按側(cè)鍵喚醒Siri) 3.確認(rèn)“Turn Off Siri”(關(guān)閉Siri)
然后,用戶還可以禁止從dictation中錄制:
1.單擊設(shè)置>General(常規(guī))>Keyboard(鍵盤) 2.關(guān)閉“Enable Dictation”(啟用聽(tīng)寫(xiě))并確認(rèn) 科技進(jìn)步和用戶隱私真的是矛盾嗎? 當(dāng)把Siri、Alexa、Cortana等語(yǔ)音助理放在顯微鏡下時(shí),語(yǔ)音助理隱私恐慌故事就出現(xiàn)了。它們代表了一種尚未被充分理解的新的AI技術(shù)。例如,公眾仍然普遍認(rèn)為,無(wú)論是否說(shuō)出了喚醒詞,這些語(yǔ)音助理使用的麥克風(fēng)總是在聽(tīng)。這種認(rèn)知是錯(cuò)誤的。 現(xiàn)如今,人們對(duì)于科技巨頭普遍焦慮和不信任,像谷歌、蘋果、Facebook、微軟、亞馬遜這樣的巨頭都要用我們的對(duì)話來(lái)訓(xùn)練、改進(jìn)自家的技術(shù),那我們還能相信科技公司會(huì)負(fù)責(zé)任地管理我們的數(shù)據(jù)嗎?
-
微軟
+關(guān)注
關(guān)注
4文章
6516瀏覽量
103608 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54479 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1696瀏覽量
112248
原文標(biāo)題:操作細(xì)節(jié)曝光:微軟是怎么人工審核你的Cortana錄音的?
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論