0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI自動(dòng)化標(biāo)注崛起,數(shù)據(jù)標(biāo)注員要失業(yè)了?

科技云報(bào)到 ? 來源:jf_60444065 ? 作者:jf_60444065 ? 2024-01-24 13:06 ? 次閱讀

科技云報(bào)道原創(chuàng)。

在數(shù)據(jù)標(biāo)注行業(yè)流行著一句話:“有多少智能,就有多少人工”。

由于需要標(biāo)注的數(shù)據(jù)規(guī)模龐大且成本較高,一些互聯(lián)網(wǎng)巨頭及一些AI公司很少自己設(shè)有標(biāo)注團(tuán)隊(duì),大多交給第三方數(shù)據(jù)服務(wù)公司或者數(shù)據(jù)標(biāo)注團(tuán)隊(duì)來做。

這也衍生出了專為AI而生的人力密集型的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈。

例如,眾包平臺Mechanical Turk上的20萬名AI數(shù)據(jù)標(biāo)注員,就分布在人力成本低廉的非洲和東南亞。印度甚至涌現(xiàn)了不少數(shù)據(jù)標(biāo)注村,他們?yōu)槊绹?、歐洲、澳洲和亞洲的AI公司服務(wù)。

在中國,上百萬名 AI 數(shù)據(jù)標(biāo)注員分布在貴州、山西、山東、河南等省份的二三線城市,并逐步向人力成本更低的縣城滲透。

但諷刺的是,數(shù)據(jù)標(biāo)注員正在被自己服務(wù)的AI所替代,已經(jīng)有企業(yè)開始采用AI進(jìn)行數(shù)據(jù)標(biāo)注。

據(jù)彭博社1月14日報(bào)道,蘋果公司將關(guān)閉圣地亞哥一個(gè)與人工智能業(yè)務(wù)相關(guān)的121人團(tuán)隊(duì),這將導(dǎo)致數(shù)據(jù)標(biāo)注員面臨被解雇的風(fēng)險(xiǎn)。

那么,人工數(shù)據(jù)標(biāo)注能否真的被AI全面替代,我們又是否會進(jìn)入“AI訓(xùn)練AI”的時(shí)代呢?

AI自動(dòng)化標(biāo)注崛起

訓(xùn)練一個(gè)高效的大模型必不可少的是高質(zhì)量的數(shù)據(jù)。OpenAI正是借助基于人類標(biāo)注的數(shù)據(jù),才一舉從眾多大模型企業(yè)中脫穎而出,讓ChatGPT成為了大模型競爭中階段性的勝利者。

但同時(shí),OpenAI也因?yàn)槭褂梅侵蘖畠r(jià)的人工進(jìn)行數(shù)據(jù)標(biāo)注,被各種媒體口誅筆伐。

對于數(shù)據(jù)標(biāo)注,一定需要找到一個(gè)新的方法,才能避免大量使用人工標(biāo)注帶來的包括道德風(fēng)險(xiǎn)在內(nèi)的其他潛在麻煩。

因此,全球各大AI巨頭和大型獨(dú)角獸,都在進(jìn)行數(shù)據(jù)標(biāo)注自動(dòng)化的探索。

蘇黎世大學(xué)研究發(fā)現(xiàn),ChatGPT平均每個(gè)標(biāo)注成本低于0.003美元,比眾包平臺便宜20倍;在相關(guān)性、立場、主題等任務(wù)中,ChatGPT也是以4:1的效率優(yōu)勢“碾壓”人類。

來自卡耐基梅隆大學(xué)、耶魯大學(xué)和加州大學(xué)伯克利分校的一組研究人員更是發(fā)現(xiàn):GPT-4在數(shù)據(jù)集標(biāo)注表現(xiàn)上優(yōu)于他們雇用的最熟練的眾包員工。

這一突破為研究人員節(jié)約了超過50 萬美元和2萬個(gè)工時(shí)。

論文發(fā)出后,有網(wǎng)友評論稱“這是直接端了平臺工作者的飯碗”。

目前在自動(dòng)駕駛領(lǐng)域,已經(jīng)有車企開始采用AI進(jìn)行自動(dòng)化標(biāo)注。

例如,特斯拉一直在積極推進(jìn)自動(dòng)化標(biāo)注的進(jìn)展,從2018至今,特斯拉的標(biāo)注經(jīng)歷了4個(gè)階段:

第1階段(2018):只有純?nèi)斯さ亩S的圖像標(biāo)注,效率非常低;

第2階段(2019):開始有3D label,但是是單趟的人工的;

第3階段(2020):采用BEV空間進(jìn)行標(biāo)注,重投影的精度明顯降低;

第4階段(2021):采用多趟重建去進(jìn)行標(biāo)注,精度、效率、拓?fù)潢P(guān)系都達(dá)到了極高的水準(zhǔn)。

2022年6月,特斯拉裁撤了200名為特斯拉標(biāo)注視頻以改進(jìn)輔助系統(tǒng)的美國員工。

目前,特斯拉的自動(dòng)標(biāo)注能力大幅改善,標(biāo)注10000個(gè)不到60秒的視頻,大模型只需要運(yùn)行一周即可,而同樣的工作量人工標(biāo)注卻需要幾個(gè)月的時(shí)間。

在國內(nèi),理想汽車董事長兼CEO李想曾在2023年4月份舉行的一場論壇上表示,當(dāng)理想汽車使用軟件2.0的大模型,通過訓(xùn)練的方式進(jìn)行自動(dòng)化標(biāo)定,過去需要用一年做的事情,基本上3個(gè)小時(shí)就能完成,效率是人的1000倍。

不僅如此,自動(dòng)化標(biāo)注工具也在飛速發(fā)展。

國外AI初創(chuàng)公司refuel推出了一個(gè)名為Autolabel的開源工具,可以使用市面上主流的大模型來對數(shù)據(jù)集進(jìn)行標(biāo)注。

該公司的測試結(jié)果稱,Autolabel的標(biāo)注效率相比人工標(biāo)注提高了100倍,成本僅為人工成本的1/7。

國內(nèi)一家名為視智未來的公司也在打造標(biāo)注大模型。他們表示,有些項(xiàng)目已經(jīng)用GPT交付了,準(zhǔn)確率方面達(dá)到了80%多,與人工接近。

不得不說,在AI面前,無論成本還是效率,人類可以說是毫無優(yōu)勢。

RLAIF:AI標(biāo)注訓(xùn)練方法

話說回來,ChatGPT是怎么搶了數(shù)據(jù)標(biāo)注員的“飯碗”的?

以往數(shù)據(jù)標(biāo)注員要干的事情,是將標(biāo)注好的數(shù)據(jù)用作AI模型的訓(xùn)練集或評估標(biāo)準(zhǔn),這個(gè)過程叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強(qiáng)化學(xué)習(xí)。

RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓(xùn)練方法,它最大的好處就在于能夠?qū)⒛P秃腿祟惖钠脤R,讓大模型給出更符合人類表達(dá)習(xí)慣的回答。

不過發(fā)布在arXiv的一份論文表明,這份看起來只有人類能做的工作,也能被AI取代。AI取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓(xùn)練方法。

這份由谷歌研究團(tuán)隊(duì)發(fā)布的論文顯示,RLAIF能夠在不依賴數(shù)據(jù)標(biāo)注員的情況下,表現(xiàn)出能夠與RLHF相媲美的訓(xùn)練結(jié)果——

如果拿傳統(tǒng)的監(jiān)督微調(diào)(SFT)訓(xùn)練方法作為基線比較,比起SFT,1200個(gè)真人“評委”對RLHF和RLAIF給出答案的滿意度都超過了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評委們對兩者的滿意度也是對半分。

具體而言,研究人員主要就“根據(jù)一段文字生成摘要”這一任務(wù),展示了RLAIF的標(biāo)記方法。

首先是序言(Preamble),用來介紹和描述手頭任務(wù)的說明。給定一段文本和兩個(gè)可能的摘要,輸出1或2來指示哪個(gè)摘要最符合上述定義的連貫性、準(zhǔn)確性、覆蓋范圍和整體質(zhì)量。

其次是樣本示例(1-Shot Exemplar)。給到一段文本,接著給到兩個(gè)摘要,以及“摘要1更好”的偏好判斷,讓AI學(xué)著這個(gè)示例對接下來的樣本做標(biāo)注。

再次就是給出所要標(biāo)注的樣本(Sample to Annotate),包括一段文本和一對需要標(biāo)記的摘要。

最后是結(jié)尾,用于提示模型的結(jié)束字符串。

就像人類標(biāo)注員會給不同的回答打分一樣(比如滿分5分),AI也會依據(jù)偏好給每個(gè)摘要打分,這也是AI和人類標(biāo)注員發(fā)揮作用的關(guān)鍵環(huán)節(jié),主要是用于訓(xùn)練獎(jiǎng)勵(lì)模型(RM)并生成反饋內(nèi)容。

論文介紹到,為了讓RLAIF方法中AI標(biāo)注更準(zhǔn)確,研究者也加入了其他方法以獲取更好的回答。

譬如為了避免隨機(jī)性問題,會進(jìn)行多次選擇,其間還會對選項(xiàng)的順序進(jìn)行交換;此外還用到了思維鏈(CoT)推理,來進(jìn)一步提升與人類偏好的對齊程度。

需要說明的是,谷歌的這篇論文也是第一個(gè)證明了RLAIF在某些任務(wù)上能夠產(chǎn)生與RLHF相當(dāng)?shù)挠?xùn)練效果的研究。這意味著不用人類指點(diǎn),AI也能訓(xùn)練自己的同類了。

該論文的發(fā)布很快收獲了不少關(guān)注。比如有從業(yè)者評論道,等到GPT-5可能就不需要人類數(shù)據(jù)標(biāo)注員了。

盡管這項(xiàng)工作凸顯了RLAIF的潛力,但依然有一些局限性:

首先,這項(xiàng)研究僅探討了摘要總結(jié)任務(wù),關(guān)于其他任務(wù)的泛化性還需要進(jìn)一步研究。

其次,研究人員沒有評估LLM推理在經(jīng)濟(jì)成本上是否比人工標(biāo)注更有優(yōu)勢。

此外,還有一些有趣的問題值得研究,例如RLHF與RLAIF相結(jié)合是否可以優(yōu)于單一的一種方法,使用LLM直接分配獎(jiǎng)勵(lì)的效果如何,改進(jìn)AI標(biāo)注器對齊是否會轉(zhuǎn)化為改進(jìn)的最終策略, 以及是否使用LLM與策略模型大小相同的標(biāo)注器可以進(jìn)一步改進(jìn)策略(即模型是否可以“自我改進(jìn)”)。

重人力轉(zhuǎn)向重技術(shù)

盡管AI自動(dòng)化標(biāo)注技術(shù)在快速發(fā)展,但第三方數(shù)據(jù)標(biāo)注服務(wù)商并沒那么樂觀。

河南一家眾包平臺的項(xiàng)目經(jīng)理認(rèn)為,自動(dòng)化標(biāo)注還不能取代60%以上的標(biāo)注需求,只能作為輔助標(biāo)注工具處理單一或特定數(shù)據(jù),提升人效。

另一家數(shù)據(jù)標(biāo)注公司的產(chǎn)品經(jīng)理認(rèn)為,自動(dòng)化標(biāo)注只能過濾簡單的基礎(chǔ)數(shù)據(jù),還不能像人一樣從復(fù)雜有爭議的場景中精確識別物體。

如果說簡單的標(biāo)注可以用AI來完成,那么人工參與的將是難度更高的數(shù)據(jù)篩選和標(biāo)準(zhǔn)工作,這也意味著數(shù)據(jù)標(biāo)注行業(yè)的門檻將會不斷提高。

作為對照,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來“打標(biāo)”。

而百度在海口的數(shù)據(jù)標(biāo)注基地?fù)碛袛?shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達(dá)到100%,需要具備一定的知識儲備和邏輯分析能力。

不過大家也認(rèn)同,未來的數(shù)據(jù)標(biāo)注將從重人力轉(zhuǎn)向重技術(shù)的趨勢。

一家眾包平臺的創(chuàng)始人在和同行交流時(shí)說,未來不能堆人力,要有研發(fā)能力。也有從業(yè)者認(rèn)為,人工標(biāo)注對于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。

總之,不是被同行“卷死”,就是被技術(shù)“卷死”。數(shù)據(jù)標(biāo)注公司已做好了隨時(shí)裁員的準(zhǔn)備,同時(shí)向做自動(dòng)化標(biāo)注工具的方向發(fā)展。

【關(guān)于科技云報(bào)道】

專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報(bào)道。成立于2015年,是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計(jì)算大會官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266249
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2136

    瀏覽量

    1985
收藏 人收藏

    評論

    相關(guān)推薦

    螞蟻數(shù)科發(fā)布AI賦能新一代數(shù)據(jù)標(biāo)注產(chǎn)品

    在近日舉行的2024 Incluison·外灘大會上,螞蟻數(shù)科憑借其技術(shù)創(chuàng)新的深厚底蘊(yùn),正式推出了新一代AI數(shù)據(jù)標(biāo)注產(chǎn)品,旨在為企業(yè)客戶提供全方位、智能
    的頭像 發(fā)表于 09-10 16:04 ?233次閱讀

    SpeedDP! 超便利AI自動(dòng)圖像標(biāo)注工具 功能豐富、省時(shí)省力

    超級AI,在線標(biāo)注,既能解放雙手,又省時(shí)省力。傳統(tǒng)的標(biāo)注模式需要你對著目標(biāo)不斷拉框,反復(fù)機(jī)械的動(dòng)作做多了就變得“麻木”,影響效率還使人煩惱。而SpeedDP的出現(xiàn),可以有效的提升標(biāo)注
    的頭像 發(fā)表于 08-30 12:59 ?127次閱讀
    SpeedDP! 超便利<b class='flag-5'>AI</b><b class='flag-5'>自動(dòng)</b>圖像<b class='flag-5'>標(biāo)注</b>工具   功能豐富、省時(shí)省力

    你了解貼片電感上標(biāo)注的數(shù)字含義嗎?

    你了解貼片電感上標(biāo)注的數(shù)字含義嗎?
    的頭像 發(fā)表于 08-17 14:30 ?275次閱讀
    你了解貼片電感上<b class='flag-5'>標(biāo)注</b>的數(shù)字含義嗎?

    微鏈道愛加入元腦生態(tài),將打造AI視覺標(biāo)注訓(xùn)練一體機(jī)

    北京2024年7月8日?/美通社/ --?近日,北京微鏈道愛科技有限公司(簡稱"微鏈道愛")與浪潮信息簽署元腦生態(tài)戰(zhàn)略合作協(xié)議。雙方將共同打造AI視覺標(biāo)注訓(xùn)練一體機(jī),支持高效的數(shù)據(jù)標(biāo)注
    的頭像 發(fā)表于 07-08 15:31 ?281次閱讀

    機(jī)械自動(dòng)化和電氣自動(dòng)化區(qū)別是什么

    機(jī)械自動(dòng)化和電氣自動(dòng)化是現(xiàn)代工業(yè)生產(chǎn)中兩個(gè)重要的領(lǐng)域,它們在許多方面有著密切的聯(lián)系,但也存在一些明顯的區(qū)別。 一、基本概念 機(jī)械自動(dòng)化 機(jī)械自動(dòng)化是指利用機(jī)械設(shè)備、傳感器、控制系統(tǒng)等技
    的頭像 發(fā)表于 07-01 09:33 ?2620次閱讀

    機(jī)械自動(dòng)化自動(dòng)化的一種嗎

    引言 自動(dòng)化技術(shù)是指利用控制裝置對生產(chǎn)過程進(jìn)行控制,以實(shí)現(xiàn)生產(chǎn)過程的自動(dòng)化。機(jī)械自動(dòng)化自動(dòng)化技術(shù)的一種,它主要涉及到使用機(jī)械設(shè)備和控制系統(tǒng)來實(shí)現(xiàn)生產(chǎn)過程的
    的頭像 發(fā)表于 07-01 09:32 ?1116次閱讀

    工業(yè)自動(dòng)化自動(dòng)化區(qū)別是什么

    工業(yè)自動(dòng)化自動(dòng)化是兩個(gè)密切相關(guān)但又有所區(qū)別的概念。在這篇文章中,我們將詳細(xì)探討它們之間的區(qū)別,以及它們在現(xiàn)代工業(yè)生產(chǎn)中的應(yīng)用。 一、自動(dòng)化的定義 自動(dòng)化是指通過使用機(jī)器、計(jì)算機(jī)和其他
    的頭像 發(fā)表于 06-11 11:13 ?1112次閱讀

    標(biāo)貝數(shù)據(jù)采集標(biāo)注自動(dòng)駕駛場景中落地應(yīng)用實(shí)例

    AI數(shù)據(jù)服務(wù)作為人工智能和機(jī)器學(xué)習(xí)的基礎(chǔ),在自動(dòng)駕駛領(lǐng)域中有著重要地位。與其他人工智能應(yīng)用場景相比,自動(dòng)駕駛的落地場景相對復(fù)雜,想要讓汽車本身的算法做到處理更多、更復(fù)雜的場景,就需要運(yùn)
    的頭像 發(fā)表于 05-28 14:22 ?322次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b>采集<b class='flag-5'>標(biāo)注</b>在<b class='flag-5'>自動(dòng)</b>駕駛場景中落地應(yīng)用實(shí)例

    慧視SpeedDP大模型打造圖像標(biāo)注新時(shí)代

    在人工智能時(shí)代,圖像標(biāo)注不僅能夠反哺AI的發(fā)展,還能進(jìn)一步降低項(xiàng)目成本。傳統(tǒng)的圖像標(biāo)注需要人工采用文本或者相應(yīng)工具機(jī)械式的進(jìn)行圖像標(biāo)簽分配,例如谷歌就曾大量使用圖像驗(yàn)證碼,用戶在進(jìn)行驗(yàn)證碼點(diǎn)擊的時(shí)候
    的頭像 發(fā)表于 05-24 08:29 ?326次閱讀
    慧視SpeedDP大模型打造圖像<b class='flag-5'>標(biāo)注</b>新時(shí)代

    人工圖像標(biāo)注1~2分鐘,SpeedDP僅需7-8毫秒!降本增效不是夢!

    這下倒好,本來利潤就不多,成本一下子又上來了,單單一個(gè)圖像標(biāo)注就耗費(fèi)了項(xiàng)目總額的20%,而且人工標(biāo)注的效率就那樣,你這都還不算時(shí)間成本。所以要是有個(gè)自動(dòng)圖像
    的頭像 發(fā)表于 03-29 08:28 ?420次閱讀
    人工圖像<b class='flag-5'>標(biāo)注</b>1~2分鐘,SpeedDP僅需7-8毫秒!降本增效不是夢!

    led發(fā)光模塊的地線可以標(biāo)注為什么

    LED發(fā)光模塊是一種常見的電子元件,用于將電能轉(zhuǎn)化為光能。地線是模塊中一個(gè)重要的接線點(diǎn),起到連接模塊與地面的作用,以確保電路的正常工作。本文將詳細(xì)介紹LED發(fā)光模塊的地線標(biāo)注的原因和意義,以及
    的頭像 發(fā)表于 01-24 14:53 ?560次閱讀

    利用AI實(shí)現(xiàn)自動(dòng)圖像標(biāo)注不是夢

    了SpeedDP深度學(xué)習(xí)算法開發(fā)平臺,如今平臺已經(jīng)實(shí)現(xiàn)移動(dòng)端使用,可運(yùn)行于Windows或Linux操作系統(tǒng),可完成自動(dòng)標(biāo)注、AI算法開發(fā)(項(xiàng)目配置、訓(xùn)練、評估、測
    的頭像 發(fā)表于 01-04 08:29 ?1084次閱讀
    利用<b class='flag-5'>AI</b>實(shí)現(xiàn)<b class='flag-5'>自動(dòng)</b>圖像<b class='flag-5'>標(biāo)注</b>不是夢

    大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧

    比如我們會經(jīng)常遇到下面幾種情況: 1.數(shù)據(jù)要不要都去標(biāo)注,標(biāo)的比較慢咋辦? 2.我已經(jīng)有一批標(biāo)好的數(shù)據(jù),再去選哪些數(shù)據(jù)
    的頭像 發(fā)表于 12-20 14:39 ?703次閱讀
    大模型微調(diào)<b class='flag-5'>數(shù)據(jù)</b>選擇和構(gòu)造技巧

    圖像標(biāo)注如何提升效率?

    圖像標(biāo)注是通過一定方式對圖像進(jìn)行標(biāo)記分類,是對數(shù)據(jù)集的圖像進(jìn)行標(biāo)記以訓(xùn)練機(jī)器學(xué)習(xí)模型的過程。當(dāng)圖像數(shù)量可控時(shí),用人工標(biāo)注就可以很快完成任務(wù),但當(dāng)有海量的圖像信息待標(biāo)注時(shí),長時(shí)間的重復(fù)動(dòng)
    的頭像 發(fā)表于 12-19 08:29 ?363次閱讀
    圖像<b class='flag-5'>標(biāo)注</b>如何提升效率?

    LabVIEW與Tektronix示波器實(shí)現(xiàn)電源測試自動(dòng)化

    自動(dòng)化數(shù)據(jù)處理的智能。通過LabVIEW編程環(huán)境連接Tektronix示波器,可以精確設(shè)置測試參數(shù),如電壓、電流波形等,確保每次測試的一致性和準(zhǔn)確性。自動(dòng)化系統(tǒng)對捕獲的
    發(fā)表于 12-09 20:37