0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI為方,產(chǎn)業(yè)為向:京東云數(shù)字人的技術(shù)攀爬

腦極體 ? 來源: 腦極體 ? 作者: 腦極體 ? 2022-11-02 05:18 ? 次閱讀

今年11.11正如火如荼進行中,各大平臺的直播間,大家可能已經(jīng)發(fā)現(xiàn)了一群新面孔——數(shù)字人主播。電商直播作為越來越強大的流量入口,幾乎已經(jīng)成了零售品牌和商家們的必爭之地。而高昂的坑位費、主播參差不齊的業(yè)務(wù)能力、不確定的ROI、復(fù)雜的內(nèi)容創(chuàng)作和監(jiān)管機制……也都是直播經(jīng)濟真實存在的另一面,讓商家們?yōu)橹赋睢?/p>

這時候,數(shù)字人就成了不錯的選擇。來看看下面兩位主播,你能分得清哪個是真人嗎?

0c306a0c223a4a88a45bce61e3df5e09~tplv-tt-shrink:640:0.image

這樣擬人化交互、24小時在崗、內(nèi)容可控、可快速上線帶貨的數(shù)字主播,解決了許多商家備戰(zhàn)11.11的難題,也刷新了大眾對數(shù)字人的新認(rèn)知。

近兩年來,很多企業(yè)都推出了各自的數(shù)字人及平臺,有強調(diào)技術(shù)優(yōu)勢和大模型的云或AI公司,有占據(jù)終端交互入口的手機IoT廠商,也有強調(diào)內(nèi)容創(chuàng)作能力的虛擬偶像公司……

百花齊放的數(shù)字人,逐漸開始同質(zhì)化競爭,這時候,企業(yè)往往會結(jié)合各自的核心能力,為數(shù)字人選擇不同的發(fā)展策略和市場動作。

在11月1日,2022京東云城市峰會上海站正式舉行,京東云宣布數(shù)智供應(yīng)鏈正加速落地十大產(chǎn)業(yè)場景,其中服務(wù)場景就是京東云言犀的主場??梢钥吹?,與數(shù)智供應(yīng)鏈融合是AI走向產(chǎn)業(yè)的必經(jīng)之路,也為言犀平臺的一百多個數(shù)字人員工,創(chuàng)造了在產(chǎn)業(yè)中發(fā)光發(fā)熱的機會。

大浪淘沙的競爭中,數(shù)字人正在命運的分岔路口,奔赴各自的前程。我們不妨借著11.11的契機,來共同審視一下數(shù)字人產(chǎn)業(yè),在消費之余,收獲一些關(guān)于未來的重要線索。

走出恐怖谷,數(shù)字人才有可能

如果你認(rèn)為大多數(shù)數(shù)字人都能應(yīng)聘上崗、獲得產(chǎn)業(yè)客戶的認(rèn)可,那絕對是太樂觀了。高度擬人化、交互性的數(shù)字人,需要同時具備語音語義、視覺、情感、自然語言處理、知識圖譜、對話交互等綜合能力,不能有短板,這是數(shù)字人能夠長期發(fā)展的前提和基礎(chǔ),也是極少數(shù)數(shù)字人能夠達(dá)到的能力。

大家可能聽說過“恐怖谷效應(yīng)”,就是一些形象上酷似真人的機器人智能體,但實際交互能力卻很差,經(jīng)常出現(xiàn)答非所問等問題。對下當(dāng)下的數(shù)字人產(chǎn)業(yè)的發(fā)展,大家肯定希望它們在外形上具有更高的擬真度,同時在交互體驗上也具備較強的宜人性,即能夠理解用戶、擁有人類一樣的情感和表達(dá)。

言犀數(shù)字人虛擬主播為什么能夠做到真人主播的效果呢?就源自京東云言犀團隊執(zhí)著地解決著數(shù)字人的核心技術(shù)問題,從兩個方面取得突破:

惟妙惟肖之身——多模態(tài)智能技術(shù)。也就是語音、文字、表情、手勢、肢體等多模態(tài),能夠一體化協(xié)同,這樣能讓數(shù)字人的擬真度更高,避免一些明顯的違和感。面容上,言犀自研的3DNeuralRender神經(jīng)渲染器,可以高保真地合成主播面部細(xì)節(jié),達(dá)到以假亂真的效果;動作上,言犀研發(fā)的動作合成方案,基于RIFE插幀多插入點的快速動作過渡,可以讓數(shù)字人的動作更加流暢自然;互動中,2D及超寫實、高精度3D數(shù)字員工驅(qū)動方案,可以實現(xiàn)音唇精準(zhǔn)同步,數(shù)字人說話時,牙齒甚至牙縫都要精準(zhǔn)地對齊口型,這樣才不會看著別扭??梢哉f,惟妙惟肖的數(shù)字人需要多模態(tài)的綜合性技術(shù)能力。

善解人意之心——實時人機交互技術(shù)。數(shù)字人也不能只是“花瓶”,還要能夠與用戶實時互動,做出合乎邏輯的反應(yīng),這種數(shù)字人則更加稀少了,因為難度也高了一個數(shù)量級。首先,實時交互需要快速的動作、表情渲染,對AI生成的速度和質(zhì)量要求非常高;其次,實時互動意味著很多反應(yīng)不能事先生成,而要真正理解用戶的想法和需求,給出精準(zhǔn)的回答,這就要求數(shù)字人具備豐富且細(xì)粒度的知識突破、自然語言理解、情感計算等能力。比如用戶想了解A商品和B商品的異同,需要數(shù)字人主播精準(zhǔn)地抓住顧客心理、比對信息、找到賣點,生成有吸引力的文案。為此,基于京東云言犀人工智能應(yīng)用平臺,在智能多模態(tài)對話與交互領(lǐng)域提出了理解準(zhǔn)確度、知識覆蓋度、交互流暢度、情感關(guān)懷度、任務(wù)完成度5維為標(biāo)準(zhǔn)的“新圖靈測試”體系,作為人機交互服務(wù)機器人的標(biāo)準(zhǔn),也是數(shù)字人的核心能力。

走向產(chǎn)業(yè),數(shù)字人才有價值

只有一個技術(shù)支點,能撬動起數(shù)字人的市場價值嗎?至少在京東云言犀團隊看來,數(shù)字人與產(chǎn)業(yè)需求相結(jié)合,才能真正成為游戲規(guī)則的改變者。京東集團副總裁、智能產(chǎn)品與服務(wù)部總裁,IEEE Fellow何曉冬博士指出,數(shù)字人作為一種AIGC內(nèi)容生產(chǎn)模式,目前成本還是比較高的,把數(shù)字人能力下放到每一個商家手中,這是AIGC的機會所在。

從實驗室到產(chǎn)業(yè),需要邁過三個門檻。

第一重門檻:技術(shù)的可用性。

言犀數(shù)字人虛擬主播關(guān)鍵技術(shù)都達(dá)到國際的領(lǐng)先水平,包括多粒度韻律增強的語音合成、知識指導(dǎo)的多模態(tài)可控文本生成、可解釋的多輪對話決策推理,取得過多項AI學(xué)術(shù)比賽冠軍。但這只是數(shù)字人產(chǎn)業(yè)化的第一步。在現(xiàn)實業(yè)務(wù)場景中,會出現(xiàn)各種意想不到的情況。這時候,京東云技術(shù)在京東內(nèi)外部多種大規(guī)模業(yè)務(wù)中經(jīng)受過考驗,就發(fā)揮了非常重要的試煉作用,讓數(shù)字人技術(shù)能夠真正為產(chǎn)業(yè)所用。

比如2021年12月,江南農(nóng)商銀行與京東云共同合作推出的VTM數(shù)字銀行柜員,不僅形象要好,還要懂銀行基本業(yè)務(wù),這就需要金融類知識計算;銀行作業(yè)環(huán)境噪音比較大,來辦理業(yè)務(wù)的當(dāng)?shù)赜脩粲械膸в蟹窖钥谝?。另外,銀行柜員需要跟客戶實時交互,需要處理動態(tài)文本數(shù)據(jù),依靠靜態(tài)數(shù)據(jù)庫訓(xùn)練出來的算法可能魯棒性不足……

言犀歷經(jīng)數(shù)十年京東618、11.11等大規(guī)模交互場景考驗,沉淀了業(yè)界超大的場景知識圖譜,模型遷移速度快,穩(wěn)定性高,這也使得該VTM數(shù)字銀行柜員順利落地,具有極強的適配性,可以獨立閉環(huán)完成銀行業(yè)務(wù)交易場景的自助應(yīng)答、業(yè)務(wù)辦理、主動服務(wù)、風(fēng)控合規(guī)等全流程服務(wù),幫助銀行解決柜員接待能力不足的問題。

還有一些問題是落地之后發(fā)現(xiàn)的,數(shù)字人的自然語音語義交互需要綜合深度的技術(shù)突破才能解決。言犀為大同12345提供政務(wù)熱線解決方案的過程中,就發(fā)現(xiàn)實際交互是很復(fù)雜的,比如為了避免數(shù)字人搶話,一般會讓來電者說完,數(shù)字人再接著說,但停頓時間又不能太長,讓對方覺得互動不及時。但實際接聽市民熱線時發(fā)現(xiàn),很多老年市民停頓很長,說著說著就停頓一下,數(shù)字人問“昨天有沒有打疫苗”,對方回答“昨天啊……(停頓一秒)好像沒有”,這個一秒的停頓對于數(shù)字人來說都是理解上的挑戰(zhàn),言犀技術(shù)團隊就嘗試通過跨模態(tài)技術(shù),在斷斷續(xù)續(xù)的情況下也能準(zhǔn)確地理解用戶意圖,技術(shù)創(chuàng)新領(lǐng)先于國際一流的學(xué)術(shù)型AI機構(gòu)。所以說,從產(chǎn)業(yè)中來、到產(chǎn)業(yè)中去的數(shù)字人,才能真正為產(chǎn)業(yè)所用。

第二重門檻:技術(shù)的可控性。

是不是各類比賽中分?jǐn)?shù)越高的AI就越厲害,打造的數(shù)字人就更強呢?其實比起技術(shù)收益有多大,技術(shù)風(fēng)險的可控反而是企業(yè)更在意的,尤其是直播、問答這樣實時性非常強的內(nèi)容型互動,對于AIGC內(nèi)容生成的可控性要求非常高,數(shù)字人主播如果說錯了信息,導(dǎo)致丟單或直播中斷,都是企業(yè)不希望看到的。如何保證數(shù)字人的輸出是可控的?言犀從京東復(fù)雜業(yè)務(wù)場景中深度解耦而來,京東云花了很多精力讓言犀數(shù)字人虛擬主播的各類AI模型真正可控、可解釋。目前,言犀已經(jīng)累計生成了30億字的文字,人工審核通過率95%。言犀平臺的言犀數(shù)字人虛擬主播就具備很好的可解釋性,能夠為商品生成長文案和直播劇本,除此之外,言犀多模態(tài)數(shù)字人平臺還有100多款虛擬數(shù)字人形象,在銀行業(yè)務(wù)辦理、政務(wù)服務(wù)等場景大規(guī)模落地,這些場景都對技術(shù)可控性要求很高。

可以說,比起實驗室里神乎其神的屠龍術(shù),可控可解釋的數(shù)字人,才是產(chǎn)業(yè)和企業(yè)更歡迎的務(wù)實型員工。

第三重門檻:技術(shù)的投入產(chǎn)出比。

數(shù)字人進入產(chǎn)業(yè)是要幫助企業(yè)降本增效、帶來正收益的,如果資源消耗巨大、開發(fā)成本高、維護費心費力,也會阻礙數(shù)字人走向產(chǎn)業(yè)的腳步。為了降低數(shù)字人規(guī)?;涞氐某杀?,讓企業(yè)輕輕松松就能用上數(shù)字人,京東云言犀做了兩件事:一是建立完善的形象庫,擁有包括2D真人、3D卡通、超寫實等多種數(shù)字人形象?;诨A(chǔ)建模,就可以快速生成各類個性化數(shù)字人,帶貨各種各樣的商品,美妝、母嬰、電子3C等類型主播應(yīng)有盡有,大大解決了優(yōu)質(zhì)主播數(shù)量不足、直播時間有限等限制。

0d41a2cc646d464ebd9f14d2424d9aac~tplv-tt-shrink:640:0.image

二是堅實的人工智能應(yīng)用平臺。京東云言犀人工智能應(yīng)用平臺,承載著語音與聲學(xué)、視覺感知、情感計算、語義理解與生成、知識圖譜、多輪對話等六個核心領(lǐng)域的技術(shù)能力,通過API和產(chǎn)品化等多種形式向外規(guī)?;敵?,就保障了技術(shù)的可用性和低成本。

走向云宇宙,數(shù)字人的未來

元宇宙本質(zhì)上是多種數(shù)字虛擬技術(shù)的集合體,作為一個略宏觀和遙遠(yuǎn)的概念,何曉冬直言,我們在解決產(chǎn)業(yè)元宇宙的技術(shù)挑戰(zhàn),還處于比較早期的階段。

對于產(chǎn)業(yè)元宇宙,京東云的技術(shù)人員是篤定地,也是低調(diào)的。

篤定,可能來自兩方面的原因:一是數(shù)字人之于數(shù)智供應(yīng)鏈的價值。作為更懂產(chǎn)業(yè)的云,京東云致力推動數(shù)智供應(yīng)鏈服務(wù)于千行百業(yè),推動實體經(jīng)濟與數(shù)字經(jīng)濟的融合與協(xié)同發(fā)展。數(shù)字人作為交互入口,可以應(yīng)用在大量數(shù)實融合的業(yè)務(wù)場景,實現(xiàn)數(shù)字世界和物理世界的無縫融合,比如數(shù)字主播、智能客服、工業(yè)人機互動、景區(qū)導(dǎo)游、社區(qū)養(yǎng)老服務(wù)員等等,數(shù)智供應(yīng)鏈為數(shù)字人提供了獨一無二的產(chǎn)業(yè)土壤。

二是數(shù)智供應(yīng)鏈之于產(chǎn)業(yè)的價值。數(shù)智供應(yīng)鏈?zhǔn)蔷〇|19年轉(zhuǎn)型實踐反復(fù)驗證和凝練的一套完整的能力體系,本身涉及的產(chǎn)業(yè)環(huán)節(jié)足夠多,需要用到大量綜合性技術(shù),比如京東的智能云倉,就需要AI、大數(shù)據(jù)、云計算來一起聯(lián)合運作。越來越多的企業(yè)借由數(shù)智供應(yīng)鏈開展數(shù)字化,自然也讓數(shù)字人有了更多用武之地,有機會孕育出更多顛覆性創(chuàng)新,進一步放大了言犀數(shù)字人的技術(shù)優(yōu)勢和商業(yè)價值。

而低調(diào),則源于京東云對產(chǎn)業(yè)元宇宙的理性預(yù)期。目前,產(chǎn)業(yè)元宇宙尚處于早期階段,用何曉冬的話來說:我們在地平線上看到了元宇宙的曙光,但抵達(dá)的過程中還有很多技術(shù)鴻溝,有時候需要很大的技術(shù)突破才能解決。所以,京東云更希望著重于底層能力和行業(yè)應(yīng)用的建設(shè),以供應(yīng)鏈為主軸,積累和打磨產(chǎn)業(yè)元宇宙所需要的各類數(shù)字技術(shù)。顯然,數(shù)字人作為一個深度學(xué)習(xí)、多模態(tài)學(xué)習(xí)、人機交互等技術(shù)的綜合產(chǎn)物,將在京東云技術(shù)研發(fā)戰(zhàn)略中占據(jù)重要位置,成為產(chǎn)業(yè)元宇宙技術(shù)創(chuàng)新的策源地之一。

從這個角度看,產(chǎn)業(yè)元宇宙和言犀數(shù)字人,將在數(shù)智供應(yīng)鏈的牽引下彼此靠攏、相互成就,最終融于一體、密不可分。攜帶著產(chǎn)業(yè)勢能與技術(shù)進化的言犀多模態(tài)數(shù)字人,自然有能力走得更遠(yuǎn)、更久。

百花齊放的數(shù)字人,將在同質(zhì)化競爭加劇的時刻走到分岔路口,沿著各自的選擇走出差異化的道路。接下來,大家可能會看到同為數(shù)字人,卻是截然不同的存在,有的作為網(wǎng)紅明星曇花一現(xiàn),有的在產(chǎn)業(yè)世界里靜水流深,成為數(shù)字生活不可或缺的一部分。

岔路口的差異化選擇,將決定不同數(shù)字人的終局。而京東云言犀,正在向產(chǎn)業(yè)加速飛奔。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關(guān)注

    關(guān)注

    12

    文章

    1192

    瀏覽量

    55181
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266215
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234977
  • 京東
    +關(guān)注

    關(guān)注

    2

    文章

    985

    瀏覽量

    48269
  • 元宇宙
    +關(guān)注

    關(guān)注

    13

    文章

    1378

    瀏覽量

    11208
  • 數(shù)字人
    +關(guān)注

    關(guān)注

    0

    文章

    107

    瀏覽量

    1885
  • 京東云
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    9
收藏 人收藏

    評論

    相關(guān)推薦

    憶聯(lián)以完善的產(chǎn)品矩陣與先進技術(shù)AI PC助力

    未來10年,AI產(chǎn)業(yè)將迎來快速發(fā)展期,尤其對于生成式AI(Generative AI)來說,其技術(shù)發(fā)展和應(yīng)用將加速
    的頭像 發(fā)表于 09-02 11:39 ?254次閱讀
    憶聯(lián)以完善的產(chǎn)品矩陣與先進<b class='flag-5'>技術(shù)</b><b class='flag-5'>為</b><b class='flag-5'>AI</b> PC助力

    開啟全新AI時代 智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)產(chǎn)業(yè)發(fā)展論壇”圓滿結(jié)束

    嵌入式系統(tǒng)是電子信息產(chǎn)業(yè)的基礎(chǔ),是智能系統(tǒng)的核心。大模型催生AI走入千家萬戶、喚醒端側(cè)AI的需求爆發(fā)。以機器、無人駕駛和智能制造代表的智
    發(fā)表于 08-30 17:24

    KubeCon China 2024全球大會在香港舉行,京東受邀參加探討云原生、開源及 AI

    參會者,共同探討云原生、開源及?AI?領(lǐng)域的前沿進展、核心技術(shù)和最佳實踐。 京東現(xiàn)場技術(shù)分享議題: 《
    的頭像 發(fā)表于 08-23 13:42 ?165次閱讀

    橡鹿科技獲京東投資,加速AI炒菜機器發(fā)展

    7月22日最新消息,橡鹿科技(原“橡鷺科技”)官方宣布成功吸引京東的戰(zhàn)略投資,金額高達(dá)近2億元人民幣,并攜手京東達(dá)成全面戰(zhàn)略合作伙伴關(guān)系。此次合作將依托雙方在人工智能(AI技術(shù)
    的頭像 發(fā)表于 07-22 15:58 ?469次閱讀

    數(shù)字源碼部署要選對數(shù)字源頭工廠

    ,可見我國的AI技術(shù)取得突破性發(fā)展. 如果把時間推回兩年前,國內(nèi)數(shù)字人品牌寥寥無幾,其中以硅基數(shù)字、灰豚
    的頭像 發(fā)表于 06-18 16:35 ?327次閱讀
    <b class='flag-5'>數(shù)字</b><b class='flag-5'>人</b>源碼部署要選對<b class='flag-5'>數(shù)字</b><b class='flag-5'>人</b>源頭工廠

    會員風(fēng)采!華秋電子——致力于“電子產(chǎn)業(yè)增效降本”的數(shù)字化智造平臺

    信息技術(shù)改善傳統(tǒng)電子產(chǎn)業(yè)鏈,千行百業(yè)搭建數(shù)智化供應(yīng)鏈平臺。 當(dāng)前,華秋擁有5大制造基地,在深圳及九江擁有PCB打樣及批量工廠,月產(chǎn)能達(dá)12萬平米;在東莞、長沙、郴州擁有SMT/PC
    發(fā)表于 05-13 09:53

    京東官宣:劉強東AI數(shù)字即將開啟直播

    4月15日下午,“京東黑板報”宣布劉強東的AI數(shù)字即將開啟直播的消息。
    的頭像 發(fā)表于 04-16 15:22 ?502次閱讀

    聯(lián)想攜手京東,緊扣大模型和生成式AI技術(shù)

    聯(lián)想與京東攜手,緊扣大模型和生成式AI技術(shù)帶來的產(chǎn)業(yè)機遇,在多個領(lǐng)域展開深入合作。
    的頭像 發(fā)表于 04-12 10:27 ?522次閱讀

    ai還原逝去親人,灰豚AI數(shù)字重塑未來!

    ai演生的商業(yè)場景,無限廣闊!AI復(fù)活在今年引爆各大媒體,也形成了完整的產(chǎn)業(yè)鏈。 數(shù)字的行業(yè)可謂迭代之快,從2023年的一個
    的頭像 發(fā)表于 04-01 09:28 ?420次閱讀

    NVIDIA技術(shù)引領(lǐng)數(shù)字革命:各行業(yè)打造栩栩如生AI角色

    NVIDIA 宣布領(lǐng)先的 AI 應(yīng)用開發(fā)者正使用 NVIDIA 數(shù)字技術(shù)商業(yè)應(yīng)用和動態(tài)游戲角色創(chuàng)建栩栩如生的化身。
    的頭像 發(fā)表于 03-21 09:44 ?433次閱讀

    智扛春晚,京東技術(shù)要效益

    京東行業(yè)資訊
    腦極體
    發(fā)布于 :2024年02月22日 09:18:11

    華秋榮獲2023中國產(chǎn)業(yè)數(shù)字化百強榜企業(yè)

    持不懈努力的認(rèn)可。 這也是自2021年以來,華秋連續(xù)3年獲得此殊榮。 華秋始終堅持以幫助客戶增效將本使命,以信息化技術(shù)驅(qū)動業(yè)務(wù)創(chuàng)新,以數(shù)字技術(shù)賦能智能制造,致力于推動電子行業(yè)
    發(fā)表于 12-04 10:01

    喜訊!華秋榮獲2023中國產(chǎn)業(yè)數(shù)字化百強榜企業(yè)

    持不懈努力的認(rèn)可。 這也是自2021年以來,華秋連續(xù)3年獲得此殊榮。 華秋始終堅持以幫助客戶增效將本使命,以信息化技術(shù)驅(qū)動業(yè)務(wù)創(chuàng)新,以數(shù)字技術(shù)賦能智能制造,致力于推動電子行業(yè)
    發(fā)表于 12-04 09:58

    電力鐵塔攀爬機器夾持機構(gòu)設(shè)計與分析

    電子發(fā)燒友網(wǎng)站提供《電力鐵塔攀爬機器夾持機構(gòu)設(shè)計與分析.pdf》資料免費下載
    發(fā)表于 10-31 09:27 ?0次下載
    電力鐵塔<b class='flag-5'>攀爬</b>機器<b class='flag-5'>人</b>夾持機構(gòu)設(shè)計與分析

    英碼科技精彩亮相火爆的IOTE 2023,多面賦能AIoT產(chǎn)業(yè)發(fā)展!

    產(chǎn)品,包括覆蓋多層次算力的智能工作站(邊緣計算盒子)、AI加速卡等;同時大家展示自研的AI技術(shù)服務(wù)——“深元”0代碼移植工具鏈和創(chuàng)新性的行業(yè)解決方案,賦能更多AIoT
    發(fā)表于 09-25 10:03