0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小米在行業(yè)圖譜上的探索

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-11-24 09:41 ? 次閱讀

導(dǎo)讀:小米知識(shí)圖譜于2017年創(chuàng)立,已支持公司了每天億級(jí)的訪問(wèn),已賦能小愛(ài)同學(xué),小米有品、智能問(wèn)答、用戶(hù)畫(huà)像、虛擬助手、智能客服等互聯(lián)網(wǎng)產(chǎn)品。通過(guò)引入知識(shí)圖譜,這些產(chǎn)品在內(nèi)容理解、用戶(hù)理解、實(shí)體推薦等方面都有了顯著的效果提升。本文的主要內(nèi)容包括:

小米知識(shí)圖譜介紹:包括小米的商業(yè)模式、小米人工智能部、知識(shí)圖譜在人工智能部的定位、小米知識(shí)圖譜的發(fā)展歷程、以及小米知識(shí)圖譜的落地場(chǎng)景。

小米知識(shí)圖譜關(guān)鍵技術(shù):小米知識(shí)圖譜在成長(zhǎng)過(guò)程中的技術(shù)積累。

小米行業(yè)知識(shí)圖譜探索:結(jié)合業(yè)務(wù),跟大家分享下小米在行業(yè)圖譜上的探索。

01小米知識(shí)圖譜介紹

1.小米知識(shí)圖譜介紹

在了解小米知識(shí)圖譜之前,先介紹下小米的商業(yè)模式。小米在商業(yè)模式上提出硬件+新零售+互聯(lián)網(wǎng)鐵人三項(xiàng)的商業(yè)模式。這種商業(yè)模式下有像手機(jī)、小米音箱類(lèi)的智能硬件;有米商城,有品電商這樣的新零售;還有像人工智能這樣的互聯(lián)網(wǎng)服務(wù)。三者相扶相持,相互促進(jìn),是一種閉環(huán)的生態(tài)模式,在這種生態(tài)模式下,有很多潛在的應(yīng)用場(chǎng)景,對(duì)人工智能,對(duì)內(nèi)容和知識(shí)有很多訴求。

小米人工智能部已經(jīng)構(gòu)建了完整的中臺(tái)體系,囊括了視覺(jué)、NLP、知識(shí)圖譜、語(yǔ)音、深度學(xué)習(xí)等底層的基礎(chǔ)能力,其中知識(shí)圖譜就處于這一層。

中間層是問(wèn)答服務(wù)、智能客服等應(yīng)用能力層,上層是小愛(ài)同學(xué)、商城等互聯(lián)網(wǎng)業(yè)務(wù)和傳統(tǒng)業(yè)務(wù)層,這些都是知識(shí)圖譜的落地場(chǎng)景,其中小愛(ài)同學(xué)是小米公司推出的虛擬人工的智能助理,小愛(ài)同學(xué)適用于手機(jī)、音響、電視、手表以及手環(huán)等穿戴設(shè)備,通過(guò)搭載小愛(ài)同學(xué)的智能硬件,可以滿(mǎn)足用戶(hù)獲取知識(shí)和信息的需求。

小米知識(shí)圖譜在中臺(tái)體系下不斷的成長(zhǎng),2017年小米知識(shí)圖譜有了一些開(kāi)放知識(shí)的積累, 2018年知識(shí)圖譜團(tuán)隊(duì)成立,2018年底,通用知識(shí)圖譜的構(gòu)建,百科類(lèi)圖譜構(gòu)建完成,2019年中,業(yè)務(wù)拓展,線上調(diào)用達(dá)到近億次,2019年底,知識(shí)擴(kuò)增,知識(shí)積累了超三百億,2020年行業(yè)探索,行業(yè)圖譜落地。雖然發(fā)展的比較晚,但是在自己的業(yè)務(wù)場(chǎng)景下,發(fā)展還算迅速。

小米知識(shí)圖譜在公司的職責(zé),主要是研究開(kāi)放領(lǐng)域和行業(yè)領(lǐng)域的構(gòu)建和應(yīng)用技術(shù),并把圖譜推廣到相關(guān)業(yè)務(wù)場(chǎng)景上,來(lái)提高用戶(hù)的滿(mǎn)意度的和業(yè)務(wù)變現(xiàn)轉(zhuǎn)化能力。團(tuán)隊(duì)已構(gòu)建超三百億開(kāi)放知識(shí)和涉及13個(gè)領(lǐng)域。除此之外,小米還參與了一些開(kāi)放知識(shí)圖譜的構(gòu)建,是OpenKG之OpenBase子項(xiàng)目組主要成員單位,是IEEE知識(shí)圖譜國(guó)家標(biāo)準(zhǔn)編制組主要成員。

小米知識(shí)圖譜已經(jīng)已經(jīng)賦能公司10+個(gè)業(yè)務(wù)場(chǎng)景,這些落地場(chǎng)景包括智能問(wèn)答、智能客服、小愛(ài)同學(xué)、虛擬助手、全局搜索、NLP等這樣通用的知識(shí)領(lǐng)域。還有像游戲中心、廣告,小米有品,小米網(wǎng)等這樣的行業(yè)知識(shí),下面我會(huì)重點(diǎn)介紹一下具體場(chǎng)景的細(xì)節(jié)。

2. 應(yīng)用場(chǎng)景:智能問(wèn)答

第一個(gè)是小米知識(shí)圖譜在智能問(wèn)答場(chǎng)景的應(yīng)用,這個(gè)比較廣泛,落地的設(shè)備較多,已服務(wù)于手機(jī)、音響、智能穿戴、智能車(chē)載、電視、兒童設(shè)備。應(yīng)用于小愛(ài)音響、小愛(ài)同學(xué)、小尋手表、車(chē)載設(shè)備等,滿(mǎn)足用戶(hù)近億次/天的請(qǐng)求,后面我們介紹落地場(chǎng)景的示例。

目前,智能問(wèn)答包括兩種模式:一種是一般問(wèn)答模式,還有一種是規(guī)則推理的。一般問(wèn)答場(chǎng)景下,在返回具體答案的同時(shí),還會(huì)把關(guān)聯(lián)實(shí)體的附加信息滿(mǎn)足給用戶(hù),比如用戶(hù)詢(xún)問(wèn)鞏俐的籍貫的時(shí)候,返回答案不只是會(huì)返回山東濟(jì)南,還會(huì)把問(wèn)答實(shí)體鞏俐的視頻,人物關(guān)系,資訊新聞,代表作品等都呈現(xiàn)給用戶(hù),這樣在用戶(hù)興趣激發(fā)上起到了很大作用。另外一個(gè)古詩(shī)詞CASE,也能很好的體現(xiàn)這一點(diǎn),比如用戶(hù)問(wèn)靜夜思的作者是誰(shuí),用戶(hù)除了想得到這首詩(shī)的作者外,可能還想溫故這首詩(shī),也可能想要了解這首詩(shī)的釋義。所以我們會(huì)把有聲資源、釋義一并滿(mǎn)足給用戶(hù)。

最后,問(wèn)答在歧義場(chǎng)景下還支持列表形式展現(xiàn)。

除了一般的問(wèn)答方式以外,小米還支持推理的問(wèn)答。比如:多條件推理,多跳關(guān)系推理,還支持像求最大值,最小值這種基礎(chǔ)推理算子。多條件推理的例子如:山東籍的雙子座是誰(shuí),首先會(huì)對(duì)數(shù)據(jù)庫(kù)中人物實(shí)體的生日推理出星座是雙子座,然后推出省份,最后篩選聚合產(chǎn)出實(shí)體結(jié)果 ,第二種是多跳關(guān)系推理,比較典型的就是人物與人物的六度關(guān)系推理,如:徐志摩與梁思成的兒子梁從誡是什么關(guān)系?我們會(huì)試圖計(jì)算起始實(shí)體到目標(biāo)實(shí)體的關(guān)系的最短可達(dá)路徑呈現(xiàn)給用戶(hù)?,F(xiàn)有的推理邏方法,比如說(shuō)基于規(guī)則的推理、基于模型的推理,規(guī)則推理主要包含規(guī)則引擎和一階的邏輯規(guī)則。模型推理是用機(jī)器學(xué)習(xí)去表示學(xué)習(xí)關(guān)系推理。所以這里根據(jù)自己的需求、應(yīng)用場(chǎng)景和應(yīng)用情況去選擇。

后面介紹一些基于智能問(wèn)答的一些方法?;趫D譜的智能問(wèn)答,通用流程如下:語(yǔ)音識(shí)別環(huán)節(jié),意圖識(shí)別,實(shí)體匹配,實(shí)體查詢(xún)返回結(jié)果。

舉個(gè)例子,如武漢大學(xué)周邊什么好吃的,首先做分詞或者詞法分析,分出武漢大學(xué)和好吃的這些關(guān)鍵mention,然后意圖識(shí)別計(jì)算得到是美食需求的,第三步是實(shí)體識(shí)別,把mention武漢大學(xué)映射到知識(shí)圖譜中的實(shí)體上,把屬性好吃映射成推薦食物,最后實(shí)體查詢(xún)計(jì)算,返回?zé)岣擅?,武昌魚(yú),豆皮,油燜大蝦。

小米基于知識(shí)問(wèn)答有很多方法,第一種是基于模版的方法,它的大體流程是這樣的:

第一步對(duì)query做實(shí)體鏈接(實(shí)體鏈接技術(shù)在第二部分會(huì)詳細(xì)介紹),第二步把實(shí)體名用實(shí)體鏈接后的主實(shí)體對(duì)應(yīng)的實(shí)體類(lèi)型替換后去離線的模板庫(kù)匹配,返回模板庫(kù)中映射后的歸一的模版,最后查詢(xún)實(shí)體庫(kù)返回答案。

舉個(gè)例子:

姚明的老婆是誰(shuí),第一步先做實(shí)體鏈接,后面把姚明的實(shí)體類(lèi)型人物替換姚明,去人物垂域模板規(guī)則庫(kù)查詢(xún)模板,發(fā)現(xiàn)命中了lambda_x.配偶這個(gè)模板。最后在圖譜數(shù)據(jù)國(guó)查詢(xún)姚明的配偶,返回答案葉莉。這種方法有一個(gè)好處就是準(zhǔn)確率比較好,是離線挖掘的模板,所以性能也比較好,但是缺點(diǎn)也比較明顯泛化能力差。其中模板的挖掘方法的話,主要是離線從知識(shí)圖譜中實(shí)體中找目標(biāo)實(shí)體對(duì),然后去問(wèn)答論壇去匹配問(wèn)題與答案分別出現(xiàn)的pair,生成模板的pair,這么做會(huì)有很多噪聲需要做進(jìn)一步過(guò)濾,比如:需要過(guò)濾掉出現(xiàn)多屬性的問(wèn)答對(duì)的情況和頻次出現(xiàn)比較低的情況。

為了解決第一種方法泛化性能比較差的問(wèn)題,用第二種方式基于槽填充的方式來(lái)互補(bǔ)。第一種方法在李白有哪些詩(shī)的時(shí)候,可以命中模版庫(kù)滿(mǎn)足用戶(hù)的需求。但是變成李白有名的詩(shī)有哪些時(shí),就無(wú)法找到答案了。為了解決這種問(wèn)題,我們用了槽填充和意圖識(shí)別聯(lián)合學(xué)習(xí)的方法方法,借鑒了2016年liu的基于attention的意圖檢測(cè)和插槽填充聯(lián)合學(xué)習(xí)的的方法。該方法把槽填充與意圖識(shí)別聯(lián)合的學(xué)習(xí),方法包含兩部分槽填充和意圖識(shí)別,兩部分組成,第一部分是槽填充問(wèn)題轉(zhuǎn)化為序列標(biāo)注的NER問(wèn)題,第二步是意圖識(shí)別,把意圖識(shí)別轉(zhuǎn)換為文本分類(lèi)問(wèn)題。最后把兩個(gè)問(wèn)題整合做一個(gè)聯(lián)合學(xué)習(xí)。PPT右下角已給出論文和代碼。該方法在部分垂哉上的召回的提升比較明顯。在菜譜,古詩(shī)垂域上欠召回的badcase解決率為30%

第三種方法是基于子圖檢索,該方法依賴(lài)于實(shí)體的關(guān)系路徑。具體第一步query做實(shí)體鏈接,把實(shí)體轉(zhuǎn)化為實(shí)體ID,第二步根據(jù)實(shí)體周?chē)膶傩院Y選出候選路徑。第三步對(duì)輸入文本與候選路徑進(jìn)行實(shí)體語(yǔ)義相似和排序,取top結(jié)果。

以姚明老婆的國(guó)籍是啥為例子,第一步用實(shí)體鏈接找到用到接接到知識(shí)圖譜姚明這個(gè)實(shí)體;第二步就是找到姚明這個(gè)實(shí)體周邊的候選的屬性路徑,如姚明的配偶的國(guó)籍,姚明配偶的身高,姚明配偶的類(lèi)型,姚明教練的出生日期,姚明隊(duì)友的出生地等;第三步用bert計(jì)算候選路徑和目標(biāo)路徑的相似關(guān)系,除了相似度外,引入了像類(lèi)型過(guò)濾這樣的條件約束,過(guò)濾給出排序分值然后取一個(gè)最大值。

以上都是基于圖譜的結(jié)構(gòu)化的問(wèn)答場(chǎng)景,對(duì)于非結(jié)構(gòu)的, 比如:天空為什么是藍(lán)色的,怎么控制貓的飲食量,青蛙王子是不是安徒生的童話,這三種為什么,怎么樣,是不是,類(lèi)型的問(wèn)題,以上方法無(wú)法解決,需要通過(guò)基于搜索的FAQ的方式,這里就不介紹了。

3. 應(yīng)用場(chǎng)景:智能客服

第二個(gè)是知識(shí)圖譜到智能客服的場(chǎng)景。目前智能客服已經(jīng)落地小米網(wǎng)和小米金融等業(yè)務(wù)場(chǎng)景下。PPT中是智能客服團(tuán)隊(duì)用NL2SQL的方法在基金客服上的一個(gè)落地場(chǎng)景。

知識(shí)圖譜在智能客服中的技術(shù)框圖體系,第一層是數(shù)據(jù)標(biāo)準(zhǔn)化層,主要包括數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)治理,數(shù)據(jù)融合,第二層是AI引擎層,有實(shí)體抽取引擎,屬性集合引擎、知識(shí)圖譜引擎等,第三層是數(shù)據(jù)共享交換層,第四層是數(shù)據(jù)服務(wù),數(shù)據(jù)分析等。

4. 應(yīng)用場(chǎng)景:小米商城&游戲中心

第三個(gè)應(yīng)用場(chǎng)景是在小米商城和游戲中心的應(yīng)用,目前商品圖譜和游戲圖譜已應(yīng)用到小米商城,有品商城,游戲中心等業(yè)務(wù)下。已落在有品商城/小米商城的場(chǎng)景詞搜索發(fā)現(xiàn)、用戶(hù)sug引導(dǎo)、商品評(píng)價(jià)的用戶(hù)觀點(diǎn)的的用戶(hù)觀點(diǎn)的抽取及聚合,及游戲的評(píng)論的觀點(diǎn)抽取及聚合業(yè)務(wù)上。在小米的商品圖譜取得不錯(cuò)的效果,已助力商品轉(zhuǎn)化率、用戶(hù)購(gòu)買(mǎi)轉(zhuǎn)化率及游戲下載率至少有30%的提升。

5. 應(yīng)用場(chǎng)景:AI虛擬助手

另外小米知識(shí)圖譜還在多模態(tài)圖譜應(yīng)用場(chǎng)景下做了嘗試,與AI虛擬助手合作探索了圖片態(tài)與文本態(tài)實(shí)體語(yǔ)義關(guān)聯(lián),目前已上線植物識(shí)圖的功能,后面會(huì)持續(xù)的擴(kuò)展。小米知識(shí)圖譜的落地場(chǎng)景很多,這里只介紹了一部分,后面是小米知識(shí)圖譜積累的一些關(guān)鍵技術(shù)。

02小米知識(shí)圖譜關(guān)鍵技術(shù)

1.小米知識(shí)圖譜賦能各業(yè)務(wù)場(chǎng)景

目前小米知識(shí)圖譜已經(jīng)具備20+關(guān)鍵能力,比如實(shí)體鏈接,實(shí)體融合,概念圖譜,實(shí)體推理,實(shí)體分類(lèi),知識(shí)理解,實(shí)體關(guān)聯(lián),用戶(hù)理解等等,后面挑出實(shí)體鏈接,實(shí)體融合,概念圖譜挖掘三個(gè)關(guān)鍵技術(shù)和大家分享探討。

2. 關(guān)鍵技術(shù):實(shí)體鏈接

實(shí)體鏈接 ( Entity Linking ),也叫實(shí)體鏈指,該任務(wù)要求我們將非結(jié)構(gòu)化數(shù)據(jù)中的表示實(shí)體的詞語(yǔ)(即所謂mention,對(duì)某個(gè)實(shí)體的指稱(chēng)項(xiàng))識(shí)別出來(lái),并將從知識(shí)庫(kù) ( 領(lǐng)域詞庫(kù),知識(shí)圖譜等 ) 中找到mention所表示的那一個(gè)實(shí)體所以實(shí)體鏈接的任務(wù)定義:就是給定文本mention,判定指代知識(shí)圖譜中的實(shí)體首先第一個(gè)是實(shí)體鏈接 ( Entity Linking )。

舉個(gè)例子:

比如說(shuō)劉德華的天下無(wú)賊主題曲那一天是誰(shuí)唱的,實(shí)體鏈接需要把劉德華,天下無(wú)賊,那一天三個(gè)mention聯(lián)接到知識(shí)圖譜的實(shí)體上。以方便應(yīng)用到如主題分析,語(yǔ)義的信息檢索等更深度的應(yīng)用場(chǎng)景下。

常見(jiàn)的實(shí)體鏈接如PPT流程。包括中文的切詞,命名實(shí)體識(shí)別,候選實(shí)體選取,實(shí)體消歧,實(shí)體排序,判空幾部分。第一步中文切詞有很多方法,比如像結(jié)巴等一些開(kāi)源的工具,我們的做法是整合了已有的實(shí)體名、實(shí)體同義詞名,及開(kāi)放錨文本信息做為詞典,用維特比算法構(gòu)造了切詞功能。除了切詞外我們還用的序列標(biāo)注的方式做了命名實(shí)體識(shí)別,把實(shí)體詞表與NER的結(jié)果合并。

其中NER用的是BERT+CRF。在NER的訓(xùn)練數(shù)據(jù)集構(gòu)造上,起初用遠(yuǎn)程監(jiān)督的方法構(gòu)造訓(xùn)練集的方法,但是發(fā)現(xiàn)在句子中有多個(gè)實(shí)體詞的情況,遠(yuǎn)程監(jiān)督的方式只能標(biāo)注出部分實(shí)體詞,這樣對(duì)模型的召回影響比較大。所以我們利用開(kāi)放比賽的標(biāo)注數(shù)據(jù)作為數(shù)據(jù)集,再加上部分遠(yuǎn)程監(jiān)督的數(shù)據(jù)和人工標(biāo)注的數(shù)據(jù)作為最終的訓(xùn)練樣本。這種方式的訓(xùn)練結(jié)果比只有遠(yuǎn)程監(jiān)督的樣本訓(xùn)練的結(jié)果提升10個(gè)點(diǎn)左右。

接下來(lái)第二步是候選實(shí)體選取,我們離線挖掘了大量的同義詞,別名,縮寫(xiě)詞等,放在圖譜實(shí)體。命中l(wèi)abel,alias,同義詞,縮寫(xiě)的作為候選對(duì)象。但是調(diào)研中發(fā)現(xiàn)過(guò)多的候選詞不一定有好的效果,比如:長(zhǎng)尾的,互動(dòng)比較少、豐富度比較少的實(shí)體引入會(huì)造成很多噪聲并且很影響處理性能。因此我們利用用戶(hù)使用的熱度,實(shí)體的流行度,實(shí)體豐富度等對(duì)候選實(shí)體做了篩選和過(guò)濾。精簡(jiǎn)后準(zhǔn)確率提升了3%,召回下降0.4%,預(yù)測(cè)速度提升50%。

接下來(lái)是實(shí)體消歧,實(shí)體排序,判空這三塊。這三塊不好解耦,所以可以一塊來(lái)說(shuō)。這里用到了兩處種特征,第一種是上下文無(wú)關(guān)的,第二種是語(yǔ)義相關(guān)聯(lián)的特征。

上下文無(wú)關(guān)的特征包含:實(shí)體流行度,用戶(hù)熱度,實(shí)體豐富度等等。語(yǔ)義相關(guān)的特征包括三部分:

① 對(duì)輸入實(shí)體mention預(yù)測(cè)實(shí)體類(lèi)型, 用到的18年Raiman, J. R., & Raiman, O. M.發(fā)表的"DeepType:用神經(jīng)網(wǎng)的分類(lèi)系統(tǒng)演化來(lái)做多語(yǔ)言實(shí)體鏈鏈接"的方法,該方法基于當(dāng)我們知道了候選實(shí)體的類(lèi)型之后,這個(gè)消歧的任務(wù)便被解決得差不多了的假設(shè)將實(shí)體鏈接過(guò)程看成是分類(lèi)獲取的過(guò)程。分類(lèi)的過(guò)程是針對(duì)知識(shí)庫(kù)中的分類(lèi)體系設(shè)計(jì)了一個(gè)DeepType的預(yù)測(cè)系統(tǒng)。具體是用輸入數(shù)據(jù)文本通過(guò)bert編碼取CLS 位置的向量、候選實(shí)體對(duì)應(yīng)開(kāi)始和結(jié)束位置對(duì)應(yīng)的特征向量,三個(gè)向量連接,經(jīng)過(guò)全連接層,最后softmax激活得到候選實(shí)體的類(lèi)別得到分類(lèi)。

② 是DeepMatch部分,參照18年 Le, P., & Titov, I的一種通過(guò)候選實(shí)體與mention之間的潛在關(guān)系建模來(lái)提升實(shí)體鏈接的效果。該文章提出了將實(shí)體鏈接問(wèn)題轉(zhuǎn)化為文本語(yǔ)義匹配問(wèn)題,構(gòu)建了一個(gè)DeepMatch模型來(lái)匹配輸入語(yǔ)句的上下文和候選實(shí)體的描述信息對(duì)。把待消歧文本作為text_a,每個(gè)候選實(shí)體的SPO全部連接起來(lái)組成一段文本text_b,計(jì)算text_a和text_b的相關(guān)性 。訓(xùn)練時(shí)選取連接到的實(shí)體作為正例,在候選實(shí)體里選取負(fù)例。兩個(gè)句子長(zhǎng)度最大選取為256,負(fù)樣本選取了3個(gè)。取CLS 位置向量、候選實(shí)體對(duì)應(yīng)開(kāi)始和結(jié)束位置對(duì)應(yīng)的特征向量,三個(gè)向量連接經(jīng)過(guò)全連接層,最后sigmoid激活得到候選實(shí)體的概率得分。

③ 除了這兩個(gè)特征外還有共現(xiàn)、協(xié)同推斷等特征。最后把是否存在多個(gè)同義詞指向同一個(gè)實(shí)體、其他mention是否出現(xiàn)在該實(shí)體的信息里、LinkCount、DeepMatch模型的相似度、DeepType模型的相似度等經(jīng)過(guò)MLP得到一個(gè)分值,排序取 top1的實(shí)體,如果top1的分值大于閾值就判定該實(shí)體,如果小于閾值則為空。

小米知識(shí)圖譜通過(guò)該方法參加了2020CCKS比賽,很榮幸拿到了總決賽的第一名,F(xiàn)1的值達(dá)到了0.8954。但是這種方法在我的業(yè)務(wù)場(chǎng)景,準(zhǔn)確率召回可以達(dá)到96%以上。

另外,除了效果,這里在業(yè)務(wù)上有會(huì)有處理性能的問(wèn)題,所以這里用到三種方法加速,第一是引用了tensorflow的batching serving,第二是把bert中的transformer 用nvidia的faster Transformer替換,第三是用Fp16的方法量化,這種加速效果比較明顯的QPS從30提升到1200。

3. 關(guān)鍵技術(shù):知識(shí)融合

第二種關(guān)鍵技術(shù),是知識(shí)融合,該任務(wù)的定義是,給定實(shí)體集合,識(shí)別并合并等價(jià)實(shí)體 ( 注:等價(jià)定義為待融實(shí)體指代了現(xiàn)實(shí)世界中同一事物或概念 ) 。舉這個(gè)例子,花木蘭電影有來(lái)自騰訊,愛(ài)奇藝,優(yōu)酷,豆瓣,電視貓, 維基的數(shù)據(jù)。需要把實(shí)體化后的小實(shí)體,找到歸一組,合并融合生成新的實(shí)體,更新至知識(shí)庫(kù)圖譜中這一過(guò)程中稱(chēng)為知識(shí)融合。

基于任務(wù)定義,把這種任務(wù),拆解成了實(shí)體對(duì)齊和實(shí)體擇優(yōu)兩部分。

實(shí)體對(duì)齊的方法目前包含成對(duì)的實(shí)體對(duì)齊,集體實(shí)體對(duì)齊,大規(guī)模集體實(shí)體對(duì)齊及知識(shí)庫(kù)與知識(shí)庫(kù)之間的模式層的實(shí)體對(duì)齊。小米著重做的是成對(duì)對(duì)齊,現(xiàn)在用了就兩種的方法:

第一種方法是傳統(tǒng)的方法,基于觀察的先驗(yàn),比如:

① 類(lèi)別間的屬性重要度是不同的 ( 比如人物中,出生時(shí)間,出生地點(diǎn),性別,職業(yè)很重要;地點(diǎn)類(lèi)的,經(jīng)度,緯度很重要;視頻: 上映時(shí)間,演員,導(dǎo)演,角色很重要;生物:種屬科目綱很重要等 )。

② 文本中的時(shí)間,地點(diǎn)很重要,( 比如一些infoxbox中未覆蓋的事件的時(shí)間及地點(diǎn)等 ) 基于這兩個(gè)經(jīng)驗(yàn),我用一些tfidf的方法計(jì)算一些屬性在不同類(lèi)中的重要性,并找文本中的時(shí)間/地點(diǎn)做為一個(gè)重要的文本特征,并計(jì)算對(duì)應(yīng)屬性值相似度,目前用對(duì)一些相似度主要是一基于字粒度的文文相似度,及token粒度的主題相似度等。

第二種方法用基于embedding的deep Match方法,主要參照了2018年ACM SIGMOD 的方法做了一些改進(jìn),該方法把實(shí)體中的每個(gè)屬性下的O的Value concate成一個(gè)句子,通過(guò)雙向LSTM等一模型encodeing成向量,計(jì)算每個(gè)屬性下的emdming的相似度,最后經(jīng)過(guò)一個(gè)分類(lèi)模型,判斷是否是同一個(gè)實(shí)體。該方法沒(méi)有考慮類(lèi)別中的屬性重要度的差異,所以準(zhǔn)確與召回效果都不太理想,我們也在考慮更多的方法嘗試改進(jìn)。

以上兩種方法是針對(duì)對(duì)于結(jié)構(gòu)化實(shí)體對(duì)齊的方法,如果是開(kāi)放文本要依賴(lài)實(shí)體鏈接技術(shù)。

知識(shí)融合第二部實(shí)體擇優(yōu),是在經(jīng)過(guò)實(shí)體對(duì)齊后,把實(shí)體屬性的差異性或者沖突性做消解。目前的做法基于以下幾個(gè)方面對(duì)實(shí)體的質(zhì)量進(jìn)行控制控制:

實(shí)體的更新時(shí)效性

權(quán)威性,不同來(lái)源,權(quán)威性不同的,比如,人民網(wǎng)的權(quán)威性要比一般咨詢(xún)類(lèi)的站會(huì)要高

豐富性,不同來(lái)源O的值缺失程度是不同的

共現(xiàn)頻次,當(dāng)多源有沖突時(shí),可以用投票的選出不同來(lái)源中出現(xiàn)最多的屬性

4. 關(guān)鍵技術(shù):概念圖譜

概念圖譜的概挖掘目前小米圖譜基本三種方式構(gòu)建。

第一種是在本體模式層構(gòu)建了分類(lèi)體系, 分類(lèi)體系參照了一些開(kāi)放的行業(yè)和分類(lèi)標(biāo)準(zhǔn),還參考了一些人工整理的行業(yè)的標(biāo)準(zhǔn)體系。

第二種是基于autophrase的方法,是實(shí)例層的ISA關(guān)系的挖掘,該方法是2017年一篇論文中采用海量文本挖掘的方法,該方法通過(guò)主要是用短語(yǔ)挖掘的方法來(lái)挖掘概念。這種方法需要滿(mǎn)足四個(gè)條件:

流行度:質(zhì)量短語(yǔ)應(yīng)該出現(xiàn)的頻率足夠高

一致性:token在高質(zhì)量短語(yǔ)中的搭配出現(xiàn)的概率明顯高于預(yù)期

信息性:短語(yǔ)可以表達(dá)一個(gè)特定的主題或概念

完備性:一個(gè)短語(yǔ)可以在特定的文檔上下文中解釋為一個(gè)完整的語(yǔ)義單元

這個(gè)模型的訓(xùn)練用實(shí)體的長(zhǎng)文本和內(nèi)容文本、遠(yuǎn)程的Wikipedia/cn_probase拿到的開(kāi)放的的高質(zhì)量的短語(yǔ)及根據(jù)不同領(lǐng)域標(biāo)注的高質(zhì)量的詞語(yǔ)三個(gè)輸入作為輸入語(yǔ)料。第二步用n_gram的候選篩選,出正樣本與負(fù)樣本,正樣本是N_grame頻率大于閾值和人工標(biāo)注的領(lǐng)域短語(yǔ)及人工cnproese匹配的高質(zhì)量短語(yǔ);剩余是負(fù)樣本。由于負(fù)樣本中摻雜大量的正樣本,所以后面是從負(fù)樣本中使用集成分類(lèi)器訓(xùn)練了多個(gè)基分器來(lái)從負(fù)樣本中強(qiáng)化出正樣本。為了保證概念短語(yǔ)的質(zhì)量,方法通過(guò)詞性分析過(guò)濾不符合語(yǔ)法的短語(yǔ)。

針對(duì)概念挖掘的第三種方法是基于序列標(biāo)注的方法。分為兩步。第一步做一個(gè)分類(lèi),針對(duì)實(shí)體長(zhǎng)文本描述進(jìn)行句子拆分,之后判斷 否有這個(gè)概念相關(guān)的一個(gè)實(shí)體詞。第二步使用Bert+BiLSTM+CRF的方式作序列標(biāo)注,標(biāo)注出SPO的值。

上面三種方法都是概念挖掘,對(duì)于實(shí)體與概念的關(guān)聯(lián),可以用實(shí)體分類(lèi)的方法把模式層的與實(shí)體掛接,用實(shí)體鏈接的方法把開(kāi)放詞中的短語(yǔ)與體掛接。

5. 關(guān)鍵技術(shù):自動(dòng)化構(gòu)建技術(shù)

除些之外呢,小米圖譜還在工程構(gòu)建已有了一套完成的自動(dòng)化構(gòu)建技術(shù),可以支持用戶(hù)定制,自動(dòng)實(shí)體化,自動(dòng)實(shí)體關(guān)系等。

03小米行業(yè)知識(shí)圖譜探索

小米知識(shí)圖譜的關(guān)鍵技術(shù)還有很多,我們?cè)谶@里只給大家介紹典型的幾個(gè)關(guān)鍵技術(shù),有興趣的話可以線下交流。最后我們看一下小米知識(shí)圖譜在行業(yè)的一些探索。

1. 商品圖譜

第一個(gè)業(yè)務(wù)場(chǎng)景的探索商品圖譜,主要的應(yīng)用場(chǎng)景是小米商城,小米品的搜索和推薦場(chǎng)景,目標(biāo)就是輔助電商平臺(tái)精準(zhǔn)的搜索。

現(xiàn)在商品圖譜已在商品分類(lèi)體系的建設(shè)、主商品詞提取、商品同義詞挖掘、上下位體系構(gòu)建、場(chǎng)景概念挖掘五個(gè)方向構(gòu)建完成。其中分類(lèi)體系是在模式層的構(gòu)建;主商品詞提取和商品同義詞挖掘用于精確匹配與召回;上下位體系結(jié)構(gòu)用于用戶(hù)推薦;場(chǎng)景概念挖掘用于搜索發(fā)現(xiàn)及場(chǎng)景推薦。

場(chǎng)景挖掘以泰國(guó)旅游為例,可以與沙灘鞋,電話卡,浮潛裝備等商品有關(guān)聯(lián),燒烤場(chǎng)景可能與燒烤架,木炭,食材等商品關(guān)聯(lián)。

目前商品圖譜已把這五個(gè)方向的數(shù)據(jù)和技術(shù)落地到小米商城,有品商城上。用戶(hù)轉(zhuǎn)化率和商品轉(zhuǎn)化率都有不錯(cuò)的提升。

2. 上位詞

上位詞挖掘的方法分為三部分:

第一部分是上位詞判定,用bert加上分類(lèi)模型從用戶(hù)日志的query中提取出來(lái)確識(shí)別是否是商品詞或者上位詞。第二部分通過(guò)層次化的分類(lèi)器,對(duì)挖掘到的上位詞合并到分類(lèi)體系中,這里用的了HMC的多分類(lèi)器。第三部分是把商品與上位詞關(guān)聯(lián),用商品名做texta, 上位詞做textb,把關(guān)聯(lián)問(wèn)題轉(zhuǎn)化為文本分類(lèi)問(wèn)題。

目前用這種方法挖掘出的上位詞,平均每個(gè)商品覆蓋10.5個(gè)上位詞。

3. 同義詞

商品圖譜涉及到的還有一個(gè)就是同義詞挖掘。我們是從商品標(biāo)題中抽取同義詞,在調(diào)研中發(fā)現(xiàn),很多商鋪為了盡可能多的命中搜索詞,會(huì)把可能多的把相同相近或者同義的詞堆砌到商品名中。所以基于這個(gè)假設(shè),我們把同義詞的挖掘,轉(zhuǎn)化為一個(gè)序列標(biāo)注問(wèn)題。

其中訓(xùn)練數(shù)據(jù)用人工標(biāo)注+ ( 通用圖譜+同義詞庫(kù) ) 遠(yuǎn)程數(shù)據(jù)作為訓(xùn)練樣本。商品title做為texta, 候選的詞做為textb最后標(biāo)注出BIOS。因?yàn)榈赇伋硕哑龅酵唐吠?,還會(huì)打包買(mǎi)一些東西,比如鍋盤(pán)墊與炒鍋蓋打包賣(mài),所以這樣做會(huì)有準(zhǔn)確的問(wèn)題。為了這種問(wèn)題,我用了以下三種方法去噪:

檢測(cè)上位關(guān)系是否沖突,鍋盤(pán)墊->餐具->餐墊,炒鍋蓋->鍋具->鍋蓋等

用詞向量相似度

用bert相似度計(jì)算分類(lèi)判斷是否同義

用三種方法過(guò)濾后我們的準(zhǔn)確率達(dá)到94%。

4. 金融圖譜

第二個(gè)行業(yè)落地場(chǎng)景,是客服團(tuán)隊(duì)金融圖譜在小米金融信貸及保險(xiǎn)等業(yè)務(wù)的應(yīng)用。我們就業(yè)務(wù)場(chǎng)景中的身份核實(shí)的子功能舉例:

碰撞識(shí)別主查核實(shí)多個(gè)用戶(hù)的公司地址是否為同一公司

關(guān)聯(lián)方探查,是判斷申請(qǐng)貸人與信息是否一致

后面就是金融知識(shí)圖譜的框圖:

除了商品及游戲及金融行業(yè)的應(yīng)用外,我們?cè)诟嗟男袠I(yè)圖譜的落地及更多的通用圖譜的應(yīng)用場(chǎng)景也在持續(xù)探索中。

04總結(jié)

簡(jiǎn)單總結(jié)下,小米知識(shí)圖譜已構(gòu)建超百億的知識(shí),落地10+的業(yè)務(wù)場(chǎng)景,擁有20+個(gè)技術(shù)能力,擁有成熟的自動(dòng)化構(gòu)建流程,小米知識(shí)圖譜已有多個(gè)行業(yè)知識(shí)圖譜落地。最后,歡迎大家體驗(yàn)/使用小愛(ài)同學(xué)等小米的產(chǎn)品,也歡迎大家吐槽!

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46124

    瀏覽量

    235371
  • 小米
    +關(guān)注

    關(guān)注

    69

    文章

    14277

    瀏覽量

    143086
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7665

原文標(biāo)題:知識(shí)圖譜在小米的應(yīng)用與探索

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    萬(wàn)里紅入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》8個(gè)細(xì)分領(lǐng)域

    近日,國(guó)內(nèi)信息安全領(lǐng)域權(quán)威媒體嘶吼正式發(fā)布了《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》(以下簡(jiǎn)稱(chēng)“網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜”)。本次網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜通過(guò)市場(chǎng)調(diào)研、數(shù)據(jù)精析、文獻(xiàn)研究及政策參考等多方面的綜合分析,全面
    的頭像 發(fā)表于 07-23 14:42 ?499次閱讀
    萬(wàn)里紅入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)<b class='flag-5'>圖譜</b>》8個(gè)細(xì)分領(lǐng)域

    知識(shí)圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識(shí)圖譜與大模型是兩個(gè)至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢(shì)和應(yīng)用場(chǎng)景,同時(shí)又相互補(bǔ)充,共同推動(dòng)著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識(shí)圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?652次閱讀

    維智科技入選《2024中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0》

    近日,數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合發(fā)布了《2024中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0》,旨在以大數(shù)據(jù)與AI為代表的智能技術(shù)為主要視角,聚焦全產(chǎn)業(yè)鏈為業(yè)內(nèi)提供更為專(zhuān)業(yè)直觀的行業(yè)指導(dǎo)。維智科技憑借在政務(wù)數(shù)字化
    的頭像 發(fā)表于 06-14 19:27 ?857次閱讀
    維智科技入選《2024中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)<b class='flag-5'>圖譜</b>1.0》

    2024年小米汽車(chē)產(chǎn)業(yè)鏈分析及新品上市全景洞察報(bào)告

    汽車(chē)仍在不斷探索和創(chuàng)新,以期在競(jìng)爭(zhēng)激烈的汽車(chē)市場(chǎng)中脫穎而出。文章強(qiáng)調(diào),小米汽車(chē)需要充分發(fā)揮其核心優(yōu)勢(shì),積極應(yīng)對(duì)市場(chǎng)挑戰(zhàn),加大研發(fā)投入,提升技術(shù)實(shí)力,并塑造良好的品牌形象,以贏得消費(fèi)者的信任和支持。未來(lái)
    發(fā)表于 03-29 13:46

    家電行業(yè)探索大模型應(yīng)用,落地仍面臨挑戰(zhàn)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)過(guò)去一年,各個(gè)行業(yè)都在探索大模型的應(yīng)用。家電行業(yè)也不例外,在近日舉行的AWE2024上,海信、長(zhǎng)虹等不少品牌都展示出了與大模型結(jié)合的產(chǎn)品。大模型在家電行業(yè)
    的頭像 發(fā)表于 03-21 01:32 ?2782次閱讀

    小米SU7電動(dòng)汽車(chē)即將推出,涵蓋入門(mén)級(jí)至豪華級(jí)

    雷軍曾公開(kāi)承諾,要盡全力做好小米汽車(chē),不讓消費(fèi)者失望。作為公司首款汽車(chē),SUV7 承擔(dān)著樹(shù)立小米品牌形象及奠定未來(lái)發(fā)展基石的重任。據(jù)了解,SUV7 的實(shí)力將為小米后續(xù)產(chǎn)品打下堅(jiān)實(shí)基礎(chǔ),助推小米
    的頭像 發(fā)表于 03-13 09:38 ?447次閱讀

    利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    對(duì)于語(yǔ)言模型(LLM)幻覺(jué),知識(shí)圖譜被證明優(yōu)于向量數(shù)據(jù)庫(kù)。知識(shí)圖譜提供更準(zhǔn)確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺(jué)的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?955次閱讀
    利用知識(shí)<b class='flag-5'>圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

    知識(shí)圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語(yǔ)言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以傳統(tǒng)符號(hào)派與目前流行的深度神經(jīng)網(wǎng)路為主,如下圖所示,知識(shí)圖譜
    的頭像 發(fā)表于 01-08 10:57 ?722次閱讀
    知識(shí)<b class='flag-5'>圖譜</b>基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

    小米汽車(chē)技術(shù)發(fā)布會(huì) 小米將持續(xù)投入電機(jī)研發(fā)力爭(zhēng)成為行業(yè)領(lǐng)導(dǎo)者

    小米汽車(chē)技術(shù)發(fā)布會(huì) 小米將持續(xù)投入電機(jī)研發(fā)成為行業(yè)領(lǐng)導(dǎo)者 小米汽車(chē)技術(shù)發(fā)布會(huì)正在緊張進(jìn)行中,雷軍在發(fā)布會(huì)上放言,小米將持續(xù)投入電機(jī)研發(fā)成為
    的頭像 發(fā)表于 12-28 14:31 ?627次閱讀
    <b class='flag-5'>小米</b>汽車(chē)技術(shù)發(fā)布會(huì) <b class='flag-5'>小米</b>將持續(xù)投入電機(jī)研發(fā)力爭(zhēng)成為<b class='flag-5'>行業(yè)</b>領(lǐng)導(dǎo)者

    中軟國(guó)際成功上榜信通院《數(shù)據(jù)治理產(chǎn)業(yè)圖譜2.0》,全面滿(mǎn)足數(shù)據(jù)治理全鏈路需求

    再次入選產(chǎn)業(yè)圖譜。 · 中軟國(guó)際成功上榜三大板塊 · · 數(shù)據(jù)治理產(chǎn)品——數(shù)據(jù)管理一體化平臺(tái) ·?數(shù)據(jù)治理服務(wù)商——咨詢(xún)實(shí)施綜合類(lèi)服務(wù) ·?行業(yè)數(shù)據(jù)治理廠商——交通行業(yè) 中軟國(guó)際數(shù)據(jù)治理能力覆蓋
    的頭像 發(fā)表于 12-25 19:00 ?1183次閱讀
    中軟國(guó)際成功上榜信通院《數(shù)據(jù)治理產(chǎn)業(yè)<b class='flag-5'>圖譜</b>2.0》,全面滿(mǎn)足數(shù)據(jù)治理全鏈路需求

    見(jiàn)合八方SOA產(chǎn)品圖譜介紹

    電子發(fā)燒友網(wǎng)站提供《見(jiàn)合八方SOA產(chǎn)品圖譜介紹》資料免費(fèi)下載
    發(fā)表于 12-19 16:13 ?0次下載

    智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜

    智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)
    發(fā)表于 12-11 17:36 ?1次下載

    迅為全國(guó)產(chǎn)3A5000_7A2000核心板在行業(yè)中的應(yīng)用

    迅為全國(guó)產(chǎn)3A5000_7A2000核心板在行業(yè)中的應(yīng)用
    的頭像 發(fā)表于 11-23 15:39 ?351次閱讀
    迅為全國(guó)產(chǎn)3A5000_7A2000核心板<b class='flag-5'>在行業(yè)</b>中的應(yīng)用

    知識(shí)圖譜與大模型結(jié)合方法概述

    本文作者 |? 黃巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》總結(jié)了大語(yǔ)言模型和知識(shí)圖譜融合的三種路線:1
    的頭像 發(fā)表于 10-29 15:50 ?849次閱讀
    知識(shí)<b class='flag-5'>圖譜</b>與大模型結(jié)合方法概述

    證通電子多款行業(yè)終端通過(guò)3.2版本兼容性測(cè)評(píng),展示OpenHarmony行業(yè)創(chuàng)新新應(yīng)用

    Release版本兼容性測(cè)評(píng),獲頒OpenHarmony生態(tài)產(chǎn)品兼容性證書(shū)。體現(xiàn)了證通電子OpenHarmony生態(tài)建設(shè)能力和在新興行業(yè)領(lǐng)域的技術(shù)創(chuàng)新實(shí)力。標(biāo)志著OpenHarmony生態(tài)在行業(yè)創(chuàng)新上取得了
    發(fā)表于 09-28 09:58