文本相似度計(jì)算旨在識(shí)別兩段文本在語(yǔ)義上是否相似,是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究方向,其在智能問(wèn)答、信息檢索等領(lǐng)域都發(fā)揮重要作用,具有很高的商業(yè)價(jià)值。
近期,思必馳知識(shí)服務(wù)團(tuán)隊(duì)在中文文本相似度計(jì)算方向投入研究,并取得階段性成果:
1)在第十四屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS: China Conference on Knowledge Graph and Semantic Computing)[1]上發(fā)表相關(guān)論文一篇《Neural Fusion Model for Chinese Semantic Matching》。
該會(huì)議是國(guó)內(nèi)知識(shí)圖譜、語(yǔ)義技術(shù)、鏈接數(shù)據(jù)等領(lǐng)域的核心學(xué)術(shù)會(huì)議,聚集了知識(shí)表示、自然語(yǔ)言理解、知識(shí)獲取、智能問(wèn)答、鏈接數(shù)據(jù)、圖數(shù)據(jù)庫(kù)、圖計(jì)算、自動(dòng)推理等相關(guān)技術(shù)領(lǐng)域的和研究人員的學(xué)者和研究人員。
2)在“千言數(shù)據(jù)集:文本相似度”評(píng)測(cè)[2]中取得階段性進(jìn)展。該評(píng)測(cè)的文本相似度數(shù)據(jù)集包括公開(kāi)的三個(gè)文本相似度數(shù)據(jù)集,分別為哈工大(深圳) LCQMC 、 BQ Corpus和谷歌的 PAWS-X(中文)。目前,思必馳知識(shí)服務(wù)團(tuán)隊(duì)在三個(gè)數(shù)據(jù)集上均暫列第一。
針對(duì)中文文本相似度計(jì)算的魯棒性和泛化性問(wèn)題,思必馳知識(shí)服務(wù)團(tuán)隊(duì)在以下幾個(gè)方面開(kāi)展了技術(shù)研究: 1)針對(duì)中文特點(diǎn)的字、詞融合編碼器; 2)基于預(yù)訓(xùn)練模型的領(lǐng)域自適應(yīng)訓(xùn)練; 3)目標(biāo)應(yīng)用領(lǐng)域?qū)虻亩嚯A段模型微調(diào)。 相關(guān)技術(shù)實(shí)現(xiàn)在上述公開(kāi)評(píng)測(cè)中得到了應(yīng)用和驗(yàn)證。 語(yǔ)言智能常被稱為人工智能皇冠上的一顆明珠。在未來(lái),思必馳知識(shí)服務(wù)團(tuán)隊(duì)將繼續(xù)深耕認(rèn)知智能領(lǐng)域,在面向通用領(lǐng)域的文本相似度計(jì)算基礎(chǔ)上,打造領(lǐng)域自適應(yīng)的文本相似度計(jì)算系統(tǒng),推動(dòng)文本相似度在垂直領(lǐng)域的應(yīng)用和發(fā)展。
原文標(biāo)題:【會(huì)員風(fēng)采】思必馳在中文文本相似度計(jì)算任務(wù)上的探索與進(jìn)展
文章出處:【微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
人工智能
+關(guān)注
關(guān)注
1789文章
46663瀏覽量
237099 -
思必馳
+關(guān)注
關(guān)注
4文章
276瀏覽量
14265
原文標(biāo)題:【會(huì)員風(fēng)采】思必馳在中文文本相似度計(jì)算任務(wù)上的探索與進(jìn)展
文章出處:【微信號(hào):qidianxiehui,微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論