人機對話技術近年來受到了學術界和產業(yè)界的廣泛關注,其發(fā)展影響并推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展。眾多產業(yè)界巨頭相繼推出了人機對話技術相關產品,并將人機對話技術作為其公司的重點研發(fā)方向。
8月3日,第七屆全國社會媒體處理大會技術評測SMP2018在哈爾濱舉行,會上公布中文人機對話技術評測SMP2018-ECDT結果,深思考人工智能(iDeepWise.AI)包攬2任務一、任務二兩項大獎,并獲得中文語義理解與多輪人機交互全國第一名,蟬聯(lián)2017、2018兩屆全國冠軍。
中文人機對話技術評測(ECDT)由中國中文信息學會主辦,旨在評測目前中文語義理解與人機交互的水平。本屆中文人機對話技術評測(SMP-ECDT)聚焦于用戶意圖的識別和響應問題,分別開展用戶意圖領域分類(任務一)和特定領域任務型人機對話在線評測(任務二)。
會上,深思考人工智能首席機器學習科學家王泳博士分享了深思考人工智能SMP2018特定域任務型人機對話(任務二)在線評測技術報告。報告介紹了深思考人工智能團隊針對SMP2018特定域任務型人機對話評測任務所研發(fā)的系統(tǒng)及系統(tǒng)的技術實現(xiàn)細節(jié)。
王泳博士
王泳博士介紹,本屆中文人機對話技術評測(ECDT)的任務二是特定域任務型人機對話在線評測任務,評測任務的特定領域包括:機票類、火車票類、酒店類3個垂直領域,系統(tǒng)通過與測試人員實時在線對話完成相應的預定或查詢任務,從而滿足測試人員的需求。
相比上一屆,特定域任務型人機對話在線評測任務加入了多意圖識別以及多意圖場景下的預定或查詢任務,其中涉及到意圖的多標簽分類、意圖間關系的推理以及意圖之間屬性特征的推理。為了實現(xiàn)多意圖場景下的多輪人機交互,深思考人工智能團隊重點進行了多意圖場景下的多標簽分類、意圖理解與屬性推理以及對話管理模塊的研究和設計。
以下是王泳博士詳細報告:
1 系統(tǒng)實現(xiàn)
我們首先將工作重心主要放在意圖的層次分類中,將多意圖看做是一個大類,對多意圖進行多標簽分類。其次進行多意圖問句和單意圖問句的屬性抽取以及多意圖的屬性推理。然后在對話管理模塊中通過深度強化學習Deep Reinforcement Learning進行信息和狀態(tài)的處理。最后各個業(yè)務模塊的邏輯處理,從而實現(xiàn)多任務場景下的多輪交互。系統(tǒng)的總體框架圖如圖-1所示:
圖-1人機多輪交互系統(tǒng)總體框架
1.1 輸入預處理
在特定域任務型人機對話在線評測系統(tǒng)中,首先需要對用戶輸入的問句進行糾錯,其次還需要進行分詞、詞性標注,最后進行補全和指代消解。
1.2 意圖分類
在多領域的人機交互系統(tǒng)中,意圖分類是整個系統(tǒng)的核心。當用戶說了一句話時,首先要知道這句話是哪個領域的問題,才能交給這個領域的業(yè)務處理模塊進行處理。因為本次測評加入了多意圖識別,這屬于一個多標簽分類問題,和傳統(tǒng)的意圖分類有很大的差別。
在這里我們采用層次分類的思想,首先利用GRU模型對意圖進行粗粒度劃分,從而劃分出多意圖,然后在多意圖中利用膠囊網絡進行多標簽分類從而識別出多意圖中的子意圖。長短期記憶網絡(LSTM)是一種特殊的RNN類型,通過門控機制使循環(huán)神經網絡不僅能記憶過去的信息,同時還能選擇性地忘記一些不重要的信息而對長期語境等關系進行建模,緩解了RNN的梯度消失問題,而GRU作為LSTM的變體,在保持了LSTM的效果的同時又使結構更加簡單,所以在某些任務上更為流行。首先我們選用了基于GRU模型的領域分類系統(tǒng),并在模型之上加入關鍵詞詞典,在處理人機對話中的短文本上有較好的效果。膠囊網絡[1]是Hitton針對卷積神經網絡的缺陷而提出的,卷積神經網絡的核心在卷積層,它能夠抽取出更高維的特征,但是在抽象過程中沒能夠將低層特征之間的位置關系考慮進去。而膠囊網絡作為一個新的神經網絡框架,它是由膠囊而不是由神經元構成的,其中一個膠囊就是一個向量神經元,它的輸出是一個向量,所以我們利用膠囊網絡實現(xiàn)多標簽分類。
1.3 屬性抽取與推理
屬性抽取也可以稱為序列標注,可以以字為單位進行序列標注,也可以以詞為單位進行序列標注,經過實驗驗證發(fā)現(xiàn),利用字為單位進行序列標注可以取得比較好的效果。我們一個設計了13個待標注標簽,分別是:time、to_address、address、num_day、room_type、hotel_name、quantity、money、seat_type、train_type、berth_type、airline_company、flight_no。其中標注采用的是BIEO。B表示一個待標注標簽的起始字;I表示一個待標注標簽的非起始非末尾字;E表示一個待標注標簽的末尾字;O表示非待標注標簽字,該模塊我們采用Bi-LSTM+CRF[2]進行序列標注,其中Bi-LSTM能夠充分的捕捉上下文特征信息,而CRF中有轉移特征,即它會考慮輸出label之間的順序性。
多意圖問句中會涉及到屬性的推理與共享,其中時間屬性和地點屬性的推理最常見,依存句法分析能夠分析出各個語義角色之間的依存關系,從而可以利用這些依存關系進行屬性間的推理,而意圖間的屬性是否可以共享則根據意圖之間的關系確定。比如:
預訂明天北京去上海的機票,經濟艙,價格五百元左右,再預定第二天返程的火車票,動車二等座。
其中這里面第二個意圖的時間屬性“第二天”需要根據第一個意圖的時間屬性“明天”進行推理。此外第二個意圖的地點屬性也需要根據第一個意圖的地點屬性來進行推理。
1.4 對話管理
在多輪交互時,我們設計了對話管理模塊,該模塊需要識別出本輪意圖已經進行到哪一步,因為用戶有時會跳出該意圖,該模塊可以將跳出的意圖恢復,從而實現(xiàn)多輪交互。并且可以實現(xiàn)多任務的銜接和信息的共享。
對話管理模塊的決策器中采用了深度強化學習Deep Reinforcement Learning中的Deep Q Learning算法來訓練一個最佳上下文決策模型。其中決策過程為一個馬爾可夫決策過程(MDPs),反復在會話中間節(jié)點狀態(tài)S、會話話術行為A、回報R、狀態(tài)S...之間輪換直到一次多輪對話結束,最終獲得最佳回報即能夠正確完成任務的Q network模型,該模型從而可以決策當前的會話由哪個業(yè)務模塊去處理。
1.5 意圖理解及處理
當對話管理模塊將當前會話交給某個領域業(yè)務處理模塊進行處理時,該模塊就需要對這句話中用戶的意圖進行理解。雖然在這些特定的任務型領域,用戶的意圖相對比較確定,但人們的語言卻是無法限定的,所以即使同一個意圖的表達,不同的人、不同的場景、不同的時間,所用的文字話術多少會有些不同。
我們使用了文本匹配模型進行用戶的意圖理解,為了達到良好的匹配效果,所以使用雙邊多角度文本匹配模型Bimpm[3]進行用戶問句與FAQ中話術的匹配(如圖-2)。
圖-2 Bimpm模型框架圖
1.6 業(yè)務領域及邏輯處理
對于每個領域,該領域的業(yè)務邏輯處理模塊需要確定該領域業(yè)務所需的信息點。每個領域的業(yè)務邏輯處理模塊會根據當前會話的意圖理解結果,將抽取解析到的信息,填充或者更新到對應的槽位。并根據當前各槽位的缺失情況進行交互引導,從而完善業(yè)務處理所需信息,進而完成用戶的任務請求。
多輪人機對話的應用
據王泳博士介紹,深思考研發(fā)團隊基于上述技術推出了新一代ideepwise交互機器人,該交互機器人可以在特定領域場景下達到近似于人一樣流暢的交流,其中最為核心的是可以有效識別多意圖問句中的多個子意圖并對子意圖的屬性值進行準確的推理,此外在對話管理模塊中通過深度強化學習Deep Reinforcement Learning進行信息和狀態(tài)的處理,從而實現(xiàn)特定域任務型多輪語義交互。
關于深思考
深思考(iDeepWise.AI)是一家專注于類腦人工智能與深度學習核心科技的AI公司。核心團隊由中科院自動化所、軟件所、計算所、微電子所等中科院院所、清華大學人工智能方向的科學家與領域業(yè)務專家組成。據悉,深思考(iDeepWise.AI)憑借在中文語義理解、自然語言處理領域的十多年的深耕與技術積淀,在意圖理解與分類、機器閱讀理解、人機多輪上下文對話等NLP/NLU領域的技術上取得了一系列的突破,并在智慧醫(yī)療大健康與智慧商業(yè)領域,結合剛需場景深度落地并大規(guī)模應用。
近日,深思考人工智能推出了“多模態(tài)深度語義理解”深思考大腦4.0(iDeepWise.AI.4.0)。深思考CEO兼AI算法科學家楊志明博士表示,深思考在多輪人機交互語義理解方面有突出優(yōu)勢,使得機器人能夠與人多輪人機交互,能夠理解上下文,其中最關鍵的是在人機交互的過程中實現(xiàn)會話意圖的自由切換與準確識別,相較于一般技術僅理解文本、僅理解語音,深思考大腦4.0能夠同時理解文本、語音和視覺圖像背后的深度語義。
-
人工智能
+關注
關注
1789文章
46668瀏覽量
237103 -
人機對話
+關注
關注
0文章
10瀏覽量
9563 -
強化學習
+關注
關注
4文章
265瀏覽量
11197
原文標題:深思考人工智能蟬聯(lián)SMP2018多輪語義對話冠軍,報告解讀多輪人機對話實現(xiàn)過程
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論