售前電話
135-3656-7657
售前電話 : 135-3656-7657
1 任務(wù)1.1 任務(wù)定義
wer,中文名稱是社區(qū)問答。是利用半結(jié)構(gòu)化的數(shù)據(jù)(問答對(duì)形式)來回答用戶的提問,其流程通常可以分為三部分。
問題解析,對(duì)用戶輸入的問題進(jìn)行分詞,糾錯(cuò)等預(yù)處理步驟。召回部分,利用信息檢索引擎如等根據(jù)處理后的問題提取可能的候選問題。排序部分,利用信息檢索模型對(duì)召回的候選問題進(jìn)行相似度排序,尋找到最相似的問題并返回給用戶。1.2 任務(wù)分類
通常,根據(jù)應(yīng)用場景的不同,可以將CQA任務(wù)分為兩類:
1.3 評(píng)測標(biāo)準(zhǔn)1.4 數(shù)據(jù)集
由于工業(yè)界的數(shù)據(jù)集通常來自其自身業(yè)務(wù)的記錄,并不對(duì)外公開,故以下只舉例介紹相關(guān)比賽中出現(xiàn)的數(shù)據(jù)集:
“技術(shù)需求”與“技術(shù)成果”項(xiàng)目之間關(guān)聯(lián)度計(jì)算模型(需求與成果匹配)平安醫(yī)療科技疾病問答遷移學(xué)習(xí)比賽(疾病問句匹配)
相似案例匹配大賽(法律文書匹配)智能客服問題相似度算法設(shè)計(jì)——第三屆魔鏡杯大賽CCKS 2018 微眾銀行智能客服問句匹配大賽AFQMC 螞蟻金融語義相似度OPPO手機(jī)搜索排序query-title語義匹配數(shù)據(jù)集醫(yī)療問題相似度衡量競賽數(shù)據(jù)集2 方法及模型2.1 無監(jiān)督方法2.1.1 規(guī)則匹配
目前,流行的問答系統(tǒng)中依舊大量應(yīng)用著規(guī)則匹配的方法?;谝?guī)則的方法擁有可解釋性強(qiáng),易于控制,效率高,易于實(shí)現(xiàn),不需要標(biāo)注數(shù)據(jù)等優(yōu)勢。針對(duì)FAQ庫中的標(biāo)問和相似問進(jìn)行分詞、應(yīng)用正則表達(dá)式等方法提煉出大量的概念,并將這些概念進(jìn)行組合,構(gòu)成大量的句式,句式再進(jìn)行組合形成標(biāo)問。
在基于規(guī)則的匹配中, 如何進(jìn)行規(guī)則的自動(dòng)發(fā)現(xiàn)與更新、檢驗(yàn)與評(píng)估是最關(guān)鍵的問題。究其原因, 由人工維護(hù)的產(chǎn)生式規(guī)則需要高水平的、具備豐富的領(lǐng)域知識(shí)的專家.在問答系統(tǒng)所應(yīng)用的領(lǐng)域較為狹窄時(shí), 這有可能得到滿足。然而, 隨著問答系統(tǒng)涉及知識(shí)的廣度和深度不斷提高, 依賴于專家知識(shí)對(duì)管理規(guī)則的難度也大為提高。
2.1.2 無監(jiān)督文本表示
在缺少標(biāo)記數(shù)據(jù)的場景,我們可以利用算法對(duì)文本本身進(jìn)行表示,再利用常用的向量距離計(jì)算方法(如余弦距離,歐式距離等)進(jìn)行相似性度量。常見的無監(jiān)督文本表示方法主要可以分為兩種,一種是基于詞頻信息的方法,一種是基于詞向量的方法。
選擇單詞數(shù)N服從泊松分布,N~(β)。文檔θ服從狄利克雷分布,θ~Dir(α)。對(duì)于文檔內(nèi)N個(gè)單詞中的每個(gè)單詞 a. 選擇一個(gè)主題z,服從多項(xiàng)分布Mult(θ) b. 以概率p(w|z,β)生成單詞w,其中p(w|z,β)表示在主題z上的條件多項(xiàng)式概率。
2.1.3 用于跨領(lǐng)域遷移學(xué)習(xí)方法
2.2 有監(jiān)督匹配算法2.2.2 問題意圖分類--深度學(xué)習(xí)多分類模型(CNN\DNN\LSTM\…)
2.2.2深度文本匹配模型
一般來說,深度文本匹配模型分為兩種類型,表示型和交互型。
表示型模型
表示型模型更側(cè)重對(duì)表示層的構(gòu)建,它首先將兩個(gè)文本表示成固定長度的向量,之后計(jì)算兩個(gè)文本向量的距離來衡量其相似度。這種模型的問題是沒有考慮到兩個(gè)句子詞級(jí)別的關(guān)聯(lián)性。容易失去語義焦點(diǎn)。
模型DSSM 模型 Bert交互型模型
交互型模型認(rèn)為全局的匹配度依賴于局部的匹配度,在輸入層就進(jìn)行詞語間的先匹配醫(yī)療問答系統(tǒng),之后利用單詞級(jí)別的匹配結(jié)果進(jìn)行全局的匹配。它的優(yōu)勢是可以很好的把握語義焦點(diǎn),對(duì)上下文重要性合理建模。由于模型效果顯著,業(yè)界都在逐漸嘗試交互型的方法。
模型ESIM ( LSTM)2.3 FAQ發(fā)現(xiàn)與優(yōu)化FAQ發(fā)現(xiàn)
將用戶問句進(jìn)行聚類,對(duì)比已有的FAQ,發(fā)現(xiàn)并補(bǔ)足未覆蓋的知識(shí)點(diǎn)。將FAQ與知識(shí)點(diǎn)一一對(duì)應(yīng)。
FAQ拆分是當(dāng)一個(gè)FAQ里包含多個(gè)意圖或者說多種情況的時(shí)候,YiBot后臺(tái)會(huì)自動(dòng)分析觸達(dá)率較高的FAQ,聚類FAQ對(duì)應(yīng)的問句,按照意圖將其拆分開來。
最終希望希望用戶的每一個(gè)意圖能對(duì)應(yīng)到唯一的FAQ,這樣用戶每次提問的時(shí)候醫(yī)療問答系統(tǒng),系統(tǒng)就可以根據(jù)這個(gè)意圖對(duì)應(yīng)的FAQ直接給出答案。而如果兩個(gè)FAQ意思過于相近,那么當(dāng)用戶問到相關(guān)問題時(shí),就不會(huì)出現(xiàn)一個(gè)直接的回答,而是兩個(gè)意圖相關(guān)的推薦問題,這樣用戶就要再進(jìn)行一步選擇操作。這時(shí)候YiBot就會(huì)在后臺(tái)同樣是分析觸達(dá)率較高的FAQ,分析哪一些問句總是被推薦相同的答案,將問句對(duì)應(yīng)的意圖合并。
分析歷史日志,采用淘汰機(jī)制淘汰廢棄知識(shí)點(diǎn),如已下線業(yè)務(wù)知識(shí)點(diǎn)等。
FAQ答案優(yōu)化
如果機(jī)器人已經(jīng)正確識(shí)別意圖但最后仍然轉(zhuǎn)人工,說明知識(shí)庫的答案不對(duì),需要進(jìn)一步修正這一類知識(shí)點(diǎn)相對(duì)應(yīng)的答案。
比如在電商場景中,經(jīng)常會(huì)有查詢發(fā)貨到貨時(shí)間、訂單狀態(tài)等的場景。利用圖示指引、具體訂單處理等方式讓用戶操作更便捷。
3 產(chǎn)品案例產(chǎn)品1百度AnyQ-- Your
產(chǎn)品2:騰訊知文--結(jié)構(gòu)化FAQ問答引擎
基于結(jié)構(gòu)化的FAQ的問答引擎流程由兩條技術(shù)路線來解決
采用了三個(gè)層次的方法來實(shí)現(xiàn)快速檢索的方法
產(chǎn)品3:阿里小蜜
產(chǎn)品鏈接
意圖與匹配分層的技術(shù)架構(gòu)體系