售前電話
135-3656-7657
售前電話 : 135-3656-7657
【摘要】:眾所周知,新冠肺炎在全球傳播。由于其傳染性強(qiáng),全球新冠肺炎感染人數(shù)與日俱增。目前普通民眾學(xué)習(xí)新冠肺炎知識的興趣越來越濃,特別是對癥狀和治療方面知識的需求越來越高,如期望通過智能問答、在線輔助咨詢等方式自學(xué)新冠肺炎醫(yī)學(xué)知識。新冠肺炎知識圖譜構(gòu)建以一些開放的醫(yī)療公共領(lǐng)域知識圖譜為基礎(chǔ),把百科網(wǎng)站中與新冠肺炎相關(guān)的詞條作為知識的主要數(shù)據(jù)來源智能醫(yī)療問答系統(tǒng),并將衛(wèi)計委官方網(wǎng)站上的《新型冠狀病毒肺炎診療方案》和《新型冠狀病毒肺炎流行病學(xué)知識110問》作為補(bǔ)充,形成新冠肺炎知識圖譜。為了保證知識融合的有效性,對多源數(shù)據(jù)的知識獲取后,采用規(guī)則和實體對齊方法構(gòu)建一套醫(yī)療同義實體庫,并以此為基礎(chǔ)通過實體映射技術(shù)對多源知識庫進(jìn)行融合。新冠肺炎知識圖譜的實體內(nèi)容比較復(fù)雜且關(guān)聯(lián)數(shù)據(jù)量較大,宜選用Neo4j圖數(shù)據(jù)庫進(jìn)行存儲。采用Neo4j圖數(shù)據(jù)庫還可以將實體和關(guān)系以關(guān)聯(lián)網(wǎng)絡(luò)的形式進(jìn)行可視化展示。以新冠肺炎知識圖譜為數(shù)據(jù)源智能醫(yī)療問答系統(tǒng),采用語言進(jìn)行開發(fā)設(shè)計智能問答系統(tǒng)。系統(tǒng)設(shè)計流程及相關(guān)技術(shù)如下:針對常見的新冠肺炎問題輸入系統(tǒng)后,系統(tǒng)首先使用雙向最大匹配算法對問題進(jìn)行分詞,根據(jù)分詞結(jié)果提取關(guān)鍵詞,劃分問句類型,用以后期匹配不同類別的查詢模板;然后利用基于BERT-Bi LSTM-CRF模型來識別醫(yī)療實體,并采用LTP-工具對問句作依存句法分析,得到句中各詞語與實體的關(guān)系,進(jìn)而生成問題三元組;再將問題三元組與對應(yīng)類別的查詢模板進(jìn)行匹配,生成的查詢語句,通過在知識圖譜內(nèi)執(zhí)行查詢得到答案三元組;最后根據(jù)不同類別的答案三元組,系統(tǒng)會按漢語語法規(guī)則對其語義進(jìn)行優(yōu)化后得到一個通俗易懂的自然語言答案反饋給用戶。
本文主要研究內(nèi)容及創(chuàng)新點有:(1)新冠肺炎知識圖譜智能問答系統(tǒng)的構(gòu)建。為了能夠提供實時的新冠肺炎咨詢服務(wù),本研究以百科網(wǎng)站作為主要知識來源,并以衛(wèi)計委官方網(wǎng)站上的《新型冠狀病毒肺炎診療方案》和《新型冠狀病毒肺炎流行病學(xué)知識110問》作為補(bǔ)充,形成新冠肺炎知識圖譜。并利用中文分詞、命名實體識別、依存句法分析和Neo4j圖數(shù)據(jù)庫等關(guān)鍵技術(shù),針對新冠肺炎癥狀、檢查以及治療等常見問題,采用語言開發(fā),初步實現(xiàn)了基于新冠肺炎知識圖譜的智能問答系統(tǒng)。(2)中文常見醫(yī)療問題命名實體識別研究。鑒于目前缺少中文常見醫(yī)療問題領(lǐng)域的標(biāo)注語料,本研究采用人工方式構(gòu)建標(biāo)注語料庫,為醫(yī)療領(lǐng)域知識圖譜智能問答系統(tǒng)奠定基礎(chǔ)。命名實體識別采用BERT-Bi LSTM-CRF模型,該模型通過引入BERT可提取文本全局特征和局部特征從而生成表義更加豐富的字向量,同時還具備了Bi LSTM網(wǎng)絡(luò)捕獲上下文語義信息和CRF標(biāo)注偏置糾錯的能力。實驗結(jié)果表明,BERT-Bi LSTM-CRF模型的醫(yī)療實體識別效果遠(yuǎn)高于傳統(tǒng)的Bi LSTM-CRF模型;BERT-Bi LSTM-CRF模型在基于BIOE標(biāo)注方案下實體識別效果較好,P值(準(zhǔn)確率)、R值(召回率)和F1值(F1-score)分別達(dá)到了98%、97%和97%。