售前電話
135-3656-7657
售前電話 : 135-3656-7657
近年來,在互聯(lián)網(wǎng)技術(shù)和政策、疫情等大環(huán)境的推動下,在線問診需求正高速增長,自然語言處理(NLP)技術(shù)在該領(lǐng)域的研究成果和應(yīng)用落地也越來越多。雖然,智能問診已經(jīng)能夠?qū)崿F(xiàn)預(yù)診斷,但很多時候系統(tǒng)給出的診斷結(jié)果與現(xiàn)實情況大相徑庭。舉例來說,當(dāng)我們能準(zhǔn)確地給出“體溫38.5度、有點(diǎn)發(fā)熱、四肢無力”等癥狀時,系統(tǒng)會比較容易根據(jù)提供的信息進(jìn)行詢問,給出如感冒、病毒感染等相對精準(zhǔn)基礎(chǔ)診斷;但如果給出諸如“疲勞”,甚至“累”“沒勁”“胸痛”等含糊不清的主訴,智能診斷系統(tǒng)可能就無能為力了。
這是因為,目前計算機(jī)在文本理解的精度和深度上和人類仍然有很大的差距,特別是在醫(yī)學(xué)領(lǐng)域,不僅要求計算機(jī)學(xué)會龐大的專業(yè)術(shù)語,形成知識圖譜;更要能讀懂沒有專業(yè)知識的患者對于癥狀的模糊主訴,并將其與專業(yè)術(shù)語做關(guān)聯(lián)。
在此過程中,研究人員除了要給算法“投喂”龐大的專業(yè)語料和日常知識,提升算法能力,加強(qiáng)AI對真實世界的理解,還需要用更好的策略,選擇合適的模型,優(yōu)化醫(yī)療NLP領(lǐng)域目前面臨的問題,而這也是第二十屆中國計算語言學(xué)大會(下稱)智能醫(yī)療對話診療評測——“智能化醫(yī)療診斷賽道”要解決的主要難點(diǎn)。
在此賽道中,騰訊天衍實驗室團(tuán)隊提交的方案憑借較高的疾病預(yù)測準(zhǔn)確率和癥狀召回率,成功獲得該賽道第一名,下面我們來看看這套方案是如何進(jìn)行算法思考和模型選擇的。
任務(wù)難點(diǎn):讓算法迅速讀懂“患者”
“智能化醫(yī)療診斷”賽道的任務(wù)是:需要選手開發(fā)一個模擬實際問診過程的可交互程序,用程序與擁有超過2000組醫(yī)患對話樣本的病人模擬器“過招”:首先,要與主辦方提供的模型交手,判斷出“患者”的初始癥狀;然后ai預(yù)問診,還要根據(jù)這些信息,輸出能夠進(jìn)一步獲取有效信息的問題,對“患者”?進(jìn)行接下來的癥狀詢問;最終,在不超過11次的交互過程中,識別出“患者”的疾病和癥狀。比賽結(jié)果也是以診斷準(zhǔn)確率和癥狀召回率來確定。
其中的難點(diǎn)是,2000組的對話樣本,每個都包含著大量數(shù)據(jù)信息:疾病類別、病人自訴文本、直接信息(病人自訴中明確提及的實體信息、癥狀),甚至隱藏信息(需要結(jié)合整段醫(yī)患對話得到實體及標(biāo)簽,判斷患者是否已經(jīng)有該癥狀)。并且,與現(xiàn)實世界病人一樣,機(jī)器“患者”不會一次性把癥狀表述清楚,比如出現(xiàn)一種癥狀多種描述等主訴表達(dá)。
選手開發(fā)的算法和對應(yīng)算法選擇的模型,不僅要能“讀懂”被“模糊描述”的癥狀,并迅速將癥狀分類;還要根據(jù)當(dāng)前詢問到的病人信息,準(zhǔn)確判斷出“患者”還可能具備什么癥狀,以便在有限的問診交互環(huán)節(jié)中ai預(yù)問診,增加“患者”有效信息輸出,從而最大可能提升疾病診斷準(zhǔn)確率以及癥狀召回率。
因此,該任務(wù)不僅考驗算法能力,更同時考驗算法和模型的搭配策略,以提升程序問診的準(zhǔn)確性和效率。
方案對策:更高效的算法+更合適的模型?提升推理速度
為了讓AI更加理解“患者”信息,騰訊天衍實驗室利用搜索、問答、預(yù)訓(xùn)練、分類等多項NLP、機(jī)器學(xué)習(xí)技術(shù),進(jìn)行程序開發(fā),整體方案分為癥狀問詢、疾病預(yù)測兩大版塊,每個版塊都采用相同模型預(yù)測方案,同時,每個版塊細(xì)分為三個部分:基于檢索查詢歷史病例、基于自然語言的癥狀/疾病預(yù)測、基于癥狀的癥狀/疾病預(yù)測(如圖所示)。這三個部分在同一個交互周期內(nèi)會同時運(yùn)行,并通過加權(quán)算法進(jìn)行“校準(zhǔn)”,來得到需要繼續(xù)問詢的癥狀或者輸出診斷的疾病。
癥狀問詢預(yù)測框架圖
基于檢索查詢歷史病例部分,利用了精準(zhǔn)搜索、模糊搜索,以及貝葉斯推理等技術(shù),用來查找算法數(shù)據(jù)庫中的相似病例,這樣做的好處是,不僅能將主訴癥狀的模糊表述和精準(zhǔn)表述相結(jié)合,以拓寬對于主訴癥狀和疾病的檢索范圍,還能更高效地對癥狀進(jìn)行預(yù)測。
基于自然語言的疾病預(yù)測,是將癥狀列表轉(zhuǎn)化為自然語言后,利用預(yù)訓(xùn)練語言模型預(yù)測查詢癥狀概率分布。值得注意的是,此部分選手們采用的模型是天衍實驗室自有的大規(guī)模醫(yī)療預(yù)訓(xùn)練語言模型,它是基于大規(guī)模的醫(yī)療在線文本由繼續(xù)訓(xùn)練得到的,不僅能更好適配醫(yī)療領(lǐng)域內(nèi)的語言學(xué)習(xí),還在多項醫(yī)療標(biāo)準(zhǔn)數(shù)據(jù)集上取得了SOTA。相比通用預(yù)訓(xùn)練模型來說,更能勝任醫(yī)療相關(guān)的任務(wù)執(zhí)行。