久久精品视,97资源共享在线视频,免费播看高清大片免播放器,国产精品福利一区

返回欄目

智慧醫(yī)院 > 新聞資訊 >

【醫(yī)護(hù)緊急對(duì)講系統(tǒng)廠家】語(yǔ)音合成的應(yīng)用系統(tǒng)設(shè)計(jì)

2023-10-21 09:43

隨著計(jì)算機(jī)運(yùn)算速度越來(lái)越快，人工智能領(lǐng)域的研究獲得了飛速發(fā)展，而人工智能領(lǐng)域的最新研究成果向語(yǔ)音研究中的大量滲透，促使語(yǔ)音處理技術(shù)及語(yǔ)音合成的研究產(chǎn)生了一個(gè)突破性的飛躍。語(yǔ)音合成系統(tǒng)也越來(lái)越產(chǎn)品化，并具有巨大的市場(chǎng)前景。

　　合成語(yǔ)音是通過(guò)一個(gè)聲學(xué)模塊來(lái)具體實(shí)現(xiàn)的。早期的語(yǔ)音合成技術(shù)的研究，往往集中在語(yǔ)音合成算法本身，其研究的方法和手段與語(yǔ)音編碼有很多相似之處。其聲學(xué)模型的構(gòu)筑，，也多通過(guò)模擬人的口腔的聲道特性來(lái)產(chǎn)生。其中比較著名的有Klatt的共振峰(Formant)合成系統(tǒng)，后來(lái)又產(chǎn)生了基于LPC、LSP和LMA等聲學(xué)參數(shù)的合成系統(tǒng)。這些方法用來(lái)建立聲學(xué)模型的過(guò)程為：首先錄制聲音，這些聲音涵蓋了人發(fā)音過(guò)程中所有可能出現(xiàn)的讀音；提取出這些聲音的聲學(xué)參數(shù)，并整合成一個(gè)完整的音庫(kù)。在發(fā)音過(guò)程中，首先根據(jù)需要發(fā)的音，從音庫(kù)中選擇合適的聲學(xué)參數(shù)，然后根據(jù)韻律模型中得到的韻律參數(shù)，通過(guò)合成算法產(chǎn)生語(yǔ)音。

　　進(jìn)入20世紀(jì)90年代以來(lái)，波形拼接(PSOLA)的算法，越來(lái)越被廣泛地應(yīng)用在語(yǔ)音合成系統(tǒng)中。國(guó)內(nèi)外的許多跨國(guó)公司和研究機(jī)構(gòu)均投入了大量的人力和物力從事語(yǔ)音技術(shù)的開(kāi)發(fā)，如L&H、IBM、Microsoft、Lucent、Motorola等。清華大學(xué)計(jì)算機(jī)系在漢語(yǔ)語(yǔ)音合成的研究和開(kāi)發(fā)中，也突破性地運(yùn)用了人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、隱馬爾可夫模型等方法。這些方法的運(yùn)用，徹底改變了漢語(yǔ)語(yǔ)音合成研究的研究重點(diǎn)，使?jié)h語(yǔ)語(yǔ)音合成的研究突破了早期重點(diǎn)對(duì)單純算法的研究，而變成一個(gè)系統(tǒng)工程的研究。目前我國(guó)語(yǔ)音合成的整體研究和開(kāi)發(fā)，邁上了一個(gè)全新的臺(tái)階，并處在了國(guó)際最先進(jìn)的行列。

　　一、 SinoSonic語(yǔ)音合成系統(tǒng)

　　SinoSonic是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系和北京炎黃新星網(wǎng)絡(luò)科技有限公司共同推出的漢語(yǔ)語(yǔ)音合成系統(tǒng)。

　　它采用目前世界最先進(jìn)的數(shù)據(jù)驅(qū)動(dòng)技術(shù)，利用精心設(shè)計(jì)的語(yǔ)音語(yǔ)料庫(kù)對(duì)TTS系統(tǒng)進(jìn)行訓(xùn)練，所得到的系統(tǒng)體現(xiàn)了連續(xù)、自然的語(yǔ)言特性，從而使系統(tǒng)發(fā)音自然、親切。整個(gè)系統(tǒng)的核心技術(shù)包括：基于神經(jīng)網(wǎng)絡(luò)的韻律模型、基于HMM的語(yǔ)音切分和選取模型、基于HMM的多語(yǔ)種文本分析和語(yǔ)義分析、漢語(yǔ)語(yǔ)料庫(kù)設(shè)計(jì)和標(biāo)注、語(yǔ)音分析工具的研制等。

　　該系統(tǒng)的構(gòu)成分為：用戶編程接口以及TTS內(nèi)核兩大部分，如圖1所示。其中，內(nèi)核部分又可以按照系統(tǒng)運(yùn)作的不同過(guò)程分為多個(gè)子模塊，包含了訓(xùn)練模塊、文本分析模塊、韻律生成模塊、語(yǔ)音合成模塊以及與語(yǔ)料庫(kù)之間的通信協(xié)議等。同時(shí)，SinoSonic還考慮了不同類(lèi)型用戶對(duì)TTS系統(tǒng)功能的需要，提供了豐富的編程接口。

　　該系統(tǒng)的工作過(guò)程如下：

　　用戶提供文本并調(diào)用TTS系統(tǒng)接口，文本首先被送入系統(tǒng)的文本分析模塊，文本分析模塊首先對(duì)用戶輸入的文本進(jìn)行規(guī)格化處理，然后運(yùn)用統(tǒng)計(jì)模型算法對(duì)其進(jìn)行分詞、分短語(yǔ)、確定發(fā)音、分析標(biāo)點(diǎn)符號(hào)或特殊符號(hào)等處理，同時(shí)，還要確定文本發(fā)音的輕重模式。經(jīng)過(guò)文本分析后得到的參數(shù)，被送入到系統(tǒng)的韻律生成模塊。在韻律模型中，首先通過(guò)統(tǒng)計(jì)模型的方法得到韻律中音節(jié)的音長(zhǎng)和音強(qiáng)參數(shù)，然后通過(guò)優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型來(lái)確定音節(jié)的基頻曲線，并得到音節(jié)停頓模式等信息。將這些信息和參數(shù)傳送到系統(tǒng)的聲學(xué)模塊，系統(tǒng)的聲學(xué)模塊再根據(jù)這些參數(shù)，從音庫(kù)中選擇合適的語(yǔ)音單元，并采用PSOLA的方法生成最終的合成語(yǔ)音。

　　在整個(gè)系統(tǒng)工作的過(guò)程中，用戶可以隨時(shí)通過(guò)系統(tǒng)提供的接口，獲得系統(tǒng)的內(nèi)部狀態(tài)，進(jìn)行合成參數(shù)設(shè)置、隨時(shí)中斷或暫停系統(tǒng)等工作。

　　SinoSonic系統(tǒng)功能和指標(biāo)有：可讀字、詞、句子、文章及標(biāo)點(diǎn)、數(shù)字、運(yùn)算符和英文字母，語(yǔ)音庫(kù)覆蓋國(guó)標(biāo)一、二級(jí)所有漢字；能輸出男聲或女聲；提供豐富的、合理的編程接口，方便用戶進(jìn)行二次開(kāi)發(fā); 語(yǔ)音輸出以句子為單位，按詞匯停頓，能自動(dòng)決定多音字的正確讀音；可隨時(shí)改變聲音的幅度（Volume）、基頻（Pitch）、速度（Duration）、詞間或句間停頓；讀出時(shí)，可隨時(shí)“暫停”、“恢復(fù)”、“終止”語(yǔ)音。

　　二、語(yǔ)音合成系統(tǒng)性能指標(biāo)

　　語(yǔ)音合成系統(tǒng)的基本性能指標(biāo)包括：可懂度、清晰度、自然度、漢字轉(zhuǎn)拼音正確率（分詞正確率）。考慮到實(shí)際應(yīng)用，還有系統(tǒng)的數(shù)字、姓氏、特殊符號(hào)等方面的處理能力、跨平臺(tái)處理能力以及語(yǔ)音合成的速度（指單位時(shí)間內(nèi)，通過(guò)語(yǔ)音合成系統(tǒng)生成語(yǔ)音的音節(jié)數(shù)，或語(yǔ)音合成同時(shí)支持的并發(fā)請(qǐng)求個(gè)數(shù)）等。

　　 SinoSonic除了滿足一般意義上的特性外，還有許多獨(dú)有的性能，如：

（1) 即時(shí)性: TTS技術(shù)實(shí)時(shí)完成文本到語(yǔ)音的轉(zhuǎn)換，它實(shí)現(xiàn)信息的即時(shí)傳送。
（2) 并發(fā)性: TTS技術(shù)與電信網(wǎng)絡(luò)結(jié)合，同時(shí)處理多個(gè)呼叫請(qǐng)求，它實(shí)現(xiàn)信息的并發(fā)傳送。
（3) 適應(yīng)性: TTS系統(tǒng)能在不同操作系統(tǒng)平臺(tái)下運(yùn)行，支持Windows 9x、Windows 2000、Linux和Unix。
（4) 可靠性: 經(jīng)過(guò)長(zhǎng)時(shí)間測(cè)試，SinoSonic系統(tǒng)性能穩(wěn)定可靠。
（5)靈活性:根據(jù)用戶特定需求，SinoSonic系統(tǒng)的輸入、輸出特性和用戶接口極易修改。
（6) 拓展性: 隨著應(yīng)用領(lǐng)域不斷擴(kuò)展，用戶需求不斷提高，阿吖、SinoSonic也可不斷更新拓展。

　　三、語(yǔ)音合成系統(tǒng)的API 設(shè)計(jì)

　　語(yǔ)音合成系統(tǒng)的API，可以考慮不同層次的開(kāi)發(fā)需要。目前國(guó)際上較為流行的方法是面向用戶應(yīng)提供不同層次的用戶接口，即High-Level API或Low-Level API。API分層設(shè)計(jì)的核心思想，是提供語(yǔ)音合成系統(tǒng)以不同層次的開(kāi)發(fā)需要。 High-Level Speech API的目的是使用戶不需要進(jìn)行太多的學(xué)習(xí)，便能夠迅速、簡(jiǎn)便地使用語(yǔ)音合成系統(tǒng)的大部分功能。API簡(jiǎn)潔、明了、功能全面，且在不同的應(yīng)用平臺(tái)保持一致性，適用于一般意義上的語(yǔ)音合成系統(tǒng)應(yīng)用再開(kāi)發(fā)。其提供的基本功能應(yīng)包括：

（1) 系統(tǒng)初始化；
（2) 系統(tǒng)卸載；
（3) 直接將文字轉(zhuǎn)換為語(yǔ)音，并用聲卡或其他聲音播放卡將聲音播放出；
（4) 提供播放、暫停和停止等基本播放功能；
（5) 修改語(yǔ)速、基頻和能量的功能；
（6) 韻律控制符的分析和應(yīng)用；
（7) 可視化功能接口。

　　Low-Level Speech API的目的是使用戶能夠進(jìn)行全面、深入的底層開(kāi)發(fā)，其API接口復(fù)雜，功能小而細(xì)、復(fù)雜、規(guī)模大，可按不同功能集進(jìn)行分類(lèi)，且系統(tǒng)的幾個(gè)不同的組成模塊（如文本分析、韻律、聲學(xué)處理）均可以提供單獨(dú)的接口，能全面滿足語(yǔ)音合成系統(tǒng)現(xiàn)在和將來(lái)應(yīng)用開(kāi)發(fā)的需要。其提供的基本功能應(yīng)包括：

（1) 系統(tǒng)各個(gè)子模塊的初始化；
（2) 系統(tǒng)各個(gè)子模塊的卸載；
（3) 文字分詞、轉(zhuǎn)拼音或詞性標(biāo)注功能；
（4) 用戶詞典維護(hù)接口；
（5) 合成語(yǔ)音特色（包括男、女聲等）；
（6) 韻律控制符的分析和應(yīng)用；
（7) 語(yǔ)速、基頻和能量的控制功能；
（8) 聲音播放卡的控制功能；
（9) 語(yǔ)音合成的流控制功能、內(nèi)存管理功能及消息管理功能；
（10) 用戶自定義文本分析、韻律及合成算法引擎的接口（合成平臺(tái)開(kāi)放性）；
（11) 不同應(yīng)用平臺(tái)的特殊接口；
12) 不同語(yǔ)言的特殊接口；
13) 可視化接口；
14) 聲音同步接口；
15) 出錯(cuò)信息解釋接口。

　　詳細(xì)基本功能集的定義可根據(jù)各單位自己的系統(tǒng)的情況而定，也可以制定統(tǒng)一的標(biāo)準(zhǔn)。接口的設(shè)計(jì)，還應(yīng)考慮語(yǔ)音合成產(chǎn)品除了在提供自身發(fā)音性能的同時(shí)，正向著網(wǎng)絡(luò)化、多語(yǔ)種、多合成引擎的方向發(fā)展。同時(shí)，接口還應(yīng)該可慮方便用戶自定義發(fā)音風(fēng)格、系統(tǒng)可訓(xùn)練的實(shí)際應(yīng)用需要。

　　四、新華音霸

　　新華音霸是清華大學(xué)、炎黃新星和新華世紀(jì)聯(lián)合推出的PC屏幕閱讀軟件。它可以朗讀計(jì)算機(jī)屏幕中任意出現(xiàn)的文字，增加了人機(jī)交互的友好性，同時(shí)它還采用了清華大學(xué)最新研制的虛擬頭像技術(shù)，配合聲音進(jìn)行同步播放，極大地提高了軟件的趣味性。

　　五、語(yǔ)音網(wǎng)關(guān)

　　運(yùn)用語(yǔ)音合成技術(shù)，而構(gòu)筑的語(yǔ)音網(wǎng)關(guān)，在很大程度上改變了傳統(tǒng)IVR運(yùn)作模式，為電信網(wǎng)統(tǒng)一消息平臺(tái)、呼叫中心（Call Center）注入了全新的活力。它可以為用戶實(shí)時(shí)提供，諸如E-mail、新聞、信息查詢(xún)等信息，并為用戶用清晰自然的語(yǔ)音朗讀出來(lái)。目前，清華大學(xué)和炎黃新星共同推出的語(yǔ)音網(wǎng)關(guān)技術(shù)，在國(guó)內(nèi)具有相當(dāng)?shù)膬?yōu)勢(shì)，并在移動(dòng)夢(mèng)網(wǎng)、168平臺(tái)改造等重大項(xiàng)目中，得到了非常成功的應(yīng)用。

　　六、總結(jié)

　　目前就語(yǔ)音合成系統(tǒng)的系統(tǒng)構(gòu)架來(lái)說(shuō)，它正朝著多語(yǔ)種、網(wǎng)絡(luò)化和分布式運(yùn)算的方向發(fā)展，其關(guān)鍵的技術(shù)牽涉的領(lǐng)域也越來(lái)越多。目前，國(guó)際上許多大的公司和科研機(jī)構(gòu)，如Motorola、Lucent、IBM等均參與了一種新的XML的一個(gè)擴(kuò)展子集VoiceXML的制定。VoiceXML的出現(xiàn)，將會(huì)極大地改變?nèi)藱C(jī)交互的通信模式。在分布式運(yùn)算結(jié)構(gòu)中，將會(huì)要求系統(tǒng)的設(shè)計(jì)更為模塊化，并且對(duì)模塊之間的并行和協(xié)調(diào)工作提出了更高的要求?，F(xiàn)有的語(yǔ)音合成系統(tǒng)研究水平，從一定程度上使系統(tǒng)走向了產(chǎn)品化，其音質(zhì)和發(fā)音效果也被普通人所接受。然而，從另一個(gè)角度來(lái)說(shuō)，人的發(fā)音各有特色，發(fā)音的習(xí)慣也不盡相同。能完全像真人一樣體現(xiàn)人的說(shuō)話語(yǔ)氣、概念，能體現(xiàn)不同的情感，并能模擬不同人發(fā)音特色的語(yǔ)音合成系統(tǒng)的出現(xiàn)，還需要我們投入更大的精力去開(kāi)拓。下一代的語(yǔ)音合成系統(tǒng)將不再稱(chēng)為“文字到語(yǔ)音轉(zhuǎn)換系統(tǒng)”，而是會(huì)被稱(chēng)做“概念到語(yǔ)音轉(zhuǎn)換系統(tǒng)（CTS系統(tǒng)）”。

上一篇：【醫(yī)院排隊(duì)分診叫號(hào)系統(tǒng)廠家】國(guó)外煤礦廣播通信系統(tǒng)(如何提高礦工通信效率？); 返回
下一篇：【醫(yī)護(hù)呼叫器系統(tǒng)廠家】煤礦網(wǎng)絡(luò)廣播對(duì)講系統(tǒng)(如何保障煤礦安全通訊)

全國(guó)熱線

400-6333-661

售前電話

135-3656-7657

全國(guó)熱線 : 400-6333-661

售前電話 : 135-3656-7657

總部地址

廣東省珠海市香洲區(qū)金鼎工業(yè)園金恒一路9號(hào)1棟

熱推信息 | 企業(yè)分站

網(wǎng)站地圖 | RSS | TAG標(biāo)簽

微信客服
瀏覽更多產(chǎn)品 >