售前電話
135-3656-7657
售前電話 : 135-3656-7657
釋放雙眼,帶上耳機,聽聽看~!
00:00
00:00
語音壓縮
數字語音總是源自具有64kbit/s速率的PCM語音流,這將引起一些問題。解決它最簡單的方法是對PCM語音流進行某種形式的壓縮。盡管通常用“語音壓縮”表示這一處理,但是它并不是指壓縮語音本身,而是指壓縮64kbit/s的PCM語音流。今天可將語音壓縮到13khit/s,甚至于8kbit/s??梢酝ㄟ^以下兩種方法實現語音壓縮:第一種,開發(fā)新的芯片組將模擬語音直接轉化成上述速率。第二種方法,把64kbit/s的PCM語音流作為第二階段語音數字化的輸入處理對象,這次數字化的輸出就是較低速率的語音了。第二種方法不要求全新的模數轉化芯片,僅僅是增加一些對64kbit/s速率的PCM語音流進行壓縮的芯片。
注意,語音壓縮本身不能自動產生突發(fā)式語音。8kbit/s的語音仍然是固定比特速率的。要想把語音變?yōu)橥话l(fā)式的,就必須將談話中不說話的部分去除。
無話部分抑制
無話部分抑制是指將談話中不說話的部分去除。引起沒有語音的主要原因是談話中,總有·方處于玲聽狀態(tài),也有小部分無語音是由句與句、短語與短語之間的停頓引起的??傊?,在一個雙向的64kbit/s速率的PCM語音流交談中,有60%并沒有實際語音。
抑制無話部分面對的最大問題是:說話的人在一段沉默之后,如何識別他將于何時再開始說話。為什么這會成為一個困難呢?這是因為談話方總有些背景噪聲的影響,根據無話部分抑制的概念,周圍的背景噪聲不應被分組化,也不應被發(fā)送,系統(tǒng)應該只對真正的語音進行處理,所以必需把背景噪聲和真正的語音區(qū)分開來。其中的技巧在于可靠地識別出說話人的音量級別遠遠高于背景噪聲的,從而判斷出他又開始說話了。比背景噪聲高的聲音也可能是噪聲的突然爆發(fā)(比如敲擊聲)。這就是“語音激活識別”(簡稱VAD)問題。
如果語音激活識別的級別設置得太低,那么玲聽的一方會突然聽到敲擊聲、車鳴聲等等外界與談話無關的聲音。如果語音激活識別的級別設置得太高了,那么談話人再次開始的談話將被剪輯掉一部分,剛開始的聲音因為較低而不被分組化和發(fā)送。因為語音分組化的處理是實時的,所以當設置級別過高的VAD進程意識到交談的人已經開始說話時,已經來不及獲取最初的語音了。
當對VoIP分組進行了語音壓縮和對抑制無話部分進行處理之后,就可以使它與其他分組一起在64kbit/s的鏈路上傳輸了。但這樣做,我們將很難將鏈路上的VoIP分組傳輸和文件傳輸、電子郵件傳輸區(qū)別開來。