香港外匯開戶網

首頁

>

創業資訊

5分鐘帶你讀懂“電話機器人”的語音識別原理

作者:香港外匯開戶網

更新時間:2021/2/6 10:46:36

點擊次數:81次

image
  電話機器人效果好不好,首先得看他的語音識別能力怎么樣,語音識別率高、穩定,那么這個電話機器人就不會差。
我們可以看一下語音識別的基本原理: 一個基本的語音識別系統如下圖,實現是正常工作流程,虛線是訓練模式分類問題中的模板(這里就是聲學模型,字典和語言模型)。
預處理: 1. 首尾端的靜音切除,下降對后續進程形成的攪擾,靜音切除的操作一般稱為VAD。
2. 聲響分幀,也就是把聲響切開成一小段一小段,每小段稱為一幀,運用移動窗函數來完成,不是簡略的切開,各幀之間一般是有交疊的。
特征提取:首要算法有線性猜測倒譜系數(LPCC)和Mel 倒譜系數(MFCC),意圖是把每一幀波形變成一個包括聲響信息的多維向量; 聲學模型(AM):經過對語音數據進行練習取得,輸入是特征向量,輸出為音素信息; 字典:字或許詞與音素的對應, 簡略來說, 中文就是拼音和漢字的對應,英文就是音標與單詞的對應; 言語模型(LM):經過對大量文本信息進行練習,得到單個字或許詞彼此相關的概率; 解碼:就是經過聲學模型,字典,言語模型對提取特征后的音頻數據進行文字輸出; 語音辨認流程的舉例(僅僅形象表述,不是實在數據和進程): 1. 語音信號:PCM文件等(我是電銷機器人) 2. 特征提取:提取特征向量[5 4 2 66 98 ...] 3. 聲學模型:[5 4 2 66 98]-> wo shi dianxiao jiqiren 4. 字典翻譯:窩:w o;我:w o; 是:s i;電銷:dian xiao 機:j i; 器:q i; 人:r en 5. 言語模型:我:0.1286, 是: 0.3616,電銷:0.5682,機器人:0.6785; 6. 輸出文字:我是電銷機器人;