百度優化：語音識別中聲學模型得分計算優化方

企業動態技術分享行業動態

百度優化：語音識別中聲學模型得分計算優化方

2023-04-20 模板建站

　　摘要

　　語音是人們溝通交流最直接、最自然的交互方式。自計算機問世以來，人們就一直希望可以通過語音實現人和計算機之間的交互，而語音識別技術，目標就是通過把人類的語音中的詞匯內容轉換為相應的文本，架起瞭人機交互的橋梁。對於一個語音識別系統，速度和精度是兩個核心指標，直接決定著系統是否可用。其中，識別速度的提升意味著可以降低成本，同時提供更多的語音服務，一直是語音識別技術研究的重點方向。在語音識別系統中，聲學模型得分的運算量一般會達到整個系統的40%-70%，因此也是識別速度聲學模型得分計算。

　　基本概念介紹

　　特征向量：語音數據在識別前首先會被分成多幀數據，一般幀長為25毫秒，幀移為10毫秒。每一幀語音數據經過特征提取之後，會生成一幀特征，稱之為一個特征向量或特征矢量，其中n為特征向量的維數。

　　HMM state：語音識別中的建模單元，簡稱為state，使用混合高斯模型（GMM）模型描述，每個mixture服從正態分佈其中為均值向量，為協方差矩陣，是對角陣。

　　似然值：特征向量O在state上的聲學模型得分。其計算步驟分為兩步：

　　a)計算O在每個mixture分量上的似然值，其計算公式為：

　　其中，j表示state的第j個mixture分量，是常量，為O在第j個mixture分量上的似然值。

　　其中，m為state中mixture分量的個數，為O在state上的似然值，等於各mixture的似然值在log域的相加，因而這步被稱為logAdd操作。

　　優化方法

　　下面先介紹三種無損識別精度的優化方法：

　　1、代碼加速：使用SSE指令或者intel IPP加速庫

　　這種方法利用編程語言指令集的優化，通過減少CPU需要操作的指令數來達到加速。其中的intel IPP加速庫直接提供瞭一套計算似然值的函數庫，加速效果非常明顯，可以達到40%。

　　2、硬件加速：使用GPU加速

　　GPU一直以其強大的計算能力著稱，十分適合矩陣相乘這類計算密集型的運算。為瞭能充分發揮GPU的加速效果，我們需要對似然值的計算公式略作改寫：

　　經過轉換之後，每個mixture都可以用一個行向量表示，m個mixture可以組成一個大矩陣M = （A1，A2，…，Am）T，同理n幀的特征矢量也可以組成一個矩陣F = （Z1，Z2，…，Zn）。這樣同時求解多個mixture在多幀上的似然值就可以用兩個矩陣的乘積來實現。而每個state各mixture分量的logAdd過程相互獨立，因此這一步也可以在GPU上並行計算。一般情況下，GPU可以達到100倍以上的加速效果，也就意味著GPU可以將原來在語音識別中最耗時的聲學得分計算所占比重降到低於1%。由於這種方法需要一個額外的硬件設備GPU，價格比較昂貴，因而並沒有被大規模使用。

　　3、 CPU cache加速：一次計算state在多幀特征上的似然值

　　這種方法利用瞭語音識別的特點，在識別過程中一旦某個state被激活之後，在後面的連續幾幀中這個state極有可能仍會處於活躍狀態，即在處理後面的特征時還需要計算這個state的似然值。那麼我們可以在第一次激活state時，同時計算這個state在從當前幀開始的連續多幀，也不會導致過多不必要的計算。另一方面卻可以利用CPU cache，不用多次從內存中加載state的模型參數到CPU中，從而達到加速的目的。這種方法約有10%的加速效果，一般配合方法1使用。

　　上面介紹的三種方法，都是對聲學模型得分進行瞭精確計算，因此不會帶來任何識別精度的下降。如果想做進一步優化，就需要對state的似然值計算公式做些調整。

　　1、動態高斯選擇法

　　其思想是用似然值最大的mixture分量來近似logAdd：

　　那麼如何來選出這個最大值呢？大傢可能認為這還不簡單？把每個mixture的似然值先計算出來，然後選個最大值就可以瞭。那接下來我們看看有沒有更好的方法？仔細分析mixture似然值的計算公式：

　　我們會發現，這是一個隨i增加而遞減的函數。我們可以先計算出，在計算其他的時，在i從1增加的n的過程中，我們可以判斷當前已經計算出來的值是否比小，如果已經比小，那們這個mixture一定不是最大的，因為隨著i的增加，這個值會不斷減小，因而這個mixture就可以直接跳過，從而減少計算量。這種方法約有15%的加速效果，但是會帶來0.5個點左右的識別率損失

培戀網絡原創版權，轉載請註明出處：

培戀網原創版權，網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址：http://www.gdszrq.com/news/49833.html