在過去十年中,人工智能支持的語音識別系統(tǒng)逐漸成為我們日常生活的一部分,從語音搜索到聯(lián)絡中心、汽車、醫(yī)院和餐館的虛擬助手。這些語音識別的發(fā)展得益于深度學習的進步。
許多行業(yè)的開發(fā)人員現(xiàn)在使用自動語音識別( ASR )來提高業(yè)務生產(chǎn)率、應用程序效率,甚至數(shù)字訪問能力。
什么是自動語音識別
語音識別技術能夠將口語(音頻信號)轉換為通常用作命令的書面文本。
當今最先進的軟件可以準確地處理各種語言方言和口音。例如, ASR 通常出現(xiàn)在面向用戶的應用程序中,如虛擬代理、實時字幕和臨床筆記。準確的語音轉錄對于這些用例至關重要。
語音 AI 領域的開發(fā)者也使用 替代術語 描述語音識別,如 ASR 、語音到文本( STT )和語音識別。
ASR 是系統(tǒng)的關鍵組成部分 語音 AI ,這是一套旨在幫助人類通過語音與計算機對話的技術。
為什么在語音識別中使用自然語言處理
開發(fā)人員通常不清楚自然語言處理( NLP )模型在 ASR 管道中的作用。除了應用于語言模型之外, NLP 還用于在 ASR 管道的末尾添加標點和大寫字母來增強生成的轉錄本。
在用 NLP 對轉錄本進行后處理后,文本用于下游語言建模任務,包括:
情緒分析
文本分析
文本摘要
語音識別算法
語音識別算法可以通過使用統(tǒng)計算法的傳統(tǒng)方式實現(xiàn),或者通過使用深度學習技術(如神經(jīng)網(wǎng)絡)將語音轉換為文本。
傳統(tǒng)的 ASR 算法
隱馬爾可夫模型( HMM )和動態(tài)時間扭曲( DTW )是用于執(zhí)行語音識別的傳統(tǒng)統(tǒng)計技術的兩個示例。
使用一組轉錄的音頻樣本,通過改變模型參數(shù)來訓練 HMM 以預測單詞序列,從而最大化觀察到的音頻序列的可能性。
DTW 是一種動態(tài)規(guī)劃算法,通過計算時間序列之間的距離來尋找最佳可能的單詞序列:一個代表未知語音,另一個代表已知單詞。
深度學習 ASR 算法
在過去幾年中,開發(fā)人員一直對語音識別的深度學習感興趣,因為統(tǒng)計算法不太準確。事實上,深度學習算法能更好地理解方言、口音、上下文和多種語言,即使在嘈雜的環(huán)境中也能準確地轉錄。
一些最流行的最先進的語音識別聲學模型有: Quartznet, Citrinet 和 Conformer 在典型的語音識別管道中,您可以根據(jù)您的用例和性能選擇和切換任何聲學模型。
深度學習模型的實現(xiàn)工具
有幾種工具可用于開發(fā)深度學習語音識別模型和管道,包括: Kaldi Mozilla DeepSpeech , NVIDIA NeMo, Riva, TAO Toolkit ,以及來自谷歌、亞馬遜和微軟的服務。
Kaldi 、 DeepSpeech 和 NeMo 是幫助您構建語音識別模型的開源工具包。 TAO 工具包和 Riva 是封閉源代碼 SDK ,可幫助您開發(fā)可在生產(chǎn)中部署的可定制管道。
谷歌、 AWS 和微軟等云服務提供商提供通用服務,您可以輕松地即插即用。
深度學習語音識別流水線
如圖 1 所示, ASR 管道由以下組件組成:將原始音頻轉換為頻譜圖的頻譜圖生成器、將頻譜圖作為輸入并輸出隨時間變化的字符概率矩陣的聲學模型、從概率矩陣生成可能句子的解碼器(可選地與語言模型耦合),最后,一種標點符號和大寫模式,用于格式化生成的文本,以便于人類使用。
用于語音識別的典型深度學習管道包括:
數(shù)據(jù)預處理
神經(jīng)聲學模型
解碼器(可選地與 n-gram 語言模型耦合)
標點和大寫模式。
圖 1 顯示了深度學習語音識別管道的示例:
	
圖 1.深度學習語音識別管道的示例
數(shù)據(jù)集在任何深度學習應用中都是必不可少的。神經(jīng)網(wǎng)絡的功能類似于人腦。你用來教授模型的數(shù)據(jù)越多,它學習的越多。語音識別管道也是如此。
一些流行的 語音識別數(shù)據(jù)集 是 LibriSpeech , Fisher 英語培訓演講, Mozilla 通用語音 ( MCV )、 VoxPopuli 、 2000 HUB 5 英語評估演講、 AN4 (包括人們拼寫地址和姓名的錄音)和 Aisell-1 / Aisell-2 漢語語音語料庫。除了您自己的專有數(shù)據(jù)集之外,還可以使用一些開源數(shù)據(jù)集。
數(shù)據(jù)處理是第一步。它包括數(shù)據(jù)預處理/增強技術,如速度/時間/噪聲/脈沖擾動和時間拉伸增強、使用窗口的快速傅立葉變換( FFT )和歸一化技術。
例如,在下圖 2 中,使用加窗技術應用 FFT 后,從原始音頻波形生成 mel 譜圖。
	
圖 2.音頻記錄原始音頻波形(左)和 mel 頻譜圖(右)
我們還可以使用擾動技術來擴充訓練數(shù)據(jù)集。圖 3 和圖 4 顯示了噪聲擾動和掩蔽等技術,用于增加訓練數(shù)據(jù)集的大小,以避免過擬合等問題。
	
圖 3.噪聲增強音頻波形到噪聲增強 mel 頻譜圖圖像
	
圖 4.噪聲增強的 mel 頻譜圖到噪聲增強的掩蔽 mel 頻譜圖像
數(shù)據(jù)預處理階段的輸出是頻譜圖/ mel 頻譜圖,它是音頻信號強度隨時間變化的視覺表示。
然后將 Mel 光譜圖送入下一階段: 神經(jīng)聲學模型 QuartzNet 、 CitriNet 、 ContextNet 、 Conformer CTC 和 Conformer-Transducer 是尖端神經(jīng)聲學模型的示例。存在多個 ASR 模型有幾個原因,例如需要實時性能、更高的精度、內存大小和用例的計算成本。
然而,基于構象的模型由于其提高的準確性和理解能力而變得越來越流行。聲學模型返回每個時間戳的字符/單詞概率。
圖 5 顯示了聲學模型的輸出,帶有時間戳。
	
圖 5. 聲學模型的輸出包括每個時間步詞匯字符的概率分布
聲學模型的輸出與語言模型一起輸入解碼器。解碼器包括波束搜索和貪婪解碼器,語言模型包括 n-gram 語言、 KenLM 和神經(jīng)評分。當涉及到解碼器時,它有助于生成頂部單詞,然后將其傳遞給語言模型以預測正確的句子。
在下圖中,解碼器根據(jù)概率得分選擇下一個最佳單詞。根據(jù)最終的最高分數(shù),選擇正確的單詞或句子,并將其發(fā)送到標點符號和大小寫模型。
	
圖 6.解碼器工作流程示例
ASR 管道生成沒有標點或大寫的文本。
最后,使用標點符號和大寫字母模型來提高文本質量,以提高可讀性。來自變換器( BERT )模型的雙向編碼器表示通常用于生成標點文本。
圖 7 展示了標點符號前后和大小寫模型的一個簡單示例:
	
圖 7.標點符號和大小寫模型的示例輸出
語音識別行業(yè)影響
語音識別可以幫助金融、電信和統(tǒng)一通信即服務( UCaaS )等行業(yè)改善客戶體驗、運營效率和投資回報率( ROI )。
金融
語音識別應用于金融行業(yè),例如: 呼叫中心代理協(xié)助 和交易記錄。 ASR 用于轉錄客戶與呼叫中心代理/交易大廳代理之間的對話。然后可以分析生成的轉錄,并將其用于向代理提供實時建議。這將使通話后時間減少 80% 。
此外,生成的轉錄本用于下游任務,包括:
情緒分析
文本摘要
問答
意圖和實體識別
電信
聯(lián)絡中心是電信行業(yè)的重要組成部分。通過呼叫中心技術,您可以重新想象電信客戶中心,語音識別可以幫助您實現(xiàn)這一點。正如前面在財務呼叫中心用例中所討論的, ASR 用于電信聯(lián)絡中心轉錄客戶和聯(lián)絡中心代理之間的對話,以便實時分析客戶和推薦呼叫中心代理。 T-Mobile 使用 ASR 快速解決客戶問題 例如
統(tǒng)一通信及時服務( UCaaS )
新冠肺炎增加了對統(tǒng)一通信即服務( UCaaS )解決方案的需求,該領域的供應商開始專注于使用語音人工智能技術,如 ASR ,以創(chuàng)造更具吸引力的會議體驗。
例如, ASR 可用于生成 視頻會議中的實時字幕。 然后,生成的標題可用于后續(xù)任務,如會議摘要和識別筆記中的行動項目。
ASR 技術的未來
語音識別并不像聽起來那么容易。開發(fā)語音識別充滿了挑戰(zhàn),從準確性到用例定制,再到實時性能。另一方面,企業(yè)和學術機構正在競相克服其中一些挑戰(zhàn),并推進語音識別能力的使用。
ASR 挑戰(zhàn)
在生產(chǎn)中開發(fā)和部署語音識別管道的一些挑戰(zhàn)包括:
由于缺乏提供最先進( SOTA ) ASR 模型的工具和 SDK ,開發(fā)人員很難利用最好的語音識別技術。
有限的自定義功能,使開發(fā)人員能夠微調特定于域和上下文的行話、多種語言、方言和口音,以便讓您的應用程序像您一樣理解和說話
限制部署支持;例如,根據(jù)用例的不同,軟件應該能夠部署在任何云中、 prem 、 edge 和嵌入式上。
實時語音識別流水線;例如,在呼叫中心代理輔助用例中,在使用會話授權代理之前,我們不能等待幾秒鐘才能轉錄會話。
ASR 進展
語音識別在研究和軟件開發(fā)方面都取得了許多進展。首先,研究結果開發(fā)了幾種新的尖端 ASR 體系結構、 E2E 語音識別模型和自監(jiān)督或無監(jiān)督訓練技術。
在軟件方面,有一些工具可以快速訪問 SOTA 模型,還有一些不同的工具可以將模型部署為生產(chǎn)中的服務。
關鍵要點
由于語音識別在基于深度學習的算法方面的進步,語音識別的采用率持續(xù)增長,這使得語音識別與人類識別一樣準確。此外,多語言 ASR 等突破有助于公司在全球范圍內提供應用程序,將算法從云端移動到設備上可以節(jié)省資金、保護隱私并加快推理速度。
NVIDIA 提供 Riva ,一個語音 AI SDK ,以解決上面討論的幾個挑戰(zhàn)。通過 Riva ,您可以快速訪問為生產(chǎn)目的量身定制的最新 SOTA 研究模型。您可以根據(jù)您的領域和用例自定義這些模型,在任何云上、 prem 上、 edge 上或嵌入式上部署,并實時運行它們以進行自然交互。
關于作者
Sirisha Rella 是 NVIDIA 的技術產(chǎn)品營銷經(jīng)理,專注于計算機視覺、語音和基于語言的深度學習應用。 Sirisha 獲得了密蘇里大學堪薩斯城分校的計算機科學碩士學位,是國家科學基金會大學習中心的研究生助理。
審核編輯:郭婷
- 
                                AI
                                +關注
關注
89文章
37431瀏覽量
292891 - 
                                語音識別
                                +關注
關注
39文章
1800瀏覽量
115338 - 
                                人工智能
                                +關注
關注
1813文章
49573瀏覽量
259870 - 
                                nlp
                                +關注
關注
1文章
491瀏覽量
23139 
發(fā)布評論請先 登錄
國內語音識別技術上市公司匯總_語音識別技術現(xiàn)狀_語音識別原理及應用
    
          
        
        
自動語音識別技術基本指南
                
 
           
            
            
                
            
評論