亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識別的降噪思路和原因總結(jié)

電子工程師 ? 來源:博客園 ? 2021-03-29 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

噪聲問題一直是語音識別的一個老大難的問題,在理想的實驗室的環(huán)境下,識別效果已經(jīng)非常好了,之前聽很多音頻算法工程師抱怨,在給識別做降噪時,經(jīng)常發(fā)現(xiàn)WER不降反升,降低了識別率,有點莫名其妙,又無處下手。

剛好,前段時間調(diào)到了AIlab部門,有機會接觸這塊,改善語音識別的噪聲問題,雖然在此之前,詢問過同行業(yè)的朋友,單通道近場下,基本沒有太大作用,有時反而起到反作用,但是自己還是想親身實踐一下,至少找到這些方法失效的原因,看看是否在這些失敗的原因里面,改進(jìn)下思路,可能有新的發(fā)現(xiàn);同時去Ailab,順帶把深度學(xué)習(xí)降噪實踐一把,就算在ASR沒有效果,以后還能用在語音通信這個領(lǐng)域。

任務(wù)的要求是保證聲學(xué)模型不變動的情況下,即不重新訓(xùn)練聲學(xué)模型,即單純利用降噪來改善那些環(huán)境惡劣的樣本,同時保證不干擾純凈語音或者弱噪聲的語音場景,所以非常具有挑戰(zhàn)性。

為了趕項目,用自己非常熟悉的各種傳統(tǒng)的降噪方法:包括最小值跟蹤噪聲估計,MCRA, IMCRA,等各種噪聲估計方法,以及開源項目 webrtc NS, AFE(ETSI ES 202 050 Advanced DSR Front-end Codec, two stages of Wiener filtering),剩下的任務(wù)就是調(diào)參,經(jīng)過很多次努力,基本沒有什么效果,相反WER還會有1%點左右的增加。

分析對比了降噪和沒有降噪的識別文本對比和頻譜分析,總結(jié)了以下這些原因,希望對后面的人有些參考意義:

1. DNN本身就有很強的抗噪性,在弱噪聲和純凈語音下,基本都不是問題。

通常場景下,這點噪聲,用線上數(shù)據(jù)或者刻意加噪訓(xùn)練,是完全可以吸收掉的,只有在20db以下,含噪樣本的頻譜特征和純凈樣本的頻譜特征差異太大,用模型學(xué)習(xí)收斂就不太好,這時需要降噪前端。

2. 降噪對于純凈語音或者弱噪聲環(huán)境下,不可避免的對語音有所損傷,只有在惡劣的環(huán)境下,會起到非常明顯的作用。

傳統(tǒng)降噪是基于統(tǒng)計意義上面的一個處理,難以做到瞬時噪聲的精準(zhǔn)估計,這個本身就是一個近似的,粗略模糊化的一個處理,即不可避免的對噪聲欠估計或者過估計,本身難把握,保真語音,只去噪,如果噪聲水平很弱,這個降噪也沒有什么用或者說沒有明顯作用,去噪力度大了,又會破壞語音??梢灶A(yù)見,根據(jù)測試集進(jìn)行調(diào)參,就像是在繩子上面玩雜技。

我們的測試樣本集,90%的樣本都在在20db以上,只有200來條的樣子,環(huán)境比較惡劣。所以通常起來反作用。

3. 降噪里面的很多平滑處理,是有利于改善聽感的,但是頻譜也變得模糊,這些特征是否能落到正確的類別空間里面,也是存在疑問的。所以在前端降噪的基礎(chǔ)上,再過一遍聲學(xué)模型重新訓(xùn)練,應(yīng)該是有所作用的,但是訓(xùn)練一個聲學(xué)模型都要10來天,損失太大,也不滿足任務(wù)要求。

4. 傳統(tǒng)降噪,通常噪聲初始化會利用初始的前幾幀,而如果開頭是語音,那就會失真很明顯。

5. 估計出噪聲水平,在SNR低的情況下降噪,SNR高時,不處理或者進(jìn)行弱處理,在中間水平,進(jìn)行軟處理,這個思路似乎可以行的通。

6. 用基于聲學(xué)特征的傳統(tǒng)降噪方法,嘗試過,在測試集里面,有不到1%的WER降低。

7. 到底用什么量來指導(dǎo)降噪過程?

既然降噪沒法做好很好的跟蹤,處理的很理想。即不可能處理的很干凈,同時不能保證語音分量不會被損傷,即降噪和保證語音分量是個相互矛盾,同時也是一個權(quán)衡問題。那其實換個角度,降噪主要是改善了聲學(xué)特征,讓原來受噪聲影響錯分類的音素落到正確的音素類別,即降低CE。那么應(yīng)該直接將降噪和CE做個關(guān)聯(lián),用CE指導(dǎo)降噪過程參數(shù)的自適應(yīng)變化,在一個有代表性的數(shù)據(jù)集里面,有統(tǒng)計意義上的效果,可能不一定能改善聽感,處理的很干凈,但是在整體意義上,有能改善識別的。所以說語音去噪模塊必須要和聲學(xué)前端聯(lián)合起來優(yōu)化,目標(biāo)是將去噪后的數(shù)據(jù)投影到聲學(xué)模塊接受的數(shù)據(jù)空間,而不是改善聽感,即優(yōu)化的目標(biāo)是降低聲學(xué)模型的CE,或者說是降低整條鏈路的wer,所以用降噪網(wǎng)絡(luò)的LOSS除了本身的損失量,還應(yīng)綁定CE的LOSS自適應(yīng)去訓(xùn)練學(xué)習(xí)是比較合理的方案。也可以將降噪網(wǎng)絡(luò)看成和聲學(xué)模型是一個大網(wǎng)絡(luò),為CE服務(wù),當(dāng)然,這不一定是降噪網(wǎng)絡(luò),也可以是傳統(tǒng)的自適應(yīng)降噪方法,但是如果是基于kaldi開發(fā),里面涉及到的工程量是很大的。

8. 在整個語音識別體系中,由于聲學(xué)模型的強抗噪性,所以單通道下的前端降噪似乎沒有什么意義,1%左右的wer的改變,基本不影響整個大局,所以想要搞識別這塊的朋友,應(yīng)該先把重要的聲學(xué)模型,語言模型,解碼器,搞完之后,再來擼擼這塊,因為即便沒有單獨的前端,整個識別大多數(shù)場景都是OK的,惡劣的場景比較少,一般場景大不了擴增各種帶噪數(shù)據(jù)訓(xùn)練,也是可以的。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1800

    瀏覽量

    115363
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    9429
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點)

    離線語音識別芯片,是一種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯(lián)網(wǎng)也可以進(jìn)行語音控制。它內(nèi)設(shè)先進(jìn)的數(shù)字信號處理模塊及
    的頭像 發(fā)表于 10-31 15:27 ?125次閱讀

    廣州唯創(chuàng)電子WTK6900H-32N語音識別芯片:AI降噪算法助力抽油煙機精準(zhǔn)語音控制 | 語音IC廠家

    語音識別領(lǐng)域深厚的技術(shù)積累,推出的WTK6900H-32N語音識別芯片結(jié)合創(chuàng)新的AI語音降噪
    的頭像 發(fā)表于 10-30 09:17 ?95次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:AI<b class='flag-5'>降噪</b>算法助力抽油煙機精準(zhǔn)<b class='flag-5'>語音</b>控制 | <b class='flag-5'>語音</b>IC廠家

    語音識別---大家怎么看呢?

    語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音
    發(fā)表于 08-09 10:54

    AP-0316 語音模組:不止是降噪神器,更是即插即用的 USB 聲卡全能王

    還在為設(shè)備接麥克風(fēng)、驅(qū)喇叭、消噪音來回折騰電路?AP-0316 語音模組自帶超強 USB 聲卡功能,插上就能用,復(fù)雜語音問題一鍵搞定! 插上 USB,秒變專業(yè)語音處理中心不管是電腦、平板、手機
    發(fā)表于 07-18 10:06

    AI神經(jīng)網(wǎng)絡(luò)降噪算法在語音通話產(chǎn)品中的應(yīng)用優(yōu)勢與前景分析

    隨著人工智能技術(shù)的快速發(fā)展,AI神經(jīng)網(wǎng)絡(luò)降噪算法在語音通話產(chǎn)品中的應(yīng)用正逐步取代傳統(tǒng)降噪技術(shù),成為提升語音質(zhì)量的關(guān)鍵解決方案。相比傳統(tǒng)DSP(數(shù)字信號處理)
    的頭像 發(fā)表于 05-16 17:07 ?963次閱讀
    AI神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>降噪</b>算法在<b class='flag-5'>語音</b>通話產(chǎn)品中的應(yīng)用優(yōu)勢與前景分析

    語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用實例

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對語音信號進(jìn)行分析和
    的頭像 發(fā)表于 02-21 17:12 ?960次閱讀

    詳解語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對語音信號進(jìn)行分析和
    的頭像 發(fā)表于 02-21 17:05 ?987次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b>技術(shù)在通信領(lǐng)域中的應(yīng)用

    新品| Unit ASR,一體化離線語音識別單元

    UnitASR是一款A(yù)I語音識別單元,內(nèi)置AI智能離線語音模塊CI-03T。它具有語音識別、聲紋識別
    的頭像 發(fā)表于 02-14 18:34 ?683次閱讀
    新品| Unit ASR,一體化離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>單元

    空調(diào)語音控制方案NRK3501語音識別芯片-讓智能生活觸手可及!

    NRK3501語音識別芯片支持離線語音控制空調(diào),精準(zhǔn)識別,遠(yuǎn)場降噪,最多支持200條離線指令,5米內(nèi)識別
    的頭像 發(fā)表于 01-07 11:40 ?1173次閱讀
    空調(diào)<b class='flag-5'>語音</b>控制方案NRK3501<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片-讓智能生活觸手可及!

    【「嵌入式系統(tǒng)設(shè)計與實現(xiàn)」閱讀體驗】+ 基于語音識別的智能杯墊

    項目二維碼下圖 該作品通過采集飲水?dāng)?shù)據(jù),多種交互方式,數(shù)據(jù)分析處理,提醒用戶定期飲水,達(dá)到保持健康的作用。 主要功能是語音識別。 ASR-PRO語音模塊是一款高度集成的智能語音
    發(fā)表于 01-02 18:15

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語音交互領(lǐng)域多年,在語音識別語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標(biāo)貝與多個智能會議系統(tǒng)廠商合作,成功將語音
    的頭像 發(fā)表于 12-20 10:35 ?817次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計算能力的提升和機器學(xué)習(xí)技術(shù)的進(jìn)步,這項技術(shù)才真正成熟并廣泛應(yīng)用于各個領(lǐng)域。語音識別技術(shù)的應(yīng)用不僅提高了工作效率,也極大
    的頭像 發(fā)表于 11-26 09:20 ?2155次閱讀

    基于語音識別技術(shù)的智能家居控制系統(tǒng)

    語音識別的智能控制系統(tǒng)是智能家居的重要組成部分,相比傳統(tǒng)的遙控或觸控方式,基于語音識別控制的智能家居系統(tǒng)通過人機語音交互的方式,實現(xiàn)對家居
    的頭像 發(fā)表于 11-19 17:25 ?1556次閱讀
    基于<b class='flag-5'>語音</b><b class='flag-5'>識別</b>技術(shù)的智能家居控制系統(tǒng)

    ASR與傳統(tǒng)語音識別的區(qū)別

    識別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語音識別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語音識別 : 通常依賴于聲學(xué)-語言模
    的頭像 發(fā)表于 11-18 15:22 ?1874次閱讀

    ASR語音識別技術(shù)應(yīng)用

    語音識別技術(shù)應(yīng)用的分析: 一、ASR語音識別技術(shù)原理 ASR語音識別技術(shù)的基本原理是將人類
    的頭像 發(fā)表于 11-18 15:12 ?2680次閱讀