亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能機(jī)器人語音識別技術(shù)詳細(xì)解析

倩倩 ? 來源:lq ? 2019-06-12 10:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音控制的基礎(chǔ)就是語音識別技術(shù),可以是特定人或者非特定人的。非特定人的應(yīng)用更為廣泛,對于用戶而言不用訓(xùn)練,因此也更加方便。語音識別可以分為孤立詞識別,連接詞識別,以及大詞匯量的連續(xù)詞識別。對于智能機(jī)器人這類嵌入式應(yīng)用而言,語音可以提供直接可靠的交互方式,語音識別技術(shù)的應(yīng)用價(jià)值也就不言而喻。

如今智能語音設(shè)備或者機(jī)器人很多,如智能手機(jī)(例如Cortana,Siri,Ok Google,。。。),個(gè)人助理(例如Google Home,Amazon Echo,。。。),交互式語音應(yīng)答(銀行,應(yīng)答機(jī), 。。。。。。),語音機(jī)器人(電話機(jī)器人、客服機(jī)器人、電銷機(jī)器人,……),在生活中很常見,表現(xiàn)都讓人驚喜。同時(shí)他們工作原理也大致相同。

1 語音識別概述

語音識別技術(shù)最早可以追溯到20世紀(jì)50年代,是試圖使機(jī)器能“聽懂”人類語音的技術(shù)。按照目前主流的研究方法,連續(xù)語音識別和孤立詞語音識別采用的聲學(xué)模型一般不同。孤立詞語音識別一般采用DTW動態(tài)時(shí)間規(guī)整算法。連續(xù)語音識別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。 語音的能量來源于正常呼氣時(shí)肺部呼出的穩(wěn)定氣流,喉部的聲帶既是閥門,又是振動部件。語音信號可以看作是一個(gè)時(shí)間序列,可以由隱馬爾可夫模型(HMM)進(jìn)行表征。語音信號經(jīng)過數(shù)字化及濾噪處理之后,進(jìn)行端點(diǎn)檢測得到語音段。對語音段數(shù)據(jù)進(jìn)行特征提取,語音信號就被轉(zhuǎn)換成為了一個(gè)向量序列,作為觀察值。在訓(xùn)練過程中,觀察值用于估計(jì)HMM的參數(shù)。這些參數(shù)包括觀察值的概率密度函數(shù),及其對應(yīng)的狀態(tài),狀態(tài)轉(zhuǎn)移概率等。當(dāng)參數(shù)估計(jì)完成后,估計(jì)出的參數(shù)即用于識別。此時(shí)經(jīng)過特征提取后的觀察值作為測試數(shù)據(jù)進(jìn)行識別,由此進(jìn)行識別準(zhǔn)確率的結(jié)果統(tǒng)計(jì)。訓(xùn)練及識別的結(jié)構(gòu)框圖如圖1所示。

圖1 語音識別系統(tǒng)結(jié)構(gòu)框圖

1. 1 端點(diǎn)檢測

找到語音信號的起止點(diǎn),從而減小語音信號處理過程中的計(jì)算量,是語音識別過程中一個(gè)基本而且重要的問題。端點(diǎn)作為語音分割的重要特征,其準(zhǔn)確性在很大程度上影響系統(tǒng)識別的性能。

能零積定義:一幀時(shí)間范圍內(nèi)的信號能量與該段時(shí)間內(nèi)信號過零率的乘積。

能零積門限檢測算法可以在不丟失語音信息的情況下,對語音進(jìn)行準(zhǔn)確的端點(diǎn)檢測,經(jīng)過450個(gè)孤立詞(數(shù)字“0~9”)測試準(zhǔn)確率為98%以上,經(jīng)該方法進(jìn)行語音分割后的語音,在進(jìn)入識別模塊時(shí)識別正確率達(dá)95%。

圖2 檢測結(jié)果的效果示意圖 當(dāng)話者帶有呼吸噪聲,或周圍環(huán)境出現(xiàn)持續(xù)時(shí)間較短能量較高的噪聲,或者持續(xù)時(shí)間長而能量較弱的噪聲時(shí),能零積門限檢測算法就不能對這些噪聲進(jìn)行濾除,進(jìn)而被判作語音進(jìn)入識別模塊,導(dǎo)致誤識。圖2(a)所示為室內(nèi)環(huán)境,正常情況下采集到的帶有呼氣噪聲的數(shù)字“0~9”的語音信號,利用能零積門限檢測算法得到的效果示意圖。最前面一段信號為呼氣噪聲,之后為數(shù)字“0~9”的語音。

從圖2(a)直觀的顯示出能零積算法在對付能量較弱,但持續(xù)時(shí)間長的噪音無能為力。由此引出了雙門限能零積檢測算法。 所謂的雙門限能零積算法指的是進(jìn)行兩次門限判斷。第一門限采用能零積,第二門限為單詞能零積平均值。也即在前面介紹的能零積檢測算法的基礎(chǔ)上再進(jìn)行一次能零積平均值的判決。其中,第二門限的設(shè)定依據(jù)取決于所有實(shí)驗(yàn)樣本中呼氣噪聲的平均能零積及最小的語音單詞能零積之間的一個(gè)常數(shù)。如圖2(b)所示,即為圖2(a)中所示的語音文件經(jīng)過雙門限能零積檢測算法得到的檢測結(jié)果??梢悦黠@看到,最前一段信號,即呼氣噪聲已經(jīng)被視為噪音濾除。

1.2 隱馬爾可夫模型HMM

隱馬爾可夫模型,即HMM是一種基于概率方法的模式匹配方法。它的應(yīng)用是20世紀(jì)80年代以來語音識別領(lǐng)域取得的重要成果。

一個(gè)HMM模型可以表示為:

式中:π為初始狀態(tài)概率分布,πi=P(q1=θi),1≤i≤N,表示初始狀態(tài)處于θi的概率;A為狀態(tài)轉(zhuǎn)移概率矩陣,(aij)N×N,aij=P(qt+1 =θj|qt=θi),1≤i,j≤N;B為觀察值概率矩陣,B={bj(ot)},j=1,2,…,N,表示觀察值輸出概率分布,也就是觀察值ot處于狀態(tài)j的概率。

1.3 模型訓(xùn)練

HMM有多種結(jié)構(gòu)類型,并且有不同的分類方法。根據(jù)狀態(tài)轉(zhuǎn)移矩陣(A參數(shù))和觀察值輸出矩陣(B參數(shù))的不同有不同類型的HMM。

對于CHMM模型,當(dāng)有多個(gè)觀察值序列時(shí),其重估公式由參考文檔給出,此處不再贅述。

1.4 概率計(jì)算

利用HMM的定義可以得出P(O|λ)的直接求取公式:

式(2)計(jì)算量巨大,是不能接受的。Rabiner提出了前向后向算法,計(jì)算量大大減小。定義前向概率:

那么有 (1)初始化

(2)遞推

(3)終止

式(2)表示的是初始前向概率,bi(o1)為觀察值序列處于t=1 時(shí)刻在狀態(tài)i時(shí)的輸出概率,由于它服從連續(xù)高斯混合分布,故此值往往極小。根據(jù)大量實(shí)驗(yàn)觀察,通常小于10-10,此值在定點(diǎn)DSP中已不能用Q格式表示。分析式(3)可以發(fā)現(xiàn),隨著時(shí)間t的增加,還會有大量的小數(shù)之間的乘法加法運(yùn)算,使得新的前向概率值at+1更小,逐漸趨向于0,定點(diǎn)DSP采用普通的Q格式進(jìn)行計(jì)算時(shí)便會負(fù)溢出,即便不發(fā)生負(fù)溢出也會大大丟失精度。因此必須尋找一種解決方法,在不影響DSP實(shí)時(shí)性的前提下,既不發(fā)生負(fù)溢出,又能提高精度。

2 DSP實(shí)現(xiàn)語音識別

孤立詞語音識別一般采用DTW動態(tài)時(shí)間規(guī)整算法。連續(xù)語音識別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。

為了能實(shí)時(shí)控制機(jī)器人,首先需要考慮的是能夠?qū)崿F(xiàn)實(shí)時(shí)地語音識別。而考慮到CHMM的巨大計(jì)算量以及成本因素,采用了數(shù)據(jù)處理能力強(qiáng)大,成本相對較低的定點(diǎn)數(shù)字信號處理器,即定點(diǎn)DSP。本實(shí)驗(yàn)采用的是TI公司多媒體芯片TMS320DM642。定點(diǎn)DSP要能準(zhǔn)確、實(shí)時(shí)的實(shí)現(xiàn)語音識別,必須考慮2點(diǎn)問題:精度問題和實(shí)時(shí)性問題。

精度問題的產(chǎn)生原因已經(jīng)由1.4節(jié)詳細(xì)闡述,這里不再贅述。因此必須找出一種可以提高精度,而又不會對實(shí)時(shí)性造成影響的解決方法?;谝陨峡紤],本文提出了一種動態(tài)指數(shù)定標(biāo)方法。這種方法類似于科學(xué)計(jì)數(shù)法,用2個(gè)32 b單元,一個(gè)單元表示指數(shù)部分EXP,另一個(gè)單元表示小數(shù)部分Frac。首先將待計(jì)算的數(shù)據(jù)按照指數(shù)定標(biāo)格式歸一化,再進(jìn)行運(yùn)算。這樣當(dāng)數(shù)據(jù)進(jìn)行運(yùn)算時(shí),仍然是定點(diǎn)進(jìn)行,從而避開浮點(diǎn)算法,從而使精度可以達(dá)到要求。

對于實(shí)時(shí)性問題,通常,語音的頻率范圍大約是300~3 400 Hz左右,因而本實(shí)驗(yàn)采樣率取8 kHz,16 b量化。考慮識別的實(shí)現(xiàn),必須將語音進(jìn)行分幀處理。研究表明,大約在10~30 ms內(nèi),人的發(fā)音模型是相對穩(wěn)定的,所以本實(shí)驗(yàn)中取32 ms為一幀,16 ms為幀移的時(shí)間間隔。

解決實(shí)時(shí)性問題必須充分利用DSP芯片的片上資源。利用EDMA進(jìn)行音頻數(shù)據(jù)的搬移,提高CPU利用率。采用PING—PONG緩沖區(qū)進(jìn)行數(shù)據(jù)的緩存,以保證不丟失數(shù)據(jù)。CHMM訓(xùn)練的模板放于外部存儲器,由于外部存儲器較片內(nèi)存儲器的速度更慢,因此開啟CACHE。建立DSP/BIOS任務(wù),充分利用BIOS進(jìn)行任務(wù)之間的調(diào)度,實(shí)時(shí)處理新到的語音數(shù)據(jù),檢測語音的起止點(diǎn),當(dāng)有語音數(shù)據(jù)時(shí)再進(jìn)入下一任務(wù)進(jìn)行特征提取及識別。將識別結(jié)果用揚(yáng)聲器播放,并送入到機(jī)器人的控制模塊。

實(shí)驗(yàn)中,采用如圖3的程序架構(gòu)。

圖3機(jī)器人識別軟件框圖

3 機(jī)器人控制

機(jī)器人由自然條件下的語句進(jìn)行控制。這些語句描述了動作的方向,以及動作的幅度。為了簡單起見,讓機(jī)器人只執(zhí)行簡單命令。由手機(jī)進(jìn)行遙控,DSP模塊識別出語音命令,送控制命令到ARM模塊,驅(qū)動左右機(jī)械輪執(zhí)行相應(yīng)動作。

3.1 硬件結(jié)構(gòu)

機(jī)器人的硬件結(jié)構(gòu)如圖4所示。

圖4機(jī)器人硬件結(jié)構(gòu) 機(jī)器人主要有2大模塊,一個(gè)是基于DSP的語音識別模塊;另一個(gè)是基于ARM的控制模塊,其機(jī)械足為兩滑輪。由語音識別模塊識別語音,由控制模塊控制機(jī)器人動作。

3.2 語音控制

首先根據(jù)需要,設(shè)置了如下幾個(gè)簡單命令:前、后、左、右。機(jī)器人各狀態(tài)之間的轉(zhuǎn)移關(guān)系如圖5所示。其中,等待狀態(tài)為默認(rèn)狀態(tài),當(dāng)每次執(zhí)行前后或左右轉(zhuǎn)命令后停止,即回到等待狀態(tài),此時(shí)為靜止?fàn)顟B(tài)。

圖5機(jī)器人狀態(tài) 語音的訓(xùn)練模板庫由4個(gè)命令加10個(gè)阿拉伯?dāng)?shù)字共14個(gè)組成,如下所示。 命令:“前”、“后”、“左”、“右”; 數(shù)字:“0~9”。 命令代表動作的方向,數(shù)字代表動作的幅度。當(dāng)執(zhí)行前后命令時(shí),數(shù)字的單位為dm,執(zhí)行左右轉(zhuǎn)彎命令時(shí),數(shù)字的單位為角度單位的20°。每句命令句法為命令+數(shù)字。例如,語音“左2”表示的含義為向左轉(zhuǎn)彎40°,“前4”表示向前直行4 dm。

機(jī)器人語音控制的關(guān)鍵在于語音識別的準(zhǔn)確率。表1給出了5個(gè)男聲樣本的識別統(tǒng)計(jì)結(jié)果。

表1識別統(tǒng)計(jì)結(jié)果

4 結(jié)語

工作中,成功地將CHMM模型應(yīng)用于定點(diǎn)DSP上,并實(shí)現(xiàn)了對機(jī)器人的語音控制。解決了CHMM模型巨大計(jì)算量及精度與實(shí)時(shí)性之間的矛盾。提出了一種新的端點(diǎn)檢測算法,對于對抗短時(shí)或較低能量的環(huán)境噪音具有明顯效果。同時(shí)需要指出的是,當(dāng)語音識別指令增多時(shí),則需要定義更多的句法,并且識別率也可能會相應(yīng)降低,計(jì)算量也會相應(yīng)變大。下一步研究工作應(yīng)更注重提高大詞匯量時(shí)的識別率及其魯棒性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    SPCE061A語音識別機(jī)器人應(yīng)用方案

    為了提高廣大單片機(jī)愛好者學(xué)習(xí)單片機(jī)的興趣,凌陽科技大學(xué)計(jì)劃教育推廣中心推出了應(yīng)用SPCE061A作為主控制器,外加電機(jī)驅(qū)動電路制作的語音識別機(jī)器人。該機(jī)器人采用特定
    發(fā)表于 03-08 17:09

    會物體識別語音識別的nao機(jī)器人

    Nuance公司作為技術(shù)合作伙伴,開發(fā)性能穩(wěn)定且功能強(qiáng)大的語音識別系統(tǒng)。nao機(jī)器人可在2米范圍內(nèi)聽到您說話,并能聽懂一整句話或關(guān)鍵詞匯。由此,人們與nao
    發(fā)表于 02-13 14:09

    智能語音機(jī)器人

    與人工智能系統(tǒng)算法設(shè)計(jì);與國內(nèi)外同類研究的比較:1.該機(jī)器人能與人進(jìn)行簡單的語言交流,能夠識別部分方言;2.能夠多平臺控制:語音控制,手機(jī)控制,電腦控制; 3.搭載多種傳感器,隨時(shí)知道
    發(fā)表于 12-02 19:08

    機(jī)器人語音需求

    本帖最后由 NAO語音外包 于 2017-6-28 09:19 編輯 現(xiàn)在亞馬遜Echo音箱很火爆,根據(jù)調(diào)研結(jié)果,可以在機(jī)器人上,嵌入式板上集成語音功能,包含了語音喚醒,
    發(fā)表于 06-28 09:13

    請問電銷機(jī)器人智能語音識別的原理是什么?

    一個(gè)人們最為關(guān)心的問題大概就是,電銷機(jī)器人如何做到語音識別,通俗來講,就是電銷機(jī)器人如何“聽懂”人們說話?其實(shí)語音
    發(fā)表于 06-12 14:03

    AI語音智能機(jī)器人開發(fā)實(shí)戰(zhàn)

    ) "AI語音識別機(jī)器人"網(wǎng)絡(luò)通信編碼與實(shí)現(xiàn)(7)AI語音識別解析的軟硬件實(shí)現(xiàn)現(xiàn)在凡報(bào)名本次直播
    發(fā)表于 01-04 11:48

    【 平頭哥CB5654語音開發(fā)板試用連載】智能取貨機(jī)器人語音交互模組

    項(xiàng)目名稱:智能取貨機(jī)器人語音交互模組試用計(jì)劃:申請理由本人在機(jī)器人控制有七年多的學(xué)習(xí)和開發(fā)經(jīng)驗(yàn),曾參與設(shè)計(jì)過類似巡檢機(jī)器人,參與語音交互硬件開發(fā),對
    發(fā)表于 02-25 16:05

    【 平頭哥CB5654語音開發(fā)板試用連載】人工智能機(jī)器人

    項(xiàng)目名稱:人工智能機(jī)器人試用計(jì)劃:申請理由:人工智能機(jī)器人語音識別單元,計(jì)劃5月份開發(fā)完成,7月份量產(chǎn),pcb板在華強(qiáng)pcb加工。
    發(fā)表于 03-13 16:16

    【 平頭哥CB5654語音開發(fā)板試用連載】智能語音識別機(jī)器人

    項(xiàng)目名稱:智能語音識別機(jī)器人試用計(jì)劃:使用開發(fā)板完成智能機(jī)器人設(shè)計(jì),預(yù)期達(dá)到的目標(biāo)可以
    發(fā)表于 03-13 16:19

    特定人語音識別的方法有哪些?

    特定人語音識別的方法有哪些?特定人語音識別技術(shù)在汽車控制上的應(yīng)用是什么?
    發(fā)表于 05-14 06:34

    設(shè)計(jì)一個(gè)能自由行走,并且可以與人語音對話的機(jī)器人

    ,并且可以與人語音對話的機(jī)器人。實(shí)現(xiàn)的關(guān)鍵是讓機(jī)器人能通過傳感器感知周圍環(huán)境,并通過機(jī)器人大腦處理并輸...
    發(fā)表于 12-16 07:27

    設(shè)計(jì)一個(gè)能自由行走并且可以與人語音對話機(jī)器人的設(shè)計(jì)資料分享

    在我的想象中機(jī)器人首先應(yīng)該能自由的走來走去,然后應(yīng)該能流利的與主人對話。朝著這個(gè)理想,我準(zhǔn)備設(shè)計(jì)一個(gè)能自由行走,并且可以與人語音對話的機(jī)器人。實(shí)現(xiàn)的關(guān)鍵是讓機(jī)器人能通過傳感器感知周圍環(huán)
    發(fā)表于 12-17 06:58

    智能機(jī)器人語音識別技術(shù)

    語音控制的基礎(chǔ)就是語音識別技術(shù),可以是特定人或者非特定人的。非特定人的應(yīng)用更為廣泛,對于用戶而言不用訓(xùn)練,因此也更加方便。語音
    發(fā)表于 07-22 10:08 ?1.3w次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>機(jī)器人語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>

    語音識別技術(shù)智能語音機(jī)器人中的應(yīng)用

    語音識別技術(shù)智能語音機(jī)器人中的應(yīng)用,一般語音
    的頭像 發(fā)表于 06-12 11:24 ?6014次閱讀

    人工智能語音機(jī)器人是如何模仿真人語調(diào)的

    是采取真人錄音的方式,通過精準(zhǔn)的語言平臺對潛在客戶進(jìn)行分組呼叫,模擬銷售專業(yè)人員的交流來篩選信息。 AI語音電話營銷機(jī)器人在普通呼叫系統(tǒng)的基礎(chǔ)上增加了自然語言處理、語音識別、詞義理解等
    發(fā)表于 07-29 17:57 ?3045次閱讀