英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則shou次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器。語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。di一階段:模板匹配(DTW)20世紀(jì)60年代,一些重要的語(yǔ)音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來(lái)。1964年,Martin為了解決語(yǔ)音時(shí)長(zhǎng)不一致的問(wèn)題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語(yǔ)音的端點(diǎn),這可以有效地降低語(yǔ)音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語(yǔ)音識(shí)別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的Reddy利用動(dòng)態(tài)音素的方法進(jìn)行了連續(xù)語(yǔ)音識(shí)別,這是一項(xiàng)開創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyukshou次提出將動(dòng)態(tài)規(guī)劃算法應(yīng)用于對(duì)語(yǔ)音信號(hào)的時(shí)間規(guī)整。雖然在他的工作中,動(dòng)態(tài)時(shí)間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時(shí)并沒(méi)有引起足夠的重視。這三項(xiàng)研究工作,為此后幾十年語(yǔ)音識(shí)別的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。雖然在這10年中語(yǔ)音識(shí)別理論取得了明顯的進(jìn)步。但是這距離實(shí)現(xiàn)真正實(shí)用且可靠的語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn)。20世紀(jì)70年代。語(yǔ)音命令可用于發(fā)起電話呼叫、選擇無(wú)線電臺(tái)或從兼容的智能手機(jī)、MP3播放器或音樂(lè)加載閃存驅(qū)動(dòng)器播放音樂(lè)。新疆語(yǔ)音識(shí)別器
然后在Reg_RW.c文件中找到HARD_PARA_PORT對(duì)應(yīng)條件宏的代碼段,保留AVR的SPI接口代碼。3.2應(yīng)用程序?qū)崿F(xiàn)在代碼中預(yù)先設(shè)定幾個(gè)單詞:“你好”,“播放音樂(lè)”,“打開”。當(dāng)用戶說(shuō)“播放音樂(lè)”時(shí),MCU控制LD3320播放一段音樂(lè),如果是其他詞語(yǔ),則在串口中打印識(shí)別結(jié)果,然后再次轉(zhuǎn)換到語(yǔ)音識(shí)別狀態(tài)。3.2.1MP3播放代碼LD3320支持MP3數(shù)據(jù)播放,播放聲音的操作順序?yàn)椋和ㄓ贸跏蓟鶰P3播放用初始化→調(diào)節(jié)播放音量→開始播放。將MP3數(shù)據(jù)順序放入數(shù)據(jù)寄存器,芯片播放完一定數(shù)量的數(shù)據(jù)時(shí)會(huì)發(fā)出中斷請(qǐng)求,在中斷函數(shù)中連續(xù)送入聲音數(shù)據(jù),直到聲音數(shù)據(jù)結(jié)束。MP3播放函數(shù)實(shí)現(xiàn)代碼如下:由于MCU容量限制,選取測(cè)試的MP3文件不能太大。首先在計(jì)算機(jī)上將MP3文件的二進(jìn)制數(shù)據(jù)轉(zhuǎn)為標(biāo)準(zhǔn)C數(shù)組格式文件,然后將該文件加入工程中。源代碼中MP3文件存儲(chǔ)在外擴(kuò)的SPIFLASH中,工程中需要注釋和移除全部相關(guān)代碼。MP3數(shù)據(jù)讀取函數(shù)是LD_ReloadMp3Data,只需將讀取的SPIFLASH數(shù)據(jù)部分改成以數(shù)組數(shù)據(jù)讀取的方式即可。3.2.2語(yǔ)音識(shí)別程序LD3320語(yǔ)音識(shí)別芯片完成的操作順序?yàn)椋和ㄓ贸跏蓟鶤SR初始化→添加關(guān)鍵詞→開啟語(yǔ)音識(shí)別。在源代碼中的RunASR函數(shù)已經(jīng)實(shí)現(xiàn)了上面的過(guò)程。深圳新一代語(yǔ)音識(shí)別設(shè)計(jì)語(yǔ)音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語(yǔ)翻譯。
語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,又取得了幾個(gè)突破性的進(jìn)展。1970年,來(lái)自前蘇聯(lián)的Velichko和Zagoruyko將模式識(shí)別的概念引入語(yǔ)音識(shí)別中。同年,Itakura提出了線性預(yù)測(cè)編碼(LinearPredictiveCoding,LPC)技術(shù),并將該技術(shù)應(yīng)用于語(yǔ)音識(shí)別。1978年,日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,成功地使用動(dòng)態(tài)規(guī)劃算法將兩段不同長(zhǎng)度的語(yǔ)音在時(shí)間軸上進(jìn)行了對(duì)齊,這就是我們現(xiàn)在經(jīng)常提到的動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,DTW)。該算法把時(shí)間規(guī)整和距離的計(jì)算有機(jī)地結(jié)合起來(lái),解決了不同時(shí)長(zhǎng)語(yǔ)音的匹配問(wèn)題。在一些要求資源占用率低、識(shí)別人比較特定的環(huán)境下,DTW是一種很經(jīng)典很常用的模板匹配算法。這些技術(shù)的提出完善了語(yǔ)音識(shí)別的理論研究,并且使得孤立詞語(yǔ)音識(shí)別系統(tǒng)達(dá)到了一定的實(shí)用性。此后,以IBM公司和Bell實(shí)驗(yàn)室為的語(yǔ)音研究團(tuán)隊(duì)開始將研究重點(diǎn)放到大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)(LargeVocabularyContinuousSpeechRecognition,LVCSR),因?yàn)檫@在當(dāng)時(shí)看來(lái)是更有挑戰(zhàn)性和更有價(jià)值的研究方向。20世紀(jì)70年代末,Linda的團(tuán)隊(duì)提出了矢量量化(VectorQuantization。VQ)的碼本生成方法,該項(xiàng)工作對(duì)于語(yǔ)音編碼技術(shù)具有重大意義。
它將執(zhí)行以下操作:進(jìn)行聲音輸入:“嘿Siri,現(xiàn)在幾點(diǎn)了?”通過(guò)聲學(xué)模型運(yùn)行語(yǔ)音數(shù)據(jù),將其分解為語(yǔ)音部分?!ねㄟ^(guò)語(yǔ)言模型運(yùn)行該數(shù)據(jù)。輸出文本數(shù)據(jù):“嘿Siri,現(xiàn)在幾點(diǎn)了?”在這里,值得一提的是,如果自動(dòng)語(yǔ)音識(shí)別系統(tǒng)是語(yǔ)音用戶界面的一部分,則ASR模型將不是在運(yùn)行的機(jī)器學(xué)習(xí)模型。許多自動(dòng)語(yǔ)音識(shí)別系統(tǒng)都與自然語(yǔ)言處理(NLP)和文本語(yǔ)音轉(zhuǎn)換(TTS)系統(tǒng)配合使用,以執(zhí)行其給定的角色。也就是說(shuō),深入研究語(yǔ)音用戶界面本身就是個(gè)完整的話題。要了解更多信息,請(qǐng)查看此文章。那么,現(xiàn)在知道了ASR系統(tǒng)如何運(yùn)作,但需要構(gòu)建什么?建立ASR系統(tǒng):數(shù)據(jù)的重要性ASR系統(tǒng)應(yīng)該具有靈活性。它需要識(shí)別各種各樣的音頻輸入(語(yǔ)音樣本),并根據(jù)該數(shù)據(jù)做出準(zhǔn)確的文本輸出,以便做出相應(yīng)的反應(yīng)。為實(shí)現(xiàn)這一點(diǎn),ASR系統(tǒng)需要的數(shù)據(jù)是標(biāo)記的語(yǔ)音樣本和轉(zhuǎn)錄形式。比這要復(fù)雜一些(例如,數(shù)據(jù)標(biāo)記過(guò)程非常重要且經(jīng)常被忽略),但為了讓大家明白,在此將其簡(jiǎn)化。ASR系統(tǒng)需要大量的音頻數(shù)據(jù)。為什么?因?yàn)檎Z(yǔ)言很復(fù)雜。對(duì)同一件事有很多種講述方式,句子的意思會(huì)隨著單詞的位置和重點(diǎn)而改變。還考慮到世界上有很多不同的語(yǔ)言,在這些語(yǔ)言中。由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,語(yǔ)音識(shí)別必定將成為未來(lái)主要的人機(jī)互動(dòng)接口之一。
并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語(yǔ)音識(shí)別的技術(shù)歷程現(xiàn)代語(yǔ)音識(shí)別可以追溯到1952年,Davis等人研制了世界上個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),從此正式開啟了語(yǔ)音識(shí)別的進(jìn)程。語(yǔ)音識(shí)別發(fā)展到已經(jīng)有70多年,但從技術(shù)方向上可以大體分為三個(gè)階段。下圖是從1993年到2017年在Switchboard上語(yǔ)音識(shí)別率的進(jìn)展情況,從圖中也可以看出1993年到2009年,語(yǔ)音識(shí)別一直處于GMM-HMM時(shí)代,語(yǔ)音識(shí)別率提升緩慢,尤其是2000年到2009年語(yǔ)音識(shí)別率基本處于停滯狀態(tài);2009年隨著深度學(xué)習(xí)技術(shù),特別是DNN的興起,語(yǔ)音識(shí)別框架變?yōu)镈NN-HMM,語(yǔ)音識(shí)別進(jìn)入了DNN時(shí)代,語(yǔ)音識(shí)別精細(xì)率得到了提升;2015年以后,由于“端到端”技術(shù)興起,語(yǔ)音識(shí)別進(jìn)入了百花齊放時(shí)代,語(yǔ)音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時(shí)利用端到端技術(shù)進(jìn)一步大幅提升了語(yǔ)音識(shí)別的性能,直到2017年微軟在Swichboard上達(dá)到詞錯(cuò)誤率,從而讓語(yǔ)音識(shí)別的準(zhǔn)確性超越了人類,當(dāng)然這是在一定限定條件下的實(shí)驗(yàn)結(jié)果,還不具有普遍代表性。GMM-HMM時(shí)代70年代,語(yǔ)音識(shí)別主要集中在小詞匯量、孤立詞識(shí)別方面,使用的方法也主要是簡(jiǎn)單的模板匹配方法,即首先提取語(yǔ)音信號(hào)的特征構(gòu)建參數(shù)模板,然后將測(cè)試語(yǔ)音與參考模板參數(shù)進(jìn)行一一比較和匹配。
語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別。新疆語(yǔ)音識(shí)別器
原理語(yǔ)音識(shí)別技術(shù)是讓機(jī)器通過(guò)識(shí)別把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)槲谋?,進(jìn)而通過(guò)理解轉(zhuǎn)變?yōu)橹噶畹募夹g(shù)。新疆語(yǔ)音識(shí)別器
純粹從語(yǔ)音識(shí)別和自然語(yǔ)言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對(duì)于等并未有什么本質(zhì)性改變,變化只是把近場(chǎng)語(yǔ)音交互變成了遠(yuǎn)場(chǎng)語(yǔ)音交互。正式面世于銷量已經(jīng)超過(guò)千萬(wàn),同時(shí)在扮演類似角色的漸成生態(tài),其后臺(tái)的第三方技能已經(jīng)突破10000項(xiàng)。借助落地時(shí)從近場(chǎng)到遠(yuǎn)場(chǎng)的突破,亞馬遜一舉從這個(gè)賽道的落后者變?yōu)樾袠I(yè)。但自從遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)規(guī)模落地以后,語(yǔ)音識(shí)別領(lǐng)域的產(chǎn)業(yè)競(jìng)爭(zhēng)已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰(shuí)更有優(yōu)勢(shì),而應(yīng)用比較的是在真實(shí)場(chǎng)景下誰(shuí)的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場(chǎng)景下的體驗(yàn),語(yǔ)音識(shí)別便失去存在的價(jià)值,更多作為產(chǎn)品體驗(yàn)的一個(gè)環(huán)節(jié)而存在。語(yǔ)音識(shí)別似乎進(jìn)入了一個(gè)相對(duì)平靜期,在一路狂奔過(guò)后紛紛開始反思自己的定位和下一步的打法。語(yǔ)音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種的姿態(tài)出現(xiàn)在大眾面前。智能音箱玩家們對(duì)這款產(chǎn)品的認(rèn)識(shí)還都停留在:亞馬遜出了一款產(chǎn)品,功能類似。
新疆語(yǔ)音識(shí)別器