版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p><b> 摘要</b></p><p> 讓機(jī)器聽(tīng)懂人類的語(yǔ)音,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù), 語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,所涉及的領(lǐng)域有信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。其應(yīng)用領(lǐng)域也非常廣,例如相對(duì)于鍵盤(pán)輸入方法的語(yǔ)音輸入系統(tǒng)、可用于工業(yè)控制的語(yǔ)音控制系
2、統(tǒng)及服務(wù)領(lǐng)域的智能對(duì)話查詢系統(tǒng),在信息高度化的今天,語(yǔ)音識(shí)別技術(shù)及其應(yīng)用已成為信息社會(huì)不可或缺的重要組成部分。</p><p> 通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。同時(shí),語(yǔ)言也是人與機(jī)器之間進(jìn)行通信的重要工具,它是一種理想的人機(jī)通信方式,因而可為信息處理系統(tǒng)建立良好的人機(jī)交互環(huán)境,進(jìn)一步推動(dòng)計(jì)算機(jī)和其他智能機(jī)器的應(yīng)用,提高社會(huì)的信息化程度。</p><p&g
3、t; 隨著嵌入式技術(shù)和通信技術(shù)的發(fā)展,智能機(jī)已成為電子技術(shù)發(fā)展的主流趨勢(shì),目前在智能機(jī)領(lǐng)域,從處理器選型、操作系統(tǒng)選擇以及應(yīng)用程序開(kāi)發(fā)都是研究的熱點(diǎn)。本設(shè)計(jì)利用ARM處理器開(kāi)發(fā)處理音頻信號(hào),通過(guò)一個(gè)ARM9芯片S3C2410作為處理器的嵌入式語(yǔ)音采集系統(tǒng),結(jié)合LD 3320的嵌入式語(yǔ)音識(shí)別系統(tǒng)闡述了語(yǔ)音數(shù)據(jù)的采集與處理,采用帶漢字庫(kù)的12864顯示屏作為語(yǔ)音顯示系統(tǒng)。它完成了基于非特定人的語(yǔ)音識(shí)別系統(tǒng)的靜態(tài)測(cè)試,其對(duì)于語(yǔ)音命令的平均識(shí)
4、別率可達(dá)90%,并應(yīng)用該系統(tǒng)構(gòu)成了語(yǔ)音文本顯示系統(tǒng),該系統(tǒng)能對(duì)近距離規(guī)范的語(yǔ)音進(jìn)行采樣識(shí)別,在內(nèi)部處理轉(zhuǎn)換成文本信息在顯示屏上顯示。</p><p> 關(guān)鍵詞: 語(yǔ)音識(shí)別; ARM處理器; LD 3320; 12864; 信號(hào)。</p><p><b> Abstract</b></p><p> Let the machine to
5、 understand human speech,it is a long dreamed of things. The speech recognition technology is to make the machine hrough the recognition and understanding of the process of speech signal transfer into the corresponding t
6、ext or command of high technology,speech recognition is a cross-discipinary, involved in the areas of signal processing, pattern recognition theory, sound mechanism and auditory mechanism,artificial intelligence and so
7、on.its application field is very wide,such</p><p> Through the phonetic transfer information is the most important and the most effective, most commonly used and the most convenient exchange information for
8、m. At the same time, the language is human and machine the important tool of communication between, it is a kind of ideal man-machine communication way, thus for information processing system to retablish good interactiv
9、e environment, further promote computer and other intelligent machine application,improve the social information degree.</p><p> With the embedded technology and communication technology development, the in
10、telligent electronic technology has becom the mainstream of development trend,in the field of intelligent,from the processor selection,operating system selection and application development is the research hotspot. this
11、design based on the ARM processor development processing audio signal trough a ARM9 processor S3C2410 chip as the embedded speech acquisition system, LD 3320 embedded speech recognition system elaborated</p><p
12、> Keywords: speech recognition; ARM processor; LD 3320; 12864;</p><p><b> Signal.</b></p><p><b> 目錄</b></p><p><b> 摘要Ⅰ</b></p>&l
13、t;p> AbstractⅡ</p><p><b> 前言1</b></p><p> 1 系統(tǒng)整體方案4</p><p> 1.1 總體方案4</p><p> 1.2 語(yǔ)音識(shí)別原理4</p><p> 2 系統(tǒng)硬件設(shè)計(jì)7</p><p>
14、 2.1 硬件模塊主體關(guān)系7</p><p> 2.2 電源模塊8</p><p> 2.3 寄存器模塊9</p><p> 2.4 控制單元模塊10</p><p> 2.4.1 ARMS3C2410芯片簡(jiǎn)介10</p><p> 2.5 語(yǔ)音識(shí)別模塊 11</p><p&
15、gt; 2.5.1 LD 3320芯片簡(jiǎn)介12</p><p> 2.5.2 LD 3320功能單元 13</p><p> 2.5.3 LD 3320芯片模式選擇14</p><p> 2.5.4 關(guān)鍵詞的ID及其設(shè)置16</p><p> 2.5.5 反應(yīng)時(shí)間16</p><p> 2.6 G
16、PRS模塊18</p><p> 2.7 語(yǔ)音撥號(hào)模塊18</p><p> 2.8 語(yǔ)音短信模塊19</p><p> 2.9 LCD顯示連接電路19</p><p> 2.9.1 12864芯片簡(jiǎn)介21</p><p> 3 系統(tǒng)軟件設(shè)計(jì)23</p><p> 3.1
17、 語(yǔ)音識(shí)別操作流程23</p><p> 3.2 系統(tǒng)程序流程24</p><p><b> 4 軟件調(diào)試26</b></p><p> 4.1 上電調(diào)試26</p><p> 4.2 讀寫(xiě)寄存器調(diào)試26</p><p> 4.3 檢查存儲(chǔ)器初始值26</p>
18、<p><b> 5 硬件調(diào)試28</b></p><p> 5.1 硬件電路調(diào)試28</p><p> 5.2 硬件功能檢查28</p><p> 5.3 綜合調(diào)試28</p><p><b> 結(jié)論29</b></p><p><b&g
19、t; 致謝30</b></p><p><b> 參考文獻(xiàn)31</b></p><p><b> 附錄32</b></p><p><b> 前言</b></p><p><b> 1、背景介紹</b></p>&
20、lt;p> 語(yǔ)言是人類傳遞信息的主要手段,語(yǔ)音識(shí)別技術(shù)是目前世界上最熱門(mén)和最具發(fā)展前景的新型信息技術(shù)之一。語(yǔ)音識(shí)別技術(shù)是近年來(lái)十分活躍的研究領(lǐng)域。語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究是語(yǔ)音識(shí)別研究的一個(gè)主要方向。</p><p> 語(yǔ)言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段。語(yǔ)言和語(yǔ)音與人類社會(huì)科學(xué)文化發(fā)展緊密相連?! ?/p>
21、語(yǔ)音識(shí)別技術(shù)是讓機(jī)器接收,識(shí)別和理解語(yǔ)音信號(hào),并將其轉(zhuǎn)換成相應(yīng)的數(shù)字信號(hào)的技術(shù)。它是一門(mén)交叉學(xué)科,涉及到語(yǔ)音語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)、信號(hào)處理等一系列學(xué)科。</p><p><b> 2、發(fā)展歷史</b></p><p> 語(yǔ)音識(shí)別技術(shù)的研究開(kāi)始二十世紀(jì)50年代。1952年,AT&Tbell實(shí)驗(yàn)室的Davis等人成功研制出了世界上第一個(gè)能識(shí)別十個(gè)英文數(shù)字發(fā)
22、音的實(shí)驗(yàn)系統(tǒng):Audry系統(tǒng)。60年代計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別技術(shù)的發(fā)展,提出兩大重要研究成果:動(dòng)態(tài)規(guī)劃(Dynamic Planning, DP)和線性預(yù)測(cè)分析(Linear Predict, LP),其中后者較好的解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,語(yǔ)音識(shí)別領(lǐng)域取得突破性進(jìn)展。線性預(yù)測(cè)編碼技術(shù)(Linear Predict Coding, LPC)被Itakura成功應(yīng)用于語(yǔ)音識(shí)別;Sako
23、e和Chiba將動(dòng)態(tài)規(guī)劃的思想應(yīng)用到語(yǔ)音識(shí)別并提出動(dòng)態(tài)時(shí)間規(guī)整算法,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)語(yǔ)音匹配問(wèn)題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。80年代,連續(xù)語(yǔ)音識(shí)別成為語(yǔ)音識(shí)別的研究重點(diǎn)之一。Meyers和Rabiner研究出多級(jí)動(dòng)態(tài)規(guī)劃語(yǔ)音識(shí)別算法(Level Building,LB)這一連續(xù)語(yǔ)音識(shí)別算法。80年代另一個(gè)重要的發(fā)展是概率統(tǒng)計(jì)方法成為語(yǔ)音識(shí)別研究方法的主流,其顯著特征是H</p&
24、gt;<p> 我國(guó)在七十年代末就開(kāi)始了語(yǔ)音技術(shù)的研究,但在很長(zhǎng)一段時(shí)間內(nèi),都處于緩慢發(fā)展的階段。由于起步晚、基礎(chǔ)薄弱,計(jì)算機(jī)水平不發(fā)達(dá),導(dǎo)致在整個(gè)八十年代,我國(guó)在語(yǔ)音識(shí)別研究方面并沒(méi)有形成自己的特色,更沒(méi)有取得顯著的成果和開(kāi)發(fā)出大型性能優(yōu)良的實(shí)驗(yàn)系統(tǒng)。但進(jìn)入九十年代后,我國(guó)語(yǔ)音識(shí)別研究的步伐就逐漸緊追國(guó)際先進(jìn)水平了,在“八五”、“九五”國(guó)家科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金、國(guó)家863計(jì)劃的支持下,我國(guó)在中文語(yǔ)音技術(shù)的基礎(chǔ)
25、研究方面也取得了一系列成果。但是,這些成果并沒(méi)有得到很好的應(yīng)用,沒(méi)有轉(zhuǎn)化成產(chǎn)業(yè);相反,中文語(yǔ)音技術(shù)在技術(shù)、人才、市場(chǎng)等方面正面臨著來(lái)自國(guó)際競(jìng)爭(zhēng)環(huán)境中越來(lái)越嚴(yán)峻的挑戰(zhàn)和壓力。</p><p><b> 3、具體應(yīng)用</b></p><p> 隨著計(jì)算機(jī)技術(shù)、模式識(shí)別等技術(shù)的發(fā)展,適應(yīng)不同場(chǎng)合的語(yǔ)音識(shí)別系統(tǒng)相繼被開(kāi)發(fā)出來(lái),語(yǔ)音識(shí)別及處理技術(shù)已經(jīng)越來(lái)越突現(xiàn)出其強(qiáng)大的技術(shù)
26、優(yōu)勢(shì)。近三十年來(lái),語(yǔ)音識(shí)別在計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域的應(yīng)用越來(lái)越廣泛。 </p><p> 目前,語(yǔ)音識(shí)別技術(shù)己經(jīng)在生活中的諸多方面有了廣泛的應(yīng)用,而這方面的例子已經(jīng)屢見(jiàn)不鮮,其主要的應(yīng)用場(chǎng)合如下:</p><p><b> ?。?)聲控應(yīng)用</b></p><p> 在很多場(chǎng)合與特定環(huán)境中,使用聲控系統(tǒng)可以大大提
27、高生活質(zhì)量和便利程度。比如司機(jī)通過(guò)語(yǔ)音進(jìn)行電話撥號(hào),可以減少交通事故的發(fā)生率,而很多行動(dòng)不便的人通過(guò)聲控系統(tǒng)更是可以將生活質(zhì)量提高。</p><p><b> ?。?)數(shù)據(jù)庫(kù)檢索</b></p><p> 在不少行業(yè)部門(mén)當(dāng)中都需要對(duì)龐大的數(shù)據(jù)進(jìn)行檢索和查詢,這是一項(xiàng)非常復(fù)雜的I作。語(yǔ)音識(shí)別的引入可以大大的減少勞動(dòng)量,既方便又節(jié)約人力成本。</p>&l
28、t;p><b> ?。?)語(yǔ)音聽(tīng)寫(xiě)機(jī)</b></p><p> 用口述來(lái)代替人工輸入文檔,提高了輸入速度,而且更加方便,可以為辦公自動(dòng)化帶來(lái)革命性的變化。比如IBM出品的Via Voicc系列產(chǎn)品就是這個(gè)方面典型的應(yīng)用。</p><p><b> ?。?)自動(dòng)口譯</b></p><p> 將語(yǔ)音識(shí)別應(yīng)用于自動(dòng)
29、口語(yǔ)翻譯是未來(lái)的一大趨勢(shì),不僅可以節(jié)省大量的人力。同時(shí)也讓翻譯工作變得更加輕松簡(jiǎn)單。一些發(fā)達(dá)國(guó)家在自動(dòng)口譯方面的研究己經(jīng)取得了一定的進(jìn)展。目前,語(yǔ)音識(shí)別技術(shù)仍在高速發(fā)展之中。隨著時(shí)代的進(jìn)步,越來(lái)越多的領(lǐng)域開(kāi)始引入這項(xiàng)技術(shù),人類的日常生活會(huì)級(jí)此而帶來(lái)更大改變。</p><p> 本設(shè)計(jì)介紹了一種以ARM為核心的嵌入式語(yǔ)音識(shí)別模塊的設(shè)計(jì)與實(shí)現(xiàn)。本模塊以對(duì)話管理單元為中心,通過(guò)以LD 3320芯片為核心的硬件單元實(shí)現(xiàn)
30、語(yǔ)音識(shí)別功能,經(jīng)過(guò)大量的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證,本文設(shè)計(jì)的語(yǔ)音識(shí)別模塊具有高實(shí)時(shí)性、高識(shí)別率、高穩(wěn)定性的優(yōu)點(diǎn)。</p><p><b> 1 系統(tǒng)整體方案</b></p><p><b> 1.1 總體方案</b></p><p> 基于現(xiàn)有技術(shù)開(kāi)發(fā)嵌入式語(yǔ)音交互系統(tǒng),目前主要有兩種方式:一種是直接在嵌入式處理器中調(diào)用語(yǔ)音開(kāi)
31、發(fā)包;另一種是嵌入式處理器外圍擴(kuò)展語(yǔ)音芯片。第一種方法程序量大,計(jì)算復(fù)雜,需要占用大量的處理器資源,開(kāi)發(fā)周期長(zhǎng);第二種方法相對(duì)簡(jiǎn)單,只需要關(guān)注語(yǔ)音芯片的接口部分與微處理器相連,結(jié)構(gòu)簡(jiǎn)單,搭建方便,微處理器的計(jì)算負(fù)擔(dān)大大降低,增強(qiáng)了可靠性,縮短了開(kāi)發(fā)周期。</p><p> 本設(shè)計(jì)的語(yǔ)音識(shí)別方案是以嵌入式微處理器ARM S3C2410芯片為核心,配合A/D, D/A 電路,控制電路,接口電路和存儲(chǔ)電路來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)
32、別的訓(xùn)練和識(shí)別過(guò)程。外圍加非特定人語(yǔ)音識(shí)別芯片及相關(guān)電路構(gòu)成。語(yǔ)音識(shí)別芯片選用ICRoute公司的LD 3320芯片,由于LD 3320可以動(dòng)態(tài)編輯的識(shí)別關(guān)鍵詞語(yǔ)列表,因此其可以應(yīng)用的范圍大大超過(guò)了那些不可以改變識(shí)別列表的芯片。又由于LD 3320 是一顆真正的單芯片解決方案,不需要輔助的外圍 Flash/RAM/AD,從而降低了系統(tǒng)的成本。在用戶的語(yǔ)音進(jìn)入語(yǔ)音識(shí)別部分后, LD 3320 將把處理過(guò)的數(shù)據(jù)并行傳輸?shù)街骺刂破?,主控制器?/p>
33、理后,發(fā)送命令數(shù)據(jù)到可擴(kuò)展外圍串行設(shè)備實(shí)現(xiàn)控制操作.所接收的數(shù)據(jù)最后通過(guò)帶漢字庫(kù)的12864液晶屏顯示出相應(yīng)的漢字。</p><p> 1.2 語(yǔ)音識(shí)別原理</p><p> 在計(jì)算機(jī)系統(tǒng)中,語(yǔ)音信號(hào)本身的不確定性、動(dòng)態(tài)性和連續(xù)性是語(yǔ)音識(shí)別的難點(diǎn),主流的語(yǔ)音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論,語(yǔ)音識(shí)別過(guò)程圖語(yǔ)音識(shí)別通常需要兩個(gè)階段完成。第一階段是訓(xùn)練,主要是提取語(yǔ)音特征,用戶往往需要
34、進(jìn)行幾次語(yǔ)音訓(xùn)練,經(jīng)過(guò)預(yù)處理和特征提取后獲得相應(yīng)特征參數(shù)。第二階段是識(shí)別,識(shí)別過(guò)程就是將輸入的語(yǔ)音特征參數(shù)和模型庫(kù)中的參數(shù)進(jìn)行相似性比較,最后輸出匹配度最高的特征參數(shù)完成識(shí)別過(guò)程。語(yǔ)音識(shí)別過(guò)程原理如圖1-1所示:</p><p> 圖1-1 語(yǔ)音識(shí)別過(guò)程</p><p> 語(yǔ)音識(shí)別過(guò)程圖語(yǔ)音識(shí)別通常需要兩個(gè)階段完成。第一階段是訓(xùn)練,主要是提取語(yǔ)音特征,用戶往往需要進(jìn)行幾次語(yǔ)音訓(xùn)練,經(jīng)過(guò)
35、預(yù)處理和特征提取后獲得相應(yīng)特征參數(shù)。第二階段是識(shí)別,識(shí)別過(guò)程就是將輸入的語(yǔ)音特征參數(shù)和模型庫(kù)中的參數(shù)進(jìn)行相似性比較,最后輸出匹配度最高的特征參數(shù)完成識(shí)別過(guò)程。</p><p> 目前,語(yǔ)音識(shí)別技術(shù)按照識(shí)別對(duì)象的類型可以分為特定人和非特定人語(yǔ)音識(shí)別。特定人是指識(shí)別對(duì)象為專門(mén)的人,非特定人是指識(shí)別對(duì)象是針對(duì)大多數(shù)用戶,一般需要采集多個(gè)人的語(yǔ)音進(jìn)行錄音和訓(xùn)練,經(jīng)過(guò)學(xué)習(xí),從而達(dá)到較高的識(shí)別率。</p>&
36、lt;p> 語(yǔ)音識(shí)別技術(shù)在國(guó)內(nèi)外的發(fā)展十分迅速。在嵌入式應(yīng)用領(lǐng)域,具有代表性的有凌陽(yáng)的 SPCE061A、ICRoute 的 LD 3320。</p><p> 本文的語(yǔ)音識(shí)別方案是以嵌入式微處理器為核心,外圍加非特定人語(yǔ)音識(shí)別芯片LD 3320 及相關(guān)電路構(gòu)成。</p><p> 1、語(yǔ)音采集設(shè)備如話筒、電話等將語(yǔ)音轉(zhuǎn)換成模擬信號(hào)。</p><p>
37、 2、數(shù)字化一般包括預(yù)濾波、采樣和A/D變換。該過(guò)程將模擬信號(hào)轉(zhuǎn)變成計(jì)算機(jī)能處理的數(shù)字信號(hào)。 3、預(yù)處理一般包括預(yù)加重、加窗分幀。經(jīng)預(yù)處理后的信號(hào)被轉(zhuǎn)換成了幀序列的加窗的短時(shí)信號(hào)。 4、參數(shù)分析是對(duì)短時(shí)信號(hào)進(jìn)行分析,提取語(yǔ)音特征參數(shù)的過(guò)程,如時(shí)域、頻域分析,矢量量化等。 </p><p> 5、語(yǔ)音識(shí)別是目標(biāo)語(yǔ)音根據(jù)特征參數(shù)與模型庫(kù)中的參數(shù)進(jìn)行匹配,產(chǎn)生識(shí)別結(jié)果的過(guò)程。一般有模板匹配法
38、、隨機(jī)模型法和神經(jīng)網(wǎng)絡(luò)等。 </p><p> 6、應(yīng)用程序根據(jù)識(shí)別結(jié)果產(chǎn)程預(yù)定動(dòng)作。</p><p> 7、該過(guò)程是語(yǔ)音模型的學(xué)習(xí)過(guò)程。</p><p><b> 2 系統(tǒng)硬件設(shè)計(jì)</b></p><p> 2.1 硬件模塊主體關(guān)系</p><p> 本設(shè)計(jì)由LD 3320芯片和三星
39、公司的 S3C2410 芯片為核心,配合 A/D、D/A 電路,控制電路,接口電路和存儲(chǔ)電路來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別的訓(xùn)練和識(shí)別過(guò)程。S3C2410 主要負(fù)責(zé)系統(tǒng)的控制和識(shí)別工作,而語(yǔ)音信號(hào)的特征提取和訓(xùn)練算法全部由 LD 3320來(lái)完成。S3C2410 處理器采用的是 ARM920T 內(nèi)核,5 級(jí)流水線指令結(jié)構(gòu),片內(nèi)鎖相環(huán),內(nèi)部時(shí)鐘可達(dá)到 200 MHz,因此可以用來(lái)進(jìn)行復(fù)雜的控制算法以提高控制精度。</p><p>
40、 S3C2410 有 117 個(gè) I/O 口和 24 個(gè)外部中斷源,內(nèi)部具有豐富的接口控制器,可以簡(jiǎn)化外圍電路,同時(shí)其內(nèi)部時(shí)鐘可達(dá)到200MHz。 LD 3320是一顆基于非特定人語(yǔ)音識(shí)別技術(shù)的語(yǔ)音識(shí)別/聲控芯片,該芯片集成了語(yǔ)音識(shí)別處理器和一些外部電路,包括ADC、DAC、麥克風(fēng)接口、聲音輸出接口等。該芯片不需要外接任何的輔助芯片如Flash、RAM等,直接集成在現(xiàn)有的產(chǎn)品中,即可以實(shí)現(xiàn)語(yǔ)音識(shí)別/聲控/人機(jī)對(duì)話功能。具有較強(qiáng)的中斷處理
41、能力, 適合實(shí)時(shí)語(yǔ)音處理。芯片采用48腳QFN塑料封裝,工作供電為3.3V。其核心是語(yǔ)音識(shí)別運(yùn)算器,配合輸入、輸出、AD/DA轉(zhuǎn)換等模塊,完成語(yǔ)音識(shí)別的功能。</p><p> LD 3320還支持并行和串行接口,串行方式可以簡(jiǎn)化與其他模塊的連接并具有,為語(yǔ)音處理帶來(lái)了極大的便利。電路主要由主控制器電路和語(yǔ)音識(shí)別電路組成。ARM S3C2410處理器控制LD 3320語(yǔ)音識(shí)別電路,輸出結(jié)果由ARM S3C241
42、0處理器處理,然后通過(guò)總線來(lái)控制不同的設(shè)備。</p><p> 12864漢字圖形點(diǎn)陣液晶顯示模塊,是128×64點(diǎn)陣的漢字圖形型液晶顯示模塊,可顯示漢字及圖形,內(nèi)置8192個(gè)中文漢字(16X16 點(diǎn)陣)、128 個(gè)字符(8X16 點(diǎn)陣)及 64X256 點(diǎn)陣顯示 RAM(GDRAM)??膳cCPU直接接口,提供兩種界面來(lái)連接微處理機(jī),8位并行及串行兩種連接方式。</p><p>
43、; 各硬件模塊關(guān)系圖如圖2-1所示:</p><p> 圖2-1 各硬件模塊關(guān)系圖</p><p><b> 2.2 電源模塊</b></p><p> 本系統(tǒng)采用3.3V供電,主要控制及識(shí)別部分采用LM1117-3.3穩(wěn)壓芯片,語(yǔ)音播放及繼電器部分采用7812為其提供穩(wěn)定的電流電壓。電源模塊電路圖如圖2-2所示:</p>
44、<p> 圖2-2 電源模塊電路圖</p><p><b> 1、參數(shù)特性</b></p><p> (1)輸入電壓(V):4.75~12; </p><p> ?。?)輸出電流(A):1; </p><p> ?。?)輸出電壓(V):3.3; </p><p> ?。?)壓
45、差(V):1。</p><p><b> 2、封裝</b></p><p> ?。?)類型:SOT-223; </p><p> ?。?)引腳:3; </p><p> ?。?)體寬:6.30-6.71 mm; </p><p> ?。?)長(zhǎng)度:3.30-3.71 mm;</p>
46、;<p> ?。?)引腳間距:2.29 mm。</p><p><b> 2.3 寄存器模塊</b></p><p> 本系統(tǒng)采用華邦SPI flash芯片W25Q40AVSNIG,大小為512Kbyte,用于存儲(chǔ)人機(jī)對(duì)話時(shí)的聲音素材。寄存器模塊電路圖如圖2-3所示:</p><p><b> 圖</b>
47、;</p><p><b> 路</b></p><p> 圖2-3 寄存器模塊電路圖</p><p> 選用串行閃存的理由:</p><p> 1、能夠減少微處理器的封裝管腳數(shù)目; 2、線路板(PCB)可以更小,更簡(jiǎn)單; 3、能夠減少系統(tǒng)電路切換噪聲;</p><p> 4
48、、能夠減低系統(tǒng)功能及制造成本。</p><p> 2.4 控制單元模塊</p><p> 采用ARM9 S3C2410單片機(jī)作為系統(tǒng)的主控制單元。ARM9 S3C2410系列單片機(jī)具有強(qiáng)大的數(shù)據(jù)處理功能,且I/O口控制靈活。</p><p> 2.4.1 ARM S3C2410芯片簡(jiǎn)介</p><p> S3C2410處理器是Sams
49、ung公司基于ARM公司的ARM920T處理器核,采用0.18um制造工藝的32位微控制器。該處理器擁有:獨(dú)立的16KB指令Cache和16KB數(shù)據(jù)Cache,MMU,支持TFT的LCD控制器,NAND閃存控制器,3路UART,4路DMA,4路帶PWM的Timer ,I/O口,RTC,8路10位ADC,Touch Screen接口,IIC-BUS 接口,IIS-BUS 接口,2個(gè)USB主機(jī),1個(gè)USB設(shè)備,SD主機(jī)和MMC接口,2路SP
50、I。S3C2410處理器最高可運(yùn)行在203MHz,32位處理器。核心板的尺寸僅相當(dāng)于名片的2/3大小,尺寸如此小巧的嵌入式核心板是國(guó)內(nèi)首創(chuàng)。開(kāi)發(fā)商可以充分發(fā)揮想象力,設(shè)計(jì)制造出小體積,高性能的嵌入式應(yīng)用產(chǎn)品。</p><p> S3C2410芯片功能單元:內(nèi)部1.8V,存儲(chǔ)器3.3V,外部I/O3.3V,16KB數(shù)</p><p> 據(jù)Cache,16KB指令Cache,MMU; 內(nèi)置
51、外部存儲(chǔ)器控制器(SDRAM控制和芯片選擇邏輯); LCD控制器,一個(gè)LCD專業(yè)DMA; 4個(gè)帶外部請(qǐng)求線的DMA; 3個(gè)通用異步串行端口(IrDA1.0,16-Byte Tx FIFO and 16-Byte Rx FIFO);2通道SPI; 一個(gè)多主I2C總線,一個(gè)I2S總線控制器; SD主接口版本1.0和多媒體卡協(xié)議版本2.11兼容; 兩個(gè)USB HOST,一個(gè)USB DEVICE(VER1.1);4個(gè)PWM定時(shí)器和一個(gè)內(nèi)部定時(shí)器
52、;看門(mén)狗定時(shí)器;117個(gè)通用I/O;56個(gè)中斷源;24個(gè)外部中斷;電源控制模式:標(biāo)準(zhǔn)、慢速、休眠、掉電;8通道10位ADC和觸摸屏接口;帶日歷功能的實(shí)時(shí)時(shí)鐘;芯片內(nèi)置PLL;設(shè)計(jì)用于手持設(shè)備和通用嵌入式系統(tǒng);16/32位RISC體系結(jié)構(gòu),使用ARM920T CPU核的強(qiáng)大指令集;帶MMU的先進(jìn)的體系結(jié)構(gòu)支持WinCE、EPOC32、Linux;指令緩存(Cache)、數(shù)據(jù)緩存、寫(xiě)緩存和物理地址TAG RAM,減小了對(duì)主存儲(chǔ)器帶寬和性能的
53、影響;ARM920T CPU核支持ARM調(diào)試的體系結(jié)構(gòu);內(nèi)部先進(jìn)的位</p><p> S3C2410系統(tǒng)管理:小端/大端支持;地址空間:每個(gè)BANK128MB(全部為1GB);每個(gè)BANK可編程為8/16/32位數(shù)據(jù)總線;BANK0到BANK6為固定起始地址;BANK7可編程BANK起始地址和大小;一共8個(gè)存儲(chǔ)器BANK;前6個(gè)存儲(chǔ)器BANK用于ROM、SRAM和其它;兩個(gè)存儲(chǔ)器BANK用于ROM、SRAM、
54、和SDRAM(同步隨機(jī)存儲(chǔ)器);支持等待信號(hào)用以擴(kuò)展總線周期;支持SDRAM掉電模式下的自刷新;支持不同類型的ROM用于啟動(dòng)(NOR/NAND Flash、EEPROM和其它)。 </p><p> S3C2410芯片封裝與型號(hào):272-FBGA封裝;S3C2410A-20、S3C2410A-26; 區(qū)別:前者主頻最高為200MHZ、后者主頻最高為266MHZ。</p><p> S3
55、C2410連接電路圖2-4所示:</p><p> 圖2-4 S3C2410連接電路圖</p><p> 2.5 語(yǔ)音識(shí)別模塊 </p><p> LD 3320的內(nèi)部集成了快速穩(wěn)定的優(yōu)化算法,不需外接Fla-sh、RAM,不需要用戶事先訓(xùn)練和錄音而完成非特定人語(yǔ)音識(shí)別,識(shí)別準(zhǔn)確率高。</p><p> LD 3320采用并行方式直
56、接與AR9 S3C2410相接,均采用1 kΩ電阻上拉,A0用于判斷是數(shù)據(jù)段還是地址段;控制信號(hào)RDB、WRB、CSB,復(fù)位信號(hào)RSTB以及中斷返回信號(hào)INTB與AR9 S3C2410直接相連,采用10kΩ電阻上拉,輔助系統(tǒng)穩(wěn)定工作;和AR9 S3C2410采用同一個(gè)外部8 MHz時(shí)鐘;發(fā)光二極管D1、D2用于復(fù)位后的上電指示;MBS(引腳12)作為麥克風(fēng)偏置,接了一個(gè)RC電路,保證能輸出一個(gè)浮動(dòng)電壓給麥克風(fēng)。LD 3320語(yǔ)音識(shí)別單元
57、設(shè)計(jì)原理圖如圖2-5所示:</p><p> 圖2-5 LD 3320語(yǔ)音識(shí)別單元設(shè)計(jì)原理圖</p><p> 2.5.1 LD 3320芯片簡(jiǎn)介</p><p> LD 3320是一顆基于非特定人語(yǔ)音識(shí)別(SI-ASR,Speaker Independent Automatic Speech Recognition)技術(shù)的語(yǔ)音識(shí)別/聲控芯片。該芯片集成了語(yǔ)音
58、識(shí)別處理器和一些外部電路,包括ADC、DAC、麥克風(fēng)接口、聲音輸出接口等。該芯片不需要外接任何的輔助芯片如Flash、RAM等,直接集成在現(xiàn)有的產(chǎn)品中,即可以實(shí)現(xiàn)語(yǔ)音識(shí)別/聲控/人機(jī)對(duì)話功能,并且,識(shí)別的關(guān)鍵詞語(yǔ)列表是可以任意動(dòng)態(tài)編輯的。LD 3320完成非特定人語(yǔ)音識(shí)別,每次識(shí)別最多可以設(shè)置50項(xiàng)候選識(shí)別句,每個(gè)識(shí)別句可以是單字、詞組或短句,長(zhǎng)度為不超過(guò)10個(gè)漢字或者79個(gè)字節(jié)的拼音串。另一方面,識(shí)別句內(nèi)容可以動(dòng)態(tài)編輯修改,因此可由一
59、個(gè)系統(tǒng)支持多種場(chǎng)景。芯片采用48腳QFN塑料封裝,工作供電為3.3V。其核心是語(yǔ)音識(shí)別運(yùn)算器,配合輸入、輸出、AD/DA轉(zhuǎn)換等模塊,完成語(yǔ)音識(shí)別的功能。LD 3320還支持并行和串行接口,串行方式可以簡(jiǎn)化與其他模塊的連接。</p><p> LD 3320 電路說(shuō)明:1、電壓要求 VDD: 數(shù)字電路用電源輸入3.0 V~3.3 V ,VDDIO: 數(shù)字 I/O 電路用電源輸入1.65 V~VDD ,VDDA:模
60、擬電路用電源輸入3.0 V~4.0 V。 2、芯片管腳輸入電壓范圍:高電壓(邏輯“1”):0.7*VDDIO ~VDDIO 低電壓(邏輯“0”):0~0.3*VDDIO 因此,開(kāi)發(fā)者需要保證自己使用的主控 MCU 同樣工作在 3.3v,保證主控 MCU 向 LD 3320 的管腳輸出的高電壓不超過(guò) 3.3V。</p><p> 2.5.2 LD 3320功能單元</p><p> 1
61、、時(shí)鐘(Clock) </p><p> 芯片必須連接外部時(shí)鐘,可接受的頻率范圍是 4—48MHz,而芯片內(nèi)部還有 PLL 頻率合成器,可產(chǎn)生特定的頻率供內(nèi)部模塊使用。 </p><p><b> 2、復(fù)位 </b></p><p> 對(duì)芯片的復(fù)位信號(hào)(RSTB*)必須在 VDD/VDDA/VDDIO 都穩(wěn)定后進(jìn)行。無(wú)論芯片正在進(jìn)行何種運(yùn)
62、算,復(fù)位信號(hào)都可以使它恢復(fù)初始狀態(tài),并使各寄存器復(fù)位。如果沒(méi)有后續(xù)的指令(對(duì)寄存器的設(shè)置),復(fù)位后芯片將進(jìn)入休眠狀態(tài)。此后,一個(gè) CSB*信號(hào)就可以重新激活芯片進(jìn)入工作狀態(tài)。 </p><p><b> 3、并行接口 </b></p><p> 本芯片可通過(guò)并行方式和外部主CPU連接,此時(shí)使用8根數(shù)據(jù)線(P0-P7),4個(gè)控制信號(hào)(WRB*, RDB*, CS*,
63、A0),以及一個(gè)中斷返回信號(hào)(INTB*)。 </p><p><b> 4、串行接口 </b></p><p> 串行接口通過(guò)SPI協(xié)議和外部CPU連接,首先要將 MD 接高電平,而將(SPIS*)接地。此時(shí)只使用4個(gè)管腳:片選(SCS*)、SPI時(shí)鐘(SDCK)、SPI 輸入(SDI)和 SPI 輸出(SDO)。 </p><p>&
64、lt;b> 5、寄存器</b></p><p> 對(duì)芯片的設(shè)置和命令,包括傳送數(shù)據(jù)和接受數(shù)據(jù),都是通過(guò)對(duì)寄存器的操作來(lái)完成的。例如進(jìn)行語(yǔ)音識(shí)別時(shí),設(shè)置識(shí)別的關(guān)鍵詞語(yǔ)列表,設(shè)定</p><p> 芯片的識(shí)別模式,識(shí)別完成后獲得識(shí)別結(jié)果都是通過(guò)讀/寫(xiě)寄存器來(lái)完成。播放聲音時(shí),就是將 MP3 格式的數(shù)據(jù)循環(huán)放入 FIFO 對(duì)應(yīng)的寄存器。(識(shí)別結(jié)果是通過(guò)寄存器返回識(shí)別出的關(guān)
65、鍵詞語(yǔ)在關(guān)鍵詞語(yǔ)列表中的排列序號(hào) Index 數(shù)值,該 Index 數(shù)值是在設(shè)置關(guān)鍵詞語(yǔ)列表時(shí)指定)。 </p><p> 6、喇叭音量的外部控制</p><p> 除了特定寄存器來(lái)控制音量以外,芯片外部的電路可以控制喇叭的音量增益。使用的是 EP1、EP2、EP3 對(duì)應(yīng)的管腳。 </p><p> 7、快速開(kāi)發(fā)和評(píng)估驗(yàn)證</p><p&g
66、t; 為了方便開(kāi)發(fā)者對(duì)于LD 3320芯片進(jìn)行快速開(kāi)發(fā)和評(píng)估驗(yàn)證,ICRoute 提供了開(kāi)發(fā)板和模塊。</p><p> 2.5.3 LD 3320芯片模式選擇</p><p> 用戶可以通過(guò)編程,設(shè)置兩種不同的用戶使用模式:“觸發(fā)識(shí)別模式”和“循環(huán)識(shí)別模式”:</p><p><b> 1、觸發(fā)識(shí)別模式:</b></p>
67、<p> 系統(tǒng)的主控MCU在接受到外界一個(gè)觸發(fā)后(比如用戶按動(dòng)某個(gè)按鍵),啟動(dòng)LD 3320芯片的一個(gè)定時(shí)識(shí)別過(guò)程(比如5秒鐘),要求用戶在這個(gè)定時(shí)過(guò)程中說(shuō)出要識(shí)別的語(yǔ)音關(guān)鍵詞語(yǔ)。過(guò)了這個(gè)過(guò)程后,需要用戶再次觸發(fā)才能再次啟動(dòng)一個(gè)識(shí)別過(guò)程。</p><p><b> 2、循環(huán)識(shí)別模式:</b></p><p> 系統(tǒng)的主控MCU反復(fù)啟動(dòng)識(shí)別過(guò)程。如果沒(méi)
68、有人說(shuō)話沒(méi)有識(shí)別結(jié)果,則每次識(shí)別過(guò)程的定時(shí)到時(shí)后再啟動(dòng)一個(gè)識(shí)別過(guò)程;如果有識(shí)別結(jié)果,則根據(jù)識(shí)別作相應(yīng)處理后(比如播放某個(gè)聲音作為回答)再啟動(dòng)一個(gè)識(shí)別過(guò)程。一般來(lái)說(shuō),觸發(fā)識(shí)別適合識(shí)別精度要求比較高的場(chǎng)合。外界觸發(fā)后,產(chǎn)品可以播放提示音或者其他方式來(lái)提示用戶在接下來(lái)的幾秒鐘內(nèi)說(shuō)出要識(shí)別的內(nèi)容,這樣來(lái)引導(dǎo)用戶在規(guī)定的時(shí)間內(nèi)只說(shuō)出要識(shí)別的內(nèi)容,從而保證比較高的識(shí)別率。而循環(huán)識(shí)別比較適合需要始終進(jìn)行語(yǔ)音監(jiān)控的場(chǎng)合,或者沒(méi)有按鍵等其他設(shè)備控制識(shí)別開(kāi)
69、始的場(chǎng)合。而這種狀態(tài),識(shí)別準(zhǔn)確度會(huì)有一定下降,在循環(huán)識(shí)別的過(guò)程中,用戶的其他說(shuō)話聲音,或者外界的其他聲音,都有可能被識(shí)別引擎誤識(shí)別出錯(cuò)誤的結(jié)果,需要產(chǎn)品的控制邏輯都作相應(yīng)的處理。</p><p> 在識(shí)別精度要求高的場(chǎng)景中,應(yīng)該采用“觸發(fā)識(shí)別”模式。原因是:</p><p> ?。?)用戶在每次按鍵后,精神處于最集中的狀態(tài),此時(shí)用戶說(shuō)的語(yǔ)音命令會(huì)比較認(rèn)真、清晰。避免了用戶過(guò)時(shí)隨意的發(fā)音導(dǎo)
70、致的識(shí)別誤差。</p><p> ?。?)每次按鍵后,產(chǎn)品應(yīng)該給以一個(gè)明顯的開(kāi)始信號(hào),比如發(fā)出“當(dāng)”的一聲或者其他提示信號(hào),可以給用戶一個(gè)明確開(kāi)始的提示,方便用戶掌握說(shuō)語(yǔ)音命令的時(shí)間。</p><p> ?。?)由于按鍵觸發(fā)后,用戶就會(huì)貼近麥克風(fēng)并說(shuō)出語(yǔ)音命令,避免了其他環(huán)境聲音被錄入LD 3320芯片導(dǎo)致的誤識(shí)別,這種方式還是一種省電的方式,在不識(shí)別時(shí),徹底不讓芯片工作以省電。</
71、p><p><b> 3、口令觸發(fā)模式</b></p><p> 在一些應(yīng)用場(chǎng)合,希望識(shí)別精度高,但是又無(wú)法要求用戶每次都用手按鍵來(lái)“觸發(fā)識(shí)別”。此時(shí),可以采用“口令觸發(fā)模式”。</p><p> 產(chǎn)品定義一句短語(yǔ),作為觸發(fā)口令。比如,可以定義“你好”作為觸發(fā)口令。產(chǎn)品在等待用戶觸發(fā)時(shí),啟動(dòng)一個(gè)“循環(huán)識(shí)別”模式,把觸發(fā)口令“你好”和其他幾十個(gè)
72、用來(lái)吸收錯(cuò)誤的詞匯設(shè)置進(jìn)LD 3320。只有當(dāng)檢測(cè)到識(shí)別出的結(jié)果是觸發(fā)口令時(shí),才認(rèn)為是終端用戶叫了這個(gè)口令。此時(shí),給出提示音,并啟動(dòng)一個(gè)“觸發(fā)識(shí)別模式”,并把相應(yīng)的識(shí)別列表設(shè)置進(jìn)LD 3320,提示用戶在提示音后幾秒鐘內(nèi)說(shuō)出要執(zhí)行的操作。</p><p> 在等待用戶的過(guò)程時(shí),如果識(shí)別的結(jié)果是那些用來(lái)吸收錯(cuò)誤的詞匯,則認(rèn)為是誤識(shí)別,或者其他的聲音干擾,而不進(jìn)行任何的處理,直接再次進(jìn)入“循環(huán)識(shí)別”模式。</
73、p><p> 這種口令觸發(fā)模式,融合了其他兩種模式的優(yōu)點(diǎn),并且結(jié)合第二節(jié)提到的“垃圾關(guān)鍵詞語(yǔ)”的方法,可以為產(chǎn)品提供更加方便實(shí)用的語(yǔ)音操作特性。</p><p> 2.5.4 關(guān)鍵詞的ID及其設(shè)置</p><p> 在把關(guān)鍵詞語(yǔ)設(shè)置進(jìn)LD 3320時(shí),是把關(guān)鍵詞語(yǔ)的拼音串傳入LD 3320,并同時(shí)傳入一個(gè)ID,用來(lái)代表這個(gè)關(guān)鍵詞語(yǔ)。LD 3320的識(shí)別結(jié)果,也是把
74、識(shí)別出的關(guān)鍵詞語(yǔ)的ID作為結(jié)果輸出。</p><p> 在LD 3320芯片,不同的關(guān)鍵詞語(yǔ)是可以對(duì)應(yīng)同一個(gè)ID。 而且ID不需要是連續(xù)的。這樣就為產(chǎn)品開(kāi)發(fā)者提供了很方便的編程手段。</p><p> 例如:“北京”,“首都”,可以設(shè)置為同一個(gè)ID,進(jìn)行后續(xù)處理。</p><p> 例如:在使用第二節(jié)提到的“垃圾關(guān)鍵詞語(yǔ)”時(shí),可以把添加的這些用來(lái)吸收錯(cuò)誤的關(guān)鍵
75、詞語(yǔ)的ID都標(biāo)記成一個(gè)值,或者把它們標(biāo)注為比較特殊的ID值,如大于200。在程序中就比較簡(jiǎn)單,很容易處理誤識(shí)別,避免了添加進(jìn)很多關(guān)鍵詞語(yǔ)后,寫(xiě)程序中需要為這些關(guān)鍵詞語(yǔ)的處理增加過(guò)多的程序分支。</p><p> 終端用戶在說(shuō)語(yǔ)音指令時(shí),可能對(duì)同一個(gè)詞匯有不同的發(fā)音習(xí)慣。</p><p> 例如,“打開(kāi)電燈”,用戶可能會(huì)說(shuō)“開(kāi)燈”,“打開(kāi)燈”,“打開(kāi)電燈”,“把燈打開(kāi)”等等。</p
76、><p> 充分利用LD 3320的50條可動(dòng)態(tài)編輯的關(guān)鍵識(shí)別條目的特性,開(kāi)發(fā)者可以把這些習(xí)慣發(fā)音都設(shè)置進(jìn)芯片,這樣無(wú)論用戶怎么說(shuō),都會(huì)被正確識(shí)別出來(lái),進(jìn)一步增加終端用戶的良好體驗(yàn)。</p><p> 2.5.5 反應(yīng)時(shí)間</p><p> LD 3320芯片內(nèi)部是通過(guò)VAD(端點(diǎn)檢測(cè))機(jī)制來(lái)判斷人是否說(shuō)完語(yǔ)音,并給出識(shí)別結(jié)果根據(jù)VAD機(jī)制,語(yǔ)音識(shí)別芯片監(jiān)測(cè)出有一
77、段連續(xù)的背景噪音后,認(rèn)為用戶已經(jīng)說(shuō)完了語(yǔ)音識(shí)別命令,然后再給出識(shí)別結(jié)果。</p><p> 默認(rèn)設(shè)置是監(jiān)測(cè)到在人聲開(kāi)始后有連續(xù)的600毫秒的不說(shuō)話時(shí),才會(huì)給出識(shí)別結(jié)果。也就是說(shuō),根據(jù)默認(rèn)設(shè)置,從人說(shuō)話結(jié)束,到語(yǔ)音識(shí)別芯片主動(dòng)送出結(jié)果中斷,至少要有600毫秒的間隔,如果用戶希望調(diào)節(jié)這個(gè)反應(yīng)間隔,可以從以下幾方面入手:</p><p><b> 1、改變使用方式</b>
78、;</p><p> 采用類似于步話機(jī)的方式,每次人按鍵后,按下不放,開(kāi)始說(shuō)命令,說(shuō)完命令后,松開(kāi)按鍵,每次檢測(cè)到松開(kāi)按鍵時(shí),主控的單片機(jī)通過(guò)設(shè)置BC寄存器來(lái)立即獲得識(shí)別結(jié)果。</p><p> 2、修改VAD判斷的寄存器</p><p> Vad Silence End在語(yǔ)音檢測(cè)到語(yǔ)音數(shù)據(jù)段以后,又檢測(cè)到背景噪音段,連續(xù)檢測(cè)到多長(zhǎng)時(shí)間的背景噪音段才可以確認(rèn)為
79、是真正的語(yǔ)音結(jié)束。每1單位,10毫秒。Default:60,相當(dāng)于600毫秒數(shù)值范圍:20200(相當(dāng)于2002000毫秒)但是這個(gè)修改會(huì)導(dǎo)致,如果這個(gè)時(shí)間過(guò)短,導(dǎo)致用戶在說(shuō)話時(shí)的說(shuō)話停頓也會(huì)造成VAD檢測(cè)認(rèn)為說(shuō)話結(jié)束,從而降低某些用戶的識(shí)別率。</p><p> 3、修改麥克風(fēng)的音量</p><p> 35寄存器,(建議調(diào)整范圍在40H~58H之間),看哪個(gè)錄音增益適合使用的麥克風(fēng),
80、以及使用的環(huán)境。</p><p><b> 4、修改B8寄存器</b></p><p> 比如修改為2,那么這意味著,無(wú)論如何,在每次識(shí)別開(kāi)始后2秒鐘的時(shí)間內(nèi),必然會(huì)停止識(shí)別給出一個(gè)識(shí)別結(jié)果。 </p><p> 如果b8值特別小,比如設(shè)置:1, 2, 3,就需要在開(kāi)始識(shí)別前,給用戶一個(gè)很明確的提示,要開(kāi)始識(shí)別了。免得用戶還沒(méi)有準(zhǔn)備就
81、識(shí)別時(shí)間過(guò)去了。但這個(gè)間隔設(shè)置的過(guò)短,也必然會(huì)引起一些可能存在的誤識(shí)別,比如語(yǔ)音命令比較長(zhǎng),那么這個(gè)時(shí)間設(shè)置的太小,就會(huì)造成比較長(zhǎng)的語(yǔ)音命令無(wú)法在特定時(shí)間內(nèi)完整念完引起誤識(shí)別。所以當(dāng)這個(gè)數(shù)值設(shè)置比較小的時(shí)候,一般建議使用“觸發(fā)識(shí)別”的用戶界面,避免使用“循環(huán)識(shí)別”的用戶界面。</p><p><b> 5、改變使用環(huán)境</b></p><p> 或許在某些環(huán)境中的
82、噪聲或者回聲會(huì)影響到判斷說(shuō)話結(jié)束。以及說(shuō)話人自己的音量,如果聲音很低,也會(huì)導(dǎo)致判斷人說(shuō)話是否結(jié)束比較困難。改變命令詞語(yǔ)內(nèi)容,比較好念,開(kāi)口音響亮等,方便使用者連續(xù)清晰念出語(yǔ)音命令。</p><p> 2.6 GPRS模塊</p><p> GPRS(General Packet Radio Service 通用分組無(wú)線業(yè)務(wù))是在現(xiàn)有GSM(Global System for Mobil
83、e communication全球移動(dòng)通信系統(tǒng))基礎(chǔ)上發(fā)展起來(lái)的一種新的承載業(yè)務(wù),目的是為GSM用戶提供分組形式的數(shù)據(jù)業(yè)務(wù)。GPRS采用與GSM同樣的無(wú)線調(diào)制標(biāo)準(zhǔn)、頻帶、TDMA幀結(jié)構(gòu),因此在現(xiàn)有的基站子系統(tǒng)中增加一些模塊即可提供 GPRS 服務(wù)。GPRS 允許用戶在分組交換模式下發(fā)送和接收數(shù)據(jù),從而提供了一種高效、低成本的無(wú)線數(shù)據(jù)分組業(yè)務(wù)。在GSM系統(tǒng)中,無(wú)線信道資源非常寶貴,而采用 GPRS 則可靈活運(yùn)用無(wú)線信道,即每一個(gè)用戶可以有
84、多個(gè)無(wú)線信道,而同一信道又可以由幾個(gè)用戶共享,極大地提高了無(wú)線資源的利用率。GPRS使現(xiàn)有GSM 網(wǎng)的數(shù)據(jù)業(yè)務(wù)突破了最高速率為9.6kbit/s的限制,最高數(shù)據(jù)速率可達(dá)171.2kbit/s。將計(jì)算機(jī)通過(guò)串行通信技術(shù)與 GPRS 無(wú)線通信網(wǎng)絡(luò)建立連接,可以實(shí)現(xiàn)手機(jī)與計(jì)算機(jī)的通信。計(jì)算機(jī)與GPRS網(wǎng)絡(luò)的連接可以采用GPRS模塊,也可以采用GPRS Modem,此處采用基于AT指令的 M22 GPRS 模塊使計(jì)算</p>&l
85、t;p> 圖2-6 基于GPRS 網(wǎng)絡(luò)的應(yīng)用系統(tǒng)組成結(jié)構(gòu)</p><p> 2.7 語(yǔ)音撥號(hào)模塊</p><p> 摘機(jī)后無(wú)需再用手撥(前提是手機(jī)支語(yǔ)音撥號(hào)表面地來(lái)說(shuō)就是摘機(jī)后手動(dòng)指向手機(jī)語(yǔ)音撥號(hào)功能,說(shuō)出被叫者姓名,電話即自動(dòng)拔向被叫者。一般分為6個(gè)步驟:</p><p> 1、從第一畫(huà)面進(jìn)入撥號(hào)程序;</p><p> 2
86、、聽(tīng)到“請(qǐng)說(shuō)出人名”的提示后說(shuō)出要與之通信的人名;</p><p> 3、手機(jī)將根據(jù)你的語(yǔ)音計(jì)算出數(shù)名聲音類似的人名,第一條為首選;</p><p> 4、如果第一條正確,且該人名僅有一個(gè)號(hào)碼,按鍵撥號(hào),或在默認(rèn)時(shí)間內(nèi)自動(dòng)撥號(hào),通話;如果該人名的聯(lián)系電話多于一條,則啟動(dòng)“個(gè)人電話表”,選擇,撥號(hào);</p><p> 5、如果第一條不正確,其余條中有正確的,按動(dòng)
87、上下鍵選擇正確,按鍵,通話; </p><p> 6、如果都不正確,按C鍵,返回第一畫(huà)面。</p><p> 在使用語(yǔ)音撥號(hào)之前,必須要錄制聲控標(biāo)簽,也就是說(shuō)為電話薄中的幾個(gè)電話號(hào)碼錄制聲控標(biāo)簽。錄制聲控標(biāo)簽的具體操作步驟為:首先在手機(jī)面板中選擇“加聲控標(biāo)簽”按鈕,在隨后彈出的界面中選擇所需的姓名和電話號(hào)碼,接著再用手機(jī)按一下“功能鍵”,然后將手機(jī)貼近耳朵,用標(biāo)準(zhǔn)的話語(yǔ)來(lái)說(shuō)出要錄制的詞
88、語(yǔ)就算完成錄制聲控工作了。</p><p> 2.8 語(yǔ)音短信模塊</p><p> 語(yǔ)音發(fā)短信是一款功能強(qiáng)大的語(yǔ)音聲控助手,只要對(duì)軟件下指令,軟件即可用迅速簡(jiǎn)潔的方式協(xié)助用戶達(dá)成任務(wù),包括打開(kāi)關(guān)閉應(yīng)用程序,發(fā)送短信,撥打電話,撰寫(xiě)文本等等。重要的是,軟件支持中文。同時(shí)語(yǔ)音發(fā)短信是一款出色的語(yǔ)音控制軟件,其界面精美,簡(jiǎn)單易用。語(yǔ)音識(shí)別率很高,并支持中文等語(yǔ)言,對(duì)完成手機(jī)的基本操作非常實(shí)
89、用。軟件的使用方法如下:</p><p> 1、單擊“語(yǔ)音輸入”按鈕,進(jìn)行語(yǔ)音短信輸入,短信內(nèi)容將會(huì)自動(dòng)顯示; </p><p> 2、編輯好語(yǔ)音內(nèi)容,單擊“發(fā)送短信”按鈕即可進(jìn)入短信界面,進(jìn)行短信發(fā)送; </p><p> 3、也可以通過(guò)清空按鈕清空短信框中的內(nèi)容。</p><p> 2.9 LCD顯示連接電路</p>
90、<p> 漢字一般是以點(diǎn)陣式存儲(chǔ)的,如16×16,24×24點(diǎn)陣,漢字的字模其實(shí)是漢字字形的圖形化,所謂16點(diǎn)陣字模,就是把漢字寫(xiě)在一個(gè)16×16的網(wǎng)格內(nèi),漢字的筆劃通過(guò)某網(wǎng)格時(shí)該網(wǎng)格就對(duì)應(yīng)1,否則該網(wǎng)格對(duì)應(yīng)0,這樣,每一網(wǎng)格均對(duì)應(yīng)1或0,把對(duì)應(yīng)1的網(wǎng)格連起來(lái)看,就是這個(gè)漢字,漢字就是這樣通過(guò)字節(jié)表示其點(diǎn)陣存儲(chǔ)在字符字庫(kù)中的,為了方便查找所需漢字的點(diǎn)陣,每個(gè)漢字都與一個(gè)雙字節(jié)的內(nèi)碼一一對(duì)應(yīng),通
91、過(guò)漢字的內(nèi)碼可以計(jì)算出它的點(diǎn)陣起始字節(jié)?,F(xiàn)以16點(diǎn)陣為例來(lái)進(jìn)行說(shuō)明,首先,可由內(nèi)碼計(jì)算出它在漢字庫(kù)中的區(qū)位碼,其計(jì)算公式為:</p><p> BQ=Bn1-160</p><p> BW=Bn2-160</p><p> 式中,BQ表示區(qū)碼,Bw為表示位碼,而B(niǎo)n1和Bn2則分別表示內(nèi)碼的第一字節(jié)和內(nèi)碼的第二字節(jié)。當(dāng)這些區(qū)位碼被計(jì)算出來(lái)之后,就可以用區(qū)位碼得
92、到它在漢字庫(kù)中字模第一個(gè)字節(jié)的位置,即:(BQ×94+Bw)×32。這樣,接下來(lái)就可以向連續(xù)讀出由32個(gè)字節(jié)組成的該字的點(diǎn)陣數(shù)據(jù)。液晶顯示器作為一種低功耗顯示器件,廣泛應(yīng)用于計(jì)算器、數(shù)字式儀表等低功耗系統(tǒng)中。但一般使用的液晶顯示器均為七段筆劃式,只能顯示數(shù)字和少量字符,對(duì)于較復(fù)雜的字符或圖形則無(wú)能為力。而點(diǎn)陣式液晶顯示模塊可以顯示各種各樣的字符(包括簡(jiǎn)單的漢字),而且點(diǎn)陣顯示模塊具有可編程能力。由于以上優(yōu)點(diǎn),點(diǎn)陣式液
93、晶顯示模塊獲得了廣泛的應(yīng)用。LCD顯示連接電路如圖2-7所示:</p><p> 圖2-7 LCD顯示連接電路</p><p> 2.9.1 12864芯片簡(jiǎn)介</p><p> 12864漢字圖形點(diǎn)陣液晶顯示模塊,是128×64點(diǎn)陣的漢字圖形型液晶顯示模塊,可顯示漢字及圖形,內(nèi)置8192個(gè)中文漢字(16X16 點(diǎn)陣)、128 個(gè)字符(8X16 點(diǎn)陣
94、)及 64X256 點(diǎn)陣顯示 RAM(GDRAM)??膳cCPU直接接口,提供兩種界面來(lái)連接微處理機(jī),8位并行及串行兩種連接方式。</p><p> 1、主要技術(shù)參數(shù)和現(xiàn)實(shí)特性:</p><p> (1)電源:VDD 3.3~V +5V (內(nèi)置升壓電路,無(wú)需負(fù)壓);</p><p> ?。?)現(xiàn)實(shí)內(nèi)容:128列×64行;</p><p
95、> ?。?)顯示顏色:黃綠;</p><p> ?。?)顯示角度:6:00鐘直視;</p><p> ?。?)LCD類型:STN;</p><p> ?。?)與MCU接口:8位或4位并行/3位串行配置LED背光;</p><p> ?。?)多種軟件功能:光標(biāo)顯示、畫(huà)面移位、自定義字符、睡眠模式等。 </p><p&g
96、t; 2、外觀尺寸與視域尺寸</p><p> ?。?) 外觀尺寸:93×70×12.5mm; </p><p> ?。?) 視頻尺寸:73×39mm。</p><p><b> 3、顯示步驟</b></p><p> 顯示資料 RAM 提供 64×2 個(gè)位元組的空間,最多
97、可以控制4行16 字(64 個(gè)字)的中文字型顯示,當(dāng)寫(xiě)入顯示資料RAM 時(shí),可以分別顯示 CGROM、HCGROM 與CGRAM 的字型;ST7920A 可以顯示三種字型,分別是半寬的 HCGROM 字型、CGRAM字型及中文CGROM 字型 ,三種字型的選擇,由在 DDRAM 中寫(xiě)入的編碼選擇,在 0000H—0006H 的編碼中將自動(dòng)的結(jié)合下一個(gè)位元組,組成兩個(gè)位元組的編碼達(dá)成中文字型 的編碼(A140—D75F),各種字型詳細(xì)編碼
98、如下:</p><p> ?。?)顯示半寬字型:將8位元資料寫(xiě)入DDRAM中,范圍為02H—7FH 的編碼;</p><p> (2)顯示 CGRAM 字型:將16位元資料寫(xiě)入DDRAM中,總共有0000H, 0002H,0004H,0006H四種編碼;</p><p> ?。?)顯示中文字形:將16位元資料寫(xiě)入DDRAMK,范圍為A1A1H—F7FEH的編碼。
99、 </p><p> 4、繪圖 RAM(GDRAM) </p><p> 繪圖顯示RAM提供64×32 個(gè)位元組的記憶空間,最多可以控制256×64點(diǎn)的二維也納繪圖緩沖空間,在更改繪圖RAM 時(shí),先連續(xù)寫(xiě)入水平與垂直的坐標(biāo)值,再寫(xiě)入兩個(gè)8位元的資料到繪圖RAM,而地址計(jì)數(shù)器(AC)會(huì)自動(dòng)加一;在寫(xiě)入繪圖 RAM 的期間,繪圖顯示必須關(guān)閉,整個(gè)寫(xiě)入繪圖RAM的步驟如下
100、: </p><p> ?。?)關(guān)閉繪圖顯示功能; </p><p> (2)先將水平的位元組坐標(biāo)(X)寫(xiě)入繪圖 RAM 地址; </p><p> (3)再將垂直的坐標(biāo)(Y)寫(xiě)入繪圖 RAM 地址; </p><p> (4)將 D15——D8 寫(xiě)入到 RAM 中; </p><p> (5)將 D7——D0
101、 寫(xiě)入到 RAM 中; </p><p> ?。?)打開(kāi)繪圖顯示功能。</p><p><b> 3 系統(tǒng)軟件設(shè)計(jì)</b></p><p> 3.1語(yǔ)音識(shí)別操作流程</p><p> 語(yǔ)音識(shí)別的操作順序是:</p><p> 1、語(yǔ)音識(shí)別初始化 </p><p>&
102、lt;b> 2、寫(xiě)入識(shí)別列表</b></p><p> 列表的規(guī)則是,每個(gè)識(shí)別條目對(duì)應(yīng)一個(gè)特定的編號(hào)(1個(gè)字節(jié))不同的識(shí)別條目的編號(hào)可以相同,而且不用連續(xù)。本芯片最多支持50個(gè)識(shí)別條目,每個(gè)識(shí)別條目是標(biāo)準(zhǔn)普通話的漢語(yǔ)拼音(小寫(xiě)),每2個(gè)字(漢語(yǔ)拼音)之間用一個(gè)空格間隔。編號(hào)可以相同,可以不連續(xù),但數(shù)值要小于256 (OOH~FFH)。例子中“北京”和“首都”對(duì)應(yīng)同一編號(hào),說(shuō)這兩個(gè)詞會(huì)有相同結(jié)
103、果返回。</p><p> 表3-1 識(shí)別列表舉例</p><p> 編號(hào)可以相同,可以不連續(xù),但數(shù)值要小于256 (OOH~FFH)。例子中“北京和“首都”對(duì)應(yīng)同一編號(hào),說(shuō)這兩個(gè)詞會(huì)有。相同結(jié)果返回</p><p><b> 3、開(kāi)始識(shí)別</b></p><p> 并準(zhǔn)備好中斷響應(yīng)函數(shù),打開(kāi)中斷允許位。設(shè)置幾個(gè)
104、相關(guān)的寄存器,就可以控制LD3320芯片開(kāi)始語(yǔ)音識(shí)別。值得注意:單片機(jī)程序中,一般會(huì)用一個(gè)全局變量控制當(dāng)前狀態(tài),(例如:LD_ASR_ RUNING狀態(tài)或者LD_ ASR_ FOUNDOK狀態(tài))在編程時(shí)一定要把對(duì)該狀態(tài)的設(shè)置放在正式LD3320芯片開(kāi)始識(shí)別以前。</p><p><b> 4、響應(yīng)中斷</b></p><p> 如果麥克風(fēng)采集到聲音,不管是否識(shí)別出
105、正常結(jié)果,都會(huì)產(chǎn)生一個(gè)中斷信號(hào)。而中斷程序要根據(jù)寄存器的值分析結(jié)果。讀取BA寄存器的值,可以知道有幾個(gè)候選答案,而C5寄存器里的答案是得分最高、最可能正確的答案。例如發(fā)音為“上?!辈⒈怀晒ψR(shí)別(無(wú)其他候選),那么BA寄存器里的數(shù)值是1, 而C5寄存器里的值是對(duì)應(yīng)的編碼3。</p><p> 語(yǔ)音識(shí)別操作流程如圖3-1所示:</p><p> 圖3-1 語(yǔ)音識(shí)別操作流程</p&g
106、t;<p><b> 3.2系統(tǒng)程序流程</b></p><p><b> 1、程序工作過(guò)程:</b></p><p> 程序開(kāi)始后,首先完成程序的初始化,隨后進(jìn)入語(yǔ)音識(shí)別循環(huán)程序,將通過(guò)麥克風(fēng)輸入的語(yǔ)音信號(hào)在語(yǔ)音識(shí)別芯片LD 3320中進(jìn)行頻譜分析,分析后將提取到的語(yǔ)音特征和關(guān)鍵詞語(yǔ)列表中的關(guān)鍵詞語(yǔ)進(jìn)行對(duì)比匹配。經(jīng)過(guò)語(yǔ)音比較
107、判斷后,如果語(yǔ)音識(shí)別成功,則播放相應(yīng)的語(yǔ)音或者在顯示屏上顯示;如果語(yǔ)音識(shí)別不成功,則程序返回到語(yǔ)音識(shí)別循環(huán)程序,重新進(jìn)行語(yǔ)音比較,直到語(yǔ)音識(shí)別成功,循環(huán)程序結(jié)束。</p><p> 2、系統(tǒng)的操作順序是:</p><p> 語(yǔ)音識(shí)別用初始化(包括通用初始化)一寫(xiě)入識(shí)別列表一開(kāi)始識(shí)別,并準(zhǔn)備好中斷響應(yīng)函數(shù),打開(kāi)中斷允許位。這里需要說(shuō)明一下,如果不用中斷方式,也可以通過(guò)查詢方式工作。在“開(kāi)
108、始識(shí)別”后,讀取寄存器B2H的值,如果為21H就表示有識(shí)別結(jié)果產(chǎn)生。此之后讀取候選項(xiàng)等操作與中斷方式相同。系統(tǒng)程序流程圖如圖3-2示:</p><p> 圖3-2 系統(tǒng)程序流程圖</p><p><b> 4 軟件調(diào)試</b></p><p><b> 4.1上電調(diào)試 </b></p><p>
109、; LD芯片重啟后,LD_ Reset,就是把(RSTB)管腳的電平拉低拉高后管腳29,30會(huì)穩(wěn)定地送出低電平,這個(gè)可以作為一個(gè)上電是否正常的檢測(cè)。</p><p> 4.2 讀寫(xiě)寄存器調(diào)試</p><p> 檢查寄存器的讀寫(xiě)是否正確:向可讀寫(xiě)的寄存器寫(xiě)入某個(gè)數(shù)值,再讀出來(lái),用來(lái)檢查寄存器讀寫(xiě)是否正常。由于曾經(jīng)出現(xiàn)過(guò)每次讀寫(xiě)都是在自己的總線上進(jìn)行,沒(méi)有真正touch到LD 3320芯
110、片。所以每次先向一個(gè)寄存器寫(xiě),再讀出來(lái),內(nèi)容是完全正確,但實(shí)際上沒(méi)有真正地讀寫(xiě)進(jìn)寄存器,而只是把剛剛寫(xiě)的數(shù)值再顯示了出來(lái)。所以讀寫(xiě)寄存器的序列如下:</p><p> LD reset ();</p><p> LD_ReadReg (Ox6);</p><p> LD_ WriteReg (0x35, 0x33);</p><p>
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 語(yǔ)音報(bào)站系統(tǒng)畢業(yè)設(shè)計(jì)
- 電梯語(yǔ)音系統(tǒng)畢業(yè)設(shè)計(jì)
- 語(yǔ)音報(bào)站系統(tǒng)畢業(yè)設(shè)計(jì)
- 畢業(yè)設(shè)計(jì)語(yǔ)音錄放系統(tǒng)設(shè)計(jì)
- 公交漢字顯示系統(tǒng)畢業(yè)設(shè)計(jì)
- 公交漢字顯示系統(tǒng)畢業(yè)設(shè)計(jì)論文
- 畢業(yè)設(shè)計(jì)---車(chē)載液晶顯示系統(tǒng)設(shè)計(jì)
- 公交漢字顯示系統(tǒng)畢業(yè)設(shè)計(jì)論文
- 日歷時(shí)鐘顯示系統(tǒng)畢業(yè)設(shè)計(jì)
- 電梯語(yǔ)音播報(bào)系統(tǒng)的設(shè)計(jì)畢業(yè)設(shè)計(jì)
- 畢業(yè)設(shè)計(jì)crt顯示系統(tǒng)的研究
- 語(yǔ)音識(shí)別畢業(yè)設(shè)計(jì)
- led漢字點(diǎn)陣顯示系統(tǒng)的設(shè)計(jì)【畢業(yè)設(shè)計(jì)】
- 避障語(yǔ)音控制小車(chē)系統(tǒng)畢業(yè)設(shè)計(jì)
- 畢業(yè)設(shè)計(jì)文本.pdf
- 畢業(yè)設(shè)計(jì)--八路溫度采集顯示系統(tǒng)設(shè)計(jì)
- 畢業(yè)設(shè)計(jì)文本.pdf
- 顯示專業(yè)實(shí)驗(yàn)信息管理系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)
- 畢業(yè)設(shè)計(jì)--語(yǔ)音控制小車(chē)
- 畢業(yè)設(shè)計(jì)--語(yǔ)音控制小車(chē)
評(píng)論
0/150
提交評(píng)論