版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1,第二章 數字聲音及MIDI簡介,本章將介紹聲音的基礎知識,重點掌握聲音數字化的兩個最基本的概念。此外,還介紹在上網瀏覽或者脫機工作時你會經常遇到的聲音文件存儲格式和聲音工具。,2,2.1 聲音的重要性,聲音是攜帶信息的極其重要的媒體,是多媒體技術研究中的一個重要內容。聲音的種類繁多,如人的話音、樂器聲、動物發(fā)出的聲音、機器產生的聲音以及自然界的雷聲、風聲、雨聲、閃電聲等。這些聲音有許多共同的特性,也有它們各自的特性。在用計算機
2、處理這些聲音時,既要考慮它們的共性,又要利用它們各自的特性。,3,什么是聲音,聲音是通過一定介質(如空氣、水等)傳播的連續(xù)的波,4,聲音的物理和心理特征,,5,音色,因為聲音的波形絕大多數都不是簡單的正弦波,而是一種復雜的波。分析表明這 種復雜的波形,可以分解為一系列的正弦波,這些正弦波中有基頻f0,還有與f0成 整數倍關系的諧波:f1、f2、f3、f4,它們的振幅有特定的比例。這種比例,賦予 每種樂器以特
3、有的“色彩”—音色。如果沒有諧波成分,單純的基音正弦信號是 毫無音樂感的。 比如:大提琴音色、黑管音色不同雖然演奏同一音高(基頻)的音符,但人們能夠明確分辨出哪個是樂器,6,聲音特性,連續(xù)性時間和幅度上都是連續(xù)的。聲波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。,圖2-01 聲音是一種連續(xù)的波,7,第二章 數字聲音及MIDI簡介,復合聲
4、音信號:由許多頻率不同的信號組成的聲音信號。 分量聲音信號:單一頻率的信號。 帶寬:用來描述復合聲音信號的頻率范圍。如高保真音信號(high-fidelity audio)的頻率范圍為10Hz~20,000Hz,帶寬約為20kHz,8,聲音的參數,聲音信號的兩個基本參數:頻率和幅度信號的頻率: 指信號每秒鐘變化的次數,用Hz表示。例如,大氣壓的變化周期很長,以小時或天數計算,一般人不容易感到這種氣壓信號的變化,更聽不到這種
5、變化。對于頻率為幾Hz到20Hz的空氣壓力信號,人們也聽不到,如果它的強度足夠大,也許可以感覺到。,9,按照頻率分類,次音信號(infrasonic):頻率小于20Hz的信號可聽音(Audio)信號:頻率范圍為20Hz~20kHz的信號超聲波(ultrasonic)信號:頻率高于20kHz的信號。具有很強的方向性,形成波束。在工業(yè)上得到廣泛的應用,如超聲波探測儀,超聲波焊接設備等。,10,Audio,其中在Audio中話音(sp
6、eech)信號:頻率范圍為300~3400Hz的信號全頻帶聲音 20-20kHzMusic /Noise.. 在多媒體技術中,處理的信號主要是Audio信號,包括音樂、話音、風聲、雨聲、鳥叫聲、機器聲等。,11,人的聽力,人耳對中頻段1~3千赫的聲音最為靈敏,對高、低頻段的聲音,特別是低頻段的聲音則比較遲鈍。利用這些特性可以在壓縮音頻數據時區(qū)分對待,12,按照存儲方式分
7、類,波形聲音(存儲的是波形)語音音樂效果聲合成聲音(存儲的是命令)MIDI,13,2.2 聲音信號數字化,2.2.1 從模擬過渡到數字 數字信號優(yōu)點精確、運算容易、可編程,14,2.2.2 模擬信號與數字信號,話音信號是典型的連續(xù)信號,不僅在時間上是連續(xù)的,而且在幅度上也是連續(xù)的。 時間上“連續(xù)”:指在一個指定的時間范圍里聲音信號的幅值有無窮多個。 幅度上“連續(xù)”:指幅度的數值有無窮多個。模擬信號:在時間
8、和幅度上都是連續(xù)的信號。,15,數字信號,采樣(sampling):在某些特定時刻對模擬信號進行測量。離散時間信號:由這些特定時刻采樣得到的信號。 離散幅度信號:采樣得到的幅值是無窮多個實數值中的一個,因此幅度還是連續(xù)的。如果把信號幅度取值的數目加以限定,這種由有限個數值組成的信號就稱為離散幅度信號?!纠考僭O輸入電壓的范圍是0.0V~0.7V,并假設它的取值只限定在0、0.1、0.2,…,0.7共8個值。如果采樣得到的幅度值
9、是0.123V,它的取值就應算作0.1V,如果采樣得到的幅度值是0.26V,它的取值就算作0.3,這種數值就稱為離散數值。數字信號:時間和幅度都用離散數字表示的信號。,16,2.2.3 聲音信號數字化,數字化:采樣+量化,聲音進入計算機的第一步處理。編碼?壓縮量化后的數據量,采 樣,17,采樣,采樣:連續(xù)時間的離散化。若每隔相等的一小段時間采樣一次,稱為均勻采樣(uniform sampling),采樣點,,,,,18,采樣,采樣
10、頻率(fs):決定每秒鐘需要采集多少個聲音樣本。 奈奎斯特定理:采樣頻率不應低于聲音信號最高頻率的兩倍,這樣就能把以數字表達的聲音還原成原來的聲音,這叫做無損數字化(lossless digitization)。 采樣定律 fs≥2f 或者 Ts≤T/2,其中f為被采樣信號的最高頻率。 理解奈奎斯特理論:聲音信號可以看成由許許多多正弦波組成的,一個振幅為A、頻率為f的正弦波至少需要兩個采樣樣本表示,因此,如果
11、一個信號中的最高頻率為fmax,采樣頻率最低要選擇2fmax。例如,電話話音的信號頻率約為3.4 kHz,采樣頻率就選為8 kHz。,19,量化,量化(quantization):連續(xù)幅度的離散化,就是把信號的強度劃分成一小段一小段。如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。,,,,,20,2.2.4 量化精度,每個采樣點樣本大小是用每個聲音樣本的位數bit表示的,它反映度量聲音波形幅度的精度。量化精度既決定了取
12、樣值的動態(tài)范圍,也決定著所引入的噪聲大小。例如,每個聲音樣本用16位(2字節(jié))表示,測得的聲音樣本值是在0~65536的范圍里,它的精度就是輸入信號的1/65536。樣本位數的大小影響到聲音的質量,位數越多,聲音的質量越高,而需要的存儲空間也越多;位數越少,聲音的質量越低,需要的存儲空間越少。,21,信號噪聲比,采樣精度的另一種表示方法是信號噪聲比,簡稱為信噪比(signal-to-noise ratio,SNR),并用下式計算:
13、 SNR=10log[(Vsignal)2/(Vnoise)2]=20log(Vsignal/Vnoise)其中,Vsignal表示信號電壓,Vnoise表示噪聲電壓;SNR的單位為分貝(db)【例1】假設Vnoise=1,采樣精度為1位表示Vsignal=21,它的信噪比SNR=6分貝?!纠?】假設Vnoise=1,采樣精度為16位表示Vsignal=216,它的信噪比SNR=96分貝。,22,聲音的質
14、量,根據聲音的頻帶,通常把聲音的質量分成5個等級,由低到高分別是:電話(telephone)、調幅(amplitude modulation,AM)廣播、調頻(frequency modulation,FM)廣播、激光唱盤(CD-Audio)和數字錄音帶(digital audio tape,DAT)的聲音。,23,聲音質量和數據率,表2–01 聲音質量和數據率,,24,2.2.5 聲音質量與數據率,數據率 = 取樣頻率 x
15、量化位數 x 通道數目例: 電話語音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h 例:CD的數據率44.1KHz, 16bits, 2,,25,2.3 聲音文件的存儲格式,在因特網上和各種機器上運行的聲音文件格式很多,目前比較流行的有wav(waveform),au(audio),aiff(Audio
16、Interchangeable File Format)和snd(sound)文件格式。wav格式主要用在PC上,au主要用在Unix工作站上,aiff和snd主要用在蘋果機和美國視算科技有限公司(Silicon Graphics,Inc.,SGI)的工作站上。 wav文件稱為波形文件格式(WAVE File Format),它在多媒體編程接口和數據規(guī)范1.0(Multimedia Programming Interface an
17、d Data Specifications 1.0)文檔中有詳細的描述。該文檔是由IBM和微軟公司于1991年8月聯合開發(fā)的,它是一種為交換多媒體資源而開發(fā)的資源交換文件格式(Resource Interchange File Format,RIFF)。,26,波形文件格式,波形文件格式支持存儲各種采樣頻率和樣本精度的聲音數據,并支持聲音數據的壓縮。 波形文件由許多不同類型的文件構造塊組成,RIFF WAVE Chunk, Form
18、at Chunk, Fact Chunk(可選), Data Chunk。其中最主要的兩個文件構造塊是Format Chunk(格式塊)和Sound Data Chunk(聲音數據塊)。格式塊包含有描述波形的重要參數,例如采樣頻率和樣本精度等,聲音數據塊則包含有實際的波形聲音數據。,,,圖2–03 WAVE文件結構,http://www.moon-soft.com/program/FORMAT/sound/wave.htm,27,RIF
19、F wave chunk,struct RIFF_HEADER { char szRiffID[4]; // 'R','I','F','F' DWORD dwRiffSize; char szRiffFormat[4]; // &
20、#39;W','A','V','E' }; Size為wav文件大小減去ID和Size所占用的字節(jié)數,28,Format Chunk,==================================================================== |
21、0; | 字節(jié)數 | 具體內容 &
22、#160; | ==================================================================== | ID |
23、60; 4 Bytes | 'fmt ' |
24、60; -------------------------------------------------------------------- | Size | 4 Bytes | 數值為16或18,18則最后又附加信息
25、 | -------------------------------------------------------------------- ---- | FormatTag | 2 Bytes | 編碼方式,一般為0x0001 &
26、#160; | | -------------------------------------------------------------------- |
27、 | Channels | 2 Bytes | 聲道數目,1--單聲道;2--雙聲道 | | ----------------------------------------
28、---------------------------- | | SamplesPerSec | 4 Bytes | 采樣頻率
29、 | | -------------------------------------------------------------------- |
30、; | AvgBytesPerSec| 4 Bytes | 每秒所需字節(jié)數 | |===&g
31、t; WAVE_FORMAT -------------------------------------------------------------------- | | BlockAlign | 2 Bytes | 數據塊對齊單位(每個采樣需要的字節(jié)
32、數) | | -------------------------------------------------------------------- | | BitsPerSample | 2 Bytes | 每個采樣需要的bit數
33、; | | -------------------------------------------------------------------- &
34、#160; | | | 2 Bytes | 附加信息(可選,通過Size來判斷有無) | | ---
35、----------------------------------------------------------------- ----,29,Data Chunk,================================== | |所占字節(jié)數| 具體內容 |
36、0; ================================== | ID | 4 Bytes | 'data' | ----------------------------------
37、60; | Size | 4 Bytes | | ---------------------------------- | data |
38、 | | ----------------------------------,30,常見的聲音文件擴展名,表2-02 常見的聲音文件擴展名,31,常見的聲音文件擴展名(2),*支持PC
39、M,ADPCM,m 率和A率波形(詳見第3章),32,2.4 聲音工具,聲音工具(audio tools)用來錄放、編輯和分析聲音文件,聲音工具使用相當普遍,但功能相差很大。 Windows 本身帶的“Sound Recorder”在英文版Windows界面上單擊:Start→Programs→Accessories→Multimedia/Entertainment→Sound Recorder,可錄音,作簡單的聲音編輯(如插入
40、、刪除等)。,圖2–04 Windows錄音機,33,第二章 數字聲音及MIDI簡介,2. 買聲音卡時帶的工具聲卡一般都附帶有聲音工具。例如,聲霸(Sound Blaster)卡帶有幾種聲音工具,通常要由用戶自己安裝。其中,功能比較強的是WaveStudio, 用戶界面如圖2–05所示。 圖2–05 Creative Wave Studio Version 4.00的用戶界面,34,第二章 數字聲音及MIDI簡介,3. 網絡上下載的
41、工具因特網上有許多站點提供試用的或者是免費的聲音工具。圖2–06所示的是Cool Edit工具,它很受聲音研究工作者的歡迎,還有goldwave公司的聲音工具,Cakewalk,Cubase等。圖2–06 Cool Edit 的用戶界面,35,2.5 聲音質量的度量,用聲音信號帶寬來衡量聲音的質量:等級由高到低依次是DAT,CD,FM,AM和數字電話。 聲音客觀質量度量:信噪比(signal to noise ratio,SNR)
42、,峰值信噪比PSNR。 主觀度量聲音質量:召集若干實驗者,由他們對聲音質量的好壞進行評分,求出平均值作為對聲音質量的評價。這種方法稱為主觀平均判分法,所得的分數稱為主觀平均(mean opinion score,MOS)分,比較通用的標準是5分制。(類似于評委打分),36,MOS,表2-03 聲音質量評分標準,,,37,2.6 電子樂器數字接口(MIDI)系統(tǒng),2.6.1 MIDI簡介 MIDI (Musical Instrum
43、ent Digital Interface)電子樂器數字接口,是在音樂合成器(music synthesizers)、樂器(musical instruments)和計算機之間交換音樂信息的一種標準協(xié)議。 MIDI是樂器和計算機使用的標準語言,是一套指令(即命令的約定),它指示樂器即MIDI設備要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,在MIDI電纜上傳送的不是聲音,而是發(fā)給MIDI設備或其它裝
44、置讓它產生聲音或執(zhí)行某個動作的指令。,38,MIDI標準的優(yōu)點,生成的文件比較小,因為MIDI文件存儲的是命令,而不是聲音波形容易編輯,因為編輯命令比編輯聲音波形要容易得多可以作背景音樂,因為MIDI音樂可以和其它的媒體,如數字電視、圖形、動畫、話音等一起播放,這樣可以加強演示效果。,39,2.6.2 產生MIDI樂音的方法,兩種方法1 FM(frequency modulation)合成法2 樂音樣本合成法,也稱為波形表(
45、Wavetable)合成法,40,FM合成聲音,早期,音樂合成器的先驅Robert Moog采用模擬電子器件生成復雜樂音。20世紀80年代初,美國斯坦福大學(Stanford University)一名叫John Chowning的研究生發(fā)明了一種產生樂音的新方法,稱為數字式頻率調制合成法(digital frequency modulation synthesis),簡稱為FM合成器。他把幾種樂音的波形用數字來表達,并且用數字計算
46、機而不是用模擬電子器件把它們組合起來,通過數模轉換器(digital to analog convertor,DAC)來生成樂音。,41,工作原理,通過組合各種波形參數生成樂音斯坦福大學得到了發(fā)明專利,并且把專利權授給Yamaha公司,該公司把這種技術做在集成電路芯片里,成了世界市場上的熱門產品。FM合成法的發(fā)明使合成音樂工業(yè)發(fā)生了一次革命。,42,樂音樣本合成聲音,樂音樣本合成法:使用FM合成法來產生各種逼真的樂音是相當困難的,有些
47、樂音幾乎不能產生。這種方法就是把真實樂器發(fā)出的聲音以數字的形式記錄下來,播放時改變播放速度,從而改變音調周期,生成各種音階的音符。,43,樂音樣本的采集,樂音樣本的采集:音樂家在真實樂器上演奏不同的音符,選擇44.1 kHz的采樣頻率、16位的樂音樣本,這相當于CD-DA的質量,把不同音符的真實聲音記錄下來。樂音樣本通常放在ROM芯片上,ROM是超大規(guī)模集成電路(very large scale integrated,VLSI)芯片。
48、 樂音樣本合成器所需要的輸入控制參數比較少,可控的數字音效也不多,產生的聲音質量比FM合成方法產生的聲音質量要高。,44,MIDI系統(tǒng),PC機使用內置的MIDI接口卡,用來把MIDI數據發(fā)送到外部的多音色MIDI合成器模塊。,45,語音合成(Speech synthesis),語音合成:利用適當的方法和手段,從文本、概念或意向通過合成產生語音的過程。語音合成的3個層次:從文本到語音的合成(Text-to-Speech,簡稱TT
49、S);從概念到語音的合成(Concept-to-Speech);從意向到語音的合成(Intention-to-Speech)這三個層次反映了人類大腦中形成說話內容的不同過程,涉及人類大腦的高級神經活動,46,文語轉換的要求,對合成語音的要求:可理解 自然低延遲 語速可變聲音可變語言可變應用: 聲訊服務,自動應答, 有聲電子郵件, 殘疾人服務, 自動配音等.,47,語音基礎知識,音素(phoneme)是語音的最小
50、單位。音素分為:元音(vowel)(濁音),不受聲道阻礙的音。輔音(consonant)(濁音或清音), 受聲道阻礙的音。,48,英語語音,每字(詞)一個或幾個音節(jié)(syllable)(多音節(jié)字)音節(jié)由一個或幾個音素組成英語的音素: 元音20個輔音28個,49,漢語語音,每字一個音節(jié)(syllable)(單音節(jié)字)音節(jié)由一個或幾個音素組成漢語的音素聲母(21個,b,p,m,f,d,t,n,l,··&
51、#183;···)韻母(39個,a, e,i, o, u,ao,ou,an,en,eng,ong,)音調(4個: 陰平、陽平、上聲、去聲)漢語語音的數目:無聲調的音節(jié)數目:412個帶聲調的音節(jié)數目:1282個,50,漢語語音的特點,(1)音系簡單(音節(jié)少、音素少)(2)漢語沒有詞的自然界限——分詞問題 咬死了獵人的狗 下雨天留客天留我不留
52、 今年真好晦氣全無財帛進門 (3)一字多音: 我們都是同行,我們一路同行,去參加人參培植研討會。(4)數字的讀音: 復旦大學計算機系2002年招收了202名本科生,130多名碩士生,分成2個專業(yè)。,51,文語轉換過程,,查找拼寫錯誤,對不規(guī)范或無法發(fā)音的字符進行過濾。分析文本中詞或短語的邊界,分析文本中的數字、姓氏、特殊字符、專有詞語等有關詞語讀音的性質
53、。,根據文本的結構、組成和標點符號,確定發(fā)音時語氣的變換以及不同音的輕重方式。分析并決定各個音節(jié)的聲調、語氣和停頓方式,發(fā)音的輕重、長短等,52,幾個TTS系統(tǒng),中國科大訊飛TTS系統(tǒng) http://www.iflytek.com/微軟亞洲研究院的木蘭系統(tǒng) https://research.microsoft.com/speech/tts/TTS.asp貝爾實驗室 http://www.bell-labs
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論