Detail předmětu

Zpracování řečových signálů

ZRE Ak. rok 2023/2024 letní semestr 5 kreditů

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Garant předmětu

Koordinátor předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška (písemná)

Rozsah

  • 26 hod. přednášky
  • 2 hod. cvičení
  • 12 hod. pc laboratoře
  • 12 hod. projekty

Bodové hodnocení

  • 51 bodů závěrečná zkouška
  • 14 bodů půlsemestrální test
  • 6 bodů laboratoře
  • 29 bodů projekty

Zajišťuje ústav

Přednášející

Cvičící

Cíle předmětu

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Proč je předmět vyučován

Řeč je nejběžnější formou lidské komunikace a řečí přenášíme nejvíce informací. Automatické zpracování řeči je potřeba jak pro zpracování komunikace člověk-člověk (kódování, nebo třeba dolování informací z hovorů v call centru), tak pro komunikaci člověk-počítač (hlasové ovládání, hlasové vyhledávání, autentizace pomocí hlasu) i počítač-člověk (syntéza z textu). V kursu ZRE dostanete přehled toho, jak se řeč tvoří, jak se parametrizuje, a jak se s ní dále pracuje. Uvidíte, že se jedná o zajímavý mix měkkých věd", zpracování signálů, strojového učení a dalších ingrediencí. Znalosti získané v ZRE můžete ale aplikovat i jinde, např. problém rozpoznávání sekvencí dalece přesahuje rozpoznávání řeči. Kurs je učen lidmi ze skupiny BUT Speech@FIT, která je na špičce světového výzkumu v dolování informací z řeči.

Literatura studijní

  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, Wiley-Interscience; 2 edition.
  • Yu, D., Deng, L., Automatic speech recognition, Springer, 2016.
  • Rabiner, L. R., & Schafer, R. W. Theory and applications of digital speech processing, Pearson, 2011.
  • Psutka, J., Müller, L., Matoušek, J., & Radová, V., Mluvíme s počítačem česky, Academia, 2006.

Literatura referenční

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0 
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 

  • www stránka předmětu https://www.fit.vutbr.cz/study/courses/ZRE/public/

Osnova přednášek

  1. Úvod, aplikace zpracování řeči. 
  2. Číslicové zpracování řečových signálů.
  3. Tvorba a řeči a její signálový model.
  4. Předzpracování a základní parametry, cepstrum. 
  5. Lineárně-prediktivní model. 
  6. Určování základního tónu hlasu
  7. Kódování řeči - základy.
  8. Kódování řeči CELP. 
  9. Základy rozpoznávání řeči, DTW. 
  10. Skryté Markovovy modely HMM. 
  11. Systémy pro rozpoznávání řeči s velkým slovníkem (LVCSR). 
  12. Rozpoznávání mluvčího a jazyka. Využití neuronových sítí ve zpracování řeči. 
  13. Syntéza řeči z textu. 

Osnova numerických cvičení

  1. Paramatrizace, DTW, HMM.

Osnova počítačových cvičení

V laboratořích (kromě poslední) je používán Matlab.
  1. Úvod. 
  2. Lineární predikce a vektorové kvantování. 
  3. Určování základního tónu a kódování řeči.
  4. Základy klasifikace. 
  5. Rozpoznávání - Dynamic time Warping (DTW).
  6. Rozpoznávání - skryté Markovovy modely (HTK).

Průběžná kontrola studia

  • půlsemestrální test 14b
  • projekt 29b
  • presentace výsledků na poč. cvičeních 6b


Rozvrh

DenTypTýdnyMístn.OdDoKapacitaPSKSkupInfo
Po přednáška 1., 2., 3., 4., 5., 6., 7., 8., 10., 11., 12., 13. výuky E105 16:0017:5070 1MIT 2MIT NISY NSPE xx Černocký
Po poč. lab 1., 2., 3., 4., 5., 6., 7., 8., 10., 11., 12., 13. výuky O204 18:0019:5020 1MIT 2MIT xx Černocký
St zkouška 2024-05-29 E104 12:0013:50 2. termín
St zkouška 2024-05-15 E104 13:0014:50 1. termín
Čt zkouška 2024-06-06 E105 13:0014:50 3. termín

Zařazení předmětu ve studijních plánech

Nahoru