Název:

Zpracování řečových signálů

Zkratka:ZRE
Ak.rok:2019/2020
Semestr:letní
Studijní plán:
ProgramObor/
specializace
RočníkPovinnost
IT-MGR-2MBI-povinně volitelný - skupina S
IT-MGR-2MBS-volitelný
IT-MGR-2MGM1.povinný
IT-MGR-2MIN-povinně volitelný - skupina C
IT-MGR-2MIS-volitelný
IT-MGR-2MMM-volitelný
IT-MGR-2MPV-povinně volitelný - skupina G
IT-MGR-2MSK2.povinně volitelný - skupina B
MITAINADE-volitelný
MITAINBIO-volitelný
MITAINCPS-volitelný
MITAINEMB-volitelný
MITAINGRI-volitelný
MITAINHPC-volitelný
MITAINIDE-volitelný
MITAINISD-volitelný
MITAINISY-volitelný
MITAINMAL-volitelný
MITAINMAT-volitelný
MITAINNET-volitelný
MITAINSEC-volitelný
MITAINSEN-volitelný
MITAINSPE-povinný
MITAINVER-volitelný
MITAINVIZ-volitelný
Vyučovací jazyk:čeština
Informace veřejné:http://www.fit.vutbr.cz/study/courses/ZRE/public/
Kredity:5 kreditů
Ukončení:zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvič.lab. cvič.poč. cvič.jiná
Rozsah:26201212
 zkouškatestycvičenílaboratořeostatní
Body:51140629
Garant:Černocký Jan, doc. Dr. Ing. (UPGM)
Zástupce garanta:Grézl František, Ing., Ph.D. (UPGM)
Přednášející:Černocký Jan, doc. Dr. Ing. (UPGM)
Cvičící:Mošner Ladislav, Ing. (UPGM)
Žmolíková Kateřina, Ing. (UPGM)
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
Navazující:
Systémy zpracování řeči (SRE), UPGM
Rozvrh:
DenVýukaTýdenMístnostOdDoPSKSkupiny
PopřednáškavýukyE105 16:0017:501MIT 2MIT MGM xx
 
Cíle předmětu:
  Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Anotace:
  Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.
Získané dovednosti, znalosti a kompetence:
  Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.
Proč je předmět vyučován:
  Řeč je nejběžnější formou lidské komunikace a řečí přenášíme nejvíce informací. Automatické zpracování řeči je potřeba jak pro zpracování komunikace člověk-člověk (kódování, nebo třeba dolování informací z hovorů v call centru), tak pro komunikaci člověk-počítač (hlasové ovládání, hlasové vyhledávání, autentizace pomocí hlasu) i počítač-člověk (syntéza z textu). V kursu ZRE dostanete přehled toho, jak se řeč tvoří, jak se parametrizuje, a jak se s ní dále pracuje. Uvidíte, že se jedná o zajímavý mix měkkých věd", zpracování signálů, strojového učení a dalších ingrediencí. Znalosti získané v ZRE můžete ale aplikovat i jinde, např. problém rozpoznávání sekvencí dalece přesahuje rozpoznávání řeči. Kurs je učen lidmi ze skupiny BUT Speech@FIT, která je na špičce světového výzkumu v dolování informací z řeči.
Osnova přednášek:
 
  1. Úvod, aplikace zpracování řeči. 
  2. Číslicové zpracování řečových signálů.
  3. Tvorba a řeči a její signálový model.
  4. Předzpracování a základní parametry, cepstrum. 
  5. Lineárně-prediktivní model. 
  6. Určování základního tónu hlasu
  7. Kódování řeči - základy.
  8. Kódování řeči CELP. 
  9. Základy rozpoznávání řeči, DTW. 
  10. Skryté Markovovy modely HMM. 
  11. Systémy pro rozpoznávání řeči s velkým slovníkem (LVCSR). 
  12. Rozpoznávání mluvčího a jazyka. Využití neuronových sítí ve zpracování řeči. 
  13. Syntéza řeči z textu. 
Osnova numerických cvičení:
 
  1. Paramatrizace, DTW, HMM.
Osnova počítačových cvičení:
 
    V laboratořích (kromě poslední) je používán Matlab.
  1. Úvod. 
  2. Lineární predikce a vektorové kvantování. 
  3. Určování základního tónu a kódování řeči.
  4. Základy klasifikace. 
  5. Rozpoznávání - Dynamic time Warping (DTW).
  6. Rozpoznávání - skryté Markovovy modely (HTK).
Literatura referenční:
 
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, Wiley-Interscience; 2 edition. 
  • Rabiner, L. R., & Schafer, R. W. Theory and applications of digital speech processing, Pearson, 2011. 
  • Psutka, J., Müller, L., Matoušek, J., & Radová, V., Mluvíme s počítačem česky, Academia, 2006.  
  • Yu, D., Deng, L., Automatic speech recognition, Springer, 2016.
Literatura studijní:
 
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, Wiley-Interscience; 2 edition. 
  • Rabiner, L. R., & Schafer, R. W. Theory and applications of digital speech processing, Pearson, 2011. 
  • Psutka, J., Müller, L., Matoušek, J., & Radová, V., Mluvíme s počítačem česky, Academia, 2006.  
  • Yu, D., Deng, L., Automatic speech recognition, Springer, 2016.
Průběžná kontrola studia:
  
  • půlsemestrální test 14b
  • projekt 29b
  • presentace výsledků na poč. cvičeních 6b
 

Vaše IPv4 adresa: 54.210.158.163