Název:

Moderní metody zpracování řeči

Zkratka:MZD
Ak.rok:2012/2013
Semestr:zimní
Studijní plán:
ProgramOborRočníkPovinnost
VTI-DR-4DVI4-volitelný
Vyučovací jazyk:čeština
Ukončení:zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvičenílab. cvičenípoč. cvičeníjiná
Rozsah:390000
 zkouškatestycvičenílaboratořeostatní
Body:1000000
Garant:Černocký Jan, doc. Dr. Ing., UPGM
Přednášející:Černocký Jan, doc. Dr. Ing., UPGM
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
 
Cíle předmětu:
Zmíníme se o metodách v současnosti implementovaných v průmyslových aplikacích (jako GSM telefony nebo komerčně dostupné rozpoznávače), ale neopomeneme ani perspektivní metody existující zatím pouze ve výzkumných laboratořích. Zvláštní pozornost bude věnována postupům odvozeným na řečových datech a využití poznatků o tvorbě a slyšení řeči lidmi.
Anotace:
Od jednoduchých systémů k rozpoznávání ke statistickému modelování. Skryté Markovovy modely (HMM). Rozpoznávání souvislé řeči s velkým slovníkem. Jazykové modely. Tvorba řeči. Slyšení řeči: čas a frekvence. Metody pro odvození příznaků pro rozpoznávání založené na datech. Řečové databáze. Buzení v kódování řeči, CELP. Identifikace mluvčího.
Požadované prerekvizitní znalosti a dovednosti:
základní znalost číslicového zpracování signálů, absolvování základního kursu o zpracování řeči je výhodou.
Získané dovednosti, znalosti a kompetence:
Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro rozpoznávání a kódování řeči využívajících moderní metody, a to v akademické i průmyslové sféře.
Osnova přednášek:
  1. Základní pojmy: signálové vektory a matice parametrů, statistiky.
  2. Statistické modelování parametrů, modelování času stavovými sekvencemi.
  3. Skryté Markovovy modely (HMM), struktura, trénování.
  4. Rozpoznávání řeči pomocí HMM: Viterbiho algoritmus, předávání žetonů (token passing).
  5. ýslovnostní slovníky a jazykové modely.
  6. Tvorba řeči a odvozené parametry: LPC, log area ratios (LAR), line spectral pairs (LSP).
  7. Slyšení řeči a odvozené parametry - Mel-frekvenční cepstrální koeficienty, Perceptual linear prediction (PLP).
  8. Časové vlastnosti sluchu - RASTA filtrování.
  9. Trénování výpočtu příznaků na datech: lineární diskriminační analýza.
  10. Řečové databáze: standardy, obsah, mluvčí, anotace.
  11. Vokodéry a modelování jejich buzení, multipulsní a statistické modelování (GSM kódování).
  12. CELP kódování: dlouhodobý prediktor, kódové knihy. Kódování s velmi malým bitovým tokem.
  13. Současné metody identifikace a ověřování mluvčího.
Literatura referenční:
  1. Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995
  2. Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000
  3. Texty z http://www.fit.vutbr.cz/~cernocky/speech/
Literatura studijní:
  1. Moore, B.C.J., : An introduction to the psychology of hearing, Academic Press, 1989
  2. Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998
  3. Fukunaga, K.: Introduction to Statistical Pattern Recognition, Academic Press, 1990
  4. Vapnik, V. N.: Statistical Learning Theory, Wiley-Interscience, 1998
  5. Dutoit, T.: An Introduction to Text-To-Speech Synthesis, Kluwer Academic Publishers, 1997
Kontrolovaná výuka:
výuka není kontrolována, předmět je hodnocen na základě zkoušky nebo závěrečné zprávy