Název:

Systémy zpracování řeči

Zkratka:SRE
Ak.rok:ukončen 2006/2007
Semestr:zimní
Studijní plán:
ProgramObor/
specializace
RočníkPovinnost
IT-MGR-2MGM.2.volitelný
IT-MGR-2MIN.-volitelný
IT-MGR-2MIS.-volitelný
IT-MGR-2MPS-volitelný
Vyučovací jazyk:čeština, angličtina
Informace veřejné:http://www.fit.vutbr.cz/study/courses/SRE/public/
Kredity:5 kreditů
Ukončení:zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvič.lab. cvič.poč. cvič.jiná
Rozsah:3900013
 zkouškatestycvičenílaboratořeostatní
Body:60200020
Garant:Černocký Jan, doc. Dr. Ing. (UPGM)
Přednášející:Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, doc. Dr. Ing. (UPGM)
Schwarz Petr, Ing., Ph.D. (UPGM)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
Prerekvizity: 
Zpracování řečových signálů (ZRE), UPGM
 
Cíle předmětu:
  Rozšířit vědomosti o stavbě jazyka (fonetika, fonologie) a zorientovat se ve statistických klasifikátorech. Získat přehled o pokročilých metodách rozpoznávání a kódování řeči. Seznámit se s pokročilými metodami jazykového modelování a syntaktické analýzy.

Anotace:
  Fonetika a fonologie. Statistické rozpoznávání vzorů. Trénování a adaptace HMM. Rozpoznávání HMM. Rozpoznávání fonémů. Detekce klíčových slov a vyhledávání. Identifikace a verifikace mluvčího. Identifikace jazyka. Kódování řeči CELP. Jazykové modelování. Psycholingvistika. Pravděpodobnostní parsování.

Získané dovednosti, znalosti a kompetence:
  Studenti si rozšíří vědomosti získalané v základním kursu o zpracování řečových signálů a zpracování přirozeného jazyka. Získají přehled o metodách v současnosti implementovaných v průmyslových aplikacích (GSM telefony nebo komerčně dostupné rozpoznávače).  Seznámí se s perspektivními metodami existujícími ve výzkumné oblasti.  Prohloubí své znalosti zpracování přirozeného jazyka a jazykového modelování. Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro zpracování řeči v akademické i průmyslové sféře.
Osnova přednášek:
 
 1. Fonetika a fonologie - struktura slabik, fonologické procesy a rozlišující rysy.
 2. Statistické rozpoznávání vzorů I. - Bayesovský rámec, Maximum likelihood učení, Gaussian mixture models. Parametry pro GMM modelování.
 3. Statistické rozpoznávání vzorů II. - umělé neuronové sítě, Support vector machines. Modelování sekvencí - skryté Markovovy modely HMM.
 4. Trénování a adaptace HMM  - MLLR, MAP, diskriminativníé trénování.
 5. Rozpoznávání HMM  - výslovnostní slovníky, rozpoznávací sítě, jazykový model, dekódování, lattices.
 6. Rozpoznávání fonémů. Detekce klíčových slov a vyhledávání - LVCSR, akustické, fonémové lattices. Figure of Merit.
 7. Identifikace a verifikace mluvčího - GMM, SVM. Normalizace a adaptace na přenosový kanál - feature mapping, eigen-voices a nuissance attributes projection (NAP). Vyhodnocení ověřování mluvčího - DET křivky, EER, cost function.
 8. Identifikace jazyka - akustická vs. fonotaktická, vyhodnocení.
 9. Kódování řeči - CELP - adaptivní a stochastická kódová kniha, GSM standardy.
 10. Jazykové modelování I. - n-gramové modely, modely založené na třídách.
 11. Jazykové modelování  II. - příznaky specifické pro jazyk, factored-language models
 12. Psycholingvistika - model rozpoznávání slov, slovní asociace. 
 13. Pravděpodobnostní parsování - algoritmus inside-outside, závislostní parsování.
Literatura referenční:
 
 • Gussenhoven, J. and Jacobs, H.: Understanding Phonology, Oxford University Press, 1998, ISBN: 0-340-69218-9
 • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0.
 • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7.
 • Moore, B.C.J.: An introduction to the psychology of hearing, Academic Press, 1989, ISBN 0-12-505627-3.
 • Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998, ISBN 0-262-10066-5.
 • Manning, C. and Schütze, H.: Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
Literatura studijní:
 
 • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0.
 • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7.
Průběžná kontrola studia:
  
 • půlsemestrální test - 20b
 • prezentace projektů - 20b
 • zkouška - 60b
 

Vaše IPv4 adresa: 3.85.92.139