Téma disertační práce

Školitel:Černocký Jan, doc. Dr. Ing.
Téma:Rozpoznávání fonémů z dlouhého časového kontextu
Zahájení v ak.r.:2001/2002
Obhajoba disertace:2009-05-28
Název disertace:Rozpoznávání fonémů z dlouhého časového kontextu
Charakteristika řešeného problému:

    Rozpoznávače mluvené řeči vytvořené v kontrolovaných laboratorních podmínkách (čistota signálu a transkripcí, výběr mluvčích, omezení slovníku, atd.) dosahují úspěšností téměř 100%. Při nasazení do reálných podmínek (např. dialogový systém, který má zpracovávat hovory z mobilních telefonů), však jejich úspěšnost klesá až k hranici, kdy jejich použití spíše obtěžuje než pomáhá - to brání jejich masovému rozšíření. Tématem navrženého doktorského projektu jsou robustní algoritmy, tedy postupy, které funkčnost rozpoznávače zachovají i za nepříznivých šumových podmínek, či při nesouladu trénovacích a testovacích dat (mismatched training-test conditions). Obsah projektu lze shrnout do těchto bodů:
  • robustní detekce řečové aktivity a ticha (Voice Acitivity Detector VAD)
  • robustní parametrizace (příznaky trénované na datech a získané pomocí znalostí o lidském sluchovém ústrojí).
  • problémy odmítnutí slov, která nejsou obsažena ve slovníku (standardní problém rozpoznávačů s malým slovníkem, kdy je jakékoliv příchozí slovo klasifikováno jako jedno ze rozpoznávaných slov).
  • rozpoznávání (akustické dekódování) v reálném čase, kdy není možné čekat na konec promluvy, ale výsledek je nutné prezentovat s daným maximálním zpožděním.

    Při řešení tohoto doktorského projektu budou v maximální míře využívány statistické metody, jako skryté Markovovy modely (HMM) a neuronové sítě. Od projektu jsou očekávány i aplikační výstupy v podobě rozpoznávačů pracujících s on-line vstupem ze zvukové karty, a z digitální telefonní linky ISDN.

Součást výzkumného projektu:

Vaše IPv4 adresa: 18.204.48.40
Přepnout na https