Disertace

 
Karafiát, M.: Study of linear transformations applied to training of cross-domain adapted large vocabulary continuous speech recognition systems, Brno, CZ, 2009, s. 73
Jazyk publikace:angličtina
Název publikace:Study of linear transformations applied to training of cross-domain adapted large vocabulary continuous speech recognition systems
Název (cs):Aplikace lineárních transformací pro trénování systémů rozpoznávání spojité řeči velkým slovníkem adaptovaný napříč doménami
Strany:73
Místo vydání:Brno, CZ
Rok:2009
URL:http://www.fit.vutbr.cz/research/groups/speech/publi/2009/karafiat_thesis.pdf [PDF]
Klíčová slova
LVCSR system, meeting recognition, linear transform, Adaptation, cross domain adaptation, HLDA, CMLLR, MLLR, narrow band - wide band
Anotace
Tato disertační práce se zabývá aplikací lineárních transformací pro trénování systémů rozpoznávání spojité řeči velkým slovníkem adaptovaný napříč doménami


Abstrakt
Tato disertační práce se zabývá dvěma významnými problémy z oblasti automatického rozpoznávání řeči (automatic speech recognition - ASR). Prvním tématem jsou robustní diskriminativní transformace používané pro výpoèet příznaků. Ověrily jsme dvě varianty - vyhlazování populární Heteroscedastické lineární discriminační analýzy (HLDA): vyhlazenou HLDA (Smoothed HLDA - SHLDA) a Maximum A-Posteriori adaptovanou HLDA. Obě varianty poskytují lepší výsledky než základní HLDA. Zjistili jsme rovněž, že pokud se při odhadu HLDA omezí nebo zcela odstraní úseky ticha (Silence-Reduced HLDA), jsou výsledky srovnatelné a metoda je podstatně méně náročná na výpočetní výkon. Druhá část disertace se zabývá použitím heterogenních dat pro trénování ASR systémů. Zkoumali jsme techniky, které pro úlohu, kde je k disposici omezené množství trénovacích dat (meetingy - 16kHz, `` široké pásmo'', ``wide-band'', WB) umožní využití dat z oblasti, kde je jich k disposici dostatek (telefonní data - 8kHz, ``úzké pásmo'' , ``narrow-band'', NB). Úspěšně jsme implementovali adaptaci s WB daty transformovanými do NB oblasti pomocí Constrained Maximum Likelihood lineární regrese (CMLLR). Pomocí metody maximum likelihood jsme ukázali, jak tuto transformaci použít společně s HLDA a SAT (speaker-adaptive) trénovanými systémy. V závěru jsme studovali a úspěšně využily integraci této techniky s diskriminativními přístupy k trénování. Všechny experimentální výsledky jsou presentovány na standardních datech z NIST Rich Transcription (RT) 2005 evaluací.
BibTeX:
@PHDTHESIS{
   author = {Martin Karafiát},
   title = {Study of linear transformations applied to training of
	cross-domain adapted large vocabulary continuous speech
	recognition systems},
   pages = {73},
   year = {2009},
   location = {Brno, CZ},
   language = {english},
   url = {http://www.fit.vutbr.cz/research/view_pub.php?id=8782}
}