| Karafiát, M.: Study of linear transformations applied to training of cross-domain adapted large vocabulary continuous speech recognition systems, Brno, CZ, 2009, s. 73 | | Jazyk publikace: | angličtina |
|---|
| Název publikace: | Study of linear transformations applied to training of cross-domain adapted large vocabulary continuous speech recognition systems |
|---|
| Název (cs): | Aplikace lineárních transformací pro trénování systémů rozpoznávání spojité řeči velkým slovníkem adaptovaný napříč doménami |
|---|
| Strany: | 73 |
|---|
| Místo vydání: | Brno, CZ |
|---|
| Rok: | 2009 |
|---|
| URL: | http://www.fit.vutbr.cz/research/groups/speech/publi/2009/karafiat_thesis.pdf [PDF] |
|---|
| Klíčová slova |
|---|
| LVCSR system, meeting recognition, linear transform, Adaptation, cross domain adaptation, HLDA, CMLLR, MLLR, narrow band - wide band |
| Anotace |
|---|
Tato disertační práce se zabývá aplikací lineárních transformací pro trénování systémů rozpoznávání spojité řeči velkým slovníkem adaptovaný napříč doménami
|
| Abstrakt |
|---|
| Tato disertační práce se zabývá dvěma významnými problémy z oblasti automatického rozpoznávání řeči (automatic speech recognition - ASR). Prvním tématem jsou robustní diskriminativní transformace používané pro výpoèet příznaků. Ověrily jsme dvě varianty - vyhlazování populární Heteroscedastické lineární discriminační analýzy (HLDA): vyhlazenou HLDA (Smoothed HLDA - SHLDA) a Maximum A-Posteriori adaptovanou HLDA. Obě varianty poskytují lepší výsledky než základní HLDA. Zjistili jsme rovněž, že pokud se při odhadu HLDA omezí nebo zcela odstraní úseky ticha (Silence-Reduced HLDA), jsou výsledky srovnatelné a metoda je podstatně méně náročná na výpočetní výkon. Druhá část disertace se zabývá použitím heterogenních dat pro trénování ASR systémů. Zkoumali jsme techniky, které pro úlohu, kde je k disposici omezené množství trénovacích dat (meetingy - 16kHz, `` široké pásmo'', ``wide-band'', WB) umožní využití dat z oblasti, kde je jich k disposici dostatek (telefonní data - 8kHz, ``úzké pásmo'' , ``narrow-band'', NB). Úspěšně jsme implementovali adaptaci s WB daty transformovanými do NB oblasti pomocí Constrained Maximum Likelihood lineární regrese (CMLLR). Pomocí metody maximum likelihood jsme ukázali, jak tuto transformaci použít společně s HLDA a SAT (speaker-adaptive) trénovanými systémy. V závěru jsme studovali a úspěšně využily integraci této techniky s diskriminativními přístupy k trénování. Všechny experimentální výsledky jsou presentovány na standardních datech z NIST Rich Transcription (RT) 2005 evaluací. |
| BibTeX: |
|---|
@PHDTHESIS{
author = {Martin Karafiát},
title = {Study of linear transformations applied to training of
cross-domain adapted large vocabulary continuous speech
recognition systems},
pages = {73},
year = {2009},
location = {Brno, CZ},
language = {english},
url = {http://www.fit.vutbr.cz/research/view_pub.php?id=8782}
} |
|