Detail publikace

Dereverberation and Beamforming in Far-Field Speaker Recognition

MOŠNER Ladislav, MATĚJKA Pavel, NOVOTNÝ Ondřej a ČERNOCKÝ Jan. Dereverberation and Beamforming in Far-Field Speaker Recognition. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5254-5258. ISBN 978-1-5386-4658-8.
Název česky
Odstranění dozvuku a směrování paprsku pro rozpoznávání mluvčího ze vzdálených mikrofonů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Článek pojednává o odstranění dozvuku a směrování paprsku pro rozpoznávání mluvčího ze vzdálených mikrofonů. Článek se zabývá rozpoznáváním mluvčích ve vzdáleném poli. Na korpusu dat NIST SRE 2010 přenášených ve skutečné místnosti s více mikrofony jsme nejprve demonstrovali, jak akustika místnosti způsobuje významnou degradaci nejmodernějšího systému rozpoznávání mluvčích založeného na vektorech. Poté prozkoumáme několik technik ke zlepšení výkonu, od přeškolení pravděpodobnostní lineární diskriminační analýzy (PLDA), přes dereverberaci až po tvarování paprsku. Zjistili jsme, že vážená predikční chyba (WPE) založená na dereverberaci v kombinaci s generalizovaným vlastním tvarem paprskového formátoru s váhovými maskami Powerspectral Density (PSD) generovanými neuronovými sítěmi (NN) poskytuje výsledky blížící se čistému nastavení klosemikrofonu. Dalšího zlepšení bylo dosaženo rekvalifikací PLDA nebo NN generujících masky na simulovaných cílových datech. Práce ukazuje, že lze vyvinout systém pro rozpoznávání mluvčích, který pracuje robustně ve scénáři vzdáleného pole.

Rok
2018
Strany
5254-5258
Sborník
Proceedings of ICASSP 2018
Konference
IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, CA
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Calgary, CA
DOI
UT WoS
000446384605085
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11717,
   author = "Ladislav Mo\v{s}ner and Pavel Mat\v{e}jka and Ond\v{r}ej Novotn\'{y} and Jan \v{C}ernock\'{y}",
   title = "Dereverberation and Beamforming in Far-Field Speaker Recognition",
   pages = "5254--5258",
   booktitle = "Proceedings of ICASSP 2018",
   year = 2018,
   location = "Calgary, CA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5386-4658-8",
   doi = "10.1109/ICASSP.2018.8462365",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11717"
}
Nahoru