Detail publikace

Analysis Of DNN Approaches To Speaker Identification

MATĚJKA Pavel, GLEMBEK Ondřej, NOVOTNÝ Ondřej, PLCHOT Oldřich, GRÉZL František, BURGET Lukáš a ČERNOCKÝ Jan. Analysis Of DNN Approaches To Speaker Identification. In: Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016. Shanghai: IEEE Signal Processing Society, 2016, s. 5100-5104. ISBN 978-1-4799-9988-0.
Název česky
Analýza DNN přístupů k identifikaci mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Tato práce studuje využití funkcí úzkého hrdla (DNN) Deep Neural Network (BN) společně s tradičními funkcemi MFCC při rozpoznávání mluvčího na základě i-vektorů. Oddělíme dostatečnou extrakci statistik pomocí samostatných modelů GMM pro zarovnání rámců a pro normalizaci statistik a analyzujeme využití funkcí BN a MFCC (a jejich zřetězení) ve dvou fázích. Ukážeme také účinek použití plně kovariančních modelů GMM a na rozdíl od toho porovnáme výsledek s nedávným přístupem DNN-alignment. V telefonním stavu NIST SRE2010 vykazujeme 60% relativní zisk oproti tradiční základní hodnotě MFCC pro EER (a obdobně pro metriky NIST DCF), což vede k 0,94% EER.

Rok
2016
Strany
5100-5104
Sborník
Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016
Konference
41th IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, CN
ISBN
978-1-4799-9988-0
Vydavatel
IEEE Signal Processing Society
Místo
Shanghai, CN
DOI
UT WoS
000388373405050
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11140,
   author = "Pavel Mat\v{e}jka and Ond\v{r}ej Glembek and Ond\v{r}ej Novotn\'{y} and Old\v{r}ich Plchot and Franti\v{s}ek Gr\'{e}zl and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Analysis Of DNN Approaches To Speaker Identification",
   pages = "5100--5104",
   booktitle = "Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
   year = 2016,
   location = "Shanghai, CN",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-4799-9988-0",
   doi = "10.1109/ICASSP.2016.7472649",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11140"
}
Nahoru