Detail publikace

Sequence Summarizing Neural Network for Speaker Adaptation

VESELÝ Karel, WATANABE Shinji, ŽMOLÍKOVÁ Kateřina, KARAFIÁT Martin, BURGET Lukáš a ČERNOCKÝ Jan. Sequence Summarizing Neural Network for Speaker Adaptation. In: Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016. Shanghai: IEEE Signal Processing Society, 2016, s. 5315-5319. ISBN 978-1-4799-9988-0.
Název česky
Neuronové sítě shrnující sekvence pro adaptaci na mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Watanabe Shinji, Dr. (JHU)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V tomto článku navrhujeme adaptační techniku DNN, kde je i-vektorový extraktor nahrazen sekvenční souhrnnou neurální sítí (SSNN). Podobně jako i-vektorový extraktor vytváří SSNN souhrnný vektor", představující akustické shrnutí promluvy. Takový vektor se poté připojí ke vstupu hlavní sítě, zatímco obě sítě se společně trénují optimalizací funkce jedné ztráty. Metody adaptace reproduktorů i-vektor a SSNN jsou porovnány na datech schůzky AMI. Výsledky ukazují srovnatelný výkon obou technik na systému FBANK s nácvikem klasifikace rámců. Navíc připojení i-vektoru i souhrnného vektoru" k funkcím FBANK vede k dalšímu zlepšení srovnatelnému s výkonem systému DNN přizpůsobeného FMLLR.

Rok
2016
Strany
5315-5319
Sborník
Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016
Konference
41th IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, CN
ISBN
978-1-4799-9988-0
Vydavatel
IEEE Signal Processing Society
Místo
Shanghai, CN
DOI
UT WoS
000388373405093
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11145,
   author = "Karel Vesel\'{y} and Shinji Watanabe and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Martin Karafi\'{a}t and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Sequence Summarizing Neural Network for Speaker Adaptation",
   pages = "5315--5319",
   booktitle = "Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
   year = 2016,
   location = "Shanghai, CN",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-4799-9988-0",
   doi = "10.1109/ICASSP.2016.7472692",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11145"
}
Soubory
Nahoru