Detail publikace

How To Improve Your Speaker Embeddings Extractor in Generic Toolkits

ZEINALI Hossein, BURGET Lukáš, ROHDIN Johan A., STAFYLAKIS Themos a ČERNOCKÝ Jan. How To Improve Your Speaker Embeddings Extractor in Generic Toolkits. In: Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP). Brighton: IEEE Signal Processing Society, 2019, s. 6141-6145. ISBN 978-1-5386-4658-8. Dostupné z: https://ieeexplore.ieee.org/abstract/document/8683445
Název česky
Jak zlepšit Váš extraktor embeddingů mluvčích v běžných toolkitech
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Zeinali Hossein, Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V poslední době se embeddingy mluvčího extrahované hlubokými neuronovými sítěmi staly nejmodernější metodou pro ověřování mluvčích. Cílem této práce je usnadnit její implementaci na obecnější sadě nástrojů než Kaldi, u níž očekáváme další zlepšení této metody. V tréninku zkoumáme několik triků, jako jsou účinky normalizace vstupních funkcí a společné statistiky, různé metody prevence nadměrného přizpůsobení a alternativní nelinearity, které lze použít místo lineárních jednotek usměrňovače. Dále zkoumáme rozdíl ve výkonu mezi TDNN a CNN a mezi dvěma typy mechanismu pozornosti. Experimentální výsledky datových souborů Speaker in the Wild, SRE 2016 a SRE 2018 ukazují účinnost navrhované implementace.

Rok
2019
Strany
6141-6145
Sborník
Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)
Konference
2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Brighton, GB
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Brighton, GB
DOI
UT WoS
000482554006074
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12037,
   author = "Hossein Zeinali and Luk\'{a}\v{s} Burget and A. Johan Rohdin and Themos Stafylakis and Jan \v{C}ernock\'{y}",
   title = "How To Improve Your Speaker Embeddings Extractor in Generic Toolkits",
   pages = "6141--6145",
   booktitle = "Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)",
   year = 2019,
   location = "Brighton, GB",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5386-4658-8",
   doi = "10.1109/ICASSP.2019.8683445",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12037"
}
Nahoru