Detail publikace

How To Improve Your Speaker Embeddings Extractor in Generic Toolkits

ZEINALI Hossein, BURGET Lukáš, ROHDIN Johan A., STAFYLAKIS Themos a ČERNOCKÝ Jan. How To Improve Your Speaker Embeddings Extractor in Generic Toolkits. In: Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP). Brighton: IEEE Signal Processing Society, 2019, s. 6141-6145. ISBN 978-1-5386-4658-8. Dostupné z: https://ieeexplore.ieee.org/abstract/document/8683445

Název česky

Jak zlepšit Váš extraktor embeddingů mluvčích v běžných toolkitech

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Zeinali Hossein, Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

Abstrakt

V poslední době se embeddingy mluvčího extrahované hlubokými neuronovými sítěmi staly nejmodernější metodou pro ověřování mluvčích. Cílem této práce je usnadnit její implementaci na obecnější sadě nástrojů než Kaldi, u níž očekáváme další zlepšení této metody. V tréninku zkoumáme několik triků, jako jsou účinky normalizace vstupních funkcí a společné statistiky, různé metody prevence nadměrného přizpůsobení a alternativní nelinearity, které lze použít místo lineárních jednotek usměrňovače. Dále zkoumáme rozdíl ve výkonu mezi TDNN a CNN a mezi dvěma typy mechanismu pozornosti. Experimentální výsledky datových souborů Speaker in the Wild, SRE 2016 a SRE 2018 ukazují účinnost navrhované implementace.

Rok

2019

Strany

6141-6145

Sborník

Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)

Konference

2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Brighton, GB

ISBN

978-1-5386-4658-8

Vydavatel

IEEE Signal Processing Society

Místo

Brighton, GB

DOI

10.1109/ICASSP.2019.8683445

UT WoS

000482554006074

EID Scopus

2-s2.0-85068991245

BibTeX

@INPROCEEDINGS{FITPUB12037,
   author = "Hossein Zeinali and Luk\'{a}\v{s} Burget and A. Johan Rohdin and Themos Stafylakis and Jan \v{C}ernock\'{y}",
   title = "How To Improve Your Speaker Embeddings Extractor in Generic Toolkits",
   pages = "6141--6145",
   booktitle = "Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)",
   year = 2019,
   location = "Brighton, GB",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5386-4658-8",
   doi = "10.1109/ICASSP.2019.8683445",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12037"
}