Detail publikace

Bayesian phonotactic language model for Acoustic Unit Discovery

ONDEL Yang Lucas Antoine Francois, BURGET Lukáš, ČERNOCKÝ Jan a KESIRAJU Santosh. Bayesian phonotactic language model for Acoustic Unit Discovery. In: Proceedings of ICASSP 2017. New Orleans: IEEE Signal Processing Society, 2017, s. 5750-5754. ISBN 978-1-5090-4117-6.
Název česky
Bayesovský fonotaktický jazykový model pro automatické hledání řečových jednotek
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Ondel Yang Lucas Antoine Francois, Mgr., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Kesiraju Santosh (IIIT)
URL
Abstrakt

Nedávné práce na Acoustic Unit Discovery (AUD) vedly k vývoji neparametrického Bayesovského modelu telefonní smyčky, kde se předpokládá, že před pravděpodobností telefonních jednotek se bude odebírat vzorek z Dirichletova procesu (DP). V této práci navrhujeme vylepšit tento model začleněním Hierarchického Pitman-Yorova bigramového jazykového modelu na přechody jednotek. Tento nový model využívá fonotaktické kontextové informace, ale předpokládá pevný počet jednotek. Abychom toto omezení napravili, nejprve vyškolíme model DP phoneloop pro odvození počtu jednotek, pak se bigramová telefonní smyčka inicializuje z telefonní smyčky DP a trénuje se až do sbližování jejích parametrů. Výsledky ukazují absolutní zlepšení o 1-2% v metrice Normalized Mutual Information (NMI). Dále ukazujeme, že v kombinaci s funkcí Multilingual Bottleneck (MBN) model přináší stejný nebo vyšší NMI jako anglický telefonní rozpoznávač trénovaný na TIMIT.

Rok
2017
Strany
5750-5754
Sborník
Proceedings of ICASSP 2017
Konference
2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), New Orleans, USA, US
ISBN
978-1-5090-4117-6
Vydavatel
IEEE Signal Processing Society
Místo
New Orleans, US
DOI
UT WoS
000414286205182
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11472,
   author = "Francois Antoine Lucas Yang Ondel and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y} and Santosh Kesiraju",
   title = "Bayesian phonotactic language model for Acoustic Unit Discovery",
   pages = "5750--5754",
   booktitle = "Proceedings of ICASSP 2017",
   year = 2017,
   location = "New Orleans, US",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5090-4117-6",
   doi = "10.1109/ICASSP.2017.7953258",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11472"
}
Nahoru