Detail publikace

Audio Enhancing With DNN Autoencoder For Speaker Recognition

PLCHOT Oldřich, BURGET Lukáš, ARONOWITZ Hagai a MATĚJKA Pavel. Audio Enhancing With DNN Autoencoder For Speaker Recognition. In: Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016. Shanghai: IEEE Signal Processing Society, 2016, s. 5090-5094. ISBN 978-1-4799-9988-0.

Název česky

Obohacování audia pomocí DNN autoenkodéru pro rozpoznávání mluvčího

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Aronowitz Hagai (IBM)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2016/plchot_icassp2016_0005090.pdf PDF

Klíčová slova

rozpoznávání mluvčího, denoising, de-reverbation, neuronové sítě, DNN

Abstrakt

V tomto příspěvku představujeme návrh autoenkodéru založeného na DNN pro vylepšení řeči a jeho použití pro systémy rozpoznávání mluvčích pro vzdálené mikrofony a hlučná data. Začali jsme s rozšířením databáze Fisher o uměle hlučná a dozvukovaná data a vyškolili jsme automatický kodér, aby namapoval hlučnou a dozvukovanou řeč na její čistou verzi. Autoencoder používáme jako krok předzpracování v pozdější fázi modelování v nejmodernějších systémech rozpoznávání mluvčích závislých na textu a nezávislých na textu. Uvádíme relativní vylepšení až o 50% pro systém závislý na textu a až 48% pro systém nezávislý na textu. U systému nezávislého na textu představujeme podrobnější analýzu různých podmínek NIST SRE 2010 a PRISM, což naznačuje, že navrhovaný preproces je slibným a účinným způsobem, jak vybudovat robustní systém rozpoznávání mluvčích pro vzdálený mikrofon a hlučná data.

Rok

2016

Strany

5090-5094

Sborník

Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016

Konference

41th IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, CN

ISBN

978-1-4799-9988-0

Vydavatel

IEEE Signal Processing Society

Místo

Shanghai, CN

DOI

10.1109/ICASSP.2016.7472647

UT WoS

000388373405048

EID Scopus

2-s2.0-84973277824

BibTeX

@INPROCEEDINGS{FITPUB11139,
   author = "Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Hagai Aronowitz and Pavel Mat\v{e}jka",
   title = "Audio Enhancing With DNN Autoencoder For Speaker Recognition",
   pages = "5090--5094",
   booktitle = "Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
   year = 2016,
   location = "Shanghai, CN",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-4799-9988-0",
   doi = "10.1109/ICASSP.2016.7472647",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11139"
}