Detail publikace

Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, OGAWA Atsunori a NAKATANI Tomohiro. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In: Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017, s. 8-15. ISBN 978-1-5090-4788-8.
Název česky
Učení reprezentací řečníků pro vícekanálovou extrakci jednoho řečníka založenou na neuronových sítích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Kinoshita Keisuke (NTT)
Higuchi Takuya (NTT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
URL
Abstrakt

V poslední době schémata využívající hluboké neuronové sítě (DNN) pro extrakci řeči od šumového pozorování prokázaly velký potenciál pro automatické rozpoznávání řeči odolné proti šumu. Tato schémata však nejsou vhodná, pokud rušivým šumem je jiný reproduktor. Abychom mohli extrahovat cílový reproduktor ze směsi reproduktorů, nedávno jsme navrhli informovat neuronovou síť pomocí informací reproduktorů extrahovaných z adaptační výpovědi od stejného reproduktoru. V naší předchozí práci jsme prozkoumali způsoby, jak informovat síť o řečníkovi a zjistili, že pro tento úkol je vhodný přístup adaptivní vrstvy reproduktoru. V našich experimentech jsme použili funkce reproduktorů navržené pro úkoly rozpoznávání reproduktorů jako další informace o reproduktorech, které nemusí být optimální pro úkol extrakce reproduktorů. V tomto příspěvku navrhujeme použití schématu shrnutí sekvencí, které umožní naučit se reprezentaci reproduktorů společně se sítí. Kromě toho rozšiřujeme předchozí experimenty, abychom demonstrovali potenciál naší navrhované metody jako rozhraní pro rozpoznávání řeči a prozkoumali vliv dalšího šumu na výkon metody.

Rok
2017
Strany
8-15
Sborník
Proceedings of ASRU 2017
Konference
2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), Okinawa, JP
ISBN
978-1-5090-4788-8
Vydavatel
IEEE Signal Processing Society
Místo
Okinawa, JP
DOI
UT WoS
000426066100002
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11596,
   author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Keisuke Kinoshita and Takuya Higuchi and Atsunori Ogawa and Tomohiro Nakatani",
   title = "Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction",
   pages = "8--15",
   booktitle = "Proceedings of ASRU 2017",
   year = 2017,
   location = "Okinawa, JP",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5090-4788-8",
   doi = "10.1109/ASRU.2017.8268910",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11596"
}
Nahoru