Detail publikace

Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, OGAWA Atsunori a NAKATANI Tomohiro. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In: Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017, s. 8-15. ISBN 978-1-5090-4788-8.

Název česky

Učení reprezentací řečníků pro vícekanálovou extrakci jednoho řečníka založenou na neuronových sítích

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Kinoshita Keisuke (NTT)
Higuchi Takuya (NTT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2017/zmolikova_asru2017.pdf PDF

Abstrakt

V poslední době schémata využívající hluboké neuronové sítě (DNN) pro extrakci řeči od šumového pozorování prokázaly velký potenciál pro automatické rozpoznávání řeči odolné proti šumu. Tato schémata však nejsou vhodná, pokud rušivým šumem je jiný reproduktor. Abychom mohli extrahovat cílový reproduktor ze směsi reproduktorů, nedávno jsme navrhli informovat neuronovou síť pomocí informací reproduktorů extrahovaných z adaptační výpovědi od stejného reproduktoru. V naší předchozí práci jsme prozkoumali způsoby, jak informovat síť o řečníkovi a zjistili, že pro tento úkol je vhodný přístup adaptivní vrstvy reproduktoru. V našich experimentech jsme použili funkce reproduktorů navržené pro úkoly rozpoznávání reproduktorů jako další informace o reproduktorech, které nemusí být optimální pro úkol extrakce reproduktorů. V tomto příspěvku navrhujeme použití schématu shrnutí sekvencí, které umožní naučit se reprezentaci reproduktorů společně se sítí. Kromě toho rozšiřujeme předchozí experimenty, abychom demonstrovali potenciál naší navrhované metody jako rozhraní pro rozpoznávání řeči a prozkoumali vliv dalšího šumu na výkon metody.

Rok

2017

Strany

8-15

Sborník

Proceedings of ASRU 2017

Konference

2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), Okinawa, JP

ISBN

978-1-5090-4788-8

Vydavatel

IEEE Signal Processing Society

Místo

Okinawa, JP

DOI

10.1109/ASRU.2017.8268910

UT WoS

000426066100002

EID Scopus

2-s2.0-85050535526

BibTeX

@INPROCEEDINGS{FITPUB11596,
   author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Keisuke Kinoshita and Takuya Higuchi and Atsunori Ogawa and Tomohiro Nakatani",
   title = "Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction",
   pages = "8--15",
   booktitle = "Proceedings of ASRU 2017",
   year = 2017,
   location = "Okinawa, JP",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5090-4788-8",
   doi = "10.1109/ASRU.2017.8268910",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11596"
}