Detail publikace

Speaker-aware neural network based beamformer for speaker extraction in speech mixtures

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, OGAWA Atsunori a NAKATANI Tomohiro. Speaker-aware neural network based beamformer for speaker extraction in speech mixtures. In: Proceedings of Interspeech 2017. Stocholm: International Speech Communication Association, 2017, s. 2655-2659. ISSN 1990-9772. Dostupné z: http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0667.PDF
Název česky
Směrovač paprsku založený na neuronové síti poučené o řečníkovi pro extrakci řečníka ze směsi řečových signálů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Kinoshita Keisuke (NTT)
Higuchi Takuya (NTT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
URL
Abstrakt

Článek pojednává o směrovači paprsku, založeném na neuronové síti, která je poučená o řečníkovi pro extrakci řečníka ze směsi řečových signálů. V této práci se věnujeme problému extrakce jednoho cílového řečníka z vícekanálové směsi řeči. Neuronovou síť používáme k odhadu masek k extrakci cílového řečníka a odvození filtrů paprskových tvarů pomocí těchto masek, podobně jako nedávno navržený přístup k extrakci řeči za přítomnosti šumu. Abychom překonali permutační nejednoznačnost odhadu masky neuronové sítě, která vzniká za přítomnosti více řečníků, navrhujeme informovat neurální síť o cílovém řečníkovi tak, aby se naučil sledovat charakteristiky řečníka prostřednictvím promluvy. Zkoumáme a porovnáváme různé metody předávání informací o řečníkovi do sítě, jako je například závislost jedné vrstvy sítě na charakteristikách řečníka. Experimenty na směsi dvou řečníků ukazují, že navrhované schéma může sledovat a extrahovat cílového řečníka pro uzavřené i otevřené případové sady řečníků.

Rok
2017
Strany
2655-2659
Časopis
Proceedings of Interspeech - on-line, roč. 2017, č. 8, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2017
Konference
Interspeech Conference, Stockholm, SE
Vydavatel
International Speech Communication Association
Místo
Stocholm, SE
DOI
UT WoS
000457505000551
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11587,
   author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Keisuke Kinoshita and Takuya Higuchi and Atsunori Ogawa and Tomohiro Nakatani",
   title = "Speaker-aware neural network based beamformer for speaker extraction in speech mixtures",
   pages = "2655--2659",
   booktitle = "Proceedings of Interspeech 2017",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2017,
   number = 08,
   year = 2017,
   location = "Stocholm, SE",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2017-667",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11587"
}
Nahoru