NTT - Speech enhancement front-end for robust automatic speech recognition with large amount of training data

Název v češtině:Parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat
Hlavní řešitel:Žmolíková Kateřina
Spoluřešitelé:Černocký Jan
Agentura:NTT Corporation
Zahájení:2017-10-01
Ukončení:2018-09-30
Klíčová slova:rozpoznávání řeči, odolnost, velký objem dat,
Anotace:
Cílem společného výzkumu je vyvinout technologie parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat v rámci spolupráce mezi VUT a NTT. Práce je založena na nízkodimenzionálních reprezentacích dat (embeddings) produkovaných neuronovými sítěmi v různých místech řetězce zpracování.

Publikace

2018DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, OGAWA Atsunori a NAKATANI Tomohiro. Single Channel Target Speaker Extraction and Recognition with Speaker Beam. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5554-5558. ISBN 978-1-5386-4658-8.
 ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel a BURGET Lukáš. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In: Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018, s. 4874-4878. ISBN 978-1-5386-4658-8.
2017ŽMOLÍKOVÁ Kateřina. Summary report of project "Speech enhancement front-end for robust automatic speech recognition with large amount of training data" for Year 2017. Brno: NTT Corporation, 2017.
 ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, OGAWA Atsunori a NAKATANI Tomohiro. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In: Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017, s. 8-15. ISBN 978-1-5090-4788-8.

Vaše IPv4 adresa: 54.225.32.164
Přepnout na IPv6 spojení

DNSSEC [dnssec]