Detail projektu

NTT - Speech enhancement front-end for robust automatic speech recognition with large amount of training data

Období řešení: 1. 10. 2017 - 30. 9. 2018

Typ projektu: smluvní výzkum

Objednatel: NTT Corporation

Název česky

NTT - Parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat

Typ

smluvní výzkum

Klíčová slova

rozpoznávání řeči, odolnost, velký objem dat,

Abstrakt

Cílem společného výzkumu je vyvinout technologie parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat v rámci spolupráce mezi VUT a NTT. Práce je založena na nízkodimenzionálních reprezentacích dat (embeddings) produkovaných neuronovými sítěmi v různých místech řetězce zpracování.

Řešitelé

Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT) , hlavní řešitel
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel

Publikace

2018

ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel a BURGET Lukáš. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In: Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018, s. 4874-4878. ISBN 978-1-5386-4658-8. Detail
DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, OGAWA Atsunori a NAKATANI Tomohiro. Single Channel Target Speaker Extraction and Recognition with Speaker Beam. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5554-5558. ISBN 978-1-5386-4658-8. Detail
DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, ARAKI Shoko, OGAWA Atsunori a NAKATANI Tomohiro. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics. NTT Technical Review, roč. 16, č. 11, 2018, s. 19-24. ISSN 1348-3447. Detail

2017

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, OGAWA Atsunori a NAKATANI Tomohiro. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In: Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017, s. 8-15. ISBN 978-1-5090-4788-8. Detail
ŽMOLÍKOVÁ Kateřina. Summary report of project "Speech enhancement front-end for robust automatic speech recognition with large amount of training data" for Year 2017. Brno: NTT Corporation, 2017. Detail