Ing. Kateřina Žmolíková



Neuronové sítě pro zpracování signálu a dolování informací v řeči - NOSIČI

Název v angličtině:Neural networks for signal processing and speech data mining
Hlavní řešitel:Žmolíková Kateřina
Spoluřešitelé:Beneš Karel, Egorova Ekaterina, Silnova Anna, Veselý Karel
Agentura:Technologická agentura České republiky - Program na podporu aplikovaného výzkumu ZÉTA
Kód:TJ01000208
Zahájení:2018-01-01
Ukončení:2019-12-31
Klíčová slova:neuronové sítě
Anotace:
Projekt se zabývá neuronovými sítěmi pro zpracování signálu a dolování informací v řeči.
Popis projektu:
Dolování informací ze spontánní lidské řeči je důležitou oblastí analýzy velkých dat ("big data") a uplatňuje se v komerčních aplikacích (analýza provozu call center) i v bezpečnosti a obraně (zpravodajství, vyšetřování a dokazování). Trendem posledních let je postupné nahrazování klasických funkčních bloků zpracování signálu a strojového učení, jako jsou před-definované banky filtrů či gaussovské modely, neuronovými sítěmi (NN). NN v různých formách (hluboké neuronové sítě DNN, rekurentní sítě RNN, sítě s komplexním modelováním zpětných vazeb a úrovní paměti LSTM). Skupina BUT Speech@FIT na VUT je na světové špičce výzkumu NN pro dolování informací z řeči. Navržený projekt podporuje mladé výzkumníky v dalším pokroku v oblasti NN ve zpracování řečového signálu a dolování informací z řeči v oblastech vzdáleného snímání (mikrofonní pole), trénování rozpoznávačů na špatně anotovaných nebo neanotovaných datech, modelování jazyka a detekce slov mimo slovník (OOV). Podstatnou částí je také příprava pro aplikačního uchopení výsledků projektu ve formě funkčního software, konsultací s průmyslovým patrnerem a intenzivního předávání znalostí. Projekt bude řešen genderově vyváženým týmem PhD studentů a mladých zaměstnanců se zkušenými mentory z akademického (VUT) i komerčního (Phonexia) prostředí.

Publikace

2019ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel, BURGET Lukáš a GLEMBEK Ondřej. End-to-end DNN based text-independent speaker recognition for long and short utterances. Computer Speech and Language. Amsterdam: Elsevier Science, 2019, roč. 2020, č. 59, s. 22-35. ISSN 0885-2308.
2018ALAM Jahangir, BHATTACHARYA Gautam, BRUMMER Niko, BURGET Lukáš, DIEZ Sánchez Mireia, GLEMBEK Ondřej, KENNY Patrick, KLČO Michal, LANDINI Federico Nicolás, LOZANO Díez Alicia, MATĚJKA Pavel, MONTEIRO Joao, MOŠNER Ladislav, NOVOTNÝ Ondřej, PLCHOT Oldřich, PROFANT Ján, ROHDIN Johan A., SILNOVA Anna, SLAVÍČEK Josef, STAFYLAKIS Themos a ZEINALI Hossein. ABC NIST SRE 2018 SYSTEM DESCRIPTION. In: Proceedings of 2018 NIST SRE Workshop. Athens: United States Department of Commerce, National Institute of Standards and Technology, 2018, s. 1-10.
 BENEŠ Karel, KESIRAJU Santosh a BURGET Lukáš. I-vectors in language modeling: An efficient way of domain adaptation for feed-forward models. In: Proceedings of Interspeech 2018. Hyderabad: International Speech Communication Association, 2018, s. 3383-3387. ISSN 1990-9772.
 BRUMMER Niko, SILNOVA Anna, BURGET Lukáš a STAFYLAKIS Themos. Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model. In: Proceedings of Odyssey 2018. Les Sables d'Olonne: International Speech Communication Association, 2018, s. 349-356. ISSN 2312-2846.
 DIEZ Sánchez Mireia, LANDINI Federico Nicolás, BURGET Lukáš, ROHDIN Johan A., SILNOVA Anna, ŽMOLÍKOVÁ Kateřina, NOVOTNÝ Ondřej, VESELÝ Karel, GLEMBEK Ondřej, PLCHOT Oldřich, MOŠNER Ladislav a MATĚJKA Pavel. BUT system for DIHARD Speech Diarization Challenge 2018. In: Proceedings of Interspeech 2018. Hyderabad: International Speech Communication Association, 2018, s. 2798-2802. ISSN 1990-9772.
 EGOROVA Ekaterina a BURGET Lukáš. Out-of-Vocabulary Word Recovery Using FST-Based Subword Unit Clustering in a Hybrid ASR System. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5919-5923. ISBN 978-1-5386-4658-8.
 KARAFIÁT Martin, BASKAR Murali K., SZŐKE Igor, MALENOVSKÝ Vladimír, VESELÝ Karel, GRÉZL František, BURGET Lukáš a ČERNOCKÝ Jan. BUT OpenSAT 2017 speech recognition system. In: Proceedings of Interspeech 2018. Hyderabad: International Speech Communication Association, 2018, s. 2638-2642. ISSN 1990-9772.
 KARAFIÁT Martin, BASKAR Murali K., VESELÝ Karel, GRÉZL František, BURGET Lukáš a ČERNOCKÝ Jan. Analysis of Multilingual BLSTM Acoustic Model on Lowand High Resource Languages. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5789-5793. ISBN 978-1-5386-4658-8.
 PULUGUNDLA Bhargav, BASKAR Murali K., KESIRAJU Santosh, EGOROVA Ekaterina, KARAFIÁT Martin, BURGET Lukáš a ČERNOCKÝ Jan. BUT system for low resource Indian language ASR. In: Proceedings of Interspeech 2018. Hyderabad: International Speech Communication Association, 2018, s. 3182-3186. ISSN 1990-9772.
 ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel a BURGET Lukáš. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In: Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018, s. 4874-4878. ISBN 978-1-5386-4658-8.
 SILNOVA Anna, BRUMMER Niko, GARCÍA-ROMERO Daniel, SNYDER David a BURGET Lukáš. Fast variational Bayes for heavy-tailed PLDA applied to i-vectors and x-vectors. In: Proceedings of Interspeech 2018. Hyderabad: International Speech Communication Association, 2018, s. 72-76. ISSN 1990-9772.
 SILNOVA Anna, MATĚJKA Pavel, GLEMBEK Ondřej, PLCHOT Oldřich, NOVOTNÝ Ondřej, GRÉZL František, SCHWARZ Petr a ČERNOCKÝ Jan. BUT/Phonexia Bottleneck Feature Extractor. In: Proceedings of Odyssey 2018. Les Sables d´Olonne: International Speech Communication Association, 2018, s. 283-287. ISSN 2312-2846.
 VESELÝ Karel, PERALES Carlos Segura, SZŐKE Igor, LUQUE Jordi a ČERNOCKÝ Jan. Lightly supervised vs. semi-supervised training of acoustic model on Luxembourgish for low-resource automatic speech recognition. In: Proceedings of Interspeech 2018. Hyderabad: International Speech Communication Association, 2018, s. 2883-2887. ISSN 1990-9772.
 ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, NAKATANI Tomohiro a ČERNOCKÝ Jan. Optimization of Speaker-aware Multichannel Speech Extraction with ASR Criterion. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 6702-6706. ISBN 978-1-5386-4658-8.

Vaše IPv4 adresa: 34.238.189.171
Přepnout na https