Neural networks for signal processing and speech data mining

Reseach leader:Žmolíková Kateřina
Team leaders:Beneš Karel, Egorova Ekaterina, Silnova Anna, Veselý Karel
Agency:Technology Agency of the Czech Republic
Code:TJ01000208
Start:2018-01-01
End:2019-12-31
Keywords:neural networks
Annotation:
The project deals with neural networks for signal processing and speech data mining
Project description:
Dolování informací ze spontánní lidské řeči je důležitou oblastí analýzy velkých dat ("big data") a uplatňuje se v komerčních aplikacích (analýza provozu call center) i v bezpečnosti a obraně (zpravodajství, vyšetřování a dokazování). Trendem posledních let je postupné nahrazování klasických funkčních bloků zpracování signálu a strojového učení, jako jsou před-definované banky filtrů či gaussovské modely, neuronovými sítěmi (NN). NN v různých formách (hluboké neuronové sítě DNN, rekurentní sítě RNN, sítě s komplexním modelováním zpětných vazeb a úrovní paměti LSTM). Skupina BUT Speech@FIT na VUT je na světové špičce výzkumu NN pro dolování informací z řeči. Navržený projekt podporuje mladé výzkumníky v dalším pokroku v oblasti NN ve zpracování řečového signálu a dolování informací z řeči v oblastech vzdáleného snímání (mikrofonní pole), trénování rozpoznávačů na špatně anotovaných nebo neanotovaných datech, modelování jazyka a detekce slov mimo slovník (OOV). Podstatnou částí je také příprava pro aplikačního uchopení výsledků projektu ve formě funkčního software, konsultací s průmyslovým patrnerem a intenzivního předávání znalostí. Projekt bude řešen genderově vyváženým týmem PhD studentů a mladých zaměstnanců se zkušenými mentory z akademického (VUT) i komerčního (Phonexia) prostředí.

Publications

2018EGOROVA Ekaterina and BURGET Lukáš. Out-of-Vocabulary Word Recovery Using FST-Based Subword Unit Clustering in a Hybrid ASR System. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, pp. 5919-5923. ISBN 978-1-5386-4658-8.
 KARAFIÁT Martin, BASKAR Murali K., VESELÝ Karel, GRÉZL František, BURGET Lukáš and ČERNOCKÝ Jan. Analysis of Multilingual BLSTM Acoustic Model on Lowand High Resource Languages. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, pp. 5789-5793. ISBN 978-1-5386-4658-8.
 ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel and BURGET Lukáš. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In: Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018, pp. 4874-4878. ISBN 978-1-5386-4658-8.

Your IPv4 address: 54.81.254.212
Switch to IPv6 connection

DNSSEC [dnssec]