Neuronové sítě pro zpracování signálu a dolování informací v řeči - NOSIČI

Název v angličtině:Neural networks for signal processing and speech data mining
Hlavní řešitel:Žmolíková Kateřina
Spoluřešitelé:Beneš Karel, Egorova Ekaterina, Silnova Anna, Veselý Karel
Agentura:Technologická agentura České republiky - Program na podporu aplikovaného výzkumu ZÉTA
Kód:TJ01000208
Zahájení:2018-01-01
Ukončení:2019-12-31
Klíčová slova:neuronové sítě
Anotace:
Projekt se zabývá neuronovými sítěmi pro zpracování signálu a dolování informací v řeči.
Popis projektu:
Dolování informací ze spontánní lidské řeči je důležitou oblastí analýzy velkých dat ("big data") a uplatňuje se v komerčních aplikacích (analýza provozu call center) i v bezpečnosti a obraně (zpravodajství, vyšetřování a dokazování). Trendem posledních let je postupné nahrazování klasických funkčních bloků zpracování signálu a strojového učení, jako jsou před-definované banky filtrů či gaussovské modely, neuronovými sítěmi (NN). NN v různých formách (hluboké neuronové sítě DNN, rekurentní sítě RNN, sítě s komplexním modelováním zpětných vazeb a úrovní paměti LSTM). Skupina BUT Speech@FIT na VUT je na světové špičce výzkumu NN pro dolování informací z řeči. Navržený projekt podporuje mladé výzkumníky v dalším pokroku v oblasti NN ve zpracování řečového signálu a dolování informací z řeči v oblastech vzdáleného snímání (mikrofonní pole), trénování rozpoznávačů na špatně anotovaných nebo neanotovaných datech, modelování jazyka a detekce slov mimo slovník (OOV). Podstatnou částí je také příprava pro aplikačního uchopení výsledků projektu ve formě funkčního software, konsultací s průmyslovým patrnerem a intenzivního předávání znalostí. Projekt bude řešen genderově vyváženým týmem PhD studentů a mladých zaměstnanců se zkušenými mentory z akademického (VUT) i komerčního (Phonexia) prostředí.

Publikace

2018EGOROVA Ekaterina a BURGET Lukáš. Out-of-Vocabulary Word Recovery Using FST-Based Subword Unit Clustering in a Hybrid ASR System. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5919-5923. ISBN 978-1-5386-4658-8.
 KARAFIÁT Martin, BASKAR Murali K., VESELÝ Karel, GRÉZL František, BURGET Lukáš a ČERNOCKÝ Jan. Analysis of Multilingual BLSTM Acoustic Model on Lowand High Resource Languages. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5789-5793. ISBN 978-1-5386-4658-8.
 ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel a BURGET Lukáš. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In: Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018, s. 4874-4878. ISBN 978-1-5386-4658-8.

Vaše IPv4 adresa: 54.92.163.188
Přepnout na IPv6 spojení

DNSSEC [dnssec]