Sequence summarizing neural networks for speaker recognition

Název v češtině:Neuronové sítě shrnující sekvence pro rozpoznávání mluvčího
Hlavní řešitel:Rohdin Johan A.
Spoluřešitelé:Burget Lukáš
Agentura:Jihomoravský kraj - Horizon 2020
Kód:5SA15094
Zahájení:2016-07-01
Ukončení:2019-06-30
Klíčová slova:Speaker recognition, Neural networks
Anotace:
Automatické rozpoznávání mluvčího má za úkol oveřit nebo identifikovat osobu na základě nahrávky. Komerční aplikace rozpoznávání mluvčího jsou v přístupových systémech a v bankovnictví, důležité je také užití je v oblasti národní bezpečnosti. Navrhovaný projekt se týká automatického rozpoznávání mluvčího a je inspirován obrovským pokrokem, který v několika minulých letech přinesly do detekčních a rozpoznávacích úloh umělé neuronové sítě (neural networks, NN). Cílem našeho projektu je vyvinout nový typ NN, která bude vhodná pro rozpoznávání mluvčího a dosáhnout stavu, kdy bude tento přístup použitelný pro praktické aplikace. Dosavadní snahy použít NN pro rozpoznávání mluvčího se vždy zaměřovaly jen na to, že se jeden nebo několik funkčních bloků v klasických systémech nahradil za NN. Tento přístup je ale omezen (podobně jako existující systémy) tím, že je pevně předepsáno, co má neuronová síť modelovat. Náš projekt se zaměřuje na náhradu celého řetězce bloků v rozpoznávacím systému jednou neuronovou sítí, která bude celé promluvy zpracovávat v jediném kroku. To by mělo lépe využít schopností NN modelovat složité vzory v řečových signálech. Cíle projektu budou dosaženy teoretickou prací (odvození struktury NN, odvození kritérií pro trénování), implementací (paralelizace, škálování, atd.) a důkladným testováním na reálných řečových datech. Navrhovaný projekt je plně v souladu s Regionální inovační strategií Jihomoravského kraje, a jeho specializační strategií "Smart Specialization strategy (S3)". S3 definuje výzkum a vývoj v oblasti počítačového hardware a software jako jednu z pěti strategických priorit, a zvlášť zmiňuje oblasti IT bezpečnosti a cognitroniky. Navrhovaný projekt zcela spadá do oblasti cognitroniky a vzhledem k hlavním aplikacím rozpoznávání mluvčího se týká i oblasti počítačové bezpečnosti.

Publikace

2016BRUMMER Niko, SWART Albert du Preez, PRIETO Jesús J., GARCIA Perera Leibny Paola, MATĚJKA Pavel, PLCHOT Oldřich, DIEZ Sánchez Mireia, SILNOVA Anna, JIANG Xiaowei, NOVOTNÝ Ondřej, ROHDIN Johan A., GLEMBEK Ondřej, GRÉZL František, BURGET Lukáš, ONDEL Lucas, PEŠÁN Jan, ČERNOCKÝ Jan, KENNY Patrick, ALAM Jahangir, BHATTACHARYA Gautam a ZEINALI Hossein et al. ABC NIST SRE 2016 SYSTEM DESCRIPTION. San Diego: United States Department of Commerce, National Institute of Standards and Technology, 2016.

Vaše IPv4 adresa: 54.226.34.209
Přepnout na IPv6 spojení

DNSSEC [dnssec]