Presentation,e-document

MIKOLOV Tomáš, OPARIN Ilya, GLEMBEK Ondřej, BURGET Lukáš, KARAFIÁT Martin and ČERNOCKÝ Jan. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Charles University, 2007.
Publication language:czech
Original title:Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek
Title (en):Use of spoken corpora in the development of system for recognition of Czech lectures
Pages:1-5
Conference:Čeština v mluveném korpusu
Place:Praha, CZ
Year:2007
Publisher:Charles University
URL:http://www.fit.vutbr.cz/research/groups/speech/publi/2007/mikolov_czech_reco_cmk_2007.pdf [PDF]
Keywords
speech recognition
Annotation
The paper is on the use of spoken corpora in the development of system for recognition of Czech lectures
Abstract
Skupina automatického zpracování mluvené řeči na Fakultě informačních technologií VUT v Brně - Speech@FIT - je aktivní v mnoha oblastech automatického zpracování mluvené řeči jako je přepis na text, detekce klíčových slov, ověřování mluvčího a identifikace jazyka. V poslední době se zabývá rozpoznáváním spontánní mluvené řeči v přednáškách. Tento příspěvek se zabývá použitím českých mluvených korpusů pro trénování jazykového modelu pro přednášky. Ukázali jsme, že jazykové modely trénované na mluvených korpusech předčí modely trénované čistě na textových datech. Ještě lepších výsledků bylo ovšem dosaženo s daty přímo z cílové domény rozpoznávání. Experimentální výsledky jsou ukázány na perplexitě jazykového modelu na cílových datech a na konečné úspěšnosti rozpoznávání.

Your IPv4 address: 54.81.195.240
Switch to IPv6 connection

DNSSEC [dnssec]