Theory and applications of phoneme posterior estimation in speech processing

Hlavní řešitel:Grézl František
Spoluřešitelé:Kopecký Jiří, Plchot Oldřich
Agentura:GAČR
Kód:GP102/09/P635
Začátek:2009
Konec:2011
Klíčová slova:zpracování řeči, rozpoznávání řeči, rozpoznávání fonémů, pravděpodobnostní parametry
Anotace:
Značná pozornost v základním výzkumu zpracování řeči je věnována odhadování posteriorních pravděpodobností diskrétních řečových jednotek - fonémů. Odhady se uplatňují v parametrizaci signálu (posterior features), fonotaktických modelech (rozpoznávání jazyka), ve tvorbě fonémových svazů pro vyhledávání klíčových slov i v dalších aplikacích. Cílem tohoto projektu je vytvořit rychlý a spolehlivý systém pro odhad posteriorních pravděpodobností fonémů, který umožní snížení chybovosti systémů využívajících takových odhadů. Projekt se bude věnovat parametrizaci, diskriminativním transformacím, architekturám klasifikátorů a technikám trénování. Kvalita bude vyhodnocována především v mezinárodních evaluacích organizovaných americkým Národním úřadem pro standardizaci a technologie NIST.

Publikace

2012Hain, T., Burget, L., Dines, J., Garner, P., N., Grézl, F., El, H., A., Huijbregts, M., Karafiát, M., Lincoln, M., Wan, V.: Transcribing Meetings with the AMIDA System, In: IEEE Transactions on Audio, Speech, and Language Processing, roč. 20, č. 2, 2012, US, s. 486-498, ISSN 1558-7916
2011Bořil, H., Grézl, F., Hansen, J., H.: Front-End Compensation Methods for LVCSR Under Lombard Effect, In: Proceedings of Interspeech 2011, Florence, IT, ISCA, 2011, s. 1257-1260, ISBN 978-1-61839-270-1, ISSN 1990-9772
 Grézl, F., Karafiát, M., Janda, M.: Study of Probabilistic and Bottle-Neck Features in Multilingual Environment, In: Proceedings of ASRU 2011, Hilton Waikoloa Village, Big Island, Hawaii, US, IEEESP, 2011, s. 359-364, ISBN 978-1-4673-0366-8
 Grézl, F., Karafiát, M.: Integrating recent MLP feature extraction techniques into TRAP architecture, In: Proceedings of Interspeech 2011, Florence, IT, ISCA, 2011, s. 1229-1232, ISBN 978-1-61839-270-1, ISSN 1990-9772
 Grézl, F.: The Role of Neural Network Size in TRAP/HATS Feature Extraction, In: Proceedings Text, Speech and Dialogue 2011, Plzeň, CZ, Springer, 2011, s. 315-322, ISBN 978-3-642-23537-5, ISSN 0302-9743
 Kockmann, M., Ferrer, L., Burget, L., Černocký, J.: iVector Fusion of Prosodic and Cepstral Features for Speaker Verification, In: Proceedings of Interspeech 2011, Florence, IT, ISCA, 2011, s. 265-268, ISBN 978-1-61839-270-1, ISSN 1990-9772
 Kombrink, S., Mikolov, T., Karafiát, M., Burget, L.: Recurrent Neural Network based Language Modeling in Meeting Recognition, In: Proceedings of Interspeech 2011, Florence, IT, ISCA, 2011, s. 2877-2880, ISBN 978-1-61839-270-1, ISSN 1990-9772
 Mikolov, T., Deoras, A., Kombrink, S., Burget, L., Černocký, J.: Empirical Evaluation and Combination of Advanced Language Modeling Techniques, In: Proceedings of Interspeech 2011, Florence, IT, ISCA, 2011, s. 605-608, ISBN 978-1-61839-270-1, ISSN 1990-9772
 Veselý, K., Karafiát, M., Grézl, F.: Convolutive Bottleneck Network Features for LVCSR, In: Proceedings of ASRU 2011, Big Island, Hawaii, US, IEEESP, 2011, s. 42-47, ISBN 978-1-4673-0366-8
2010Grézl, F., Karafiát, M.: Hierarchical Neural Net Architectures for Feature Extraction in ASR, In: Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), Makuhari, Chiba, JP, ISCA, 2010, s. 1201-1204, ISBN 978-1-61782-123-3, ISSN 1990-9772
 Hain, T., Burget, L., Dines, J., Garner, P., N., El, H., A., Huijbregts, M., Karafiát, M., Lincoln, M., Wan, V.: The AMIDA 2009 Meeting Transcription System, In: Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), Makuhari, Chiba, JP, ISCA, 2010, s. 358-361, ISBN 978-1-61782-123-3, ISSN 1990-9772
 Szőke, I., Grézl, F., Černocký, J., Fapšo, M.: Acoustic keyword spotter - optimization from end-user perspective, In: Proceedings of the 2010 IEEE Spoken Language Technology Workshop, Berkeley, California, US, IEEESP, 2010, s. 177-181, ISBN 978-1-4244-7902-3
2009Grézl, F., Černocký, J.: Audio Surveillance through Known Event Classification, In: Radioengineering, roč. 18, č. 4, 2009, CZ, s. 671-675, ISSN 1210-2512
 Grézl, F., Karafiát, M., Burget, L.: Investigation into bottle-neck features for meeting speech recognition, In: Proc. Interspeech 2009, Brighton, GB, ISCA, 2009, s. 2947-2950, ISBN 978-1-61567-692-7, ISSN 1990-9772

Vaše IPv4 adresa: 50.16.17.90
Přepnout na IPv6 spojení

DNSSEC [dnssec]