Detail projektu

PERO - Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti

Období řešení: 1. 3. 2018 - 31. 12. 2022

Typ projektu: grant

Kód: DG18P02OVV055

Agentura: Ministerstvo kultury České republiky

Program: Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)

Název anglicky

Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability

Typ

grant

Klíčová slova

pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti

Abstrakt

Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Řešitelé

Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT) , hlavní řešitel
Bařina David, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Juránek Roman, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Zemčík Pavel, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel
Beneš Karel, Ing. (UPGM FIT VUT)
Hájková Gabriela, Mgr. (Děkanát FIT VUT)
Hříbek David, Ing. (UPGM FIT VUT)
Kodym Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Kopeczinski Daniela, Mgr. (Děkanát FIT VUT)

Publikace

2022

KIŠŠ Martin, KOHÚT Jan, BENEŠ Karel a HRADIŠ Michal. Importance of Textlines in Historical Document Classification. In: Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science, roč. 13237. La Rochelle: Springer Nature Switzerland AG, 2022, s. 158-170. ISBN 978-3-031-06554-5. Detail
DVOŘÁKOVÁ Martina, HRADIŠ Michal, ŽABIČKA Petr, KOHÚT Jan, KIŠŠ Martin a BENEŠ Karel. Využití PERO OCR při přepisu rukopisů. Archivní časopis, roč. 72, č. 1, 2022, s. 14-27. ISSN 0004-0398. Detail

2021

KIŠŠ Martin, BENEŠ Karel a HRADIŠ Michal. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In: Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science, roč. 12824. Lausanne: Springer Nature Switzerland AG, 2021, s. 463-477. ISBN 978-3-030-86336-4. Detail
KODYM Oldřich a HRADIŠ Michal. Page Layout Analysis System for Unconstrained Historic Documents. In: Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021, s. 492-506. ISBN 978-3-030-86330-2. Detail
KODYM Oldřich a HRADIŠ Michal. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition (IJDAR), roč. 2021, č. 1, s. 1-14. ISSN 1433-2825. Detail
KOHÚT Jan a HRADIŠ Michal. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In: Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science, roč. 12824. Lausanne: Springer Nature Switzerland AG, 2021, s. 478-493. ISBN 978-3-030-86336-4. ISSN 0302-9743. Detail

2020

KIŠŠ Martin, HRADIŠ Michal a KODYM Oldřich. Brno Mobile OCR Dataset. In: Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020, s. 1352-1357. ISBN 978-1-7281-3015-6. Detail

Produkty

2022

Software pro extrakci informace z polostrukturovaných dokumentů, software, 2022
Autoři: Hradiš Michal, Kišš Martin, Kohút Jan, Beneš Karel, Kostelník Martin Detail

2021

Interaktivní polo-automatické rozpoznávání ručně psaného písma, software, 2021
Autoři: Hradiš Michal, Kišš Martin, Kohút Jan, Beneš Karel, Kodym Oldřich, Buchal Petr, Hříbek David Detail

2020

Software pro adaptabilní rozpoznávání textu starých tisků, software, 2020
Autoři: Hradiš Michal, Kišš Martin, Kodym Oldřich, Kohút Jan, Beneš Karel, Buchal Petr Detail
Zařízení pro digitalizaci specificky poškozených dokumentů, funkční vzorek, 2020
Autoři: Hradiš Michal Detail

2019

Softwarový nástroj pro automatické měření obrazové kvality digitalizovaných textových dokumentů, software, 2019
Autoři: Bako Matúš, Buchal Petr, Hradiš Michal Detail
Softwarový nástroj pro automatickou detekci a korekci vad a zkreslení digitalizátů, software, 2019
Autoři: Hradiš Michal, Kodym Oldřich Detail