PERO - Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti

Název v angličtině:Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability
Hlavní řešitel:Smrž Pavel
Spoluřešitelé:Bařina David, Hradiš Michal, Juránek Roman, Zemčík Pavel
Další řešitelé:Beneš Karel, Kodym Oldřich
Agentura:Ministerstvo kultury České republiky - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
Kód:DG18P02OVV055
Zahájení:2018-03-01
Ukončení:2022-12-31
Klíčová slova:pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti
Anotace:
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Vaše IPv4 adresa: 34.238.189.171