Téma disertační práce

Školitel:Burget Radek, Ing., Ph.D.
Téma:Extrakce informací z webových dokumentů založená na doménových modelech
Zahájení v ak.r.:2017/2018
Charakteristika řešeného problému:

Problematika identifikace a extrakce konkrétních informací z dokumentů na WWW je již delší dobu předmětem intenzivního výzkumu. Mezi základní překážky, které je třeba překonat, patří nedostatečná strukturovanost HTML dokumentů a absence metainformací (anotací) využitelných pro rozpoznání významu jednotlivých částí obsahu. Tyto chybějící informace jsou proto nahrazovány analýzou různých aspektů webových dokumentů, zejména následujících:

  • HTML kód dokumentu (DOM)
  • Text dokumentu (hledání klíčových slov, statistická analýza textu, metody zpracování přirozeného jazyka)
  • Vizuální organizaci (rozložení obsahu na stránce, vizuální vlastnosti)

Pro úspěšnou extrakci konkrétní informace z dokumentů je rovněž nezbytná doménová znalost zahrnující očekávanou strukturu extrahované informace (vztahy mezi jednotlivými extrahovanými položkami) a způsob zápisu jednotlivých položek. Tato znalost umožňuje přesnější rozpoznání jednotlivých částí informace v textu dokumentu.

Současné přístupy k extrakci informací z webových dokumentů se soustřeďují zejména na modelování a analýzu dokumentů samotných; modelování extrahované informace za účelem jejího přesnějšího rozpoznání nebylo dosud podrobněji zkoumáno v tomto kontextu. Předpokládaným cílem disertační práce jsou proto následující:

  • Studium existujících doménových modelů jako např. UML diagramy tříd, E-R diagramy nebo ontologie.
  • Rozšíření těchto modelů o konkrétní metody rozpoznání konkrétních údajů v dokumentech (např. regulární výrazy, pokročilá klasifikace textu).
  • Návrh metod extrakce informací založených na srovnání struktury informace prezentované v dokumentu a očekávané struktury cílových informací.

Nedílnou součástí je rovněž experimentální implementace navržených metod s využitím existujících nástrojů a experimentální ověření na reálných dokumentech dostupných na WWW.

Možnost získání stipendia v rámci řešeného výzkumného projektu: ano
Publikace související s vypsaným tématem:
2015MILIČKA Martin a BURGET Radek. Information Extraction from Web Sources based on Multi-aspect Content Analysis. In: Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015. Portorož: Springer International Publishing, 2015, s. 81-92. ISBN 978-3-319-25517-0. ISSN 1865-0929.
2013BURGET Radek a SMRŽ Pavel. Extracting Visually Presented Element Relationships from Web Documents. International Journal of Cognitive Informatics and Natural Intelligence. Hershey: IGI Global, 2013, roč. 2013, č. 2, s. 13-29. ISSN 1557-3958.
 MILIČKA Martin a BURGET Radek. Web Document Description Based on Ontologies. In: Proceedings of the 2th annual conference ICIA 2013. Łódź: The Society of Digital Information and Wireless Communications, 2013, s. 288-293. ISBN 978-1-4673-5255-0.