Článek ve sborníku konference

BURGET Radek. Information Extraction from the Web by Matching Visual Presentation Patterns. In: Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia. Kobe: Springer International Publishing, 2017, s. 10-26. ISBN 978-3-319-68722-3.
Jazyk publikace:angličtina
Název publikace:Information Extraction from the Web by Matching Visual Presentation Patterns
Název (cs):Extrakce informací z webu založená na vyhledávání prezentačních vzorů
Strany:10-26
Sborník:Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia
Konference:The 15th International Semantic Web Conference
Řada knih:Lecture Notes in Computer Science vol. 10579
Místo vydání:Kobe, JP
Rok:2017
ISBN:978-3-319-68722-3
DOI:10.1007/978-3-319-68723-0_2
Vydavatel:Springer International Publishing
Klíčová slova
web data integration, information extraction, structured record extraction, page segmentation, content classification, ontology mapping
Anotace
Dokumenty dostupné na WWW obsahují velké množství informací prezentované v tabulkách, seznamech a dalších pravidelných vizuálních strukturách. Tyto informace nejsou však často explicitně anotovýny a jejich interpretace je ponechána na čtenáři. Jejich automatická extrakce z dokumentů proto představuje obtížný problém. Existující přístupy jsou obvykle založeny na analýze dokumentů shora dolů od celé stránky po jednotlivé datové záznamy. V tomto článku představujeme opačný přístup založený na přibližné identifikaci nejmenších datových položek a následně na zpřesňování prvotního odhadu pomocí hledání prezentačních vzorů v dokumentu.
BibTeX:
@INPROCEEDINGS{
  author = {Radek Burget},
  title = {Information Extraction from the Web by Matching
	Visual Presentation Patterns},
  pages = {10--26},
  booktitle = {Knowledge Graphs and Language Technology: ISWC 2016
	International Workshops: KEKI and NLP\&DBpedia},
  series = {Lecture Notes in Computer Science vol. 10579},
  year = 2017,
  location = {Kobe, JP},
  publisher = {Springer International Publishing},
  ISBN = {978-3-319-68722-3},
  doi = {10.1007/978-3-319-68723-0_2},
  language = {english},
  url = {http://www.fit.vutbr.cz/research/view_pub.php.cs?id=11218}
}

Vaše IPv4 adresa: 34.239.173.11
Přepnout na https