Detail publikace

Information Extraction from the Web by Matching Visual Presentation Patterns

BURGET Radek. Information Extraction from the Web by Matching Visual Presentation Patterns. In: Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia. Lecture Notes in Computer Science vol. 10579. Kobe: Springer International Publishing, 2017, s. 10-26. ISBN 978-3-319-68722-3. Dostupné z: https://link.springer.com/chapter/10.1007/978-3-319-68723-0_2
Název česky
Extrakce informací z webu založená na vyhledávání prezentačních vzorů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Dokumenty dostupné na WWW obsahují velké množství informací prezentované v tabulkách, seznamech a dalších pravidelných vizuálních strukturách. Tyto informace nejsou však často explicitně anotovány a jejich interpretace je ponechána na čtenáři. Jejich automatická extrakce z dokumentů proto představuje obtížný problém. Existující přístupy jsou obvykle založeny na analýze dokumentů shora dolů od celé stránky po jednotlivé datové záznamy. V tomto článku představujeme opačný přístup založený na přibližné identifikaci nejmenších datových položek a následně na zpřesňování prvotního odhadu pomocí hledání prezentačních vzorů v dokumentu.

popis-stručný

Dokumenty dostupné na webu obsahují velké množství informací uvedených v tabulkách, seznamech nebo jiných vizuálně pravidelných strukturách. Zveřejněné informace však obvykle nejsou explicitně ani implicitně anotovány a jejich interpretace je ponechána na lidském čtenáři. Díky tomu je automatická extrakce informací z webových dokumentů pro jejich další počítačové zpracování náročným problémem. V článku představujeme novou metodu, která na základě modelu cílové domény (např. sportovní výsledky, jízdní řády, informace o zboží a další) identifikuje odpovídající záznamy ve webových dokumentech na základě způsobu jejich vizuální prezentace a nalezených pravidelných vzorů.

popis-doplnění

Většina existujících přístupů je založena na přístupu shora dolů, který postupuje od větších oblastí stránky k jednotlivým záznamům dat. Tento přístup závisí na různých heuristikách, které se týkají vizuální prezentace obsahu a přesnost současných metod není použitelná pro reálné nasazení. V článku představujeme opačný přístup - zdola nahoru. Hrubě identifikujeme nejmenší datová pole v dokumentu a později tuto aproximaci upravíme porovnáním objevených vizuálních prezentačních vzorců s očekávanou sémantickou strukturou extrahovaných informací. Tento přístup umožňuje efektivně extrahovat strukturovaná data z heterogenních dokumentů bez jakýchkoli dalších anotací, jak experimentálně demonstrujeme na různých aplikačních doménách.
Dosud byla nalezena 1 citace článku.

Rok
2017
Strany
10-26
Sborník
Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia
Řada
Lecture Notes in Computer Science vol. 10579
Konference
The 15th International Semantic Web Conference, Kobe, JP
ISBN
978-3-319-68722-3
Vydavatel
Springer International Publishing
Místo
Kobe, JP
DOI
UT WoS
000535971000002
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11218,
   author = "Radek Burget",
   title = "Information Extraction from the Web by Matching Visual Presentation Patterns",
   pages = "10--26",
   booktitle = "Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP\&DBpedia",
   series = "Lecture Notes in Computer Science vol. 10579",
   year = 2017,
   location = "Kobe, JP",
   publisher = "Springer International Publishing",
   ISBN = "978-3-319-68722-3",
   doi = "10.1007/978-3-319-68723-0\_2",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11218"
}
Soubory
Nahoru