Detail publikace

Extrakce informace z WWW na základě znalosti struktury dat

BURGET Radek. Extrakce informace z WWW na základě znalosti struktury dat. In: Sborník příspěvků 2. ročníku konference Znalosti 2003. Ostrava: Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava, 2003, s. 271-280. ISBN 80-248-0229-5.
Název anglicky
Information Extraction from WWW based on the data structure knowledge
Typ
článek ve sborníku konference
Jazyk
čeština
Autoři
Klíčová slova

Extrakce Informace, HTML, XML

Abstrakt

S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na základě předem připravené specifikace a dále se příspěvek zabývá možnostmi automatické extrakce informace na základě srovnání struktury požadovaných dat se strukturou dokumentu za pomoci algoritmů pro porovnávání stromových struktur.

Rok
2003
Strany
271-280
Sborník
Sborník příspěvků 2. ročníku konference Znalosti 2003
Konference
Znalosti 2003, Ostrava, CZ
ISBN
80-248-0229-5
Vydavatel
Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava
Místo
Ostrava, CZ
BibTeX
@INPROCEEDINGS{FITPUB7136,
   author = "Radek Burget",
   title = "Extrakce informace z WWW na z\'{a}klad\v{e} znalosti struktury dat",
   pages = "271--280",
   booktitle = "Sborn\'{i}k p\v{r}\'{i}sp\v{e}vk\r{u} 2. ro\v{c}n\'{i}ku konference Znalosti 2003",
   year = 2003,
   location = "Ostrava, CZ",
   publisher = "Faculty of Electrical Engineering and Computer Science, VSB-TU Ostrava",
   ISBN = "80-248-0229-5",
   language = "czech",
   url = "https://www.fit.vut.cz/research/publication/7136"
}
Nahoru