Detail publikace

Hierarchies in HTML Documents: Linking Text to Concepts

BURGET Radek. Hierarchies in HTML Documents: Linking Text to Concepts. In: 15th International Workshop on Database and Expert Systems Applications. Zaragoza: IEEE Computer Society, 2004, s. 186-190. ISBN 0-7695-2195-9.
Název česky
Hierarchie v HTML dokumentech: Přiřazování textu ke konceptům
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Klíčová slova

HTML, Extrakce informace, Ontologie, Logická struktura dokumentu

Abstrakt

Pro úspěšné nasazení sémantického webu je nezbytné zajistit nástroje pro přiřazování velkých objemů dat, která jsou v současnosti dostupná v dokumentech HTML, k ontologiím sémantického webu. Vzhledem ke značné variabilitě kódu HTML je velmi omezující definovat přímé vazby mezi konkrétními vzory HTML kódu a jednotlivými koncepty. Navrhujeme proto přístup založený na modelování vizuální stránky dokumentů a na obecném popisu klíčových charakteristik vizuální prezentace dat. Jako další krok navrhujeme způsob využití tohoto modelu pro vyhledávání instancí konceptů v dokumentech s použitím algoritmů pro přibližné vyhledávání podstromů a regulárních výrazů.

Rok
2004
Strany
186-190
Sborník
15th International Workshop on Database and Expert Systems Applications
Konference
International Workshop on Web Semantics, Zaragoza, ES
ISBN
0-7695-2195-9
Vydavatel
IEEE Computer Society
Místo
Zaragoza, ES
BibTeX
@INPROCEEDINGS{FITPUB7549,
   author = "Radek Burget",
   title = "Hierarchies in HTML Documents: Linking Text to Concepts",
   pages = "186--190",
   booktitle = "15th International Workshop on Database and Expert Systems Applications",
   year = 2004,
   location = "Zaragoza, ES",
   publisher = "IEEE Computer Society",
   ISBN = "0-7695-2195-9",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/7549"
}
Nahoru