Detail publikace

Layout Based Information Extraction from HTML Documents

BURGET Radek. Layout Based Information Extraction from HTML Documents. In: 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007, s. 624-629. ISBN 0-7695-2822-8.
Název česky
Extrakce informace z HTML dokumetnů založená na rozložení stránky
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt

Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci rozložení stránky a následný extrakční proces je založen na analýze vzájemných pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je robustnější, než tradiční metody založené na DOM a otevírá nové možnosti specifikace extrakční úlohy.

Rok
2007
Strany
624-629
Sborník
9th International Conference on Document Analysis and Recognition ICDAR 2007
Konference
9th International Conference on Document Analysis and Recognition, Curitiba, BR
ISBN
0-7695-2822-8
Vydavatel
IEEE Computer Society
Místo
Curitiba, BR
BibTeX
@INPROCEEDINGS{FITPUB8403,
   author = "Radek Burget",
   title = "Layout Based Information Extraction from HTML Documents",
   pages = "624--629",
   booktitle = "9th International Conference on Document Analysis and Recognition ICDAR 2007",
   year = 2007,
   location = "Curitiba, BR",
   publisher = "IEEE Computer Society",
   ISBN = "0-7695-2822-8",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/8403"
}
Nahoru