Detail publikace

Layout Based Information Extraction from HTML Documents

BURGET Radek. Layout Based Information Extraction from HTML Documents. In: 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007, s. 624-629. ISBN 0-7695-2822-8.

Název česky

Extrakce informace z HTML dokumetnů založená na rozložení stránky

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT)

Abstrakt

Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci rozložení stránky a následný extrakční proces je založen na analýze vzájemných pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je robustnější, než tradiční metody založené na DOM a otevírá nové možnosti specifikace extrakční úlohy.

Rok

2007

Strany

624-629

Sborník

9th International Conference on Document Analysis and Recognition ICDAR 2007

Konference

9th International Conference on Document Analysis and Recognition, Curitiba, BR

ISBN

0-7695-2822-8

Vydavatel

IEEE Computer Society

Místo

Curitiba, BR

BibTeX

@INPROCEEDINGS{FITPUB8403,
   author = "Radek Burget",
   title = "Layout Based Information Extraction from HTML Documents",
   pages = "624--629",
   booktitle = "9th International Conference on Document Analysis and Recognition ICDAR 2007",
   year = 2007,
   location = "Curitiba, BR",
   publisher = "IEEE Computer Society",
   ISBN = "0-7695-2822-8",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/8403"
}