Detail publikace

Automatic Document Structure Detection for Data Integration

BURGET Radek. Automatic Document Structure Detection for Data Integration. In: Business Information Systems. Lecture Notes in Computer Science, roč. 4439. Poznan: Springer Verlag, 2007, s. 391-397. ISBN 978-3-540-72034-8.
Název česky
Automatická detekce struktury dokumentu pro integraci dat
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Klíčová slova

semistrikturovaná data, analýza dokumentu, vizuální segmentace, logická struktura

Abstrakt

K uložení velkého množství informací se v současnosti stále využívá volně strukturovaných dokumentů v několika běžně užívaných formátech. Protože tyto dokumenty postrádají přesný popis uložených dat, pro jejich integraci do existujících informačních systémů je třeba vyvinout pokročilé techniky předzpracování. Čtenáři dokumentu je struktura sdělována převážně vizuálními prostředky. Z toho důvodu navrhujeme techniku pro detekci logické struktury dokumentu na základě vizuálních vlastností dokumentu jako rozvržení stránky a vlastnosti textu. Tato technika je v současné době testována a jsou k dispozici předběžné výsledky.

Rok
2007
Strany
391-397
Sborník
Business Information Systems
Řada
Lecture Notes in Computer Science
Svazek
4439
Konference
10th International Conference on Business Information Systems BIS 2007, Poznan, PL
ISBN
978-3-540-72034-8
Vydavatel
Springer Verlag
Místo
Poznan, PL
BibTeX
@INPROCEEDINGS{FITPUB8276,
   author = "Radek Burget",
   title = "Automatic Document Structure Detection for Data Integration",
   pages = "391--397",
   booktitle = "Business Information Systems",
   series = "Lecture Notes in Computer Science",
   volume = 4439,
   year = 2007,
   location = "Poznan, PL",
   publisher = "Springer Verlag",
   ISBN = "978-3-540-72034-8",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/8276"
}
Nahoru