Článek ve sborníku konference

 
Burget, R.: Automatic Document Structure Detection for Data Integration, In: Business Information Systems, Poznan, PL, Springer, 2007, s. 391-397, ISBN 978-3-540-72034-8
Jazyk publikace:angličtina
Název publikace:Automatic Document Structure Detection for Data Integration
Název (cs):Automatická detekce struktury dokumentu pro integraci dat
Strany:391-397
Sborník:Business Information Systems
Konference:10th International Conference on Business Information Systems BIS 2007
Řada knih:LNCS 4439
Místo vydání:Poznan, PL
Rok:2007
ISBN:978-3-540-72034-8
Vydavatel:Springer Verlag
Klíčová slova
semistrikturovaná data, analýza dokumentu, vizuální segmentace, logická struktura
Anotace
K uložení velkého množství informací se v současnosti stále využívá volně strukturovaných dokumentů v několika běžně užívaných formátech. Protože tyto dokumenty postrádají přesný popis uložených dat, pro jejich integraci do existujících informačních systémů je třeba vyvinout pokročilé techniky předzpracování. Čtenáři dokumentu je struktura sdělována převážně vizuálními prostředky. Z toho důvodu navrhujeme techniku pro detekci logické struktury dokumentu na základě vizuálních vlastností dokumentu jako rozvržení stránky a vlastnosti textu. Tato technika je v současné době testována a jsou k dispozici předběžné výsledky.
BibTeX:
@INPROCEEDINGS{
   author = {Radek Burget},
   title = {Automatic Document Structure Detection for Data Integration},
   pages = {391--397},
   booktitle = {Business Information Systems},
   series = {LNCS 4439},
   year = {2007},
   location = {Poznan, PL},
   publisher = {Springer Verlag},
   ISBN = {978-3-540-72034-8},
   language = {english},
   url = {http://www.fit.vutbr.cz/research/view_pub.php?id=8276}
}