Článek ve sborníku konference | |
| Burget, R.: Automatic Document Structure Detection for Data Integration, In: Business Information Systems, Poznan, PL, Springer, 2007, s. 391-397, ISBN 978-3-540-72034-8 | | Jazyk publikace: | angličtina |
|---|
| Název publikace: | Automatic Document Structure Detection for Data Integration |
|---|
| Název (cs): | Automatická detekce struktury dokumentu pro integraci dat |
|---|
| Strany: | 391-397 |
|---|
| Sborník: | Business Information Systems |
|---|
| Konference: | 10th International Conference on Business Information Systems BIS 2007 |
|---|
| Řada knih: | LNCS 4439 |
|---|
| Místo vydání: | Poznan, PL |
|---|
| Rok: | 2007 |
|---|
| ISBN: | 978-3-540-72034-8 |
|---|
| Vydavatel: | Springer Verlag |
|---|
| Klíčová slova |
|---|
| semistrikturovaná data, analýza dokumentu, vizuální segmentace, logická struktura |
| Anotace |
|---|
| K uložení velkého množství informací se v současnosti stále využívá volně strukturovaných dokumentů v několika běžně užívaných formátech. Protože tyto dokumenty postrádají přesný popis uložených dat, pro jejich integraci do existujících informačních systémů je třeba vyvinout pokročilé techniky předzpracování. Čtenáři dokumentu je struktura sdělována převážně vizuálními prostředky. Z toho důvodu navrhujeme techniku pro detekci logické struktury dokumentu na základě vizuálních vlastností dokumentu jako rozvržení stránky a vlastnosti textu. Tato technika je v současné době testována a jsou k dispozici předběžné výsledky. |
| BibTeX: |
|---|
@INPROCEEDINGS{
author = {Radek Burget},
title = {Automatic Document Structure Detection for Data Integration},
pages = {391--397},
booktitle = {Business Information Systems},
series = {LNCS 4439},
year = {2007},
location = {Poznan, PL},
publisher = {Springer Verlag},
ISBN = {978-3-540-72034-8},
language = {english},
url = {http://www.fit.vutbr.cz/research/view_pub.php?id=8276}
} |
|