Článek ve sborníku konference | |
| Burget, R.: Visual Area Classification for Article Identification in Web Documents, In: 21st International Workshop on Databases and Expert Systems Applications, Bilbao, ES, IEEE CS, 2010, s. 171-175, ISBN 978-0-7695-4174-7 | | Jazyk publikace: | angličtina |
|---|
| Název publikace: | Visual Area Classification for Article Identification in Web Documents |
|---|
| Název (cs): | Vizuální klasifikace pro identifikaci článků ve webových dokumentech |
|---|
| Strany: | 171-175 |
|---|
| Sborník: | 21st International Workshop on Databases and Expert Systems Applications |
|---|
| Konference: | 9th International Workshop on Web Semantics |
|---|
| Místo vydání: | Bilbao, ES |
|---|
| Rok: | 2010 |
|---|
| ISBN: | 978-0-7695-4174-7 |
|---|
| Vydavatel: | IEEE Computer Society |
|---|
| Klíčová slova |
|---|
| article extraction, document cleaning, page segmentation, visual analysis |
| Anotace |
|---|
| Články zveřejněné na WWW jsou obvykle publikovány v rámci složitějších HTML dokumentů, které obsahují mnoho typů informací, které nejsou explicitně označeny. V tomto příspěvku navrhujeme přístup k analýze vizuální informace za účelem nalezení článků ve složitých HTML dokumentech. Používáme přístup založený na klasifikace pro identifikaci důležitých částí článku na stránce a navrhujeme algoritmus pro detekci hranic článku na stránce. Dále uvádíme výsledky experimentálního vyhodnocení navrženého postupu. |
| BibTeX: |
|---|
@INPROCEEDINGS{
author = {Radek Burget},
title = {Visual Area Classification for Article Identification in Web
Documents},
pages = {171--175},
booktitle = {21st International Workshop on Databases and Expert Systems
Applications},
year = {2010},
location = {Bilbao, ES},
publisher = {IEEE Computer Society},
ISBN = {978-0-7695-4174-7},
language = {english},
url = {http://www.fit.vutbr.cz/research/view_pub.php?id=9292}
} |
|