Detail publikace

Two-Phase Categorization of Web Documents

BARTÍK Vladimír a BURGET Radek. Two-Phase Categorization of Web Documents. In: Proceedings of the International Conference on Knowledge Discovery and Information Retrieval. Valencia: Institute for Systems and Technologies of Information, Control and Communication, 2010, s. 458-462. ISBN 978-989-8425-28-7.
Název česky
Dvoufázová kategorizace webových dokumentů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt

Počet dokumentů na WWW neustále vzrůstá, a je proto potřeba je efektivně zpracovávat a získávat z nich důležité informace. V této oblasti je důležitou úlohou kategorizace webových stránek. Popisovaná metoda používá pro kategorizaci textové i vizuální vlastnosti stránky. Kategorizace probíhá e dvou fázích. V první fázi jsou vizuální oblasti stránky získané pomocí segmentace klasifikovány na základě vizuálních vlastností. V druhé fázi jsou klasifikovány celé stránky, na základě informací z první fáze a textu v jednotlivých oblastech stránky. Na závěr článku jsou prezentovány výsledky experimentů se stránkami ze zpravodajských serverů.

Rok
2010
Strany
458-462
Sborník
Proceedings of the International Conference on Knowledge Discovery and Information Retrieval
Konference
International Conference on Knowledge Discovery and Information Retrieval, Valencia, ES
ISBN
978-989-8425-28-7
Vydavatel
Institute for Systems and Technologies of Information, Control and Communication
Místo
Valencia, ES
BibTeX
@INPROCEEDINGS{FITPUB9381,
   author = "Vladim\'{i}r Bart\'{i}k and Radek Burget",
   title = "Two-Phase Categorization of Web Documents",
   pages = "458--462",
   booktitle = "Proceedings of the International Conference on Knowledge Discovery and Information Retrieval",
   year = 2010,
   location = "Valencia, ES",
   publisher = "Institute for Systems and Technologies of Information, Control and Communication",
   ISBN = "978-989-8425-28-7",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/9381"
}
Nahoru