Článek ve sborníku konference

 
Bartík, V., Burget, R.: Two-Phase Categorization of Web Documents, In: Proceedings of the International Conference on Knowledge Discovery and Information Retrieval, Valencia, ES, INSTICC, 2010, s. 458-462, ISBN 978-989-8425-28-7
Jazyk publikace:angličtina
Název publikace:Two-Phase Categorization of Web Documents
Název (cs):Dvoufázová kategorizace webových dokumentů
Strany:458-462
Sborník:Proceedings of the International Conference on Knowledge Discovery and Information Retrieval
Konference:International Conference on Knowledge Discovery and Information Retrieval
Místo vydání:Valencia, ES
Rok:2010
ISBN:978-989-8425-28-7
Vydavatel:Institute for Systems and Technologies of Information, Control and Communication
Klíčová slova
Web page categorization, visual block classification, term weighting, TF-IDF, page segmentation
Anotace
Počet dokumentů na WWW neustále vzrůstá, a je proto potřeba je efektivně zpracovávat a získávat z nich důležité informace. V této oblasti je důležitou úlohou kategorizace webových stránek. Popisovaná metoda používá pro kategorizaci textové i vizuální vlastnosti stránky. Kategorizace probíhá e dvou fázích. V první fázi jsou vizuální oblasti stránky získané pomocí segmentace klasifikovány na základě vizuálních vlastností. V druhé fázi jsou klasifikovány celé stránky, na základě informací z první fáze a textu v jednotlivých oblastech stránky. Na závěr článku jsou prezentovány výsledky experimentů se stránkami ze zpravodajských serverů.
BibTeX:
@INPROCEEDINGS{
   author = {Vladimír Bartík and Radek Burget},
   title = {Two-Phase Categorization of Web Documents},
   pages = {458--462},
   booktitle = {Proceedings of the International Conference on Knowledge
	Discovery and Information Retrieval},
   year = {2010},
   location = {Valencia, ES},
   publisher = {Institute for Systems and Technologies of Information,
	Control and Communication},
   ISBN = {978-989-8425-28-7},
   language = {english},
   url = {http://www.fit.vutbr.cz/research/view_pub.php?id=9381}
}