Nástroje pro extrakci informací ze stránek workshopů CEUR

Autoři:Burget Radek, Milička Martin
Typ:software
Vznik:2015
Licence:vyžadována - zdarma
Klíčová slova:information extraction, web mining, document analysis, text classification
Popis:
Projekt implementuje aplikace a nástroje pro automatickou extrakci informací ze stránek workshopů CEUR-WS.org. Tyto nástroje zpracovávají vstupní HTML stránky a produkují strukturovaná propojená data ve formátu RDF. Implementace je založena na existujícím obecném rámci pro analýzu dokumentů FITLayout a mnoha dalších rozšířeních specifických pro danou úlohu. Výsledná data mohou být využita pro hodnocení kvality jednotlivých workshopů CEUR. Nástroje byly vytvořeny jako řešení Úlohy 1 soutěže Semantic Publishing Challenge 2015 v rámci konference ESWC 2015. V této soutěži získaly první cenu pro nástroj produkující nejlepší výsledky a cenu za nejvíce inovativní přístup. Představují případovou studii demonstrující praktickou použitelnost vyvinutých metod pro analýzu dokumentů.
Umístění:
https://github.com/FitLayout/ToolsEswc
Výzkumné skupiny:
Pracoviště:
Licenční podmínky:
Volně šiřitelný software poskytovaný pod licencí GNU GPL.

Vaše IPv4 adresa: 54.82.56.95
Přepnout na IPv6 spojení

DNSSEC [dnssec]