There are many aspects and objectives we had in mind when designing the
new NER. First, it should avoid the performance bottlenecks common for
the webbased APIs such as OpenCalais or AlchemyAPI. Second, it needs to achieve
excellent precision and recall for geographical features, especially for
places in Europe. Finally, the tool should perform disambiguation and
normalization alongside the recognition process.
To meet the second objective, we utilized the Geonames.org data exported
from the database, which contains over 10 millions geographical
features. Efficiency is brought by the finite state automaton (FSA)
technology that can deal with the huge lists of names and is very fast
in searching the input texts. We employed an efficient algorithm for
constructing the minimal FSA described in Daciuk et al. (1998). A freely
available package provided by the first author of the paper allows
building a minimal FSA from a list of pre-defined keywords. The
resulting representation for all the relevant data from GeoNames
(originally over 1.1 GB) takes only 71MB and the processing is extremely
fast.
|
Licence k autorizovanému softwaru Vysoké
učení technické v Brně, Fakulta informačních technologií IČ 00216305,
Božetěchova 2, 612 66 Brno, (dále jen FIT VUT v Brně) je oprávněno
poskytovat licenci k autorizovanému softwaru přístupnému na stránce
"Autorizovaného software" http://www.fit.vutbr.cz/research/prod/index.php?id=177
(dále jen autorizovaný software). Každý, kdo použije software, stává se
uživatelem. Uživatel se zavazuje dodržovat licenční podmínky.
Prvním použitím software uživatel vyjádřil souhlas s následujícími licenčními podmínkami:
Autorizovaný software
je
možné používat jen při dodržování těchto licenčních podmínek; uživatel
je povinen zabezpečit dodržování licenčních podmínek případnou třetí
osobou, která má přístup k jím užívanému autorizovanému softwaru,- není možné dále prodávat, pronajímat a převádět získaná oprávnění bez souhlasu FIT VUT v Brně,
- není
možné zahrnout do jiného softwarového produktu a šířit produkty takto
vzniklé, odvozené od původního autorizovaného softwaru, případně jakkoli
jinak zasahovat do vnitřní struktury, bez souhlasu FIT VUT v Brně,
- z autorizovaného softwaru ani žádných jeho součástí se nesmí jakýmkoli způsobem vyjímat informace o FIT VUT v Brně,
- je zakázáno zpětně analyzovat, dekompilovat nebo jinak upravovat autorizovaný software,
Vzhledem
k tomu, že licence k software je poskytována bez úplaty, nevztahuje se
na poskytovaný software žádná záruka, a to v maximální možné míře
povolené platným zákonem. Uživatel přijímá software "tak, jak je", bez
záruky jakéhokoliv druhu, výslovně, ale nikoliv jen, bez záruky
prodejnosti a vhodnosti software pro určitý účel, bez záruky
bezchybnosti, funkčnosti, kvality, výkonnosti nebo nepřerušeného chodu
software a bez záruky kompatibility software s jinými programy. Vysoké
učení technické v Brně není povinno odstranit případné závady software.
Vysoké učení technické v Brně se, v maximální možné míře povolené
platným zákonem, zříká povinnosti hradit jakékoliv náklady nebo škodu,
které vznikly nebo vzniknou v souvislosti s používáním software.
V
případě porušení tohoto licenčního ujednání ze strany uživatele končí
platnost tohoto licenčního ujednání a uživatel je povinen přestat
autorizovaný software produkt dále jakkoli používat.
|