Název:

Zpracování přirozeného jazyka

Zkratka:ZPJ
Ak.rok:2011/2012 (není otevřen)
Semestr:zimní
Studijní plán:
ProgramOborRočníkPovinnost
IT-BC-1HBCH-volitelný
IT-MGR-1HMGH-volitelný
IT-MGR-2MBI-povinně volitelný - skupina S
IT-MGR-2MBS-volitelný
IT-MGR-2MGM-volitelný
IT-MGR-2MGM.-volitelný
IT-MGR-2MIN-volitelný
IT-MGR-2MIN.-volitelný
IT-MGR-2MIS-volitelný
IT-MGR-2MIS.-volitelný
IT-MGR-2MMI-volitelný
IT-MGR-2MMM-volitelný
IT-MGR-2MPS-volitelný
IT-MGR-2MPV-volitelný
IT-MGR-2MSK-volitelný
Vyučovací jazyk:čeština
Informace pro zapsané:http://www.fit.vutbr.cz/study/courses/ZPJ/private/
Kredity:5 kreditů
Ukončení:zápočet+zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvičenílab. cvičenípoč. cvičeníjiná
Rozsah:2600026
 zkouškatestycvičenílaboratořeostatní
Body:51100039
Garant:Smrž Pavel, doc. RNDr., Ph.D., UPGM
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
 
Cíle předmětu:
Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat základní algoritmy a metody v této oblasti. Seznámit se s algoritmickým popisem jednotlivých jazykových rovin: morfologické, syntaktické, sémantické a pragmatické a se zdroji jazykových dat - korpusy. Pochopit základní principy reprezentace znalostí, inference a vztahů k umělé inteligenci. Na každé rovině se vždy seznámit s teoretickými východisky, ale i používaným algoritmickým popisem a nástroji. Seznámit se s možnostmi kombinace těchto nástrojů do složitějších systémů.
Anotace:
Východiska počítačového zpracování přirozeného jazyka, jazyková data v korpusech, roviny: fonetika, fonologie, morfologie, syntax, sémantika, pragmatika, klasické a formální gramatiky: reprezentace morfologických a syntaktických struktur, reprezentace významu, bezkontextové gramatiky a jejich kontextová rozšíření, gramatiky DCG (Definite Clause Grammars), algoritmus CKY (Cocke-Kasami-Younger), chart-parsing, problém víceznačnosti, počítačové slovníky: reprezentace znalostí o lexikálních jednotkách, typy slovníků, lexikální sémantika, reprezentace významu věty, princip kompozicionality: skládání významů, sémantické klasifikace: valenční rámce, predikáty, ontologie, transparentní intenzionální logika a její aplikace na analýzu významů vět přirozeného jazyka, pragmatika: sémantická a pragmatická povaha jmenných skupin, struktura promluvy, deiktické výrazy, kontexty, porozumění jazyku: význam, inference a reprezentace znalostí.
Požadované prerekvizitní znalosti a dovednosti:
Základní znalost programování v C/C++ nebo v některém skriptovacím jazyce (Perl, Python, Ruby)
Získané dovednosti, znalosti a kompetence z předmětu:
Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a naučí se aplikovat základní algoritmy a metody v této oblasti. Porozumí algoritmickému popisu jednotlivých jazykových rovin: morfologické, syntaktické, sémantické a pragmatické a práci se zdroji jazykových dat - korpusy. Pochopí rovněž základní principy reprezentace znalostí, inference a vztahů k umělé inteligenci.
Dovednosti, znalosti a kompetence obecné:
Studenti se naučí řešit týmové projekty. Zdokonalí se v praktickém užívání programátorských nástrojů.
Osnova přednášek:
  1. Úvod, historie oboru, aplikace a obory zpracování přirozeného jazyka
  2. Jak si postavit vyhledávač typu Google, kategorizace textů, podobnost dokumentů
  3. Morfologická analýza na počítači, flektivní a derivativní morfologie, struktura trie pro uložení slovníku
  4. Syntaktická analýza přirozeného jazyka, složkový a závislostní přístup, příznakové struktury, formáty specifikace gramatik
  5. Formalismy pro zápis gramatik, kategoriální gramatiky, systémy LFG, HPSG, LTAG
  6. Metody syntaktické analýzy, algoritmus CKY, chart-parsing
  7. Korpusová lingvistika, stromové korpusy, metoda TBL
  8. Pravděpodobnostní syntaktická analýza, automatické zarovnávání textů, strojový překlad
  9. Lexikální sémantika, slovníky vs. encyklopedie, princip kompozicionality
  10. Transparentní intenzionální logika pro popis významu promluv
  11. Pragmatika, kontextové vazby významu, dynamická sémantika
  12. Reprezentace znalostí, sémantika možných světů, inference
  13. Technologie sémantického webu, ontologie, OWL
Osnova ostatní - projekty, práce:
  1. Individuálně zadávané projekty
Literatura referenční:
  1. Allen, J., Natural language understanding. 2nd ed. Redwood City : Benjamin/Cummings Publishing Company, 1995. ISBN 0-8053-0334-0.
  2. Manning, C. D., Schütze, H., Foundations of Statistical Natural Language Processing, MIT Press, 1999, ISBN 0-262-13360-1.
Literatura studijní:
  1. Hajičová, E., Panevová, J., Sgall, P., Úvod do teoretické a počítačové lingvistiky, sv. I., Teoretická lingvistika, Praha: Karolinum, 2002, ISBN 8024604701.
  2. Mařík,V., Štěpánková,O., Lažanský, J. a kol.: Umělá inteligence (4), ACADEMIA Praha, 2003, ISBN 80-200-1044-0.
Kontrolovaná výuka:
Kontrolovaná výuka zahrnuje půlsemestrální test, individuální projekt a písemnou zkoušku. Půlsemestrální test nemá náhradní termín, závěrečná zkouška má dva možné náhradní termíny.
Průběžná kontrola studia:
  • Půlsemestrální test - až 10 bodů
  • Individuální projekt - až 39 bodů
  • Závěrečná písemná zkouška - až 51 bodů
Podmínky zápočtu:
  • Zpracování individuálního projektu