Název:

Zpracování přirozeného jazyka (v angličtině)

Zkratka:ZPJa
Ak.rok:2019/2020
Semestr:zimní
Studijní plán:
ProgramObor/
specializace
RočníkPovinnost
IT-MGR-2MBI-povinně volitelný - skupina S
IT-MGR-2MBS-volitelný
IT-MGR-2MGM-volitelný
IT-MGR-2MGMe-volitelný
IT-MGR-2MIN-volitelný
IT-MGR-2MIS-volitelný
IT-MGR-2MMM-volitelný
IT-MGR-2MPV-volitelný
IT-MGR-2MSK-volitelný
MITAINADE-volitelný
MITAINBIO-volitelný
MITAINCPS-volitelný
MITAINEMB-volitelný
MITAINGRI-volitelný
MITAINHPC-volitelný
MITAINIDE-volitelný
MITAINISD-volitelný
MITAINISY-volitelný
MITAINMAL-volitelný
MITAINMAT-volitelný
MITAINNET-volitelný
MITAINSEC-volitelný
MITAINSEN-volitelný
MITAINSPE-povinný
MITAINVER-volitelný
MITAINVIZ-volitelný
Vyučovací jazyk:angličtina
Kredity:5 kreditů
Ukončení:zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvič.lab. cvič.poč. cvič.jiná
Rozsah:2600026
 zkouškatestycvičenílaboratořeostatní
Body:5190040
Garant:Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
Zástupce garanta:Hradiš Michal, Ing., Ph.D. (UPGM)
Přednášející:Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
Rozvrh:
DenVýukaTýdenMístnostOdDoPSKSkupiny
přednáškavýukyN104 N105 09:0010:501EIT 1MIT 2EIT 2MIT INTE xx
 
Cíle předmětu:
  Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích.
Anotace:
  Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.
Požadované prerekvizitní znalosti a dovednosti:
  Dobrá znalost modelů umělých neuronových sítí a programování v jazyce Python.
Získané dovednosti, znalosti a kompetence z předmětu:
  Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Dovednosti, znalosti a kompetence obecné:
  Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Proč je předmět vyučován:
  Čím dál více lidí používá ve svém každodenním životě aplikace zpracování přirozeného jazyka (NLP) - překladače, virtuální asistenty apod. V posledních letech je většina úkolů NLP realizována prostřednictvím hlubokých neuronových sítí. V tomto kurzu se studenti mohou dozvědět, jak je počítač schopen překládat texty z jednoho jazyka do druhého, jak může rozpoznat, co se pisateli nějaké recenze líbí na novém produktu a co jej naopak zklamalo, jak mohou virtuální asistenti odpovídat na otázky na základě textu Wikipedie atd.

Osnova přednášek:
 
  1. Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
  2. Významy slov a jejich vektorová reprezentace
  3. Závislostní syntaxe
  4. Jazykové modely
  5. Strojový překlad
  6. Modely typu seq2seq a pozornost (attention)
  7. Odpovídání na otázky v přirozeném jazyce
  8. Konvoluční neuronové sítě pro klasifikaci vět
  9. Informace z částí slov: modely typu subword
  10. Modelování kontextů použití: kontextuální reprezentace a předtrénování
  11. Sítě typu transformer a self-attention pro generativní modely
  12. Generování přirozeného jazyka
  13. Koreference a její automatické zpracování
Osnova ostatní - projekty, práce:
 
  • Individuálně zadávaný projekt
Literatura referenční:
 
  • Goldberg, Yoav. "Neural network methods for natural language processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.
  • Deng, Li, and Yang Liu, eds. Deep Learning in Natural Language Processing. Springer, 2018.
Literatura studijní:
 
  • Géron, Aurélien. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. " O'Reilly Media, Inc.", 2017.
  • Raaijmakers, Stephan. Deep Learning for Natural Language Processing. Manning, 2019.
Kontrolovaná výuka:
  Kontrolovaná výuka zahrnuje půlsemestrální test, individuální projekt a písemnou zkoušku. Půlsemestrální test nemá náhradní termín, závěrečná zkouška má dva možné náhradní termíny.
Průběžná kontrola studia:
  
  • Půlsemestrální test - až 9 bodů
  • Individuální projekt - až 40 bodů
  • Závěrečná písemná zkouška - až 51 bodů
Podmínky zápočtu:
  
  • Zpracování individuálního projektu
 

Vaše IPv4 adresa: 34.229.126.29