Název:

Vybrané problémy získávání znalostí z databází

Zkratka:ZZD
Ak.rok:2018/2019
Semestr:zimní
Studijní plán:
ProgramObor/
specializace
RočníkPovinnost
VTI-DR-4DVI4-volitelný
Vyučovací jazyk:čeština
Ukončení:zkouška (ústní)
Výuka:
hod./sempřednáškasem./cvič.lab. cvič.poč. cvič.jiná
Rozsah:3900013
 zkouškatestycvičenílaboratořeostatní
Body:5100049
Garant:Zendulka Jaroslav, doc. Ing., CSc. (UIFS)
Přednášející:Zendulka Jaroslav, doc. Ing., CSc. (UIFS)
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav informačních systémů FIT VUT v Brně
Prerekvizity: 
Pokročilé databázové systémy (PDB), UIFS
Získávání znalostí z databází (ZZN), UIFS
Nahrazuje:
Získávání znalostí z databází (ZZD), FIT
 
Cíle předmětu:
  Prohloubit znalosti studentů v oblasti získávání znalostí z databází a jiných datových zdrojů se zaměřením na teoretické základy používaných technik, algoritmů a modelů.
Anotace:
  
  1. Prohloubení znalostí základů získávání znalostí z databází - základy metod předzpracování (statistické veličiny používané při sumarizaci, přístupy k číštění, transformaci a redukci dat), základy datových skladů, základní metody a algoritmy dolování frekventovaných vzorů a asociačních pravidel (algoritmus Apriori, FP-strom, víceúrovňová asociační pravidla, dolování vícedimenzionálních asociačních pravidel z relačních databází), základní metody a algoritmy klasifikace (rozhodovací strom, bayesovská klasifikace, klasifikace využitím neuronových sítí, SVM) a predikce (lineární a nelineární regrese), základní metody a algoritmy shlukové analýzy (způsoby vyjadřování vzdálenosti dat, rozčleňovací metody, hierarchické metody, CF-strom, metody založené na hustotě, metody založené na mřížce a na modelu).
  2. Pokročilé techniky dolování dat - pokročilé techniky dolování znalostí z 'klasických' zdrojů dat, techniky dolování v proudech dat, časových řadách a posloupnostech, dolování v biologických datech, dolování v grafových strukturách, multirelační dolování, dolování v objektových, prostorových a multimediálních datech, dolování v textu, dolování na WWW.

Část 1 představuje základní témata.Dobrá znalost v této oblasti se očekává od všech absolventů předmětu. Tato část odpovídá kapitolám 1 až 12 v učebnici [1]. V části 2 se očekává od studentů přehled a porozumění základům (formulace problému, základní charakteristika přístupů k řešení) u všech témat. Hlubší znalosti se vyžaduje u tématu, které zpracovali a prezentovali na závěrečném semináři předmětu. Toto téma zpravidla nějak souvisí se zaměřením disertační práce. Tato část odpovídá kapitolám 8 až 10 v učebnici [2], ale zejména se předpokládá využití nejnovějších zdrojů informací dostupných ve sbornících z konferencí a v časopisech.

Okruhy otázek k SDZ:

  1. Předzpracování dat pro dolování.
  2. Dolování frekventovaných položek a asociačních pravidel.
  3. Klasifikace - rozhodovací stromy a bayesovská klasifikace.
  4. Klasifikace využitím neuronových sítí, SVM.
  5. Predikce.
  6. Shlukování - způsoby vyjadřování vzdálenosti, klasifikace metod a jejich charakteristika.
  7. Shlukování - rozčleňovací a hierarchické metody.
  8. Shlukování - metody založené na hustotě a mřížce.
  9. Dolování v proudech dat.
  10. Dolování na webu.
Požadované prerekvizitní znalosti a dovednosti:
  Studenti by měli mít základní znalosti ze statistiky, databázových systémů, teorie informace, strojového učení, neuronových sítí. Předpokládá se rovněž absolvování nějakého předmětu zaměřeného na základy získávání znalostí z databází v rámci magisterského studia.
Získané dovednosti, znalosti a kompetence:
  Studenti získají dostatečně široký a přitom i dostatečně do hloubky jdoucí přehled v oblasti získávání znalostí z dat. Hlubší znalosti získají především v oblasti související s tématem disertační práce.
Osnova přednášek:
 
  1. Předzpracování dat. 
  2. Datové sklady.
  3. Asociační analýza.
  4. Klasifikace a predikce.
  5. Shluková analýza.
  6. Pokročilé techniky dolování znalostí z 'klasických' zdrojů dat.
  7. Dolování v proudech dat.
  8. Dolování v časových řadách a posloupnostech.
  9. Dolování v biologických datech.
  10. Dolování v grafových strukturách.
  11. Dolování v objektových, prostorových a multimediálních datech.
  12. Dolování v textu a na WWW.
  13. Dolování v datech pohybujících se objektů.
Osnova ostatní - projekty, práce:
 
  1. Prostudování a zpracování vybraného tématu týkajícího se získávání znalostí z dat, zpravidla souvisejícího s tématem disertační práce studenta. Prezentace zpracovaného tématu na závěrečném semináři.
Literatura referenční:
 
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Elsevier Inc., 2012, 703 p. ISBN 978-0-12-381479-1.
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p. ISBN 1-55860-901-3.
Literatura studijní:
 
  • Bishop, CH. M.: Pattern Recognition and Machine Learning. Springer, 2006, 738 p. ISBN 978-0-387-31073-2.
  • Aggarwal, Ch.C. (ed.): Data Streams: Models and Algorithms. Advances in Database Systems. Springer, 2006, 358 p. ISBN 0387287590.
  • Příspěvky  v dostupných časopisech a sbornících konferencí (včetně dostupných v ACM Digital library, IEEE Digital library a jiných elektronických zdrojích).
Kontrolovaná výuka:
  Konzultace, zpracování zadaného tématu, písemná zpráva a prezentace na závěrečném semináři.
Průběžná kontrola studia:
  Kontrolní otázky v průběhu konzultací.
 

Vaše IPv4 adresa: 35.175.248.25