Název:

Zpracování řeči a audia člověkem a počítačem

Zkratka:ASD
Ak.rok:2017/2018
Semestr:zimní
Studijní plán:
ProgramOborRočníkPovinnost
VTI-DR-4DVI4-volitelný
Vyučovací jazyk:čeština
Ukončení:zkouška (ústní)
Výuka:
hod./sempřednáškasem./cvičenílab. cvičenípoč. cvičeníjiná
Rozsah:390000
 zkouškatestycvičenílaboratořeostatní
Body:1000000
Garant:Heřmanský Hynek, prof. Ing., Dr.Eng., UPGM
Přednášející:Heřmanský Hynek, prof. Ing., Dr.Eng., UPGM
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
 
Anotace:
  Třídenní intenzivní kurz

Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování. Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy zpracování kognitivních signálů a uvede posluchače do některých důležitých principů lidského zpracování řeči a obrazu. Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.

Okruhy otázek k SDZ
 1. Which property if human hearing is used in almost all existing techniques for speech recognition.
 2. Describe structure of human ear.
 3. How is frequency analysis of sound done in the ear?
 4. How is the information from ear communicated to human brain?
 5. What is the general tendency of frequency resolution of human hearing? How does it differ from frequency resolution of the Fourier analysis?
 6. What is auditory masking? What can good for and why?
 7. What is simultaneous and forward masking in human hearing?
 8. What does loudness of sound depend on?
 9. At which frequencies we hear the best?
10. Describe some speech analysis techniques that use more advanced knowledge of human hearing.

Osnova přednášek:
 První den
  • Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč. 
  • Základy teorie informace a klasifikace vzorů.
  • Základy tvorby řeči.
  • Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).

Druhý den

  • Základy zpracování zvuku člověkem.
  • Vnímání výšky tónu a jeho hlasitosti.
  • Vlastnosti sluchu ve spektrální a časové oblasti.
  • Fenomén maskování jednoho zvuku druhým.
  • Důležité poznatky o  zpracování řeči člověkem.

 Třetí den

  • Úvod do technik zpracování používajících modely lidského sluchu.
  • Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
  • Metody zpracování signálu využívající časové oblasti.
  • Dynamické příznaky odvozené ze signálu.
  • Zpracování řeči využívající principů frekvenčních kanálů.
  • Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.
Literatura referenční:
 
  • Ben Gold and Nelson Morgan: Speech and Audio Signal Processing, Willey and Sons, 2000
  • Psutka a kol.: Hovoříme s počítačem česky, Akademia Praha 2006
  • Dodatečné materiály budou distribuovány dle potřeby během kurzu.
 

Vaše IPv4 adresa: 54.224.91.246
Přepnout na IPv6 spojení

DNSSEC [dnssec]