Detail publikace

Robust Speech Recognition in Unknown Reverberant and Noisy Conditions

HSIAO Roger, MA Jeff, HARTMANN William, KARAFIÁT Martin, GRÉZL František, BURGET Lukáš, SZŐKE Igor, ČERNOCKÝ Jan, WATANABE Shinji, CHEN Zhuo, MALLIDI Sri Harish, HEŘMANSKÝ Hynek, TSAKALIDIS Stavros a SCHWARTZ Richard. Robust Speech Recognition in Unknown Reverberant and Noisy Conditions. In: Proceedings of 2015 IEEE Automatic Speech Recognition and Understanding Workshop. Scottsdale, Arizona: IEEE Signal Processing Society, 2015, s. 533-538. ISBN 978-1-4799-7291-3.
Název česky
Robustní rozpoznávání řeči v neznámých podmínkách s reverberací a šumem
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Hsiao Roger (Raytheon BBN)
Ma Jeff (Raytheon BBN)
Hartmann William (Raytheon BBN)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Grézl František, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Watanabe Shinji, Dr. (JHU)
Chen Zhuo (Raytheon BBN)
Mallidi Sri Harish (AmazonCom)
Heřmanský Hynek, prof. Ing., Dr.Eng. (UPGM FIT VUT)
Tsakalidis Stavros (Raytheon BBN)
Schwartz Richard (Raytheon BBN)
URL
Abstrakt

V tomto článku popisujeme naši práci na výzvě ASpIRE (Automatic Speech recognition In Reverberant Environments), jejímž cílem je posoudit robustnost systémů automatického rozpoznávání řeči (ASR). Hlavní charakteristikou výzvy je vývoj vysoce výkonného systému bez přístupu k odpovídajícím tréninkovým a vývojovým datům. Zatímco vyhodnocovací data jsou zaznamenávána mikrofony vzdáleného pole v hlučných a dozvukových místnostech, tréninkovými daty jsou telefonická řeč a blízký rozhovor. Náš přístup k této výzvě zahrnuje vylepšení řeči, metody neuronových sítí a přizpůsobení akustického modelu. Ukazujeme, že tyto techniky mohou úspěšně zmírnit snížení výkonu kvůli hlučnému zvuku a nesouladu dat.

Rok
2015
Strany
533-538
Sborník
Proceedings of 2015 IEEE Automatic Speech Recognition and Understanding Workshop
Konference
The 2015 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2015), Scottsdale, Arizona, USA,, US
ISBN
978-1-4799-7291-3
Vydavatel
IEEE Signal Processing Society
Místo
Scottsdale, Arizona, US
DOI
UT WoS
000380604800076
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11067,
   author = "Roger Hsiao and Jeff Ma and William Hartmann and Martin Karafi\'{a}t and Franti\v{s}ek Gr\'{e}zl and Luk\'{a}\v{s} Burget and Igor Sz\H{o}ke and Jan \v{C}ernock\'{y} and Shinji Watanabe and Zhuo Chen and Harish Sri Mallidi and Hynek He\v{r}mansk\'{y} and Stavros Tsakalidis and Richard Schwartz",
   title = "Robust Speech Recognition in Unknown Reverberant and Noisy Conditions",
   pages = "533--538",
   booktitle = "Proceedings of 2015 IEEE Automatic Speech Recognition and Understanding Workshop",
   year = 2015,
   location = "Scottsdale, Arizona, US",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-4799-7291-3",
   doi = "10.1109/ASRU.2015.7404841",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11067"
}
Nahoru