Detail práce

Extensions to Probabilistic Linear Discriminant Analysis for Speaker Recognition

Disertační práce Student: Plchot Oldřich Akademický rok: 2014/2015 Vedoucí: Burget Lukáš, doc. Ing., Ph.D.
Název česky
Rozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčího
Jazyk práce
anglický
Abstrakt

Tato práce se zabývá pravděpodobnostními modely pro automatické rozpoznávání řečníka. Podrobně analyzuje zejména pravděpodobnostní lineární diskriminační analýzu (PLDA), která modeluje nízkodimenzionální reprezentace promluv ve formě \acronym{i--vektorů}.  Práce navrhuje dvě rozšíření v současnosti požívaného PLDA modelu. Nově navržený PLDA model s plným posteriorním rozložením  modeluje neurčitost při generování i--vektorů. Práce také navrhuje nový diskriminativní přístup k trénování systému pro verifikaci řečníka, který je založený na PLDA.

Pokud srovnáváme původní PLDA s modelem rozšířeným o modelování  neurčitosti i--vektorů, výsledky dosažené s rozšířeným modelem dosahují až 20% relativního zlepšení při testech s krátkými nahrávkami. Pro delší  testovací segmenty  (více než jedna minuta) je zisk v přesnosti  menší, nicméně přesnost nového modelu není nikdy menší než přesnost výchozího systému.  Trénovací data jsou ale obvykle dostupná ve formě dostatečně dlouhých segmentů, proto v těchto případech použití nového modelu neposkytuje žádné výhody při trénování. Při trénování může být použit původní PLDA model a jeho rozšířená verze může být využita pro získání skóre v  případě, kdy se bude provádět testování na krátkých segmentech řeči.

Diskriminativní model je založen na klasifikaci dvojic i--vektorů do dvou tříd představujících oprávněný a neoprávněný soud (target a non-target trial). Funkcionální forma pro získání skóre pro každý pár je odvozena z PLDA a trénování je založeno na logistické regresi, která minimalizuje vzájemnou entropii mezi správným označením všech soudů a pravděpodobnostním označením soudů, které navrhuje systém. Výsledky dosažené s diskriminativně trénovaným klasifikátorem jsou podobné výsledkům generativního PLDA, ale diskriminativní systém prokazuje schopnost produkovat lépe kalibrované skóre. Tato schopnost vede k lepší skutečné přesnosti na neviděné evaluační sadě, což je důležitá vlastnost pro reálné použití.

Klíčová slova

rozpoznávání mluvčího, směs gaussovských rozložení, modelování v podprostoru parametrů, i--vektor, pravděpodobnostní lineární diskriminační analýza, diskriminativní trénování

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
17. prosince 2014
Citace
PLCHOT, Oldřich. Extensions to Probabilistic Linear Discriminant Analysis for Speaker Recognition. Brno, 2014. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2014-12-17. Vedoucí práce Burget Lukáš. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/347/
BibTeX
@phdthesis{FITPT347,
    author = "Old\v{r}ich Plchot",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Extensions to Probabilistic Linear Discriminant Analysis for Speaker Recognition",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2014,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/347/"
}
Nahoru