Turvallinen ja häiriösietoinen puhujan- ja kielentunnistus

Väitös tietojenkäsittelytieteen alalta
Väittelijä:  MSc Aleksandr Sizov
Aika ja paikka 18.12.2017 klo 12, Louhela-sali, Joensuun tiedepuisto

FM Aleksandr Sizov on kehittänyt tietojenkäsittelytieteen alan väitöskirjassaan uusia laskennallisia menetelmiä puhesovellusten turvallisuuden ja robustisuuden parantamiseksi. Tavoitteina on sekä suojella puhujantunnistusjärjestelmiä tahallisilta huijaushyökkäyksiltä (spoofing), että parantaa järjestelmien toimivuutta vaihtuvissa käyttöolosuhteissa, esimerkiksi kun sama henkilö pitää tunnistaa luotettavasti riippumatta käytetystä mobiililaitteesta. Sizov on kehittänyt väitöstyökirjassaan laskennallisia malleja, joilla molemmat tehtävät voidaan ratkaista käyttäen samaa kiinteämittaista puhesignaalin esitysmuotoa, hyödyntämällä tämän tilastollisia ominaisuuksia.

Puheella ohjattavat ja puhesynteesiä hyödyntävät järjestelmät ovat jo osa jokapäiväistä elämäämme. Puheohjauksen käyttö älypuhelimissa sekä kodin muissa älylaitteissa tuntuu usein luontevalta. Kasvava puheteknologian hyödyntäminen kuitenkin tuo mukanaan riskejä, esimerkiksi kun varmennetaan puhujan henkilöllisyyttä ääninäytteen perusteella (puhujantunnistus). Puhujantunnistus, kuten muutkin biometriset tunnisteet, on herkkä hyökkäyksille, joissa pyritään tunnistautumaan toiseksi henkilöksi teknisesti muunnellulla puhemateriaalilla. Monet hyökkäyksistä eivät välttämättä vaadi syvää teknistä asiantuntemusta. Esimerkkinä voidaan mainita ennalta nauhoitettu puhe, joka toistetaan tunnistimen mikrofoniin, tai jo olemassa olevat puhekloonausohjelmistot, joilla voi muokata puheääntään kuulostamaan toiselta henkilöltä.

Menetelmien kehitystyössä on yhä tärkeämpää kiinnittää huomiota sekä tunnistinjärjestelmien hyökkäyssietoisuuteen, että luotettavuuteen vaihtuvissa tai tuntemattomissa käyttöolosuhteissa. Perinteisesti häiriösietoisuutta (robustisuutta) ja huijaushyökkäysten tunnistusta on käsitelty erillisinä tutkimusongelmina, ja yksi väitöskirjatyön uutuusarvoista onkin saman puheen piirteistysmuodon hyödyntäminen molempien tehtävien ratkaisussa. 

MSc Aleksandr Sizovin tietojenkäsittelytieteen alaan kuuluva väitöskirja Secure and robust speech representations for speaker and language recognition tarkastetaan Luonnontieteiden ja metsätieteiden tiedekunnassa. Vastaväittäjänä tilaisuudessa toimii professori Tuomas Virtanen, Tampereen teknillinen yliopisto, ja kustoksena apulaisprofessori Tomi Kinnunen, Itä-Suomen yliopisto.Takaisin tämän vuoden artikkeleihin