Web-sivun yhteenvedon koostaminen algoritmeilla

Väitös tietojenkäsittelytieteen alalta
Väittelijä: MSc Najlah Gali
Aika ja paikka: 27.01.2017, 12.00, Louhela auditorio, Joensuun Tiedepuisto

Internetin voimakkaan kasvun myötä tiedon määrä on johtanut informaatiotulvaan. Käyttäjillä on pääsy suureen määrään tietoa hakukoneiden avulla, mutta hyödyllisten sivujen löytäminen on haasteellista. Tiivis yhteenveto sivun sisällöstä auttaa käyttäjää saamaan sisällöstä paremman kokonaiskuvan. Yhteenvedon koostaminen sekä helpottaa että nopeuttaa verkon selaamista, koska koko sivua ei tarvitse ladata kokonaiskuvan saamiseksi.

Yhteenvedon tavoite on tuottaa lyhyt yhteenveto tai tiivistelmä web-sivusta. Eripituisia yhteenvetoja voidaan tuottaa eri käyttötarkoituksiin. Yhteenveto voi koostua sivun otsikosta, avainsanoista, avainlauseista, lyhyestä tekstitiivistelmästä, aiheeseen liittyvä kuva, kuvakaappauksella tuotetusta sivun näköiskuvasta, tai jostain näiden elementtien kombinaatiosta.

MSc Najlah Galin väitöskirjatyössä on kehitetty uusia menetelmiä yhteenvedon tuottamiseen algoritmeilla. Yhteenvedoksi on valittu otsikko, avainsanat ja esittelevä kuva. Menetelmät on toteutettu paikkatietoa hyödyntävään Mopsi-sovellukseen. Työssä on myös perehdytty tekstien samankaltaisuuden mittaamiseen.

Väitöskirjan tuloksien perusteella web-sivun rakenteen (DOM-puu) hyödyntäminen tuottaa yleensä paremman otsikon kuin pelkän otsikko-kentän (title tag) tai parhaan tekstikentän käyttäminen sellaisenaan. Sivun visuaalisten piirteiden hyödyntämisellä on oletettua paljon vähemmän merkitystä ja niiden sijaan kannattaa käyttää tilastollisia ja lingvistisiä piirteitä.

Web-sivujen osittainen rakenteisuus on hyödyksi myös avainsanojen etsimisessä. Sanojen esiintymistiheyttä on käytetty paljon laajojen tekstien sisällön analysointiin. Kuitenkin lyhyiden avainsanojen löytämisessä niiden jakautuminen sivun sisällä on tärkeämpää kuin itse esiintymistiheys.

Sivua parhaiten esittelevän kuvan valinnassa kuvat luokitellaan niiden toiminnallisen roolin perusteella. Logoille ja sivuston muotoiluun käytetyille kuville on tyypillistä epäsymmetrinen kuvasuhde (esimerkiksi 5:1) ja pieni koko. tarkoitukseen paremmin soveltuvien kuvien kuvasuhde on yleensä tasapainoisempi ja koko suurempi.

Työn tuloksia voidaan hyödyntää laajalti kaikessa internetin sisältöanalyysiin liittyvissä sovelluksissa.

MSc Najlah Galin tietojenkäsittelytieteen alaan kuuluva väitöskirja Summarizing the Content of Web pages tarkastetaan Luonnontieteiden ja metsätieteiden tiedekunnassa. Vastaväittäjänä tilaisuudessa toimii professori Jari Veijalainen, Jyväskylän yliopisto, ja kustoksena professori Pasi Fränti, Itä-Suomen yliopisto.

Väittelijän painolaatuinen kuva on osoitteessa https://kuvapankki.uef.fi/A/UEF+kuvahakemisto/10912?encoding=UTF-8

Takaisin tämän vuoden artikkeleihin