hs.fi - 2000009589999 - Maksumuuri poistettu

📅 2023-06-21T10:35:17.925Z
👁️ 234 katselukertaa
🔓 Julkinen


Vajaat kymmenen vuotta sitten tutkijat Filip Ginter ja Veronika Laippala olivat mukana Turun yliopiston Turku NLP -nimisessä tutkimusryhmässä, jonka tavoite oli hitusen pähkähullu. Tarkalleen ottaen ajatuksena oli kerätä internetistä mahdollisimman paljon suomenkielistä tekstiä.

Ginterillä eikä varmasti kenelläkään muullakaan tutkimusryhmässä mukana olleella ei ollut tarkkaa ajatusta siitä, mitä aineistolla tehtäisiin.

Nyt vuosia myöhemmin on käynyt ilmi, että kyseessä on tekoälyaikakauden kultakimpale. Tutkijoilla on käsissään valtava määrä suomenkielistä tekstiä, joka on peräisin internetistä. Sen pohjalta syntyi suomalainen suuri kielimalli Fin GPT 3.

Kyllä, Suomen Turussa on kehitetty kotimainen, puhtaasti suomalaisten kirjoittamaan tekstiin perustuva tekoäly, joka julkaistiin avoimena lähdekoodina helmikuussa.

Kyseessä on suomalainen vastine Chat GPT:n taustalla toimivalle suurelle kielimallille, Open AI:n kehittämälle GPT:lle. 

Nykyisin Turun yliopistossa data-analytiikan professorina toimiva Ginter ja tutkija Sampo Pyysalo ovat luvanneet kertoa HS Visiolle, miten suomalainen kielimalli on kehitetty. 

Suurten kielimallien koulutuksessa on kaksi keskeistä haastetta. Tietokoneiden laskentakapasiteettia tarvitaan pienen kansakunnan edestä. Suomella on laskentatehon suhteen käynyt tuuri. Kajaanista löytyy Euroopan nopein supertietokone Lumi, jota Turun yliopiston tutkijat ovat voineet käyttää. Lumi on eurooppalainen yhteishanke. Supertietokoneen resursseja jaetaan tutkijoille eri maihin. 

Tietokonetehon lisäksi kielimallin tarvitaan tietysti kieltä. On oltava kasassa miltei ymmärryskyvyn ylittäviä määriä koulutusaineistoa eli tekstiä.

”Jos kielimalliin laitetaan roskaa sisään, saadaan roskaa ulos”, Ginter kuvailee.

Turun yliopiston tutkijat ovat kouluttaneet kielimallia suomenkielisestä internetistä kerätyllä aineistolla. Koulutusaineistossa on mukana muun muassa Suomi24-verkkokeskusteluita.

Sellainen kielimalli, millaisen kielimallin kansa ansaitsee?

Ei sentään. Ginter toteaa, että Suomi24:n sisältö on mainettaan laadukkaampaa.

”Pitää muistaa, että Suomi24:ssä keskustelut on moderoitu”, Ginter sanoo.

Sellaisenaan netistä kerättyä tekstiä ei voi kuitenkaan käyttää tekoälyn koulutukseen. Koulutusaineisto on perattu rankalla kädellä.

Suomi24:n lisäksi käytössä on ollut muun muassa Ylen ja STT:n uutisarkistot, Reddit-keskustelupalstan Suomi-osio, Kielipankki, Kansalliskirjasto ja projekti Lönnrotissa digitoidut vanhat suomalaiset kirjat. Fin GTP 3 taitaa siis myös kalevalalaisen kielen. 

Tekoälyn koulutuksen prosessi menee jokseenkin seuraavalla kaavalla. Ensin kerätään valtava määrä aineistoa – suuren kielimallin tapauksessa tekstiä.

Sitten tekstistä poistetaan kaksoiskappaleet ja turhat kopiot. Samoja kirjoja tai viestejä ei kannata olla moneen kertaan.

Kohta ollaankin hankalassa ja työläässä vaiheessa. Kukaan tuskin haluaa tekoälymallista rasistista, ärsyttävää, väkivaltaista, riidanhaluista tai hyökkäävää. Sen vuoksi aineistosta on perattava törkeydet pois.

Törkeyksien poistamiseen käytetään suodatinta. Filtteröinti tehdään erillisellä työkalulla, jolle on opetettu, mikä on törkeää. Suomenkielisten mallien kohdalla ongelmana on se, että kukaan ei ole rakentanut toksisuusluokittelua suomeksi. Siksi tutkijat Turussa ovat turvautuneet koneella englannista suomeksi käännettyyn toksisuusaineistoon. Sen pohjalta koulutettiin törkysuodatin suomen kielelle. 

Eivätkö suomalaiset ole siis tarpeeksi töykeitä ja törkyisiä internetissä?

”Varmasti toksista dataa löytyy. Kukaan ei vain ole vetänyt projektia, jossa olisi koostettu datasetti. Siihen tarvitaan ihminen, joka käy läpi ja merkitsee, mikä on vaikkapa seksuaalisesti häiritsevää aineistoa. Sellaiset projektit vaativat paljon ihmisresursseja”, Ginter sanoo. 

Toksisuusluokittelijan kehittämiseen tarvitaan kymmeniätuhansia tai jopa yli satatuhatta esimerkkiä siitä, mikä on törkyä. Englanninkielisessä luokittelijassa on 160 000 esimerkkiä.

Nyt kasassa pitäisi olla koulutusaineistoa, josta on tunnistettu häiritsevä sisältö. Vieläkään ei päästä kouluttamaan tekoälyä. Seuraavaksi kaikki sisältö luokitellaan tekstin yleisen laadun perusteella: mikä on laadukkainta sisältöä, mikä taas kehnoa tai esimerkiksi huono käännös?

Luokittelu tehdään erillisellä ohjelmalla, joka on opetettu arvioimaan netistä hankitun tekstin laatu.

”Tulevaisuudessa tietokoneella luodun tekstin poistaminen on huomattavasti vaikeampaa. Olemme myrkyttämässä seuraavien sukupolvien treenausdatan”, Ginter sanoo.

Hän tarkoittaa sitä, että jo tällä hetkellä internetiin tulvii tekoälyn laatimaa tekstiä. Kukaan ei voi tietää tarkalleen, kuinka paljon nettisisällöstä on koneen tuottamaa. Se asettaa omat haasteensa tulevaisuuden tekoälyn koulutukselle. Voisi syntyä kierre, jossa tekoälyä koulutettaisiin pääasiassa tekoälyn luomalla tekstillä. 

Ginter vertaa tilannetta siihen, mitä tapahtui vuonna 1940-luvulla. Ydinpommin kehittäminen näkyy teräksessä. Ennen 1940-lukua valmistettu teräs on arvokasta, koska siitä puuttuu ydinpommikokeista peräisin oleva radioaktiivisuus.

Tulevaisuudessa koulutusmateriaali saattaa olla ainakin osittain aikaleimattua, eli sen kirjoitusajankohta on tiedossa. Siten vältetään tilanne, että tekoälyn koulutusaineistosta suuri osa olisi tekoälyn luomaa. 

Palataan tekoälyn koulutukseen. Kasassa pitäisi siis olla tekstisisältöä, josta on poistettu turhat kopiot ja häiritsevä materiaali ja joka on luokiteltu sen laadun perusteella. Sitten teksti muutetaan binäärimuotoon eli ykkösiksi ja nolliksi, käytännössä siis sellaiseen formaattiin, jota tietokone voi käsitellä tehokkaasti. 

Viimein päästään kouluttamaan tekoälyä, tarkalleen ottaen suurta kielimallia.

Ginterin ja Pyysalon mukaan koulutus on oletettua yksinkertaisempi prosessi. Käytännössä tietokoneelle näytetään pätkä tekstiä. Koneen tehtävä on arvata, mikä sana tulee seuraavaksi. Kun tehtävän toistaa tarpeeksi monta kertaa, kone on onnistunut luomaan matemaattisia todennäköisyyksiä sille, mikä sana seuraa mitäkin, minkälainen lause mitäkin ja niin edelleen.

Sanan arvaustehtävä toistetaan uudelleen ja yhä uudelleen, miljardeilla eri sanoilla. Lopulta kone on onnistunut luomaan matemaattisen kartan, johon piirtyy yllättävän hyvin kielen logiikka ja samalla koko maailma, joka tekstillä voidaan kuvata. Järjestelmä on siitä erikoinen, että mitään faktatietoaineistoa kielimalliin ei sisälly. Faktatieto on muuttunut todennäköisyyksiksi opetusaineiston pohjalta.

Koulutus voi kestää viikkoja tai jopa kuukausia. Se ei silti tarkoita, että tutkijat kippaisivat aineiston koneelle ja sen jälkeen hörppisivät kahvia, kunnes malli on valmis. 

Koulutusprosessi vaatii jatkuvaa seuraamista. Välillä ohjelmisto saattaa kaatua. Toisinaan mallia pitää hienosäätää.

Usein puhutaan, että tekoälymallit ovat kuin musta laatikko, jonka toimintaa eivät osaa selittää edes sen kehittäneet tutkijat. Kun Ginteriltä ja Pyysalolta kysyy, tietävätkö he tai kukaan maailmassa, mitä tekoälyn sisällä tapahtuu, kumpikin naurahtaa.

”Ei tiedä”, Pyysalo sanoo.

”Kenelläkään ei ole mielekästä tapaa visualisoida 176 miljardin parametrin avaruutta. Ihmisen mielikuvitus alkaa loppua nopeasti, kun liikutaan neljässä ulottuvuudessa.” 

Hahmottamamme maailma on kolmessa ulottuvuudessa, mutta matematiikassa asioita voidaan kuvata myös neljässä ulottuvuudessa.

On kuitenkin olemassa tutkimusta, jossa yritetään selvittää tavalla tai toisella, miten suuret kielimallit toimivat. Open AI on pyrkinyt tutkimaan muutaman vuoden takaisen GPT 3 -mallinsa toimintalogiikkaa uudella GPT 4 -kielimallilla.

Teknologiaa seuraavasta saattaa tuntua, että viimeisen puolen vuoden aikana yhdysvaltalaisen Open AI:n suuresta kielimallista GPT:stä on puhuttu enemmän kuin säästä. Viime vuoden lopulla julkistettu Chat GPT on osoittanut suurten kielimallien olevan käyttökelpoisia moniin eri tehtäviin, kuten ohjelmointiin, ideointiin ja tekstin paranteluun ja tiivistämiseen.

Chat GPT toki puhuu yllättävän hyvää suomea. Kilpailevia malleja tarvitaan silti, Ginter vakuuttaa. 

Open AI toimii pääasiassa suljetun yhtiön periaatteella. Se julkaisee harvoin tekoälymallejaan niin avoimesti kuin moni kehittäjäyhteisössä toivoisi. Siksi tarvitaan avoimia vaihtoehtoja. Ilman niitä teknologisen murroksen hedelmät poimii helposti muutama yhdysvaltalainen jättiyhtiö. Uhkana on, että Suomi ja monet muut pienet kielialueet jäävät kehityksen jalkoihin. 

Pyysalo toteaa, että tekoälyn kehityksessä tällä hetkellä iso haaste on juuri koulutusaineisto. Mistä saa riittävän laadukasta sisältöä riittävän paljon?

Periaatteessa koulutuksessa voidaan käyttää myös vieraskielistä tekstiä, joka on käännetty tietokoneella. Mutta silloin saatetaan menettää jotain kulttuurille ja tietylle kielialueelle ominaista. Voisi ajatella, että tekoälyssä vallitsee se kulttuuri, minkä kulttuurin aineistoa sen kouluttamiseen on käytetty. 

Ginter kiittelee sitä, että aikoinaan Koneen säätiö lähti rahoittamaan hanketta, jossa internetistä troolattiin valtava määrä suomalaista tekstiä, vaikka ei ollut tietoa siitä, mihin kerättyä tekstiä voisi käyttää. Osittain hankkeen ansiosta Fin GPT 3 -mallin kehitys on ollut mahdollista.

Vielä suomalaista kielimallia ei voi käyttää chat-käyttöliittymässä kuten kilpailevia malleja. Mutta kohta chattailu saattaa olla mahdollista. Sitä ennen tutkijoiden on kerättävä aineistoa suomenkielisistä keskusteluista. Vapaaehtoiset voivat osallistua hankkeeseen ja tuottaa keskusteluaineistoa tutkijoille. Palvelu keskustelujen keräämiseen on tarkoitus avata tutkimusryhmän nettisivuilla lähiviikkoina. 

Oikaisu 19.5 klo 9.55: Kansallisarkisto korjattu Kansalliskirjastoksi.