hs.fi - 2000009607125 - Maksumuuri poistettu

📅 2023-11-20T07:01:19.666Z
👁️ 13 katselukertaa
🔓 Julkinen


Kolera oli 1800-luvunpuolivälissä tappava tauti, jonka tartuntamekanismia ei tunnettu. Jotkut tutkijat ajattelivat sen leviävän vaarallisten höyryjen, ”miasmojen”, välityksellä. Osa tutkijoista taas ajatteli, että tauti leviää kosketuksen kautta.

Lääkäri John Snow alkoi merkitä Lontoon Sohossa koleratartunnan saaneiden asuinpaikkoja karttaan. Hän huomasi, että tartunnat eivät jakautuneet satunnaisesti, vaan ne keskittyivät erään Broad Streetillä sijainneen kaivon ympäristöön. 

Kaivon vesi tuli Thamesin saastuneelta alajuoksulta. Snow huomasi, että puhtaammalta yläjuoksulta vetensä saavilla kaupungin alueilla koleratartunnat olivat yli kymmenen kertaa harvinaisempia. Snow sai taivuteltua kaupungin virkamiehet sulkemaan saastuneen kaivon, ja tartunnat vähenivät alueella välittömästi.

Snow’ta pidetään nykyään modernin epidemiologian isänä – hänen karttansa paljasti selvän säännönmukaisuuden likaisen veden ja koleratartuntojen välillä. Kartan avulla Snow teki silmälle näkymättömät bakteerit näkyviksi.

Ihmisen aistit hahmottavat vain pienen osan luonnossa olevasta tiedosta ja pystyvät tallentamaan vain murto-osan siitä muistiin. Aivot ovat erikoistuneet keräämään ympäristöstä käden ulottuvilla olevaa tietoa, koska se on auttanut lajiamme selviytymään eloonjäämiskamppailussa.

Arkihavainnointi on kuitenkin tilannesidonnaista ja pienimuotoista, eikä se riitä millään suurten tietomassojen hahmottamiseen ja ymmärtämiseen. Niinpä suuri osa meille tärkeistä luonnonilmiöistä jää aivoiltamme havaitsematta – emme esimerkiksi huomaa aistinvaraisesti lyijyn kaltaisten raskasmetallien tuhoavan keskushermostoa, mutta tilastojen perusteella ilmiö on päivänselvä.

Luonnon ja yhteiskunnan monimutkaisuus voidaan kuitenkin ottaa haltuun tilastojen avulla.

Auttaako psykoterapia masennuksen hoidossa? Onko sähköallergia pelkkää mielikuvituksen tuotetta? Periytyykö älykkyys? Vastaus kaikkiin kysymyksiin on ”kyllä”, ja tällainen tieto perustuu tilastolliseen tutkimukseen.

VÄLIOTSIKKO

Ihmiset rakastavat tietoa ja sen hallitsemista. Jo tuhansia vuosia sitten tallensimme savesta tehtyihin tauluihin lukuja kaupankäynnistä, sodasta ja verotuksesta. 

Nykypäivänä käytämme samaan tehtävään tietokoneen laskenta- tai tietokantataulukoita. Numerotiedon järjestelmällinen tallentaminen on tärkeää, koska se kertoo meille, kuinka asiat ovat aikaisemmin olleet. Lisäksi numeroiden avulla voi tehdä laskutoimituksia ja esittää tietoa tarkasti.

Jos sanomme yhden lapsen olevan ”lyhyt” ja toisen ”pitkä”, ymmärtävät kaikki ihmiset lasten pituudet hieman eri tavalla. Emme myöskään voi sanoa kuinka paljon toinen lapsi on toista pidempi. 

Jos sen sijaan kerromme toisen lapsen olevan 50 senttimetriä pitkä ja toisen 60, hahmottavat kaikki lasten pituudet samalla tavalla. Ymmärrämme, että kyse on vastasyntyneistä, eikä esimerkiksi koululaisista. Lisäksi voimme laskea, että toinen lapsi on 10 senttiä toista pidempi.

Mittaamalla lasten pituudet neuvolakäyntien yhteydessä ja vertaamalla niitä lasten tyypillisistä pituuksista muodostettuihin historiallisiin kasvukäyriin lääkäri voi arvioida, onko lapsen pituuskasvu normaalilla uralla vai pitäisikö mahdollisia kasvua hidastavia tekijöitä alkaa selvittää. 

Tietojen järjestelmällinen kerääminen, siis tilastointi, voi auttaa meitä näkemään tulevaan.

Mistä sattuma syntyy?

Fysiikan ja matematiikan lait ovat universaaleja. Pythagoraan lause pätee niin Maan pinnalla kuin Marsissa, ja aineen häviämättömyyden laki on voimassa niin Kouvolassa kuin Kuala Lumpurissa. 

quote: Satunnaisuudestaan huolimatta ilmiöt eivät ole täysin kaoottisia, vaan niitä voidaan ennustaa tietyissä rajoissa.

Kaikkia luonnon tapahtumia on mahdotonta kuvata tarkkojen matemaattisten ja fysikaalisten lakien avulla, koska sattumalla on suuri vaikutus siihen, miten luonto toimii. Emme esimerkiksi tiedä varmasti, kuinka lämmintä ensi vuoden juhannusaattona on – säähän voi kesäkuussa olla joko helteinen tai hyisen kylmä.

Satunnaisuudesta huolimatta ilmiöt eivät ole täysin kaoottisia, vaan niitä voidaan ennustaa tietyissä rajoissa. Vaikkei juhannussää ole tarkkaan tiedossa etukäteen, voimme olla melko varmoja siitä, että kesällä lämpötila pysyttelee kymmenen asteen paremmalla puolella.

Samanlainen satunnaisuus liittyi myös Broad Streetin koleratapauksiin. Kaikki alueen kaivoista juoneet eivät sairastuneet, eivätkä kaikki tapaukset keskittyneet samalle alueelle. Tilastotieteen avulla satunnainen ja systemaattinen vaihtelu oli kuitenkin mahdollista erottaa toisistaan: John Snow’n kartta osoitti, että tapaukset olivat yleisempiä Broad Streetillä kuin muualla Sohossa. Tarkan lopputuloksen sijaan kyse oli todennäköisimmän lopputuloksen arvioimisesta.

Tilastotieteen avulla samanlaisia laskelmia voidaan tehdä lääkkeiden tehosta, eläinten käyttäytymisestä tai vaikkapa ihmisten ruokavalion muutosten vaikutuksesta lihomiseen. Tilastotiede onkin ennen kaikkea riskinhallintatiede.

Todennäköisesti mahdollista

Todennäköisyyksiin liittyvä matemaattinen teoria alkoi muotoutua 1700-luvun aikana. Sysäyksen sille antoivat uhkapeleihin liittyvien todennäköisyyksien hallinta ja vakuutusyhtiöiden tarve arvioida vakuutettujen riskien toteutumista ja vakuutusten hinnoittelua. Varsinainen tilastollinen laskenta pysyi kuitenkin pitkään sivuroolissa luonnontieteissä.

Vasta 1900-luvun alussa biologian ja psykologian tieteenalojen kehittyminen alkoi edellyttää menetelmiä, joilla mittaustulosten näennäisestä vaihtelusta ihmisten ja organismien välillä pystyttiin paikantamaan säännönmukaisuuksia. 

Tilastollisen analyysin jättiläiset Francis Galton, Karl Pearson ja Ronald Fisher loivat perustan matemaattiselle tilastotieteelle, jossa tilastotietojen kerääminen ja todennäköisyyslaskenta valjastettiin luonnon, talouden ja yhteiskunnan ilmiöiden mallintamiseksi ja ennustamiseksi. Lopputuloksena oli supertieteenala, joka tunnetaan nykypäivänä tilastotieteenä.

Mistä lopulta puhumme, kun puhumme todennäköisyyksistä? Todennäköisyyden tarkka määritteleminen on yllättävän monimutkaista, vaikka ihmisaivot ovat lopulta eräänlainen intuitiivinen todennäköisyyslaskin. Niiden tehtävänä on jatkuvasti ennustaa geeneihin ja muistiin tallennetun tiedon perusteella tulevien tapahtumien todennäköisyyttä – onko pomo tänään niin hyvällä tuulella, että voisi pyytää palkankorotusta, nouseeko tuuli vielä niin paljon, että veneilemään ei kannata lähteä?

quote: Jos kolikkoa heittäisi äärettömästi, tuloksista puolet olisi kruunia, puolet klaavoja. Sattuma tasoittuu pitkässä juoksussa.

Todennäköisyyksiä voidaan hahmottaa esimerkiksi pitkän aikavälin esiintymisen avulla. Yksinkertaisimmillaan voidaan tutkia jonkin satunnaisia lopputuloksia tuottavan mekanismin, kuten nopan tai kolikon heiton, tuloksia. Kaikkitietävälle olennolle vastaus olisi aina etukäteen selvä, mutta ihmisille lopputulos selviää vasta, kun prosessi on tapahtunut.

Jos esimerkiksi kolikkoa heitettäisiin äärettömän monta kertaa, puolet lopputuloksista olisi kruunia ja puolet klaavoja. Vaikka kolme peräkkäistä heittoa voikin olla sattumalta klaavoja, pitkässä juoksussa sattuman vaikutus tasoittuu.

Oikeansuuntainen riittää

Kolikon heittoon liittyvä todennäköisyys on kolikon geometrian ominaisuus, koska muotonsa vuoksi kolikko tippuu puolet kerroista kruunan ja puolet kerroista klaavan puolelle. Mutta monien muidenkin tapahtumien todennäköisyys voidaan selvittää keräämällä ja tarkastelemalla pitkän aikavälin tilastoja.

Esimerkiksi Lauri Markkasen vapaaheittojen onnistumistodennäköisyys on 85 prosenttia, eli sadasta heitosta Markkanen upottaa 85 ja 15 menee korin ohi. Todennäköisyys on saatu yksinkertaisesti laskemalla kaikki Markkasen uransa aikana heittämät koriin ja sen ohi menneet vapaaheitot.

Samaan tapaan lääketutkimuksessa ”toistoja” voidaan tehdä antamalla testattavaa lääkettä tuhannelle ihmiselle, jolloin jokainen ihminen on uusi toisto lääkkeen tehosta. Lopuksi voidaan laskea, kuinka monella ihmisellä lääke helpotti oireita verrattuna lumelääkkeeseen. Tulosten perusteella voidaan tämän jälkeen vaikkapa todeta, että lääke vaikutti 700 potilaalla. Tällöin voidaan päätellä, että keskimäärin seitsemän kymmenestä potilaasta saa apua lääkkeestä, eli todennäköisyys lääkkeen toivotulle vaikutukselle on 7/10.

quote: Hyvä ennuste on tarkka ja siihen liittyy vähän epävarmuutta. Myös epätarkka ennuste on hyödyllinen, jos se on oikeansuuntainen.

Kuinka monta potilasta lääketutkimukseen pitää ottaa, että lääkkeen teho voidaan arvioida luotettavasti? Intuitiomme sanoo, että suurempi määrä potilaita antaa tarkemman arvion. Käytännössä tulosten tarkkuuteen vaikuttaa kuitenkin tutkittujen potilaiden lisäksi monta tekijää, kuten vaikkapa se, kuinka järjestelmällisesti lääke eri potilaisiin vaikuttaa.

Tilastotieteen teorian avulla tällaiset tekijät voidaan huomioida ja laskea, kuinka suuri epävarmuus tutkimusten tuloksiin liittyy.

Intuition vastaisesti tutkimuksissa saatavista ennusteista on hyötyä myös silloin, kun ne eivät ole täysin tarkkoja – riittää, että ne ovat oikeansuuntaisia. Esimerkiksi statiineista on keskimäärin hyötyä kolesterolin hoidossa, vaikka ne eivät auttaisikaan joka ikistä potilasta. Pörssimeklarille on hyödyllistä pystyä arviomaan edes suunnilleen tulevien viikkojen kurssikehitys, vaikkei hän pystyisikään arvioimaan täsmällisesti tulevia pörssikursseja.

Pienetkin oikeansuuntaiset tiedonmuruset ovat aina arvokkaampia kuin epätietoisuudessa eläminen.’

Maalaisjärkeä numeroilla

Entä jos haluamme arvioida todennäköisyyden sellaiselle tapahtumalle, jota emme voi toistaa? Tällöin voimme perustaa todennäköisyysarvion ihmisten arvioihin. Esimerkiksi uutta Marsiin lähetettävää luotainta ei laukaista kuin yhden ainoan kerran, joten arviota Mars-lennon onnistumisesta ei voida määrittää toistojen avulla.

Tällöin voimme saada arvion todennäköisyydestä vaikkapa siten, että pyydämme kaikkia luotaimen suunnitteluun osallistuneita insinöörejä lyömään vetoa lennon onnistumisen puolesta tai sitä vastaan. Jos arvaus on oikein, vedonlyöjä saa sata euroa, ja jos ehdokas häviää, hän menettää rahansa. Lopuksi lasketaan, kuinka paljon puolesta- ja vastaan-ääniä saatiin.

Tällä tavoin todennäköisyys ei ole kolikon geometrian tapaan puhtaasti objektiivinen asia, vaan subjektiivinen ominaisuus, joka kuvaa tapahtuman lopputulokseen liittyvää epävarmuutta yksittäisillä ihmisillä. Mutta lopulta sama subjektiivisuus koskee myös rahan heittoa: Jos heitän rahaa ja peitän sen saman tien kädelläni, tiedän heiton lopputuloksen varmasti. Mutta jos kysyn sinulta, mikä lopputulos on, joudut arvaamaan tai sanomaan, että 50 prosentin todennäköisyydellä kruuna. Tällainenkin todennäköisyys on lopulta subjektiivinen, koska se riippuu siitä, mitä tietoa kulloinkin on käytettävissä.

Ranskalainen matemaatikko Pierre-Simon de Laplace kutsuikin todennäköisyyksiä ”numeroihin perustuvaksi maalaisjärjeksi”. Tämä kuvaa hyvin sitä, miten todennäköisyyksiä käytetään päätöksenteossa: lopulta kaikki tilastotieto kulkee ihmisaivojen päätöksentekomekanismien läpi ja auttaa meitä epävarmuuden hallitsemisessa.

Esimerkiksi Nasa arvioi laskelmissaan Apollo 11 -ohjelman onnistumistodennäköisyydeksi 73 prosenttia ja miehistön selviämisen todennäköisyydeksi 95 prosenttia. Astronautti Neil Armstrong puolestaan arvioi vastaavien todennäköisyyksien olevan 50 prosenttia ja 90 prosenttia, minkä perusteella hän uskalsi nousta Saturn V -raketin matkassa Kuun kiertoradalle ja laskeutua Kotka-moduulin ovesta ensimmäisenä ihmisenä vieraan taivaankappaleen pinnalle.

Tieto on valtaa

Teollinen vallankumous vähensi fyysistä työtä, mutta henkinen ponnistelu kulutti vielä pitkään mielen lihaksia. Esimerkiksi numerotiedon järjestely vaati vielä 1950-luvulla valtavat määrät käsityötä. Nyt myös henkinen työtaakka on keventynyt tietokoneiden ja tekoälyn avulla.

Tekoäly on ajatuksena vanha: jo 1900-luvun alkupuolella ensimmäisten tietokoneiden kehittäminen sai tutkijat pohtimaan, voisiko inhimillisen ajattelun ”mekanisoida”. Tavoitteena on, että koneet pystyvät tekemään tylsiä rutiinitöitä ilman ihmisten työpanosta ja tunnistamaan tietomassasta säännönmukaisuuksia, joita ihminen ei pysty havaitsemaan.

Vielä 1950-luvulla tutkijat työskentelivät mekaanisten laskinten ja laskutikkujen kanssa. Taskulaskimet yleistyivät toimistoissa 1970-luvulla, ja mikrotietokoneet valtasivat yliopistot ja muut tutkimuslaitokset 1980-luvun alussa.

Henkilökohtaiset tietokoneet olivat kuitenkin hitaita vielä pitkälle 1990-luvulle asti, ja yksinkertaistenkin tilastollisten laskutoimitusten tekeminen saattoi kestää tunteja tai päiviä. Siksi tutkijoiden piti valikoida tarkkaan, millaisia laskelmia he halusivat aineistoistaan tehdä.

Tällä vuosituhannella mikroprosessorien nopeus on viimeinkin poistanut suuren osan laskentatehon rajoituksista. Rajat tilastotieteen, matematiikan ja tietojenkäsittelytieteiden välillä ovatkin hävinneet, ja usein puhutaan yleisesti joko laskennallisista tieteistä tai datatieteestä.

Supernopeat tietokoneet ja oppivat algoritmit auttavat louhimaan informaatiota ison tietomassan seasta. Vaikka yksittäiset tiedonmuruset vaikuttaisivat mitättömän heikoilta signaaleilta, voi niistä yhdistellä tilastotieteen keinoin ällistyttävän tarkkoja ennusteita. Esimerkiksi Ukrainan sodan alkuvaiheessa venäläisten matkapuhelinliittymien sijaintitiedon avulla pystyttiin saamaan tietoa Venäjän armeijan liikkeistä, koska sotilaat eivät malttaneet pitää puhelimiaan pois päältä edes taistelukentällä.

quote: Ei ole sattumaa, että verkkokaupat tarjoavat sinulle tiettyjä tuotteita: huomaamaton tiedon louhinta on tehokasta.

Sosiaalisen median yhtiöt puolestaan keräävät suuret määrät tietoa ihmisten mielenkiinnon kohteista heidän surffailunsa ja klikkailunsa avulla, ja samalla tavalla kaupan ala kerää tietoa ostokäyttäytymisestä bonuskorttien ostotapahtumia seuraamalla. Ei ole sattumaa, että verkkokaupat tarjoavat sinulle tiettyjä tuotteita: asiakkaiden valtava tietovirta sisältää heikkoja mutta riittävän voimakkaita signaaleita siitä, millaisia ostoksia eri ihmiset verkkokaupassa tekevät.

Huomaamaton tiedon louhinta voi olla ällistyttävän tehokasta. Esimerkiksi ihmisten persoonallisuuden arvioimiseen käytetään perinteisesti pitkiä kyselylomakkeita, jotka vastaajien pitää täyttää joko netissä tai paperilla. Tutkimuksessa on kuitenkin osoitettu, että koneoppimisalgoritmien avulla ihmisten persoonallisuus voidaan ennustaa tarkasti pelkästään heidän somekäyttäytymisensä perusteella. Ei siis ole yhdentekevää, mitä tietoa itsestään sosiaaliseen mediaan laittaa – algoritmi voi paljastaa ihmisestä paljon henkilökohtaisempaa tietoa kuin kuvittelemmekaan.

Toisaalta samanlaisia algoritmeja voi käyttää myös lääketieteessä ennustamaan sairastumista erilaisista heikoista signaaleista. Belgialaiset tutkijat ovat esimerkiksi huomanneet, että masennuksen puhkeaminen voidaan ennustaa seuraamalla ihmisen mielialaa mobiililaitteilla jo paljon ennen hoitoon hakeutumista. 

Tällaisten kevyiden ”datamarkkereiden” paikantaminen ihmisten itse tuottamasta tiedosta on arvokasta erityisesti vaativaa ja monimutkaista diagnostiikkaa vaativissa sairauksissa, kuten Alzheimerin taudissa. Mitä aikaisemmin potilas ohjataan tutkimuksiin ja hoitoon, sitä parempi hoitovaste tutkimuksissa voidaan saada.

Liian tarkka mikroskooppi

Kun mittalaitteet tarkentuvat, saatamme nähdä myös tarpeetonta tai haitallista tietoa. Uusien kuvantamislaitteistojen avulla radiologi voi nähdä esimerkiksi ihmisen päässä monia poikkeavia, joskin harmittomia muutoksia. Samoin tilastollisessa tutkimuksessa voidaan suurissa aineistoissa löytää sellaisiakin yhteyksiä, joilla ei ole käytännön kannalta merkitystä.

Eräässä tutkimuksessa selvitettiin älylaitteiden ja sosiaalisen median käytön vaikutusta nuorten hyvinvointiin. Satojentuhansien vastaajien aineistossa havaittiin negatiivinen yhteys: paljon sosiaalista mediaa käyttävät nuoret voivat keskimäärin huonommin kuin somea vähän käyttävät.

Efektin suuruus oli kuitenkin häviävän pieni. Digitaalitekniikan käyttö selitti vain 0,4 prosenttia hyvinvoinnin vaihtelusta. Tutkijat havainnollistivat vaikutuksen suuruutta vertailemalla digitaalitekniikan käytön vaikutuksia hyvinvointiin täysin mielettömien selittäjien vaikutuksiin. He havaitsivat, että esimerkiksi perunoiden syöminen tai silmälasien käyttäminen ennusti hyvinvointia aivan yhtä hyvin kuin digitaalitekniikan käyttäminen. Vertailun vuoksi säännöllinen liikunta saattaa vähentää masennukseen sairastumisen riskiä jopa 30 prosenttia!

Tilastollisia tutkimuksia lukiessa pitääkin olla aina tarkkana sen suhteen, kuinka suuria vaikutuksia esimerkiksi sosiaalipoliittisilla päätöksillä on lasten terveyteen tai kuinka paljon uusi lääke vähentää potilaiden kipua.

Laskentatehon ja tekoälyn kehittyminen ei ole vielä syrjäyttänyt ihmistä päätöksentekijänä – tutkijan, insinöörin tai poliitikon täytyy edelleen tulkita tilastolliset tulokset sekä arvioida, millaisia päätöksiä niiden perusteella kannattaa tehdä.

Epävarmuutta ei voi poistaa

Ihmismieli yrittää jatkuvasti nähdä tulevaan, oli sitten kyse meille heitetyn pallon lentoradan arvioimisesta tai taloudellisesta varautumisesta eläkepäivien viettoon.

Omaan kokemukseen perustuvat ennusteet ovat lähes aina epätarkkoja ja rajallisia, koska emme osaa yhdistellä suuria tietomääriä tai painottaa tärkeää ja vähemmän tärkeää tietoa päätöksenteossa. Tilastollisten menetelmien avulla tällaisten ennusteiden tekeminen onnistuu, koska tietokoneet seulovat ennusteiden laatimisen kannalta oleellisen tiedon epäolennaisuuksien joukosta.

quote: Ihmisten toiminnan ennustaminen on monimutkaista, koska erilaisia tuntemattomia tekijöitä on niin valtavasti.

On hämmästyttävää ajatella, että kuuraketin lentoradan laskeminen onnistui jo 1960-luvulla tietokoneella, jonka tehot jäävät merkittävästi jälkeen nykyaikaisista taskulaskimista. Taivaankappaleiden liikkeet sekä raketin lento avaruudessa ovat kuitenkin säännönmukaisia.

Ihmisten toiminnan ennustaminen on paljon monimutkaisempaa, koska erilaisia tuntemattomia tekijöitä on paljon enemmän. Moni on esimerkiksi yrittänyt ennustaa pörssimarkkinoiden kehittymistä epäonnistuen surkeasti, ja vain ani harva suuria palkkioita nostavista salkunhoitajista onnistuu saamaan markkinoilta niiden keskimääräistä tuottoa enempää.

Vaikka ihmiset ovat vuosi vuodelta pystyneet ottamaan paremman niskalenkin luonnon satunnaisuudesta, ei kaikkea epävarmuutta kenties voida koskaan poistaa. Ehkä tämä lopulta on myös hyvä asia – elämähän olisi tuskin elämisen arvoista, jos tietäisimme tarkalleen mitä jokainen hetki tuo meille tullessaan.

KAINALO 1:

OTS Algoritmi oppii ilman ihmistä

ING Tekoäly tunnistaa aineistosta säännönmukaisuuksia.

Tietokoneohjelmat perustuvat algoritmeihin eli automatisoituihin ohjeisiin. Tavallisesti ihminen antaa algoritmille etukäteen säännöt siitä, kuinka kussakin tilanteessa pitää toimia. Koneoppiminen on tekoälyn uudempi alalaji. Siinä algoritmi parantaa itse omaa suorituskykyään. Se oppii aineistosta omatoimisesti ilman ihmisen antamia uusia toimintaohjeita.

Nykypäivänä koneoppimista on kaikkialla, puheentunnistuksesta konenäköön, osakemarkkinoiden analysoimiseen ja itsestään ajaviin autoihin. Sen avulla voidaan ennustaa, missä päin kaupunkia tapahtuu todennäköisimmin rikoksia, tai arvioida, kuinka voimakasta kipua ihminen kokee.

Kone on sokea aineistolle

Koneoppimisalgoritmi pitää optimoida siten, että se toimii mahdollisimman tehokkaasti ja tarkasti. Tämä voidaan tehdä kahdella tavalla. Ohjatussa oppimisessa algoritmille opetetaan, millaisia yksiköitä kuhunkin luokkaan, esimerkiksi omenoihin, kuuluu. Algoritmille annetaan omenan kuvia esittävä aineisto, josta se opettelee kyseisiin kuviin liittyviä säännönmukaisuuksia. Tämän perusteella toimiva algoritmi pystyy tunnistamaan myös uudet omenan kuvat, joita ei ole ollut opetusaineistossa.

Lähestymistapa toimii silloin, kun tiedetään etukäteen, millaista tehtävää algoritmin halutaan suorittavan. Usein algoritmia käyttävä ihminen ei kuitenkaan tarkasti tiedä, mitä hän haluaa algoritmin oppivan tai mikä olisi paras tapa järjestää aineisto. 

Ohjaamattomassa oppimisessa algoritmi etsii tietovirrasta säännönmukaisuuksia ilman, että sille kerrotaan, mitä sen tulisi etsiä – esimerkiksi kuvia erilaisista hedelmistä, joita se yrittää itse jaotella luokkiin niiden samankaltaisuuden perusteella. 

Tilannetta voi verrata vaikkapa uuden videopelin opettelemiseen. Harvassa pelissä tulee mukana yksityiskohtaisia ohjeita, koska niiden kirjoittaminen olisi todella työlästä. Niinkin yksinkertaisen pelin kuin Pac-Manin ohjeet olisivat tekstiksi kirjoitettuna monta sivua, uudempien ja monimutkaisempien pelien ohjeista puhumattakaan. Siksipä ohjelmoijat luottavat siihen, että ihmiset oppivat pelimekaniikan havainnoimalla oman pelaamisensa ja pelitapahtumien välisiä lainalaisuuksia.

Koneoppiminen on lähtökohtaisesti sokeaa sille, mitä aineisto on. Jos vaikkapa lääkärit koettavat tunnistaa aivojen magneettikuvien perusteella mahdolliset aivoverenvuotopotilaat terveistä verrokeista, voi algoritmi näyttää aluksi toimivan täydellisesti. Mutta koska aivoverenvuotopotilaat ovat tyypillisesti terveitä potilaita vanhempia, voi algoritmi perustaa ”arvauksensa” pelkästään aivojen yleiseen iän mukana rapistuvaan kuntoon eikä niinkään siihen, onko kuvassa todellisuudessa havaittavaa aivoverenvuotoa. 

Tämän vuoksi algoritmien toimintaa on jatkuvasti seurattava ja niiden toiminta on varmistettava monenlaisissa ympäristöissä.

Uusi kielimalli mullistaa

Viime vuosien suurin läpimurto tekoälytutkimuksessa on Chat GPT:n taustalla olevien suurten kielimallien kehittyminen. Syväoppimiseen perustuvat mallit on opetettu valtavalla määrällä luonnollista kieltä, josta ne oppivat sanojen, käsitteiden ja lauseiden välisiä suhteita.

Malleja voi käyttää esimerkiksi kielten kääntämiseen englannista ohjelmointikieleksi, tai luonnollisen kielen, kuten lehtiartikkelien tai proosatekstien tuottamiseen ja tiedon hakemiseen. Tällainen tekoäly mullistanee asiantuntijatyön tulevaisuudessa, koska mallit pystyvät teoriassa hallitsemaan kaiken digitaalisessa muodossa olevan tekstin ja luomaan sen perusteella uutta tietoa.

KAINALO 2:

OTS Kuvaaja helpottaa ja harhauttaa

ING Pylväät ja piirakat voivat vääristää tietoa, myös tarkoituksella.

Monesti kuulee sanottavan, että mikään ei valehtele niin paljon kuin tilasto. ”Vale, emävale, tilasto”, kuuluu myös pitkään toisteltu sanonta. Todellisuudessa huolellisesti laaditut tilastot eivät valehtele lainkaan, päinvastoin. Ne ovat luotettavan päätöksenteon kulmakivi niin tekniikassa, lääketieteessä kuin politiikassa.

Tavalliset kansalaiset näkevät tilastoista kuitenkin usein vain tiivistelmän, tyypillisesti kuvaajan.

Ihminen on visuaalinen eläin: havainnoimme ympäristöä pitkälti näköaistin varassa. Kuva kertoo enemmän kuin tuhat sanaa, ja tämän tietävät myös tilastotieteilijät. Suurten numerotaulukoiden tai abstraktien kaavojen hahmottaminen on jopa asiantuntijoille vaikeaa, joten usein tutkimustulokset pyritään esittämään visuaalisessa muodossa.

Parhaimmillaan kuvaajat ovat kuin taidetta, josta monimutkaiset luonnonilmiöt ja suuret tietomäärät hahmottuvat kuin itsestään. Pahimmillaan ne vääristävät tietoa ja antavat ilmiöstä harhaanjohtavan kuvan – tahattomasti tai tahallaan.

Muutamalla perusohjeella epäselvä tai harhauttava kuvaaja on kuitenkin helppo tunnistaa.

1. Mitä kuvaajassa on esitetty?

Hyvästä tilastollisesta kuvaajasta pitää aina löytyä tieto siitä, mitä kuvassa on esitetty. Tarkista kuvaajan pysty- ja vaaka-akselien selitteet: kuvataanko niissä esimerkiksi kokonaismäärää vai prosentuaalista osuutta? 

Mieti, mikä kuvaajassa on tärkeintä: halutaanko sillä havainnollistaa mittaustulosten keskinäisiä suuruuksia vai kenties tulosten muuttumista ajan myötä?

2. Miten tieto on esitetty?

Sama tieto voidaan esittää lukemattomilla eri tavoilla, joista osa on parempia ja osa huonompia. Esimerkiksi yllä olevassa kuvassa on esitelty yleisimpien kuolinsyiden jakaumaa sektori- eli piirakkakuvaajana (A) ja pylväskuvaajana (B). 

Sektorikuvaajassa kuolinsyiden yleisyys selviää sektorien kokoja vertaamalla. Ihmissilmälle erojen hahmottaminen on kuitenkin vaikeaa: kuvaajasta erottuu lähinnä kaksi yleisintä kuolinsyytä (sydän- ja verisuonitaudit sekä syövät), mutta muiden kuolinsyiden suhteellisia osuuksia on liki mahdotonta vertailla. 

Pylväskuvaajassa sama tieto on esitetty helpommin hahmotettavassa muodossa.

3. Onko tietoa yritetty vääristää tai sumentaa?

Varo vaaraa. Sektorikuvaajaa käytetään usein tarkoituksella todellisten tietojen sumentamiseen, joten hälytyskellojen pitää aina soida, kun sellaisen näkee.

Jos et hahmota, minkä kokoisia sektorit ovat, tarkista, löytyykö tieto numeroina.

Myös pylväskuvaaja voi olla harhaanjohtava. Pylväskuvaajassa numeerisen akselin pitää aina alkaa nollasta, jolloin pylväiden pinta-alat ovat suoraan verrannollisia esitettävien arvojen suuruuteen. Katkaistu akseli vääristää kuvaajaa. 

Viivakuvaajassa akselin katkaisu ei haittaa, koska kuvaajan tulkinta perustuu viivan korkeuteen. Viivakuvaajassa harhauttaminen perustuu sen sijaan pystyakselin laajuuden säätämiseen.

Verrataan esimerkiksi kahta viivakuvaajaa (C ja D), joissa on esitetty väkivaltarikosten määrän muuttuminen aikasarjana. Kuvasta C on helppo nähdä, että vuosittainen rikollisuuden määrä on kasvanut seurantajaksolla huimasti. 

Samalla tavalla ”oikein” piirretty kuvaaja D puolestaan antaa virheellisen vaikutelman siitä, että rikosten määrä olisi pysynyt suunnilleen vakiona. Kun pystyakselin asteikko muutetaan riittävän laajaksi, aikasarja näyttää käytännössä vaakasuoralta, mikä hämärtää muutoksen suuntaa.

4. Onko kuvaaja selkeä?

Yksinkertainen on kaunista, myös tilastollisessa grafiikassa. Mitä enemmän koristeellisia elementtejä tai monimutkaisia kolmiulotteisia muotoja ja palkkeja kuvaajassa on, sitä hankalampi siitä on saada selvää. Tällaisten kuvaajien käyttö viittaa usein tahalliseen lukijan harhauttamiseen tai vähintäänkin graafikon ammattitaidon puutteeseen.

Julkaistu Tiede-lehdessä 9/2023.

Lauri Nummenmaa on professori valtakunnallisessa PET-keskuksessa.

 

KUVATEKSTIT:

Numeroiden avulla tietoa on mahdollista esittää tarkasti.

Lauri Markkasen vapaaheittojen onnistumisen todennäköisyydeksi on laskettu 85 prosenttia.

Persoonallisuus voi paljastua pelkän somekäytöksen perusteella.