Siirtolaiskriisin olisi voinut ennustaa – Joonas Tuhkuri kehittää Big dataan perustuvia ennustemenetelmiä

MIT-yliopiston tutkija Joonas Tuhkuri on kehittänyt menetelmän, jolla on mahdollista ennustaa tulevia siirtolaisvirtojen määriä. Vuoden 2015 siirtolaisaallon huippu olisi tällä menetelmällä ollut mahdollista havaita muutama kuukausi etukäteen.

Haastattelu: Sami Metelinen

Tuhkurin tutkimuksen alustavista tuloksista voi päätellä, että tietojen hakeminen turvapaikan saamisesta lisääntyi tuntuvasti ennen siirtolaisaaltoa useissa maissa. Tiedot perustuvat Googlen hakukonetietoihin.

Joonas Tuhkuri

  • tekee väitöskirjaa MIT-yliopistossa (Massachusetts Institute of Technology) professori Daron Acemoglun ja professori David Autorin ohjauksessa
  • on kehittänyt Googlen hakukonedataan ja työttömyystilastoihin perustuvan ETLAnow’n, joka ennustaa työttömyysasteen kolmen kuukauden päähän kaikissa 28 Euroopan unionin maassa
  • tutkii sitä, mitä tapahtuu lapsille ja nuorille niillä paikkakunnilla, joilla teollisuustyöpaikat ovat kadonneet Yhdysvalloissa
  • on valmistunut Helsingin yliopistosta valtiotieteiden maisteriksi pääaineenaan taloustiede

Samanlaista menetelmää soveltaen Tuhkuri on kehittänyt Elinkeinoelämän tutkimuslaitos Etlalle työttömyyttä kolmen kuukauden päähän ennustavan ETLAnow’n.

Hän soveltaa tutkimuksessaan niin sanottua Big dataa eli suuria tietoaineistoja. Dataa on käytettävissä enemmän kuin koskaan ja laskentateho mahdollistaa suurten tietomäärien käsittelyn. Uudet menetelmät antavat entistä tarkempaa tietoa siitä, mitä maailmassa tapahtuu tällä hetkellä ja lähitulevaisuudessa. Se voi parantaa päätöksentekijöiden valmiutta varautua yllättäviin tilanteisiin.

 

Vuonna 2015 Euroopan unioniin jätettiin Euroopan parlamentin mukaan yli 1,3 miljoonaa uutta turvapaikkahakemusta. Se oli yli tuplasti edellisvuoteen nähden ja määrä yllätti Euroopan. Erityisesti kasvoi Syyriasta, Irakista ja Afganistanista lähteneiden turvapaikanhakijoiden määrä. Joonas Tuhkuri, olisiko turvapaikanhakijoiden määrän kasvu Euroopassa ollut ennustettavissa?

Pakolaiskriisi oli aito yllätys, mutta sen ei olisi tarvinnut olla.

Olen tutkinut sitä, miten siirtolaiskriisin olisi voinut ennustaa hyödyntämällä esimerkiksi Googlen hakudataa. Ilmeisesti Google-haut olisivat ennakoineet pakolaisten saapumisen Eurooppaan muutamaa kuukautta ennen kuin niin todella tapahtui.

Ihmiset alkoivat jo kolme kuukautta aiemmin hakea tietoa siitä, kuinka hakea turvapaikkaa Euroopasta. Esimerkiksi syyrialaiset käyttivät selvästi enemmän hakusanoja ”asylum in Germany”. Myös Afganistanista haettiin tietoa vastaavilla hakusanoilla persian kielellä ja Irakissa arabiaksi. Tietoa turvapaikasta haettiin Saksasta sekä Ruotsista.

Google-hauilla on ennustevoimaa sen suhteen, kuinka paljon turvapaikanhakijoita saapui rajoille. Jos olisimme pystyneet katsomaan näitä aineistoja etukäteen, meillä olisi ollut parempi kuva tulijoiden määrästä.

Tulleiden ihmisten määrä oli ennenkuulumaton ja pikkutarkkaa kuvaa on tietysti vaikea ennustaa, mutta olisimme ainakin huomanneet, että jotain on tekeillä.

Turvapaikkaan liittyvä hakuaktiivisuus Google-hauissa (punainen) ja turvapaikkahakemukset (sininen) Saksassa 2013-2016 Syyrian, Afganistanin ja Irakin osalta. Googlen hakuja kuvaava muuttuja on laskettu paikallisten kielten komposiitti-indeksinä ja kuvaa kiinnostusta turvapaikkaan Saksassa. Lähteet: UNHCR ja Google Trends. Tuhkuri (2018). [1]

 

Eri Euroopan maissa ihmisten mielissä on kysymys, milloin seuraava siirtolaisaalto alkaa. Onko nyt mahdollista ennustaa seuraavan aallon alkaminen?

Sitä ei voi luvata, mutta kyllä Googlen hakudata antaisi asiasta viitteitä. Nyt meillä on käytössämme ainakin jonkinlainen aineisto kysymyksiin, jotka ehkä vielä 5–10 vuotta sitten olivat aika spekulatiivisia. Näemme, mitä tapahtuu juuri nyt keskustelusivustoilla, Googlessa, ja Twitterissä.

 

Onko sinun tietojesi mukaan nyt käytössä Googlen hakudataan perustuvaa ennustemenetelmää siirtolaisvirtojen määrien ennustamiseksi?

Ilmeisesti ei. Puhuin tästä aiheesta Euroopan unionin komissiossa jo keväällä 2016. Silloin aiheeseen oli aitoa kiinnostusta. He kutsuivat minut puhumaan työttömyyden ennustamisesta Big dataa soveltaen, ja puhuin samalla myös muista mahdollisuuksista.

 

Kerrot soveltavasi tutkimuksessasi ja ennustemalleissa Big dataa. Mistä on kyse?

Big data kuvaa kahta muutosta.  Ensimmäinen muutos on se, että meillä on enemmän dataa käytössä kuin koskaan aiemmin. Kahdessa päivässä tuotetaan enemmän aineistoa kuin ihmiskunta tuotti vuoteen 2017 mennessä.

Toisaalta Big data kuvastaa myös sitä, että informaatiota on alettu käyttää laajemmin. Tällaisia ovat esimerkiksi neuvola-aineistot tai lääketieteellinen tilastotieto.

Laajempi datan käyttäminen on tullut mahdolliseksi, kun tietokoneiden laskentateho on kasvanut. Se on teknologinen muutos samalla tavalla kuin höyrykone tai muut ihmisvoiman korvanneet koneet.

MIT:n Andrew McAfee ja Erik Brynjolfsson nimesivät aikamme toiseksi koneajaksi samannimisessä teoksessaan The Second Machine Age. Minusta tämä on hauska tapa lähestyä asiaa. Kun höyrykoneet ja polttomoottorit tulivat, ihmisten ei tarvinnut olla enää niin vahvoja. Ihmisvoima korvatiin konevoimalla. Se oli ensimmäinen koneaika. Nyt meillä on enemmän laskentatehoa ja sillä voidaan korvata osittain ihmisaivojen tehoja. Se on The Second Machine Age, toinen koneiden aika.

Aiemmin ei olisi ollut esimerkiksi realistista kerätä ja hyödyntää Suomen kaikkea liikennedataa tai kerätä kaikkea tietoja käteismaksuista. Vaikka olisikin ollut teknisesti mahdollista kirjata tiedot muistiin, sillä datalla ei olisi saanut paljon aikaiseksi. Meillä ei olisi ollut teknologiaa aineiston käsittelemiseen.

 

Olet kehittänyt Elinkeinoelämän tutkimuslaitos Etlalle ETLAnow’ksi nimetyn työttömyyden ennustemallin, joka soveltaa Googlen hakudataa. Onko tällaisia menetelmiä muualla käytössä?

Silloin, kun Etla julkaisi tämän, se oli uskoakseni täysin uusi projekti. Projektien potentiaalista on kirjoitettu aika paljon, mutta tietääkseni tämän tyyppistä ei ole vielä julkisesti käytössä missään muualla.

 

ETLAnow

  • on Joonas Tuhkurin vuonna 2014 kehittämä ennustemenetelmä työttömyydelle
  • ennustaa työttömyyden tason kolmen kuukauden päästä 28 Euroopan unionin maassa
  • on yhteistyöprojekti 29 eurooppalaisen tutkimuslaitoksen kanssa
  • päivittyy päivittäin
  • on Etlan ennustepäällikön Markku Lehmuksen ylläpitämä
  • päivittyy kehittyneemmällä menetelmällä lokakuussa
  • löytyy osoitteesta https://www.etla.fi/etlanow/

Miten ETLAnow pääpiirteissään toimii?

Siinä käytetään pohjana alkuperäisiä, historiallisia työttömyystietoja edellisiltä kuukausilta ja vuosilta. Siihen päälle tuodaan Googlen hakutiedot. Meillä on pohjalla se, miten työttömyys tavallisesti toimii. Google-hauista saadaan lisäksi signaali, millä tavalla asiat ovat tällä kertaa toisin.

 

ETLAnow ennustaa työttömyyden kolmen kuukauden päähän kaikissa 28 Euroopan unionin maassa. Palvelu on kenen tahansa nähtävillä Etlan nettisivuilla. Sen tiedot päivittyvät joka päivä tuoreimmilla hakukonetiedoilla. Mitä hakusanoja ETLAnow etsii Googlen datasta?

Siinä on hakusanoja, jotka kuvaavat sitä kuinka paljon ihmiset hakevat työttömyyskorvauksia. Se on ennakoiva signaali. Ihmiset näyttävät tietävän jotain jo ennen kuin työpaikka menee alta ja alkavat tehdä ennakoivia hakuja.

Meillä Suomessa esimerkiksi ”työkkäri” on yksi yleinen hakusana ja ”työttömyyskassa” on toinen. Muissa maissa ei käytetä näitä samoja sanoja, vaan täytyy löytää toisia signaaleja.

Esimerkiksi Yhdysvalloissa työnhakuun liittyvät termit toimivat hyvin selkeänä signaalina.

 

Eikö ole mielenkiintoinen taloudellis-kulttuurillinen ero ihmisten käyttäytymisessä, jos Suomessa haetaan ”työkkäriä” ja korvausta ja Yhdysvalloissa keskeiset hakusanat liittyvät siihen, mistä löytää seuraavan työpaikan?

Näin voi olla, mutta meillä ei ole siitä riittävästi evidenssiä, että näin olisi. Näemme ainakin sen, että ihmiset käyttäytyvät hieman eri tavoin eri maissa.

Googlen dataa on käytetty Yhdysvalloissa myös tarkastelemaan sitä, miten ihmisten työpaikkojen hakuaktiivisuuteen vaikuttaa se, että työttömyyskorvaukset uhkaavat päättyä.

Näemme tämän entistä tarkemmalla resoluutiolla. Tiedämme esimerkiksi, että jollakin alueella on tehty hallinnollinen muutos, jonka myötä työttömyyskorvaus päättyy aiemmin kuin ennen. Näemme, että juuri ennen kuin työttömyyskorvaus on päättymässä, ihmiset hakevat aktiivisemmin uutta työtä.

 

Suomessa tätä keskustelua on käyty aktiivimallin yhteydessä, jonka perusteluna on käytetty tutkimustietoa, jonka mukaan ihmiset aktivoituvat työnhaussa juuri ennen kuin tuen taso uhkaa leikkaantua.

Näin näyttää olevan. Ainakin psykologinen kirjallisuus vihjaa siihen suuntaan, että pienilläkin sysäyksillä on vaikutusta. Taloustieteessä näitä sysäyksiä kutsutaan nimellä nudge, joka tarkoittaa juuri sysäystä tai tönäystä.

 

Näkeekö ETLAnow’sta aktiivimallin vaikutuksen Suomessa?

Näemme ETLAnow-mallilla, että työttömyys on laskenut huimaa vauhtia tänä kesänä. Näimme sen jo ennen kesää. Se, miten paljon tämä liittyy aktiivimalliin, ei ole mitenkään selvää. Ainakin tämä on tosi positiivinen uutinen.

 

Millä tavalla työttömyys kehittyy Suomessa lähikuukausina?

Etlan tiimi on tehnyt uusimmat ennusteet uudella mallilla. Työttömyys alenee vielä, mutta sitten lasku tasoittuu. Tässä täytyy taas ottaa huomioon, miten ennustaminen tapahtuu. Meillä on olemassa informaatiota johonkin asti. Sen jälkeen konservatiivinen ennuste alkaa olla paras ennuste. Työttömyyden lasku näkyy muutaman kuukauden päähän hakuaineistoissa, mutta sen jälkeen ehkä paras ennuste on se, että lasku ei jatku loputtomiin.

 

Miten ennustemalli poikkeaa siitä, miten perinteisesti on totuttu ennustamaan talouden muuttujia kuten työttömyyttä?

Perinteisesti on ennustettu siten, että ennustaja muodostaa useiden aineistojen perusteella jonkinlaisen kokonaisnäkemyksen siitä, mihin suuntaan talouden tila tai työttömyysaste on menossa.

ETLAnow toimii aika eri tavalla. Tuotamme ennusteet tilastollisin menetelmin suoraan aineistosta. Isoin ero on se, että tämä ennuste on reaaliaikainen ja heti käytettävissä. Me saamme joka aamu Google-datasta tiedot. Niitä verrataan virallisiin työttömyystilastoihin, jotka tulevat aina myöhässä.

Perinteisissä ennusteissa viiveellä julkaistava data vaikuttaa aika paljon siihen, miten ennuste muodostuu. Tällä erolla on iso merkitys talouden käännepisteissä. Vuoden 2008 talouskriisi on klassinen esimerkki aiheesta. Silloin ei tiedetty, mikä työttömyystilanne oli juuri sillä hetkellä. Tämä oli yksi tekijä, joka teki ennustamisesta vaikeaa. Tällaisissa tilanteissa reaaliaikainen tieto olisi hyödyllistä.

 

Käännepisteet eivät näy vanhassa datassa.

 

Ilmeisesti tämä voisi ainakin mahdollistaa paremmin merkittävien käännepisteiden havaitsemisen taloudessa?

Siltä se näyttää. Käännepisteet eivät näy vanhassa datassa. Jos vanha aineisto on vaikkapa kolme kuukautta myöhässä, niin meillä ei ole tietoa, onko talouden tila kääntynyt vai ei. Jos saamme reaaliaikaisella aineistolla täytettyä puuttuvat kolme kuukautta historiaa ja näemme että reaaliaikaiset signaalit kaikki näyttävät punaista, voimme arvioida että käänne on todennäköisesti tapahtumassa.

 

Millä tavalla ETLAnow’n tiedot ovat osuneet kohdilleen jälkikäteen tulleiden työttömyystilastojen kanssa?

Tiedot ovat pitäneet hyvin paikkansa. Se pärjää paremmin kuin vertailuennusteet, joissa  käytetään vain tavallisia aineistoja. Toisaalta tämän menetelmän ei ole tarkoitus korvata ammattilaisten tekemiä ennusteita, vaan olla enemmänkin signaali.

 

Voiko tästä olla apua, että suhdannepolitiikan tekemisessä tulisi paremmin oikea-aikaista?

Kyllä. Monet ovat sitä mieltä, että yleisesti ottaen olisi hyvä saada enemmän tieteellistä tietoa päätöksenteon tueksi. Voisi kuvitella, että mitä tarkempaa dataa meillä on, sitä vahvempi on argumentti. Jos meillä on tarkkaa tietoa tästä hetkestä, silloin on paljon enemmän voimaa toivoa, että päätöksiä tehtäisiin enemmän tieteellisen tiedon tai datan perusteella.

 

Miten voidaan varmistaa, että netissä oleva tieto on oikeaa?

Ensinnäkin täytyy olla aika tarkka sen suhteen, onko se hyödyllistä dataa. Tiedämme esimerkiksi Twitterin datasta, että aika iso osa Twitterin käyttäjistä on botteja, automaattiohjelmia. Ainakaan se ei välttämättä kuvaa sitä, mitä me haluaisimme sen kuvaavan eli ihmisten mielialoja.

Tieto on tavallaan aina oikeaa. Täytyy vain miettiä, mitä se tieto kuvaa, tai kenen käyttäytymistä. Google-hakudatakin on valikoitunut otos suomalaisista, jotka käyttävät juuri Googlea tiedon hakemiseen työttömyyskorvauksesta. Se vaikuttaa kuitenkin olevan aika johdonmukainen tieto koko väestöstä.

Pitää olla varovainen ja pitää verifioida. Tarvitsemme myös perinteistä dataa, johon voimme varmasti luottaa. Silloin voimme peilata uutta Big dataa näihin aineistoihin ja validoida sitä. Ennustajan ammattitaitoa tarvitaan juuri siinä ja tämä on yksi syy siihen miksi emme voi automatisoida ennustamista ihan loppuun asti.

 

Jos jotain ilmiötä tarkastellaan aiempaa lähempää, voiko olla riskiä, että itse asian tutkiminen vaikuttaa siihen, miten tutkittavat käyttäytyvät?

Näillä uusilla menetelmillä meillä on ikään kuin paremmat kiikarit ja parempi kaukoputki, emme välttämättä mene lähemmäs. Jos meillä on entistä parempi resoluutio digikamerassa, se ei välttämättä vaikuta kuvattavan käyttäytymiseen. Meillä on vain tarkempi kuva ja joskus tällä tarkkuudella voi olla ratkaiseva merkitys.

Big data on usein mikroaineistoa ihmisistä. Nyt meillä on tarpeeksi laskentatehoa käsittelemään koko maailman kompleksisuutta yksilötason datassa. Ennen vanhaan yksilötason data oli pakko summata yhteen aggregaateiksi, jotta laskentateho riittäisi tiedon käsittelemiseen. Nyt pystymme isommilla tehoilla käsittelemään paremmin maailman monimutkaisuutta.

Yksi näkemys makrotalouden ongelmiin – siihen, milloin tulee kriisejä ja mistä suhdanteet johtuvat – liittyy erilaisiin kitkatekijöihin. Hinnat eivät sopeudu automaattisesti. Jos on olemassa lisäinformaatiota markkinoilla siitä, minkälainen tilanne on, sillä voisi mahdollisesti olla suhdannevaihteluita tasaavaa vaikutusta, kun markkinoilla on parempi tieto. Tämä on kuitenkin vain yksi puoli asiasta.

 

Voiko ajatella, että sama pätee myös tekoälyn soveltamisessa, että tarvitaan edelleen ihmistä kontrolloimaan, ettei tapahdu mitään manipulaatiota tai jotain täysin yllättävää?

Näin on. Se on sitten yksi tärkeimmistä kysymyksistä, että kun Big data ja tekoäly tulevat laajempaan käyttöön, miten ne muuttavat työmarkkinoita.  Korostuvatko sosiaaliset taidot ja arvostelukykyyn liittyvät taidot, joita koneet eivät osaa? Vai korostuvatko kuitenkin sellaiset taidot, jotka ovat lähempänä sitä, mitä koneet osaavat kuten esimerkiksi laskentataidot, kognitiiviset taidot, matemaattiset taidot tai ohjelmointi? Tämä on se ydinkysymys.

Tutkin tätä aktiivisesti ja yritän löytää siihen vastauksen.

 

Olet väitöskirjatutkijana MIT:ssa. Mitä väitöstutkimuksesi koskee?

Uusimman tutkimusprojektini nimi on Children of Crisis. Tutkin sitä, mitä tapahtuu lapsille ja nuorille Yhdysvalloissa paikkakunnilla, joista teollisuustyöpaikat ovat kadonneet.

Tutkin siis työn tulevaisuutta hyvin pitkällä aikavälillä.

Yllättävä havainto on se, että nuoret pärjäävät paremmin näillä hiipuvilla teollisuuspaikkakunnilla. Nuoret jatkavat pidemmälle kouluun, pienempi osa heistä jättää koulun kesken ja useampi jatkaa lukioon ja myös yliopistoon kuin verrokkipaikkakunnilla. Havainto on tietysti aika yllättävä, jos ajattelee, että samaan aikaan näillä paikkakunnilla huostaanotot ja avioerot lisääntyvät, ja lasten köyhyys ja huumeiden käyttö kasvavat.

Hypoteesini on, että näillä paikkakunnilla on vähemmän houkuttimia jättäytyä koulusta pois.

 

Miten hyödynnät Big dataa tässä tutkimuksessa?

Käytän isoja aineistoja, joissa on miljoonia havaintoja. Minulla on myös esimerkiksi tarkkaa kaupankäyntidataa, jopa tuotetasolla.  Mitä enemmän minulla on dataa, sitä enemmän minulla on resoluutiota ja sitä tarkempiin tuloksiin pääsen.

 

Millä tavalla väitöskirjaohjaajasi professori Daron Acemoglun tutkimus ja elämäntyö on vaikuttanut sinun kiinnostuksen kohteisiisi?

Hän tarttuu keskeisiin aiheisiin jopa silloin, kun se vaikuttaa liian vaikealta eli näyttää siltä, että vastausta ei ole helppo saada. Tätä yritän kehittää itsessänikin

Toisekseen hän satsaa tutkimukseen todella paljon ja tekee huolellista työtä. Se on hyvä muistutus siitä, että aina voi yrittää tehdä paremmin.

 

Haastattelija Sami Metelinen on EVAn toimituspäällikkö.

 

LÄHTEET

BRYNJOLFSSON, E. ja McAfee, A. (2014): The Second Machine Age. Norton.

CLAYTON, J. ja Holland, H. (2015): Over one million sea arrivals reach Europe in 2015. UNHCR. http://www.unhcr.org/afr/news/latest/2015/12/5683d0b56/million-sea-arrivals-reach-europe-2015.html

EUROOPAN PARLAMENTTI (2018): A Welcoming Europe? http://www.europarl.europa.eu/external/html/welcomingeurope/default_en.htm

HETEMÄKI, M. (2018): Aktiivimallin toiminta, tausta ja kritiikki. Valtiovarainministeriö. https://vm.fi/artikkeli/-/asset_publisher/aktiivimallin-toiminta-tausta-ja-kritiikki

TUHKURI, J. (2014): Big Data: Google-haut ennustavat työttömyyttä Suomessa. ETLA Reports No. 31. https://www.etla.fi/julkaisut/33195/

TUHKURI, J. (2016): Forecasting Unemployment with Google Searches. ETLA Working Papers No. 35. https://www.etla.fi/julkaisut/forecasting-unemployment-with-google-searches/

TUHKURI, J. (2016): ETLAnow: A Model for Forecasting with Big Data – Forecasting Unemployment with Google Searches in Europe. ETLA Reports No. 54. https://www.etla.fi/wp-content/uploads/ETLA-Raportit-Reports-54.pdf

 

[1] Alkuperäinen englanninkielinen kuvateksti: Google search activity for asylum (red) and asylum applications (blue) in Germany 2013–2016 from Afghanistan, Iraq and Syria. The Google search measure is measured as a composite index in the local languages and reflects online interest in asylum in Germany. Sources: UNHCR and Google Trends.