Datan määrän ja merkityksen kasvaessa korostuu yhä enemmän myös datan käytettävyys. Osaammeko löytää, ymmärtää, ja käyttää dataa oikein? Miten saamme asiantuntijoiden osaamisen ja hankkeissa kertyvän viisauden osaksi dataa, myös sen seuraavia hyödyntäjiä varten? Datakatalogi ei ratkaise näitä, mutta se tarjoaa alustan datan käytettävyyden kehittämiselle.
Kaupunkiympäristössä yksikin kysymys voi vaatia monta näkökulmaa — ja monenlaista dataa. Esimerkiksi sään vaikutuksia liikenteeseen tutkiva asiantuntija saa etsiä sopivaa dataa monista eri järjestelmistä. Potkulautojen käytön data on yhdessä paikassa, julkisen liikenteen toisessa, tieto lumiaurauksesta muualla, ja niin edelleen. Lisäksi jokaisella tietolähteellä on omat asiantuntijansa, joiden apua usein tarvitaan jotta dataa osataan ymmärtää oikein. Kun dataa on valtava määrä ja asiantuntijoita monia, tällaisen kokonaiskuvan muodostaminen ei onnistu helposti.
Perinteinen ratkaisu tällaiseen osaamisen jakamiseen on dokumentointi. Datan kohdalla dokumentaatio harvoin kuitenkaan pysyy mukana nopeasti muuttuvassa datakentässä, eikä varsinaiset dataa käsittelevät tai säilövät työkalut yleensä tarjoa ratkaisuja muun tiedon kuin itse datan jakamiseen. Puhumattakaan, että nämä tekniset työkalut olisi kaikkien datan käyttäjien saavutettavissa! Datakatalogi vastaakin pohjimmiltaan tähän haasteeseen; eli tiedon jakamiseen.
Datakatalogi kerää eri järjestelmistä automaatiolla eri datasettien rakenteen ja perustiedot, ja tuo ne yhteen helposti käytettävään paikkaan. Näin dataa teknisesti käsittelevät järjestelmät keskittyvät datan säilömiseen ja siirtämiseen, kun taas katalogi tarjoaa sopivat ominaisuudet datan löytämiseen ja ymmärtämiseen. Datakatalogin helpon käyttöliittymän kautta kaikilla on mahdollisuus tutustua mitä dataa on saatavilla, ja mitä data käsittää.
Datakatalogin kanssa sään vaikutuksia tutkivan asiantuntijan työ alkaisikin ketterästi katalogin hakukentästä.
Avoimella lähdekoodilla eteenpäin
Forum Virium Helsinki oli jo vuonna 2009 mukana HRI-hankkeessa, josta on vuosien saatossa kehittynyt pääkaupunkiseudun arvostettu avoimen datan katalogi. Ennen kuin data päätyy HRI:n katalogiin, syntyvät ne erilaisista kaupungin ja yhteistyökumppanien järjestelmistä, hankkeista, ja prosesseista. Nyt olemme pilotoineet uuden sukupolven datakatalogia tähän sisäiseen käyttöön, joka mahdollistaisi näiden tietolähteiden parempaa hyödyntämistä ja hallintaa. Näin tieto ja ymmärrys datasta alkaa kertyä jo mahdollisimman varhaisessa vaiheessa. Ja kuten HRI, myös tämä ratkaisu perustuu avoimen lähdekoodin ratkaisuihin.
Uuden sukupolven datakatalogeissa automaatio ja käytettävyys on keskiössä. Siinä missä julkiseen käyttöön menevät tietolähteet julkaistaan käsin, sisäiseen käyttöön tarkoitettu katalogi julkaisee kaikkia datalähteitä automaattisesti ja jatkuvasti. Aloitimme kokeilun talvella 2022, ja jo ensimmäisten viikkojen aikana katalogi oli yhdistetty tärkeimpään tietovarastoon sekä virtaavan IoT-datan järjestelmään.
Datan hyödyntäjille katalogi tarjoaa monia parannuksia:
- Haun, joka toimii eri järjestelmien yli.
- Keskitetyn paikan tiedolle ja dokumentaatiolle datasta, missä pohjana on aina ajantasainen ja automaattisesti päivittyvä metadata.
- Uusia mahdollisuuksia ryhmitellä ja rikastaa datasettejä, esimerkiksi #tägeillä.
- Automaattisia datan kooste- ja laatutietoja.
Datakatalogi onkin teknisesti kohtalaisen yksinkertainen työkalu, mutta sen suurimmat hyödyt tulevat kuitenkin vasta jatkuvan kehityksen ja yhteistyön kautta — kun se palvelee erilaisia datan parissa toimivia asiantuntijoita ja tukee näitä osaamisen ja oppien jakamisessa. Tavoitteena lopuksi onkin tehdä monipuolisesta datan hyödyntämisestä helpompaa ja luotettavampaa. Näin pystymme tekemään yhä viisaampia päätöksiä kaupunkiympäristön kehityksestä.
Teksti:
Mikko Hemmi
IT-konsultti, Toimitusjohtaja
Oikoa Oy
Kuva: Veeti Haapsamo/City of Helsinki
Lisätietoa