Semanttinen Finlex ja lähtötiedon rajoitteet

Aiemmissa tarkasteluissa olen tunnistanut haasteita, jotka liittyvät saatavilla olevaan tietoon säädöksistä ja niiden sisällöstä. Monet mainituista ongelmista on tunnistettu jo kauan sitten säädöskokoelman Finlex-palvelun avoimen datan käyttöön kannustavassa semanttinen Finlex -sivustossa.

Semanttinen Finlex ja lähtötiedon rajoitteet

Aiemmissa tarkasteluissa olen tunnistanut haasteita, jotka liittyvät saatavilla olevaan tietoon säädöksistä ja niiden sisällöstä. Monet mainituista ongelmista on tunnistettu jo kauan sitten säädöskokoelman Finlex-palvelun avoimen datan käyttöön kannustavassa semanttinen Finlex -sivustossa. Erityisesti siellä korostetaan, että he tarjoavat haasteisiin lääkkeeksi seuraavaa

Ongelman ratkaisee Finlex-tietokantaan ja -verkkopalveluun perustuva Semanttinen Finlex, joka koostuu seuraavista osista:
1. Suomen lainsäädännön ja -käytön avoimen linkitetyn datan palvelu.
2. Datapalvelun hyötykäyttöä esittelevät pilottisovellukset.

Ongelmaa on kyllä ratkottu varsin mallikkaasti ja tietoa tarjotaan useassa koneluettavassa muodossa JSON, XML ja RDF. Lisäksi semanttisen webin hengessä kaikille määritellyille rakenteille on määritetty pysyvät universaalit tunnisteet (URI:t) ja selaaminen niiden välillä onnistuu helposti.

Saavutukset ja haasteet

Erityisenä saavutuksena voidaan pitää sitä, että raakadata päivittyy suoraan Finlexistä ja kääntyy uusiksi sivuiksi. Samoin on hienoa, että he ovat onnistuneet muodostamaan useita versioita säädöksistä perustuen ajantasaisen version päivittymiseen. Haasteellisen tästä tekee se, että ajantasaisten säädösten kokoelma ei suoraan tue tätä. Semanttisen Finlexin sanoin:

Kun julkaistaan uusi säädös, kuten laki tai asetus, se tulee Finlexin SA-kokoelmaan. Uusi säädös tyypillisesti korjaa tai täydentää aiempia säädöksiä muuttaen niiden eri kohtia. Kullakin ajanhetkellä voimassa olevat säädökset muodostavat ajantasaisen lain. Haasteena on, että ajantasainen lainsäädäntö -kokoelmaa (AL) ei nykyisellään voida täysin automaattisesti tuottaa aiemmista ajantasaisista laista ja niiden jälkeisistä säädöksistä, vaan tässä joudutaan tekemään tekstin tulkintaa ja editoimaan muuttuneita lakeja käsityönä.

Tämä on sama asia, jonka sanoin toisesta näkökulmasta aiemmassa blogissani ja tunnistin paljon aiemmin. Koska laki onkin pino lakeja ja muutokset tehdään luettelemalla muutoskohdat ja tulostamalla muuttuneet uuteen tiedostoon/sivuun. Semanttinen Finlex osaa purkaa kohdat ja alakohdat tekstistä ja päätellä muuttuneet pääosin, mutta tietokannassa on paljon lakeja ajalta, jolloin ajantasaisia versioita ei ollut haettu ja tallennettu.

Ratkaisuehdotus

Aiemmin olen esittänyt, että säädösten tietomallia pitäisi päivittää siten, että se huomioi kullekin kohdalle voimassaoloajan ja tiedon sen aiheuttaneista säädösmuutoksista. Käytännössä tällä lisäyksellä semanttinen Finlex pystyisi ylläpitämään ajantasaista tietoa säädöksistä.

Lisäksi myös lakien ja asetusten säätämistä pitää muuttaa huomioimaan tämä seikka eli ensiksi tunnistetaan muutoksen ja varsinaisen säädöksen ero.

Kuva 1. Muutossäädökset ovat varsinaisten säädösten päivityksiä.

Tämän lisäksi muutoksissa pitää kuvata rakenteisesti se, mitä muutetaan, jotta se voidaan lukea koneellisesti. Itse valmisteluvaiheita ei välttämättä tarvitse muuttaa, mutta loppuvaiheissa muutoksen vaikutus on kuvattava rakenteisesti, erityisesti säädösmuutosten kohdalla

Kuva 2. Säädösmuutoksen tulkinta rakenteiseksi valmistelun loppuvaiheessa.

Kun tietomallia ja RDF-skeemaa päivitetään sopivasti, voidaan varmasti tehdä käsin ne epäselvät kohdat eli mihin kohtaan tai alakohtaan tekstit sijoitetaan. Ja jatkossa uudella tavalla URI:t ja muu avoin data voidaan tuottaa valmistelua tukevan tietomallin perusteella. Perusrakenteeseen, joka on alla

Kuva 3. Säädösten tietomalli, jossa sisältö ja rakenne erotetaan toisistaan.

lisätään tarvittavia määreitä, jotta tieto voidaan julkaista avoimena datana. Tekemällä rakenteistaminen oikeassa kohdassa eli juuri ennen julkaisua saadaan kaksi merkittävää etua

  1. Varsinaisten säädösten määrä pienenee huomattavasti ja niitä voidaan tarkastella mielivaltaisella ajanhetkellä, mitä monet sovellukset varmasti kaipaavat.
  2. Muutossäädösten muoto ja ylläpito helpottuu huomattavasti. Eikä enää tarvitse viitata aiempien muutosten pinoon.

Tämä idea on vapaasti käytettävissä ja voin myös osallistua tarvittaessa jatkokehittämiseen sekä hyödyntämiseen. Avoin data on arvokas asia. Itseäni kiinnostaa rakenteistamisen lisäksi myös tulkinta, joka voi olla jo haastavaa semanttisen webin keinoin.

Menestystä kaikille lakitiedon kehittäjille terveisin #tietomallimies.