Potilastiedon arkiston näyttömuotoisen aineiston hyödyntäminen tilastoinnissa ja tutkimuksessa: tietojen rakenteellistaminen koneoppimismenetelmin (Aioli)

Kesto:

Hankkeen saama tutkimuslupa on voimassa 16.2.2024–31.12.2029.

Vastuuyksikkö:

Aineistot ja analytiikka

Hankkeessa pilotoidaan koneoppimismenetelmiä, joilla potilaskertomustekstistä irrotetaan tilastoinnille, seurannalle ja tutkimukselle hyödyllisiä tietoja yhtenäiseen muotoon. Tekstimuotoisten terveysaineistojen tutkimuskäyttö on ollut rajallista, sillä laajat väestötutkimukset edellyttävät mahdollisuutta analysoida koneellisesti suuria määriä tietoa. 

Potilaiden hoitotilanteissa kerätyt tiedot ovat pitkään olleet tärkeä tietolähde, kun on tutkittu mm. sairauksien esiintymistä diagnoosimerkintöjen perusteella tai lääkkeiden käyttöä lääkerekisterien avulla. Hyödynnetyt tiedot ovat yleensä olleet helposti käytettävissä olevassa rakenteisessa muodossa, mutta on paljon sellaisia tärkeitä aiheita, joiden kohdalla rakenteiset tiedot ovat puutteellisia.

Tavoitteet

Tavoitteena on muuttaa Potilastiedon arkiston (PTA) vapaatekstimuotoista potilaskertomustietoa yhtenäiseen rakenteiseen muotoon hyödyntämällä nykyaikaisia tietojenkäsittelyn ja koneoppimisen menetelmiä. 

Pilottihankkeessa potilaskertomuksista tunnistetaan pituus-, paino- ja verenpainetietoja sekä tietoja potilaan tupakoinnista. Hankkeen laajempana tavoitteena on vapaatekstimuodossa olevan tiedon käsittelyn osaamisen ja siihen liittyvän infrastruktuurin kehittäminen.  

Toteutus

Tutkimuksen aineistona hyödynnetään alkuvaiheessa diabetesrekisteriä, josta tunnistetaan Potilastiedon arkiston (PTA) hoitoasiakirjojen vapaatekstimuotoisia kirjauksia potilaiden pituudesta, painosta, verenpaineesta ja tupakoinnista. Vertailun vuoksi hyödynnetään myös rakenteisia kirjauksia. Asiakirjojen tiedot pseudonymisoidaan ennen käsittelyä. 

Pieni osa tiedoista annotoidaan eli hankkeen tutkijat lukevat tekstejä ja tunnistavat niistä hankkeen kannalta olennaisia tietoja. Annotoituja tietoja käytetään koneoppimisalgoritmien opettamiseen. 

Koneelliseen tiedon luokitteluun käytetään useita lähestymistapoja, kuten sääntöpohjaisia menetelmiä, ohjattua oppimista sekä generatiivisia kielimalleja. Hankkeessa vertaillaan erilaisten lähestymistapojen laadullista suorituskykyä ja tehokkuutta. 

Kaikki tietojen käsittely tapahtuu THL:n omissa tietoturvallisissa laskentaympäristöissä, ja käytettävät kielimallit ovat avoimen lähdekoodin malleja, jotka asennetaan THL:n ympäristöön. Hankkeessa kehitettyjä algoritmeja ei julkaista arvioimatta niihin mahdollisesti liittyviä tietosuojariskejä. 

Tutkimuksen hyödyllisyyttä mitataan arvioimalla, kuinka luotettavasti tietojen koneellinen irrottaminen vapaatekstistä onnistuu. Lisäksi tutkimuksessa arvioidaan, miten merkittävästi vapaatekstimuotoisen tiedon hyödyntäminen parantaa muuten saatavilla olevien tietojen kattavuutta. Myös tietojen kirjaamisen yhdenmukaisuutta eri potilastietojärjestelmissä arvioidaan.  

Tuloksia julkaistaessa huolehditaan siitä, että tiedot ovat anonyymeja eli yksittäisiä henkilöitä ei voida tunnistaa.

Yhteystiedot

Petteri Hovi
tutkimuspäällikkö
puh 029 524 8941
sähköposti: [email protected] 

Tuomo Nieminen
tilastotutkija
puh 029 524 7534
sähköposti: [email protected]

Jokke Häsä
tilastotutkija
puh 029 524 8187
sähköposti: [email protected]

Mika Pihlajamäki
kehittämispäällikkö 
puh 029 524 7733
sähköposti: [email protected]