Psykologinen testi ja tietojen säilyttäminen
Testit ja kokeet
Arkikielessä sanoja testi ja koe käytetään mitä erilaisimmissa merkityksissä ja usein samaakin tarkoittavina. Tässä yhteydessä testillä tarkoitetaan psykologista testiä ja kokeella koulussa tehtävää oppimisen arviointiin tarkoitettua koetta.
Testi eroaa kokeesta monessa mielessä. Koe on koulussa tai muussa oppilaitoksessa järjestettävä tietojen ja taitojen tutkintatilaisuus, jota käytetään opitun tai osaamisen arvioimiseen. Testi on taasen jonkin ominaisuuden, soveltuvuuden tai kyvyn selville saamiseksi suoritettava tehtäväkokonaisuus. Testejä ei siis käytetä kouluarvosanojen ja koulumenestyksen mittareina. Testejä ei pitäisi milloinkaan käyttää kouluissa arvosanojen tai lukuvuoden opintomenestyksen mittarina.
Psykologinen testi on tehtäväkokonaisuus, jolla pyritään mittaamaan jotain sellaista henkistä ominaisuutta tai kykyä, jota ei voi suoraan havainnoida. Esimerkiksi älykkyys tai työmuisti ovat tällaisia. Älykkyys on käsite, jota ei voi suoraan havainnoida tai mitata. Psykologisissa teorioissa on erilaisia käsityksiä siitä, mitä älykkyys loppu viimeksi pitää sisällään, joten eri teoreettisista lähtökohdista kootut älykkyystestit koostuvatkin erilaisia tehtäviä.
Psykometriikka
Psykologisella testillä pyritään mittaamaan jotain teoreettisesti määriteltyä käsitettä ja kartoittamaan yksilöiden väliset erot tämän mitattavan ominaisuuden suhteen. Sen toinen keskeinen ominaispiirre on pohjautuminen empiirisiin (kokeellisiin) tutkimuksiin. Tutkimuksen avulla arvioidaan tehtäväkokonaisuuden kykyä mitata luotettavasti sitä teoreettista käsitettä, jota se on rakennettu mittaamaan. Käytetyt termit ovat mittarin reliabiliteetti ja validiteetti. Ominaisuuksien ja käyttäytymisen mittaamista koskevaa tiedettä eli psykologista testausta kutsutaan psykometriikaksi.
Psykometrisiksi testiksi kutsutaan sellaisia testejä, jotka perustuvat (a) otokseen kohdepopulaation käyttäytymisestä, joissa (b) mittaus on suoritettu standardoidussa muodossa ja olosuhteissa, ja (c) joissa havaittu / mitattu käyttäytyminen tai suoritus muunnetaan vähintään välimatka-asteikolliseksi mittamuuttujaksi (esimerkiksi älykkyysosamääräpisteiksi). Kaikki psykologiset testit eivät ole välimatka-asteikollisia. Esimerkiksi monet persoonallisuutta kuvaavat mittarit ovat laatuasteikollisia.
Psykologinen testi ja psykologin tutkimus
Yhden testin tulos ei koskaan ole riittävä psykologiseen arviointiin. Testi on vain yksi väline muiden tiedonhankintakeinojen joukossa. Psykologin tutkimus koostuu useammista testeistä kerätyn tiedon lisäksi haastattelusta, anamneesista sekä oppimisvaikeuksien arvioinnissa yleensä myös vanhemmilta ja opettajilta lomakkein ja haastatteluin kerätystä tiedosta. Myös testien tuloksia tulkitaan aina suhteessa muuhun tietoon. Yksittäisen testin tuloksella ei ilman muuta tietoa ole arvoa. Psykologin lausunto perustuu aina psykologin tutkimukseen, ei testin tai testien tuloksiin.
Testit osana kliinistä haastattelua
Oppimisvaikeuksien arviointiin tarkoitetut testit voidaan rinnastaa kliiniseen haastatteluun, jolla pyritään selvittämään vaikeuksien ilmenemistä ja vaikeusastetta sekä keräämään diagnostista tietoa kuntoutuksen suunnitteluun. Testit eroavat kliinisestä haastattelusta siten, että testit ovat vakioituja ja ne pyritään esittämään kaikille haastateltaville mahdollisimman muuttamattomassa muodossa. Testien esittäminen kaikille testattaville vakioidussa muodossa on yksi testituloksen arvioinnin luotettavuuden edellytys. Mikäli testaus on tehty vertailuaineistosta poikkeavalla tavalla, ei vertailua voida luotettavasti suorittaa. Siksi koulukokeissa opettajalla onkin enemmän vapausasteita muokata tehtävien esitystapaa tai jopa avustaa joitain oppilaita kokeiden suorittamisessa. Tätä vapautta ei ole standardoidun testin käytössä.
Testien tulosten tulkinta sisältää sekä määrällisen että laadullisen ulottuvuuden. Määrällisessä tulkinnassa testauksesta saatua tulosta arvioidaan yleensä vertailuaineiston tuloksiin. Vertailuaineiston tulee olla riittävän edustava, jotta tulosten suhteuttamista siihen voidaan pitää luotettavana. Edustavalla aineistolla tai otoksella tarkoitetaan sitä, että se riittävällä tarkkuudella kuvastaisi sitä osaamisen vaihtelua, joka vertailupopulaatiossa (esimerkiksi suomalaiset 8–vuotiaat) esiintyy. Opettajilla on usein käytössään vain oman luokkansa tai parhaimmillaan oman koulunsa oppilaiden tulokset vertailuryhmänä. Se harvoin on riittävä vertailupiste oppimisvaikeuksien tarkempaan arviointiin, vaikkakin se on merkittävä tietolähde opettajalle hänen omaan työhönsä.
Laadullisessa tulkinnassa kiinnitetään huomiota vastausten sisältöihin sekä virheisiin. Matemaattisia taitoja mittaavat testit sisältävät usein tehtäviä eri suuruusluokilta ja sisältöalueilta. Tällöin tarkastelussa otetaan huomioon myös virheiden esiintyminen joissakin sisällöissä tai niiden lisääntyminen suuruusluokan kasvaessa. Aritmeettisia laskusuorituksia arvioitaessa kiinnitetään tavallisesti huomiota myös suorituksen sujuvuuteen, käytettyihin laskustrategioihin ja –algoritmeihin. Myös laadullisessa tutkimuksessa on huomioitava poikkeamat vakioidusta suoritustavasta. Mikäli testi suoritetaan vakioidusta poikkeavalla tavalla, on lähes mahdotonta arvioida tämän suoritustavan vaikutusta vastausten sisältöihin.
Testien kyky löytää oikeat tapaukset
Psykometriikassa ja lääketieteessä käytetään termejä ”väärä positiivinen” ja ”väärä negatiivinen” havainto tai löydös. Nämä ovat tärkeitä termejä ymmärtää, kun tarkastellaan testien ominaisuuksia ja kykyä löytää todelliset tapaukset tai esimerkiksi ennustaa esikouluiässä mahdollisia tulevia vaikeuksia oppimisessa.
Väärällä positiivisella (löydöksellä) tarkoitetaan sitä, että testin mukaan henkilöllä on jokin ominaisuus, vaikeus tai häiriö, jota hänellä ei todellisuudessa olekaan. Positiivisella tarkoitetaan siis tässä yhteydessä sitä, että sitä mitä haettiin, se myös löydettiin. Vääriä positiivisia löydöksiä tulee usein matemaattisten oppimisvaikeuksien arviointiin tarkoitetuissa testeissä, jos lapsella on esimerkiksi tarkkaavaisuuden häiriötä tai merkittävää koeahdistuneisuutta, jotka testisuorituksessa ”estävät” häntä osoittamasta todellisia taitojaan.
Väärällä negatiivisella (löydöksellä) tarkoitetaan sitä, että testi näyttää ”negatiivista” tulosta, eli sitä mitä epäiltiin, ei löydetty. Vääriä negatiivisia tuloksia tulee usein silloin, jos testissä käytetty oppimisvaikeuden kriteeri on liian löysä. Kun sama tutkittavien joukko tutkitaan uudelleen muutaman vuoden kuluttua, havaitaan, että iso joukko niistä, joilla testin mukaan piti olla tai tulla vaikeuksia oppimisessa, ovatkin ”kuntoutuneet” ilman ”hoitoakin”.
Esimerkki.
Oletetaan, että matemaattisia oppimisvaikeuksia esiintyisi 5%:lla populaatiosta. Tutkijat ovat kehittäneet Matikkana-testin, joka 6-vuotiaana ennustaa oikein 80% tulevista kouluiän oppimisvaikeuksista. Tätä kutsutaan myös testin sensitiivisyydeksi: miten herkästi se löytää oikeat tapaukset. Samalla kuitenkin 30% niistä 6-vuotiaista, joille testin mukaan kouluiässä tulisi ongelmia, ei ongelmia ilmenekään. Tätä testin kykyä löytää vain oikeita tapauksia kutsutaan myös testin spesifisyydeksi. Sensitiivisyys ja spesifisyys liittyvät suoraan vääriin positiivisiin ja vääriin negatiivisiin löydöksiin.
Oletetaan, että Mäkelän kunnassa päätetään testata kaikki 100 aloittavaa esikoululaista Matikkana-testillä, jotta (a) osattaisiin kohdentaa esikoulun lisäresursseja juuri niille, jotka sitä tarvitsisivat, ja toisaalta (b) ennustaa matematiikan erityisopetuksen tarvetta ensimmäisillä luokilla ja miettiä luokkajärjestelyjä. Tilastollisesti näistä lapsista viidellä pitäisi ilmetä sellaisia vaikeuksia oppimisessa, että erityisopetus on tarpeen jo alusta lähtien. Testillä löydetään heistä 4 (5 x 80%) ja lisäksi testi väittää, että 28:lla (95 x 30%) muullakin lapsella on riski oppimisvaikeuksiin matematiikassa. Koska yksi viidesta erityisopetuksen tarpeessa olevista lapsista jää testillä löytämättä, se tarkoittaa samaa, että testi ei löydä 20% lapsista, jotka erityistukea tarvitsisivat. Mäkelän kunnassa näitä ns. vääriä negatiivisia tapauksia oli siis yksi viidestä, kun lapsien kokonaismäärä oli 100. Testi on siis kohtuullisen sensitiivinen, mutta samalla se tuottaa 28 väärää positiivista löydöstä, eli testin spesifisyys on varsin heikko. Matikkana-testi tuottaa siis tuloksen, jossa resurssin olisi oltava seitsenkertainen todelliseen tarpeeseen nähden, jos haluttaisiin varmistaa, että kaikki löydetyt todelliset tapaukset saisivat tarvitsemansa ennaltaehkäisevän tuen.
ROC-analyysi on menetelmä, jolla voidaan arvioida testien sensitiivisyyden ja spesifisyyden suhteita. Luonnollisesti tämä vaatii laajan ja luotettavan seuranta-aineiston kokoamista. Sellaisen keräämiseen on vain harvoin testien kehittäjillä varaa tai mahdollisuuksia. Näin siitäkin huolimatta, että esimerkiksi ennaltaehkäisevän työn parempi kohdentuvuus voisi tuoda merkittäviä säästöjä yhteiskunnalle tai merkittävästi suurempia resursseja juuri niille, jotka tukea eniten tarvitsisivat.
Tämä yllä kuvattu esimerkki osoittaa, että esimerkiksi koulukypsyystestien käytössä olisi oltava erittäin huolellinen. Lisäksi niiden käyttäjien tulisi olla hyvin perehtyneitä sekä käyttämiinsä testeihin, että yleensäkin psykometriikkaan, sen mahdollisuuksiin ja rajoituksiin.
Sellaisten testien ja kokeiden käyttöä diagnostisina tai erityisen tuen tai kuntoutustarpeen arvioinnin välineinä, joista ei ole riittävää tietoa, pitäisi välttää. Edes useamman epäluotettavan mittarin käyttö ei muuta arviointia luotettavaksi.
Testisuorituksen vertaaminen normiaineistoon: standardipisteet ja persentiilit
Testisuoritusten tulkinnan tueksi on yleensä kerätty vertailuaineistot. Henkilön testisuorituksen suhteuttamiseksi vertailuaineiston antamaan tietoon käytetään yleensä tilastotieteellisiä menetelmiä. Keskeisimmät käsitteet ovat: normaalijakauma, keskiarvo, keskihajonta, sekä luottamusväli. Nämä käsitteiden tilastotieteellinen puoli on selvitetty aloittelijaystävällisellä tavalla tarkemmin toisaalla tällä sivustolla.
Vertailuaineisto, silloin kun se on kattavasti koottu, tarjoaa mahdollisuuden arvioida testisuoritusta siihen suoritustasoon ja suorituksissa olevaan vaihteluun, joka populaatiossa keskimäärin on. Tyypillisesti henkilön testisuoritus kuvataan suhteessa populaation suorituksiin, kun kyseessä on normaalista jakautuva ilmiö, standardipisteillä.
Standardipisteytysasteikkoja on monenlaisia. Erilaisia asteikkoja kuvataan tarkemmin toisaalla. Esimerkkinä voidaan ottaa älykkyystestien yleisimmin käyttämä asteikko, jossa otoksen perustella laskettu populaation keskiarvo on standardoitu sadaksi (100) ja keskihajonta viideksitoista (15). Näin henkilön, jonka standardipistemäärä älykkyystestisuorituksesta on 115 on yhden keskihajonnan verran parempi kuin keskimääräisen suorituksen saanut henkilö. Tämä kertoo meille sen, että 67% populaatiosta saa heikomman tuloksen tästä testistä kuin kyseinen henkilö sai omassa suorituksessaan. Persentiileinä tulos on siis 67.
Luottamusväli
Mikään yksittäinen testisuoritus ei ole tarkka. Tilastollisesti voidaan laskea luottamusväli, jonka avulla voidaan arvioida, millä välillä henkilön testipistemäärä on jollakin tietyllä todennäköisyydellä. Luottamusvälistä laskettu arvo on yhtä standardipistettä todellisempi ja luotettavampi arvio henkilön suorituksesta. Luottamusvälit ovat useimmissa testeissä yllättävänkin suuria. Siksi käytäntö, että suorituksista annetaan standardipisteen lisäksi luottamusväli, on yleistymässä.