Psykologiska test och förvaring av resultat
Test och prov
I vardagsspråket används orden test och prov i de mest olika betydelser och ofta till och med som synonymer. I detta sammanhang avses med test ett psykologiskt test och med prov avses prov som görs i skolan för att bedöma inlärningen.
Test skiljer sig från prov i många avseenden. Prov är tillfällen som ordnas i skolan eller i någon läroinrättning och som används för att bedöma kunnandet eller det inlärda. Test i sin tur är uppgiftshelheter, som används för att få reda på någon egenskap, lämplighet eller förmåga. Test används således inte, och borde aldrig användas som mått på betyg eller skolframgång.
Ett psykologiskt test består av en uppgiftshelhet med vars hjälp man strävar till att mäta någon sådan mental egenskap eller förmåga som inte kan observeras direkt. Intelligens och arbetsminne är exempel på sådana. Psykologiska teorier innehåller olika uppfattningar om vad intellligens egentligen inkluderar, vilket medför att intelligenstest som baserats på olika utgångspunkter innehåller olika typer av uppgifter.
Psykometri
Med psykologiska test strävar man till att mäta något teoretiskt definierat begrepp och kartlägga skillnader mellan individer gällande den egenskap som man avser mäta. Den andra utmärkande egenskapen är att testen baseras på empiriska (experimentella) studier. Med hjälp av forskning bedöms uppgiftshelheters förmåga att tillförlitligt mäta det teoretiska begrepp som det är konstruerat för att mäta. De termer som används är mätinstrumentets reliabilitet och validitet. Vetenskapen om mätning av egenskaper och beteende, dvs. psykologisk testning, kallas psykometri.
Sådana test som baseras på (a) ett urval gällande populationens beteende, inom vilken (b) mätningen är genomförd i standardiserad form och standardiserade omständigheter samt (c) där de observerade/uppmätta beteendena eller prestationerna omvandlas till en variabel vars värde kan anges åtminstone med intervallskala (t.ex. som intelligenskvotpoäng), kallas psykometriska test. Alla psykologiska test har inte intervallskalor. Till exempel många mätinstrument som beskriver personlighet är kvalitativa.
Psykologiska test och psykologisk undersökning
Resultatet från ett test är aldrig tillräckligt för en psykologisk bedömning. Test kan ses som ett sätt bland andra att skaffa information. Psykologisk undersökning består utöver information som erhållits från flera test även av intervjuer, anamnes samt vid bedömning av inlärningssvårigheter oftast även av information som erhållits från lärare och föräldrar genom intervju och via olika blanketter. Även testresultaten tolkas alltid i relation till annan information. Enskilda testresultat utan annan information har inget värde. Ett utlåtande från en psykolog baseras alltid på undersökning, inte på resultat från ett eller flera test.
Test som en del av klinisk intervju
De test som är avsedda för att bedöma inlärningssvårigheter kan jämföras med en klinisk intervju, med vars hjälp man strävar till att klargöra hur och i vilken grad svårigheterna tar sig i uttryck, samt att samla diagnostisk information för att planera habiliteringen. Test skiljer sig från kliniska intervjuer genom att test är standardiserade och strävan är att erbjuda dem till alla som intervjuas i så oförändrad form som möjligt. Att presentera testen i samma form till samtliga som testas är en förutsättning för tillförlitlig bedömning av testresultaten. Ifall testningen har gjorts på ett avvikande sätt i förhållande till jämförelsematerialet, kan tillförlitlig jämförelse inte göras. Därför har läraren större frihet när det gäller prov i skolan att bearbeta uppgifter och till och med hjälpa vissa elever att utföra uppgifterna. Denna frihet finns inte när standardiserade test används.
Att tolka testresultat innehåller både kvantitativa och kvalitativa dimensioner. I kvantitativ bedömning jämförs vanligen det erhållna resultatet med jämförelsematerialet. Jämförelsematerialet ska vara tillräckligt representativt för att jämförelsen ska kunna anses tillförlitlig. Med representativt material eller urval avses att det med tillräcklig precision skulle beskriva den variation i kunnandet som förekommer i jämförelsepopulationen (t.ex. finska 8-åringar). Lärarna har till sitt förfogande oftast resultat endast från sin egen klass eller i bästa fall från sin skola som jämförelsegrupp. Det är sällan en tillräcklig jämförelsepunkt vid närmare bedömning av inlärningssvårigheter, trots att det är en betydelsefull informationskälla för läraren i det egna arbetet.
I den kvalitativa tolkningen uppmärksammas innehållet i svaren samt felen. Test som mäter matematiska färdigheter innehåller vanligen uppgifter med olika omfattning och innehåll. Då observeras även förekomsten av fel inom vissa områden eller om de ökar när omfattningen blir större. Vid bedömning av aritmetiska räkneoperationer noteras vanligen även hur prestationen flyter och vilka strategier för räkning och algoritmer som används. Även vid kvalitativ undersökning bör avvikelser från standardiserat sätt att genomföra testet beaktas. Om testet genomförs på ett sätt som avviker från det standardiserade, är det nästan omöjligt att bedöma hur detta sätt att genomföra testet påverkar innehållet i svaren.
Testens förmåga att identifiera de rätta fallen
I psykometri och medicin används om observationer eller fynd termer som ”felaktig positiv” och ”felaktig negativ”. Dessa termer är viktiga att förstå när man granskar testens egenskaper och förmåga att urskilja de verkliga fallen eller till exempel i förskoleåldern förutspå eventuella kommande inlärningsvårigheter.
Med felaktig positiv (observation) avses att en person, enligt testet, har en viss egenskap, svårighet eller störning som han eller hon i verkligheten inte har. Med positiv avses i detta fall att man fann det som man sökte. Felaktiga positiva fynd framkommer ofta i samband med test som är avsedda för bedömning av inlärningssvårigheter i matematik, om barnet har till exempel uppmärksamhetsstörningar eller betydande provängslan som ”hindrar” barnet att visa sina verkliga färdigheter i testsituationen.
Med felaktiga negativa (fynd) avses att testet visar ett ”negativt” resultat, det vill säga att det man misstänkte kunde inte upptäckas. Felaktiga negativa resultat framkommer ofta om de kriterier som används för inlärningssvårigheter är för lösa. När samma undersökningsgrupp undersöks på nytt efter några år upptäcker man att en stor del av dem som enligt testet borde ha haft eller skulle få svårigheter med inlärningen har ”rehabiliterats” även utan ”vård”.
Exempel.
Vi antar att matematiksvårigheter förekommer hos 5% av populationen. Forskarna har utvecklat ett MatteX-test, som hos 6-åringar förutspår kommande inlärningssvårigheter i skolåldern till 80% rätt. Detta kallas även testets sensitivitet: hur lätt de rätta fallen identifieras. Samtidigt upptäcks inga inlärningssvårigheter hos 30% av de 6-åringar, som enligt testet skulle få svårigheter. Denna förmåga hos testet att identifiera endast riktiga fall kallas även testets specificitet. Sensitivitet och specificitet har direkt samband med felaktiga positiva och felaktiga negativa fynd.
Vi antar att samtliga 100 barn som ska börja i förskolan i Backa kommun testas med MatteX-testet för att (a) styra extraresurser i förskolan till de barn som verkligen behöver dem och (b) för att förutspå behovet av specialundervisning i matematik i årskurs 1 och fundera på klassarrangemang. Statistiskt sett borde fem av dessa barn uppvisa sådana inlärningssvårigheter att specialundervisning behövs redan från början. Med hjälp av testet upptäcks 4 (5 x 80%) och dessutom påstår testet att det hos 28 (95 x 30%) andra barn finns en risk att inlärningssvårigheter i matematik utvecklas. Eftersom ett av fem barn som är i behov av specialundervisning inte kan identifieras med testet, betyder det egentligen att testet inte kan identifiera 20 % av de barn som skulle behöva speciellt stöd. I Backa kommun presenterar alltså ett barn av fem sådana så kallade felaktiga negativa fall, när totalantalet barn var 100. Testet kan anses vara relativt sensitivt, men samtidigt skapar det 28 felaktiga positiva fynd, vilket innebär att testets specificitet är rätt dåligt. MatteX-testet skapar ett resultat som innebär att resurserna borde vara sjufaldiga i förhållande till behovet, om man vill garantera att alla verkliga fynd skulle få det förebyggande stöd de skulle behöva.
ROC-analys är en metod med vars hjälp man kan bedöma sensitivitet och specificitet i test. Analysen förutsätter att ett stort och tillförlitligt uppföljningsmaterial samlas in. Att samla en sådan mängd data har testutvecklare sällan råd eller möjlighet till. Det förhåller sig så, trots att till exempel en bättre styrning av det förebyggande arbetet skulle medföra betydande inbesparingar för samhället eller märkbart större resurser för dem som behöver dem mest.
Det ovan beskrivna exemplet visar att till exempel vid användning av skolmognadstest borde man vara mycket försiktig. Dessutom borde de personer som använder testen vara mycket insatta såväl i de använda testen som i psykometri överlag, dess möjligheter och begränsningar.
Användning av test som det inte finns tillräcklig information om borde inte användas som verktyg för bedömning av behov av särskilt stöd eller habilitering. Inte ens användning av flera otillförlitliga mätinstrument gör bedömningen tillförlitlig.
Att jämföra testresultat med normeringsmaterial: standardpoäng och percentiler
För att stöda tolkningen av testresultat har oftast jämförtelsematerial insamlats. För att jämföra en persons testresultat med de resultat jämförelsematerialet uppvisar används vanligen statistiska metoder. De centrala begreppen är: normalfördelning, medeltal, standardavvikelse samt konfidensintervall. De statistiska egenskaperna hos dessa begrepp finns på ett för nybörjare tillgängligt sätt på ett annat ställe i denna webbtjänst.
Jämförelsematerialet, då det är heltäckande insamlat, erbjuder möjlighet att jämföra testresultat med den prestationsnivå och variation som finns i populationen i genomsnitt. I vanliga fall beskrivs personens testresultat i relation till populationens prestationer med standardpoäng, när spridningen följer normalfördelning.
Det finns många skalor för standardpoäng. Olika slags skalor beskrivs närmare på annat håll. Till exempel i den skala som oftast används för mätning av intelligens har man utgående från ett sampel beräknat populationens medeltal och standardiserat det till hundra (100) med standardavvikelsen femton (15). Enligt detta är resultatet för en person, vars prestation i testet uppmätts till 115 en standardavvikelse bättre än resultatet för en person som presterat genomsnittligt. Detta berättar oss att 67% av populationen får ett lägre resultat än personen ifråga i detta test. Angett i percentiler är resultatet således 67.
Konfidensintervall
Inget enskilt testresulat är exakt. Statistiskt kan ett konfidensintervall beräknas med vars hjälp man kan uppskatta inom vilket intervall en persons testpoäng med någon viss sannolikhet finns. Värdet som beräknats utgående från konfidensintervall är en en standardavvikelse mer riktig och tillförlitlig uppskattning av personens prestation. Konfidensintervallen i de flesta test är överraskande stora. Därför blir det allt vanligare att i resultaten anges såväl standardpoäng som konfidensintervall.