Sådan vurderer du kvaliteten på en test - reliabilitet

Det kan være en jungle at navigere i om de testværktøjer, der findes på markedet, er af høj nok kvalitet til at skabe værdi i virksomheden. Desværre har vi i Danmark ikke nogen agenturer som certificerer tests som de har det i fx Storbritannien (BPS) eller Norge (DNV). En certificeret test lever op til en række strenge kvalitetskrav vurderet af uafhængige eksperter og er et rigtig godt pejlemærke at gå efter i de lande. Men hvad gør man så de steder, som ikke har disse agenturer?

Hvad siger reliabilitets-tal om testens præcision og kvalitet?

En kunde spurgte mig for nyligt: ”Hvad er testens reliabilitet?” og ledte her efter et enkelt tal. Om en test er reliabel eller ej er uhyre vigtigt, og for mig som psykometriker, er det en fantastisk tendens, at mange testbrugere er begyndt at have større fokus på kvaliteten på de værktøjer, de bruger til rekruttering, men jeg kunne ikke give kunden et enkelt tal som dækkende svar på hans spørgsmål.

For at koge testens reliabilitet ned til ét tal giver ikke rigtig mening. Det ville svare til at vurdere en bil udelukkende på, om den kører langt på literen. For det første er der mange andre elementer, som er vigtige for, om det er en god bil, såsom sikkerhed, motor eller størrelse, og for det andet er der flere forskellige standarder for at vurdere en bils ”km pr. liter”. På samme måde kan man ikke forstå en tests reliabilitet ud fra kun ét tal – der skal en kontekst til også.

Først er det vigtigt at forstå, hvad reliabilitet er udtryk for. Grundlæggende set handler reliabilitet om præcision over både tid og sted, men for at forklare begrebet vil jeg i stedet beskrive, hvordan man undersøger det – fordi det giver en god idé om, hvad vi har med at gøre.

Reliabilitet inden for tests kan undersøges på tre forskellige måder:

  • Hvor godt hænger alle del-elementerne i testen sammen med hinanden? (Intern konsistens)
  • Får folk det samme resultat, hvis de tager testen flere gange? (Test-retest reliabilitet)
  • Kommer forskellige personer eller versioner af testen frem til samme resultat (Inter-rater reliabilitet eller parallelle versioner)

Intern konsistens. Intern konsistens undersøges ved, at man sætter et tal på, hvor godt hvert enkelt spørgsmål i testen hænger sammen med de andre spørgsmål inden for samme skala. Et hyppigt brugt mål er Alpha koefficienten (også kaldet Cronbach’s Alpha), som angives fra 0 til 1, hvor værdier omkring 0,9 generelt anses som værende optimale. Ofte vil det være den, folk taler om, når de spørger efter ”en tests reliabilitet”, og Alpha er også et godt mål for præcision.

Test-retest reliabilitet. På den anden side kan det til tider være mere relevant at vide om testen er stabil over tid, altså får folk det samme resultat, hvis de tager testen igen om tre måneder? Det kan fx være rart at vide, hvis man overvejer at genteste medarbejdere efter en periode. Hvis en test har dårlig test-retest reliabilitet, så kan man ikke vide om et anderledes resultat skyldes, at testen er upræcis eller om medarbejderen rent faktisk har udviklet sig. Test-retest reliabilitet angives typisk som en korrelations koefficient mellem resultaterne ved den første test og den anden. De ligger dermed også mellem 0 og 1, og jo tættere på 1 desto bedre. I praksis anses værdier omkring 0,7 dog som værende rigtig gode.

Inter-rater reliabilitet. Inter-rater reliabilitet undersøges ved at sætte forskellige personer til at vurdere samme ”ting”. Det kunne fx være et 360 graders survey, hvor man beder flere forskellige om at vurdere én person baseret på samme test. Sammenhængen imellem deres svar er udtryk for, hvor præcis testen er. Her er der naturligvis mange forskellige personers synspunkter, som kan påvirke vurderingen, men der skal helst være en tydelig sammenhæng alligevel - ellers gør testen noget forkert. Generelt set accepterer man derfor lidt lavere værdier end for Alpha eller test-retest, men den skulle stadig gerne helst ligge over 0,6 som minimum.

Parallelle versioner af samme test bruges ikke så ofte inden for det erhvervspsykologiske felt, da det i sin natur kræver, at man udvikler samme test to gange og så ser på, hvor ensartede resultaterne fra begge tests er, når de bliver udfyldt af den samme person. Her vil man typisk gerne se værdier højere end 0,8.

Forstå tallene i deres rette sammenhæng

Måske begynder det også nu at give mening, hvorfor jeg ikke kunne give et kort svar til spørgsmålet, om hvad testens reliabilitet var. Det er en kompleks størrelse. I sidste ende vil man jo gerne vide, om testen er ”god” eller ej, og det kan man ikke afgøre på baggrund af ét tal alene. En Alpha på 0,7 er bestemt ikke ”god”, men hvis vi taler om test-retest reliabilitet, så ville det tal faktisk vise, at testen er rigtig stabil over tid.

For at gøre det endnu mere komplekst, så er viden om reliablitet heller ikke i sig selv nok til at vurdere den samlede kvalitet af en test. Her er man nødt til at kigge på validitet også! Det kigger jeg nærmere på i næste artikel.

Indtil videre så er det min opfordring, at man forholder sig kritisk til de reliabilitets-tal, man hører, og udfordrer dem, så man forstår dem i deres rette sammenhæng.

Kategori