Sådan vurderer du kvaliteten på en test - validitet 

Som beskrevet i forrige artikel om reliabilitet, kan det være en jungle at navigere i om de testværktøjer, der findes på markedet, er af høj nok kvalitet til at skabe reel værdi for virksomheden.

Hvis reliabilitet er skinnerne, så er validitet toget. Begge ting skal være i orden, for at passagererne kommer derhen, hvor de skal. Men mens du godt kan lægge skinner ned uden der er et tog, så kan toget ikke køre uden skinner. På samme måde er reliabilitet en forudsætning for validitet, men siger i sig selv ikke noget om en tests validitet.

Det kræver ekspertviden at vurdere en tests validitet i dybden, hvilket er en af grundene til, at mange internationale virksomheder kræver, at deres testværktøjer er certificerede/registrerede af et større bureau som fx BPS eller DNV. Hvis en test har en certificering på bare et enkelt sprog, betyder det i langt de fleste tilfælde, at du uden videre kan stole på dens kvalitet. Vær dog opmærksom på, at mange udbydere bruger alle mulige forskellige flotte logoer og ikoner til at signalere kvalitet, som ikke nødvendigvis betyder, at testen er blevet vurderet psykometrisk, men bare at virksomheden (eller en person i virksomheden) er medlem af organisationen. Prøv at klikke på logoerne på hjemmesiden og se, om du bliver dirigeret ind på en side specifikt for den test, du kigger på (hos fx BPS). Hvis ikke, så er sandsynligheden ret høj for, at logoet er ren markedsføring.

Hvis du står i en situation, hvor du selv skal vurdere, om en test er god nok, så vil jeg anbefale, at du kigger efter disse tre elementer: (1) Testen skal være baseret på en solid teori, (2) teori og praksis skal hænge sammen og (3) testen skal kunne ”forudsige” relevante outcomes.

1) Vælg en teoretisk funderet test

Testkonstruktion bygger i dag stort set altid på et teoretisk fundament. Eksempelvis er langt de fleste personlighedstests til erhvervslivet baseret på trækteori (de såkaldte ”Big Five traits”), fordi der er en stor overvægt af forskning, der viser deres forbindelse til en masse forskellige relevante outcomes såsom teamwork, performance, fastholdelse, engagement m.fl. Uden at gå videre ind i en diskussion af psykologiske teorier, så er mit råd her, at du altid vælger en test, som lægger sig op ad en psykologisk anerkendt teori. Langt hen ad vejen er det et rigtig godt første check af, at den test, du arbejder med, er af høj kvalitet.

2) Undersøg om teori og praksis hænger sammen

Alle kan skrive, at deres test er baseret på en eller anden teori, men hvordan undersøger man, om det så også passer?

Her bliver du nødt til at lave lidt benarbejde, for der findes ikke én rigtig måde at validere en test på. Som minimum er du nødt til at kigge på fact sheets, men jeg vil anbefale, at du går en lille smule dybere og læser lidt af den dokumentation, der børe være på testen. Her kigger man efter konstruktvaliditet, eller med andre ord: Måler testen dét, den påstår at måle?

Hvis vi tager udgangspunkt i EFPAs framework for evaluering af tests, så skal en testudbyder kunne fremvise en og gerne flere af følgende typer af studier på deres test:

  • Item-test korrelationer
  • Korrelationer med andre lignende tests
  • Test bias
  • Gruppeforskelle
  • Faktoranalyse
  • Multi-metode design

Item-test korrelationer. For at en skala i en test er valid, så skal alle de spørgsmål, som skalaen indeholder, hænge godt sammen. Dvs. at hvis en person svarer ”højt” på ét spørgsmål, så skal han eller hun typisk også svare højt på de andre. Det kan man analysere vha. item-test korrelationer, hvor tommelfingerreglen er, at de som minimum skal være 0,3 og gerne med et gennemsnit på mindst 0,5.

Korrelationer med andre lignende tests. Hvis en test påstår at måle Big Five, så skal den helst også have en stor overensstemmelse med andre etablerede tests, der måler Big Five. Det samme gælder for andre teorier. Måden, man undersøger det på, er ved at teste de samme personer med forskellige tests, og så se i hvor høj grad deres scores korrelerer. Typisk vil man her acceptere korrelationer højere end 0,55.

Test bias. Test bias er et meget bredt område, men helt kort handler det om, at forskellige grupperinger af mennesker skal have lige vilkår for at svare på testen. Hvis fx man havde et spørgsmål i en kognitiv test, der handlede om kendskab til en bestemt by i Danmark, så ville alle danskere have en klar fordel. Sådan designer man naturligvis aldrig tests, men det, der typisk sker, er, at én specifik oversættelse er dårlig, så vil dem, der tager testen på dét sprog, være dårligere stillet. Testudbydere skal kunne vise, enten ved en ekstremt grundig oversættelsesproces, eller ved analyser, at deres tests er fri for bias.

Gruppeforskelle. Hvis det, man forsøger at måle, har en ”naturlig” forskel på tværs af forskellige grupper, så skal testen også vise de forskelle. For personlighed finder man fx ofte, at ældre har lavere scores på Neuroticisme (af Big Five Dimensionerne), og hvis den test, man sidder med, rent faktisk måler Big Five, så skal den helst også kunne påvise denne sammenhæng. Selvfølgelig hænger de her ting ikke sammen 1:1, men der er mange andre ting, man kan lede efter, og så længe testen bare kan påvise nogle af dem, så er det ofte tilstrækkeligt.

Jeg vil ikke begynde at beskrive faktoranalyse og multi-metode designs, da de er væsentligt mere komplekse at gå ind i. Der er masser af gode beskrivelser at finde online, hvis du er interesseret, og typisk vil de heller ikke være de første typer af studier, som udbyderne laver, så det vil være sjældent, at du behøver at have viden om dem for at vurdere en test.

3) Find ud af om testen virker

Sidste og måske vigtigste måde at vurdere validitet ud fra et brugerperspektiv på er kriterievaliditet. Kriterievaliditet er et udtryk for sammenhængen mellem testens resultater og et eksternt kriterie, typisk et vigtigt KPI for virksomheden. Hvis testen er i stand til gentagne gange at forudsige performance, så ved man, at den virker til formålet. Kriterievaliditet rapporteres typisk som en korrelationskoefficient mellem fx en skala i testen og KPI, og generelt set anses værdier over 0.2 som acceptable og over 0.35 som gode. Hvis du kun kan kigge på ét mål for validitet, så gå efter kriterievaliditet, og gå efter tests som kan dokumentere resultater med korrelationer på mindst 0.35.

Som man nok kan fornemme, så er det kompliceret at vurdere validitet. Det vil stadig være min klare anbefaling, at du går efter en test med en akkreditering, men hvis det ikke er muligt, så håber jeg, du har fået en lille idé om, hvordan man kan vurdere validitet selv.

Kategori