AI's indflydelse på menneskelig adfærd
Det dynamiske samspil mellem AI-teknologi og menneskelig adfærd kan give os vigtige indsigter – især når det gælder vurdering af kandidater i rekrutteringsprocessen. Ved at fokusere på dette krydsfelt kan organisationer forbedre deres evalueringsmetoder og mere præcist identificere og værdsætte de ægte egenskaber hos potentielle kandidater.
Artiklen er skrevet af chefpsykolog Lise Sustmann Allen fra Master International A/S.
I denne artikel vil jeg fortælle om mine erfaringer med et AI-drevet interviewværktøj, præsentere nyere forskning på området og til sidst argumentere for et samspil mellem menneskelig - og generativ databehandling, hvor vi tager det bedste fra begge verdener og samtidig er opmærksomme på konsekvenserne ved hver tilgang.
Min erfaring: Nemt at manipulere AI testværktøjer
Et eksempel på et AI-vurderingsværktøj i rekruttering er et envejsinterview, hvor et generativt AI-værktøj (GenAI) gennemfører interviewet og vurderer de svar, kandidaten giver. GenAI-værktøjet evaluerer derefter svarene og beslutter, om kandidaten afvises, accepteres eller placeres i “måske”-bunken.
Et af problemerne med disse værktøjer er, at kandidater kan manipulere resultaterne på følgende måder:
1. Lydkvaliteten er vigtig
Det er afgørende at have god lyd, når man svarer i et GenAI-interview. Kandidaten bør eliminere baggrundsstøj og tale klart og tydeligt. GenAI-værktøjet transskriberer svarene før analysen. Hvis der er personer, der taler i nærheden af kandidaten under interviewet, bliver transskriptionen kaotisk, hvilket kan påvirke scoren negativt. Kandidater med adgang til gode lydforhold og rolige omgivelser har derfor en klar fordel.
2. Giv korte svar
Et eksempel: Et GenAI-værktøj interviewer en kandidat til et stilladsarbejde og spørger: “Er du bange for højder?”. Det korrekte og forventede svar (ifølge GenAI) er et kort “Nej”.
Men i virkeligheden kunne svaret være:
“Altså, ikke rigtig. Men, øhmm, nogle gange, du ved, øhmm. Jeg var engang på en stige. Ikke? Det var på en lille byggeplads. [Pause] den på Baker Street. Nå, [pause] nogen havde glemt at tage sikkerhedsselen på. Hmmm, og du ved hvad det betyder.”
For et menneske giver dette mening. Hvis der er behov for mere information, vil den anden person stille et opfølgende spørgsmål. Men GenAI-værktøjet fortsætter bare interviewet ved første pause og ignorerer resten. Kandidaten bliver afbrudt, og lærer hurtigt, hvordan man ikke skal tale til GenAI, hvilket kan føre til bias i fremtidige svar. Kandidater, der kan tilpasse deres adfærd til GenAI-modellen, vil klart have en fordel.
Læs artiklen: Sådan får du valide data fra dit ansættelsesinterview
3. Kend kriterierne
Svarene bliver vurderet af GenAI-værktøjet ud fra, hvor godt de matcher et sæt foruddefinerede kriterier. Disse kriterier bliver fodret ind i GenAI-modellen før interviewet. GenAI genkender kriterierne som specifikke ord eller fraser og leder efter overlap mellem kandidatens svar og disse ord.
Derfor får kandidater en fordel ved at gentage præcis de samme ord fra jobopslaget. Hvis jobopslaget f.eks. nævner “tilpasningsevne” og “fleksibilitet”, vil det at nævne disse ord under interviewet give højere score end at bruge synonymer. Det favoriserer kandidater, der forstår dette, eller som tilfældigt bruger de rigtige ord.
Når det er så nemt at manipulere og opnå fordele, siger det noget om værktøjets reliabilitet. Hvis en kandidat kan få forskellige resultater hver gang de tager testen (i dette tilfælde deltager i et interview), hvad kan vi så bruge den inkonsistente information til i rekruttering?
Læs artiklen: Sådan vurderer du kvaliteten på en test - reliabilitet
Forskning: AI-vurderingsværktøjer introducerer adfærdsbias
Nyere forskning har vist, at en person der ved, at de bliver interviewet og vurderet af et GenAI-værktøj, har en tendens til ubevidst at ændre deres adfærd i retning af, hvad de tror GenAI’en evaluerer. Dette fænomen, ofte kaldet “AI assessment effect”, er blevet observeret i flere studier, der fokuserer på kandidatadfærd under rekrutteringsprocesser. Kandidaterne har en tendens til at fremhæve analytiske egenskaber, mens de nedtoner empati og innovative sider af deres personlighed. Denne adfærdsændring kan fundamentalt ændre, hvem der bliver udvalgt til stillinger, og dermed underminere validiteten af vurderingsprocessen.
Læs artiklen: Kan man snyde i en personlighedstest
Årsagen til denne ændring ligger i den udbredte idé om, at GenAI-systemer prioriterer de analytiske karakteristika frem for de følelsesmæssige og intuitive (Goergen, de Bellis og Klesse, 2025). Denne opfattelse får kandidater til at tilpasse deres svar og adfærd til det, de tror GenAI’en vægter højest i vurderingen. Som konsekvens kan troværdigheden i kandidatens svar svækkes, hvilket kan føre til udvælgelser af kandidater, der ikke passer til stillingen.
I forsøget på at fjerne menneskelig bias fra ansættelser har nogle organisationer taget AI-drevne systemer i brug. Men dette skift kan introducere en ny form for adfærdsbias. Selvom GenAI-systemer er designet til at være objektive, antyder “AI assessment effect”, at de utilsigtet kan tilskynde kandidater til at præsentere en skæv version af sig selv med et overdreven fokus på analytiske færdigheder og mindre vægt på empati og kreativitet.
Lovgivning som EU’s AI-forordning siger, at organisationer er transparente omkring brugen af AI i vurderinger. Denne gennemsigtighed skal informere kandidater om AI’ens rolle og kapaciteter, hvilket potentielt kan påvirke deres adfærd under vurderingen. Når kandidater er bevidste om AI’s involvering, kan de yderligere tilpasse deres svar til de antagede AI-præferencer. Dette understreger behovet for klar kommunikation om AI’s muligheder og begrænsninger til at reducere bias.
Et studie af Fan et al. (2023) undersøgte, hvor godt en chatbot kan bestemme en kandidats personlighed baseret på en “dialog” med et menneske. Studiet vurderede reliabiliteten og validiteten af AI-udledte personlighedsscorer. Resultaterne viste, at GenAI-udledte scorer havde acceptabel reliabilitet både på domæne- og facetteniveau i Femfaktormodellen, hvilket betyder, at værktøjet kan producere stabile og konsistente resultater. Men den diskriminative validitet – altså hvor godt scorerne skelner mellem forskellige personlighedstræk – var relativt lav sammenlignet med scorer fra psykometriske tests som OPTO. Dette betyder, at GenAI-værktøjer har vanskeligheder med præcist at skelne mellem forskellige personlighedstræk, selvom de konsekvent kan opfange visse personlighedstræk.
Læs artiklen: Hvad er en personlighedstest, og hvordan bruges den bedst?
Fan et al. (2023) fremhæver både potentialet og især begrænsningerne ved at bruge GenAI-chatbots eller GenAI-interviewværktøjer i rekrutteringsprocesser til at vurdere personlighed. Dette har direkte indflydelse på værktøjets prædiktive validitet, da GenAI-interviewværktøjet kan have svært ved præcist at skelne mellem forskellige personlighedstræk. Det kan føre til fejlagtig klassificering af kandidater, hvor vigtige nuancer overses. En kandidat kan f.eks. være introvert, men samtidig meget kreativ og innovativ. Hvis GenAI-værktøjet ikke kan skelne mellem introversion og træk som åbenhed, kan kandidaten fejlagtigt vurderes som uegnet til en rolle, der kræver innovation. Og fordi værktøjet er pålideligt, vil det sandsynligvis gentage denne fejlvurdering over tid.
Dette understreger vigtigheden af at forbedre GenAI-værktøjerne, hvis de nogensinde skal kunne levere en omfattende og præcis vurdering af en kandidats personlighed. Brugere af GenAI-værktøjer i rekruttering bør derfor være opmærksomme på disse begrænsninger og tage dem med i overvejelserne, når de vælger at integrere AI-vurderinger i deres ansættelsesprocesser.
Læs artiklen: Sådan vurderer du kvaliteten på en test - validitet
Konklusion: En mellemvej
Debatten om brugen af GenAI-vurderingsværktøjer versus traditionelle manuelle menneskelige processer fremstiller ofte disse to tilgange som modsætninger. Men der findes en mellemvej, hvor man kan udnytte styrkerne fra begge metoder og samtidig reducere deres respektive metoders begrænsninger.
Figur 1: Fordele og ulemper ved forskellige tilgange til databehandling
Organisationer som Master, der har flere års erfaring med dataanalyse, machine learning og algoritmeudvikling, har en ydmyg tilgang til de hastigt udviklende GenAI-trends. Denne erfaring tillader et øget fokus på algoritmer og psykometriske modeller, som har vist sig at være pålidelige og valide gennem årtier.
Psykometriske vurderinger, der er designet og akkrediteret efter etablerede standarder – såsom European Federation of Psychologists' Associations' (EFPA) Test Review Model (Evers et al., 2013) – tilbyder en solid ramme for evaluering af kandidater. Disse vurderinger er udviklet til at være sikre, tidsbesparende og pålidelige, og de giver en struktureret og videnskabeligt valideret tilgang til kandidatvurdering.
Ved at implementere psykometriske vurderinger, der følger anerkendte standarder, sikrer virksomheder, at de kan vurdere kandidater på en måde, der både er sikker og effektiv. Denne tilgang minimerer risikoen for bias og fejl, som kan opstå ved enten rent manuelle processer eller ved brug af de nuværende GenAI-værktøjer.
Hos Master er vi overbeviste om, at brugen af psykometriske assessments, som er designet og akkrediteret efter EFPA-modellen, giver virksomheder en sikker, tidsbesparende og pålidelig måde at vurdere kandidater på. Samtidig giver vores nysgerrighed og innovative tilgang os mulighed for at udforske, hvordan fremtidig integration af GenAI-værktøjer som støtte – snarere end som beslutningstagende værktøjer – kan løfte kunders brug af vores løsninger.
Læs artiklen: Sådan finder du det rigtige testværktøj i HR
Løsning: Godkendt, akkrediterede og reviderede psykometriske værktøjer
Personligt er jeg bekymret over brugen af GenAI-værktøjer til beslutningstagning i rekruttering. Forskellige GenAI-værktøjer kan benyttes i rekrutteringsprocessen, men bør aldrig have det sidste ord. Rekrutteringsværktøjer bør designes til at være retfærdige, upartiske og respektfulde over for kandidaters privatliv.
Masters psykometriske værktøjer er designet til at opfange autentisk adfærd uden at fremkalde den adfærdsbias, som GenAI-vurderingsværktøjer kan medføre. Det sikrer mere ægte og oprigtige svar fra kandidaterne. Masters værktøjers robuste reliabilit og validitet er og bliver løbende testet for forskellige psykometriske egenskaber, så de leverer konsistente og præcise vurderinger, hvilket reducerer risikoen for uheldige beslutninger.
En anden fordel ved at bruge Masters løsninger er, at de overholder kravene til gennemsigtighed og lovgivning, og giver klar information om vurderingsprocessen og GenAI’s kapaciteter.
Ved at omfavne denne mellemvej kan organisationer drage fordel af både menneskelig indsigt og AI-effektivitet. Denne balancerede tilgang styrker ikke blot vurderingernes reliabilitet og validitet, men sikrer også, at processen forbliver retfærdig, gennemsigtig og afstemt med både teknologiske fremskridt og menneskelige værdier.
Efterhånden som AI-teknologien fortsætter med at udvikle sig, vil løbende forskning og tilpasning være afgørende. Dette indebærer at forfine GenAI-modeller, så de bedre kan forstå og forudsige menneskelig adfærd, forbedre gennemsigtigheden og forklarbarheden af GenAI’s beslutninger, samt løbende validere disse værktøjer op imod etablerede psykometriske standarder.
Vil du høre mere om Masters løsninger? Book infomøde
Referencer
- Evers, A., Muñiz, J., Hagemeister, C. Høstmælingen, A., Lindley, P., and Sjöberg, A. (2013) EFPA Review model for the description and evaluation of psychological and educational tests. Version 4.2.6
- Fan, J., Sun, T., Liu, J., Zhao, T., Zhang, B., Chen, Z., Glorioso, M., & Hack, E. (2023). How well can an AI chatbot infer personality? Examining psychometric properties of machine-inferred personality scores. Journal of Applied Psychology, 108(8), 1277–1299. https://doi.org/10.1037/apl0001082
- J. Goergen, E. de Bellis, & A. Klesse, (2025) AI assessment changes human behavior, Proc. Natl. Acad. Sci. U.S.A. 122 (25) e2425439122, https://doi.org/10.1073/pnas.2425439122.