Vad definierar ett psykologiskt test?
Det är dags att ta ett steg tillbaka och klargöra vad som faktiskt är ett psykologiskt test. Först och främst så finns detta väl och tydligt fastställt i tillgängliga internationella standarder så som ISO 10667, EFPA (European Federation of Psychologists' Associations) och amerikanska Standards for Educational and Psychological Testing (utvecklade av APA, AERA och NCME). EFPA har dessutom utvecklat en omfattande modell som används för kvalitetsgranskning av psykologiska test i Europa (Review Model for the Description and Evaluation of Psychological Tests).
Alla dessa ramverk är överens: för att kallas för ett psykologiskt test ska underliggande (latenta) psykologiska egenskaper mätas (t.ex. personlighet, kognitiv förmåga, motivation, emotioner, värderingar) snarare än endast observerat beteende i en enskild situation. Metoden ska även vara standardiserad (mer om detta nedan), och det ska dessutom finnas dokumenterad validitet och reliabilitet. Men det slutar inte där, även scoringen (alltså poängsättningen) och tolkning ska ske på ett standardiserat och dokumenterat sätt och resultaten ska vara så fria som möjligt från subjektiva tolkningar.
Ovanstående är ingen byråkratisk petitess, utan en förutsättning för att ens få använda begreppet ”test”.
Standardisering
Standardisering har vi skrivit om i tidigare blogginlägg. Standardisering innebär att en bedömning är baserad på i förhand dokumenterade detaljerade regler och specifikationer gällande administrering, poängberäkning och tolkning i syfte att uppnå ett enhetligt och bestående bedömningsförfarande.
Alltså – testet ska vara utformat och administrerat på ett enhetligt sätt, så att alla testpersoner får samma instruktioner, stimuli och villkor. Syftet är att minimera mätfel och öka jämförbarheten mellan individer (som är själva poängen i urvalssammanhang).
Med ovanstående kunskap som bakgrund framträder en problematisk bild när man läser marknadsföringstexter för många av de nyare test som erbjuds på marknaden. Där beskrivs gärna traditionella test som "stelbenta”, ”generiska”, ”tråkiga” och till och med ”inhumana" eftersom man som kandidat ”inte blir sedd”. Här ser en del leverantörer marknadsfördelar genom att vara the ”good guy” på den annars så ”cyniska och vinstdrivande” testmarknaden.
Det framstår dock tydligt att detta är retorisk trollkonst, att försöka omvandla det kvalitetssäkrande standardiserade formatet till någonting negativt. Låt oss vara tydliga: standardisering är ett krav för att metoden (test eller annan metod) över huvud taget kvalificera sig som en seriös bedömningsmetod. Och det finns flera skäl till det.
Standardisering är inte inhumant. Det standardiserade formatet är kandidatens bästa vän: då vet hen åtminstone (det kan ju saknas både reliabilitet och validitet i bedömningen ändå) att hen bedömts utifrån samma premisser som övriga kandidater. Och detta behöver kommuniceras betydligt bättre (via de som köper och använder test till de som ska besvara dem). Ett test kan inte förmedla det på egen hand och ska därmed heller inte behöva klä skott för att testprocesser inte förankras ordentligt.
Från ett standardiseringsperspektiv behöver även AI adresseras. Kan man verkligen hävda att ett test är standardiserat om AI används i någon del av tolkningen? Tveksamt. Även om olika AI-modeller kan bidra till utvecklingen av nya test, är AI-baserade tolkningsmodeller per definition inte standardiserade test. Psykologiska test är vetenskapligt utvecklade instrument, baserade på psykologisk teori och empirisk forskning, som har granskats och förfinats under decennier.
Ironiskt nog kan AI-baserade bedömningar (språkanalys, beteendeigenkänning) ha enorma problem med bias, transparens och replikerbarhet – problem som etablerade testmetoder faktiskt, och lite ironiskt nog, har löst genom just standardisering och validering. Detta är några exempel på bias som dokumenterats av forskare när man använder AI (se referenslistan Hickman et al 2025).
- Representationsbias: Uppstår när vissa delar av populationen är underrepresenterade i träningsdatan, vilket leder till systematiskt mindre träffsäkra prediktioner för dessa grupper.
- Historisk bias: Uppstår när datan speglar verkliga mönster som formats av långvariga ojämlikheter eller stereotyper, vilket gör att modellen reproducerar dessa mönster även när den tekniskt sett är korrekt.
- Inlärningsbias: Uppstår när modellens prediktioner förstärker skillnader mellan grupper – till exempel genom att återge centrala tendenser korrekt men samtidigt komprimera variationen jämfört med den verkliga fördelningen.
- Mänsklig bias: Uppstår när modellens indata eller ”ground truth”-variabler baseras på subjektiva mänskliga bedömningar som påverkas av faktorer som inte är relevanta för det som mäts, vilket introducerar systematiska fel redan innan datan når modellen.
Detta är särskilt kritiskt eftersom urval och rekrytering klassificeras som ett högriskområde enligt EU AI Act. Leverantörer av test ska kunna förklara hur man kommit fram till en testpoäng (och alla andra bedömningar) – något som inte är helt enkelt när man kopplar på AI (s.k. maskinlärning) i praktiken. Algoritmer som bygger på s.k. ”deep learning” kan skapa "black box"-lösningar där inte ens IT-utvecklarna själva kan förklara exakt vilka faktorer som väger tyngst i bedömningen. Ur ett standardiseringsperspektiv är detta förstås djupt problematiskt.
Ett råd: Be testleverantören som hävdar att de använder AI-lösningar att förklara exakt hur AI används i deras bedömningsprocess. Hur säkerställs transparens? Hur valideras algoritmen? Hur undviks bias i träningsdatan? Om du inte förstår vad de säger, eller inte får tydliga svar, är det dags att leta efter en annan leverantör. I ett högriskområde som rekrytering och urval har du inte råd att använda metoder du inte förstår.
Traditionella psykometriska standardiserade test kan förklara exakt hur en poäng beräknas, vilka psykologiska konstrukt som mäts, hur detta är säkerställt, samt beskriver utförligt hur resultatet ska tolkas. Det är denna transparens som är grunden för en giltig och rättssäker personbedömning. Vi ifrågasätter inte behovet av innovation eller behovet av att ständigt utveckla och förbättra. Men detta ska ske inom ramen för vetenskaplig kvalitetssäkring, inte på bekostnad av den.
Standardisering är de psykologiska testens superkraft.
Hör gärna av dig till oss på team@assessmentengine.se om du vill diskutera med oss.
Lästips
European Commission. (2021). Proposal for a regulation laying down harmonised rules on artificial intelligence (Artificial Intelligence Act). Official Journal of the European Union.
European Federation of Psychologists’ Associations. (2025). Review Model for the Description and Evaluation of Psychological and Educational Tests (Version 5.0). EFPA.
Hickman, L., Huynh, C., Gass, J., Booth, B., Kuruzovich, J., & Tay, L. (2025). Whither bias goes, I will go: An integrative, systematic review of algorithmic bias mitigation. Journal of Applied Psychology, 110(7), 979–1000.
International Organization for Standardization. (2020). ISO 10667-2: Assessment service delivery — Procedures and methods to assess people in work and organizational settings — Part 2: Requirements for service providers. ISO.