Den fundamentala men bortglömda distinktionen: framtiden finns inte vid mättillfället

Inom urvalspsykologisk forskning utgör distinktionen mellan s.k. prediktorer (X) och kriterier (Y) en av de mest grundläggande principerna för validering av urvalsmetoder. Trots att denna distinktion varit central sedan de tidiga ramverken för prediktiv validitet etablerades för 100 år sedan, förekommer fortfarande systematiska sammanblandningar mellan vad som mäts i urvalsprocessen och det man har för avsikt att förutsäga. Detta har utmynnat i en mängd problematiska konsekvenser för både leverantörer och upphandlande organisationer. Vi ska försöka tydliggöra denna distinktion samt belysa dess praktiska implikationer för upphandling/inköp och leverans av psykologiska test i arbetsrelaterade sammanhang.

Prediktorn (X): Vad man mäter

En prediktor, X, är den variabel som mäts i urvalsprocessen. Den har till syfte att förutsäga framtida beteende eller prestation (kriteriet). Inom psykometrisk testning avser detta mätningar av väl definierade psykologiska konstrukt såsom:

Personlighet enligt etablerade taxonomier (t.ex. femfaktormodellen, FFM)
Kognitiv förmåga eller generell intelligens (t.ex. g-faktorn)

Dessa konstrukt är:

Teoretiskt definierade inom psykologisk vetenskap
Operationaliserade, dvs. mätbara genom standardiserade mätinstrument
Psykometriskt validerade avseende reliabilitet och konstruktvaliditet
Relativt stabila mätningar över tid och situationer
Personbundna egenskaper som existerar oberoende av specifik arbetskontext

Kriteriet (Y): Vad man vill förutsäga

Kriteriet, Y, representerar det utfall man avser att predicera. Vanligtvis är det relaterat till arbetsprestation eller framgång i en specifik roll. Ett exempel är det evidensbaserade kriteriet arbetsprestation (eng., job performance) som utgörs av tre distinkta dimensioner:

1. Uppgiftsprestation (eng., Task Performance)

Omfattar de huvudsakliga aktiviteter som direkt bidrar till organisationens centrala produkt- och/eller tjänsteleverans:

Utförande av formella arbetsuppgifter
Uppnående av kvantitativa och kvalitativa mål
Teknisk kompetens i rollspecifika uppgifter
Problemlösning relaterat till arbetets innehåll och komplexitet

Uppgiftsprestation är det mest rollspecifika kriteriet och kan variera kraftigt mellan olika befattningar. Vad som utgör framgångsrik uppgiftsprestation för en säljare kan skilja sig fundamentalt från vad som krävs för en revisor eller en forskare.

2. Organisationsmedborgarskap (eng., Organizational Citizenship Behavior, OCB)

Omfattar frivilliga beteenden som bidrar till organisationens effektivitet men som inte ingår i den formella arbetsbeskrivningen:

Hjälpa och stötta kollegor utan att bli ombedd
Visa initiativ och extra ansträngning
Följa organisatoriska regler, även när ingen övervakar
Konstruktivt deltagande i organisatoriska processer
Främja organisationens image utanför arbetsplatsen

OCB är mer generaliserat över olika roller och reflekterar kontextuell prestation snarare än uppgiftsprestation. OCB avspeglar hur individen fungerar som organisationsmedlem, snarare än hur väl specifika arbetsuppgifter utförs. OCB kan dock indirekt stödja uppgiftsprestation genom att bidra till ett effektivt och välfungerande organisatoriskt sammanhang.

3. Avsaknad av Kontraproduktiva beteenden (eng., Counterproductive Work Behavior, CWB)

Omfattar avsiktliga beteenden som skadar organisationen eller dess medlemmar:

Stöld och sabotage
Produktion av undermåligt arbete
Missbruk av arbetstid och resurser
Otillbörligt bemötande av kollegor
Bristande efterlevnad av säkerhetsföreskrifter

CWB representerar den negativa delen av arbetsprestation och är ett självständigt kriterium, det är således inte frånvaro av god prestation. En person kan prestera väl i sina uppgifter samtidigt som de uppvisar kontraproduktiva beteenden i andra avseenden.

Till skillnad från prediktorer så är kriterier:

Kontextberoende: Definieras utifrån specifika organisatoriska behov och rollkrav
Observerbara beteenden: Manifesteras i faktiskt arbetsutförande, de utgör inte latenta stabila egenskaper
Mätbara genom prestation: Bedöms genom prestationsbedömningar, arbetsprov eller objektiva mått – de är inte mätbara genom psykologiska test
Multidimensionella: Olika aspekter av prestation kan variera oberoende av varandra
Tidsbundna: Kan förändras över tid genom ökad erfarenhet, fördjupad kunskap, och färdighet genom övning.

Den logiska distinktionen: Mätning vs prediktion

Den centrala distinktionen mellan prediktorer och kriterier kan formuleras logiskt:

Prediktorer är psykologiska egenskaper som:

Existerar hos individen vid mättillfället
Kan observeras direkt och härledas genom standardiserade testprocedurer
Har teoretisk definition oberoende av arbetskontext
Mäts med standardiserade instrument och metoder

Kriterier är arbetsrelaterade beteenden eller utfall som:

Manifesteras (eller uteblir) i framtida arbetskontext
Endast kan observeras genom faktiskt arbetsutförande
Definieras utifrån organisatoriska krav och rollspecifikationer
Bedöms genom prestationsmätningar, ej psykologiska test

Ett psykologiskt test mäter således det som existerar hos individen vid testtillfället, testresultat kan därmed enbart utgöra prediktorer. Kriterier såsom arbetsprestation, organisationsmedborgarskap eller kontraproduktiva beteenden existerar inte vid testtillfället (och kan följaktligen därför inte mätas med ett test). Kriterier kan endast prediceras med utgångspunkt i uppmätta prediktorer.

Detta är inte en teknologisk fråga utan en logisk och metodologisk princip. Och oavsett utvecklingen inom AI och annat så kan framtida beteenden inte mätas med ett psykologiskt test vid ett givet tillfälle; framtida beteenden kan endast prediceras baserat på nuvarande egenskaper hos individen.

Att mäta framtida beteenden är definitionsmässigt omöjligt, eftersom de inte inträffat.

Denna kritiska distinktion mellan prediktorer och kriterier förefaller dock inte alltid vara tydlig för vare sig leverantörer eller upphandlare. Det blir tydligt både i marknadsföringsmaterial och i upphandlingsunderlag.

Ett praktiskt exempel

I en nyligen utkommen upphandling kan man läsa att det som efterfrågas är:

"Personlighetstest - Som mäter personlighet och är baserat på femfaktormodellen" "Problemlösningstest - Som mäter den generella begåvningen / problemlösningsförmågan (g-faktorn)"

Dessa formuleringar är korrekta eftersom de specificerar vad instrumenten faktiskt mäter – de psykologiska konstrukt som utgör prediktorer. Ett personlighetstest mäter personlighet (extraversion, samvetsgrannhet, emotionell stabilitet, etc.), inte något annat.

Man kan också läsa att man efterfrågar information om "hur testet mäter kandidatens styrkor, svagheter, utvecklingsområden, kritiska kompetenser samt eventuella riskbeteenden". Denna formulering är fundamentalt inkorrekt, av flera skäl:

1. Kategorifel: Prediktorer vs utvärderingar

"Styrkor" och "utvecklingsområden" är inte psykologiska konstrukt utan värderingar av hur väl en persons egenskaper matchar specifika rollkrav. Samma personlighetsdrag kan vara en "styrka" i en kontext och ett "utvecklingsområde" i en annan. Som ett exempel kan ett personlighetstest inte mäta om något är en styrka – det kan endast mäta personlighetsdraget i sig. Bedömningen av om det utgör en styrka kräver kunskap om rollkrav, vilket ligger utanför testets räckvidd.

2. Kontextberoende vs kontextoberoende mätning

Kritiska kompetenser definieras alltid i relation till en specifik roll eller organisation. Ett psykometriskt test mäter däremot konstrukt som är definierade relativt oberoende av kontext. Hög extraversion är hög extraversion oavsett om det är en styrka för rollen eller inte. Testet kan inte "veta" vilka kompetenser som är kritiska i en given organisation – det kan endast mäta underliggande personlighetsegenskaper.

3. Prediktion vs mätning av beteenden

"Riskbeteenden" hör till kategorin kontraproduktiva arbetsbeteenden (CWB) – de är kriterier (Y), inte prediktorer (X). Ett personlighetstest mäter personlighetsdrag (t.ex. låg samvetsgrannhet, låg emotionell stabilitet osv.) som tillsammans kan predicera högre benägenhet för riskbeteenden i framtiden. Men testet mäter inte själva riskbeteendet i sig. Riskbeteenden kan endast observeras i faktisk arbetskontext, inte mätas med ett personlighetstest. Denna distinktion är kritisk: En person med låg samvetsgrannhet har högre sannolikhet att uppvisa vissa kontraproduktiva beteenden, men detta är en probabilistisk prediktion, inte en direkt mätning av beteendena.

4. Sammanblandning av nivåer

Formuleringen blandar ihop tre olika nivåer:

Prediktornivå: Personlighetsdrag, kognitiv förmåga
Tolkningsnivå: Styrkor/utvecklingsområden (dvs. värderingar av prediktorer i relation till krav)
Kriterienivå: Kompetenser, riskbeteenden (dvs. faktiska arbetsrelaterade utfall)

Ett psykologiskt test opererar enbart på prediktornivå. Tolknings- och kriterienivån kräver ytterligare information som ligger utanför testets räckvidd. Detta kan man även ha i åtanke när man upphandlar certifierade test: det är enbart prediktornivån som är certifierad. Inte tolkningsnivån (utgörs ofta av s.k. kompetenser) eller kriterienivån i en aktuell kontext.

Konsekvenser av sammanblandningen

Att blanda ihop prediktorer och kriterier får flera problematiska konsekvenser:

1. Omöjliga kravställningar

Att kräva att ett test ska mäta arbetsprestation, en viss kompetens, styrkor eller riskbeteenden vid testtillfället utgör en kategoriförväxling och leder till kravställningar som inte är möjliga att uppfylla. Mätning av psykologiska egenskaper såsom personlighet och kognitiv förmåga kan definitionsmässigt endast avse egenskaper som existerar vid mättillfället, medan framtida beteenden utgör utfall som ännu inte inträffat. Det är jämförbart med att kräva att en våg ska mäta framtida viktförändring, snarare än aktuell vikt. Instrumentet kan mäta ett nuvarande tillstånd; eventuella framtida förändringar kan endast prediceras utifrån denna mätning.

2. Pseudovalidering

Om leverantörer tvingas påstå att deras test mäter kriterier (styrkor, kompetenser, riskbeteenden) istället för prediktorer, skapas en illusion av direkt mätning. Detta undergräver hela det psykologiska validitetsbegreppet och det finns då per automatik inget behov av att validera prediktiva samband - eftersom man då redan påstår sig "mäta" utfallet direkt. Således bör inte test som i marknadsföringen säger sig mäta kompetenser eller riskområden tillåtas att bli godkända vid certifiering. En sådan certifiering är vilseledande.

3. Ansvarsdiffusion

När gränsen mellan prediktorer och kriterier suddas ut uppstår oklarheter kring ansvarsfördelningen för att etablera prediktiva samband. Är det leverantören, testutgivaren, som ska garantera att ett test “mäter” framgång i alla tänkbara roller, eller är det användarens ansvar att säkerställa att testet är relevant och att testresultaten används på rätt sätt för den specifika kontexten? Enligt ISO 10667, del 1 och del 2, är detta ett delat ansvar. Del 1 reglerar beställarens ansvar och tydliggör att organisationen ska definiera syfte, kravprofil och kriterier för framgång samt säkerställa att valda metoder är relevanta för den aktuella rollen. Del 2 reglerar leverantörens ansvar och avser kvalitetssäkring av metoderna, inklusive dokumentation av reliabilitet och validitet för de psykologiska begrepp som mäts, inte t.ex. riskbeteenden i en specifik organisation.

4. Hämmar evidensbaserad praktik

Korrekt användning av urvalsmetoder kräver förståelse för vad som mäts (prediktorer) och vad man önskar predicera (kriterier). När denna distinktion suddas ut blir det svårare att bedöma vilka test som är lämpliga för olika ändamål.

Konsekvenser för praxis

För upphandlande organisationer

Specificera prediktorer, inte kriterier: Kravställ att test ska mäta väldefinierade psykologiska konstrukt (t.ex. "personlighet enligt femfaktormodellen", "generell kognitiv förmåga").
Separera mätning från tolkning: Var medveten om att certifiering avser mätning av psykologiska konstrukt, inte kopplingar till organisationsspecifika kompetensramverk.
Kräv dokumentation, inte påståenden: Begär att testleverantören dokumenterar vad testet mäter och tillhandahåller evidens för prediktiva samband med relevanta kriterier, men kräv inte att testet påstår sig "mäta" kriterier.
Respektera användaransvar: Beakta att organisationen själv har det yttersta ansvaret för att validera hur valda prediktorer relaterar till organisationsspecifika kriterier, även om leverantörerna av prediktorerna (de psykologiska testen) bör kunna bistå med expertkunskap om hur man genomför dessa studier.

För testleverantörer

Specificera noggrant vad testet mäter: T.ex. “de fem personlighetsdimensionerna enligt FFM” och definiera tydligt de psykologiska konstrukt som åsyftas. Specificera även vilka eventuella underskalor som kan användas för prediktion.
Dokumentera, påstå inte: Tillhandahåll evidens för hur konstrukten kan relatera till olika typer av arbetsprestation, men påstå inte att testet "mäter" arbetsprestation direkt.
Undvik begreppsförvirring: Använd inte termer som "mäter styrkor" eller "mäter kompetenser" – dessa är utvärderingar, utfall eller kriterier, de är inte prediktorer.
Tydliggör valideringsbehov: Informera användare om att prediktiva samband behöver etableras empiriskt i deras specifika kontext.

För praktiker och upphandlare

Acceptera vad testet mäter: Ett personlighetstest mäter personlighet, ett kognitivt test mäter kognitiv förmåga – ingenting annat.
Bedöm kriterier separat: Utvärdera arbetsprestation (Uppgiftsprestation, Organisationsmedborgarskap, Avsaknad av kontraproduktiva beteenden) med hjälp av andra metoder – t.ex. arbetsprov eller prestationsbedömningar.
Etablera lokala samband: Genomför lokala valideringsstudier för att få kännedom om hur prediktorer relaterar till kriterier i er specifika organisation och era specifika roller.
Tolka kontextuellt: En testpoäng blir meningsfull först när den, utifrån sin konstruktdefinition, sätts i relation till relevanta kriterier och rollkrav.

Slutsats

Även om delar av ovanstående resonemang kan tyckas tekniskt och snårigt emellanåt så är distinktionen mellan prediktorer och kriterier inte en akademisk detalj, det är en logisk nödvändighet. En logisk nödvändighet som verkar ha hamnat i skymundan.

Psykologiska test mäter egenskaper som existerar vid testtillfället – exempelvis personlighetsdrag eller kognitiv förmåga. Detta är i grunden en tidsfråga. Mätning kan endast avse ett nuvarande tillstånd; framtida beteenden kan inte registreras innan de inträffat. Att tro att ett test kan eller kräva att ett test ska mäta framtida organisatoriska utfall bygger på en sammanblandning av tidsnivåer. Att hävda att ett personlighetstest ”mäter” en specifik kompetens eller ett prestations- eller beteendeområde ska därför ifrågasättas. Ett sådant påstående innebär att man tillskriver testet förmågan att mäta något som ännu inte existerar – vilket är logiskt omöjligt.

Som vanligt är ni välkomna att kontakta oss på team@assessmentengine.se för att prata test och testning i arbetslivet. Vi är experter på området psykologiska mätningar vid urval.

‍

Stay up to date with all of my latest insights and receive an email when I release them!

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.