Vad är poängen med standardiserade test?

År 1991, när Psychometrics Sweden (vi som har utvecklat och driver Assessment Engine) grundades, fanns inte internet. Det var alltså på stenåldern. Ett begåvningstest bestod ofta av ett häfte med flera sidor med uppgifter som testpersonen under mycket kontrollerade former fyllde i med en blyertspenna, alltid övervakad av en testadministratör. Även de flesta personlighetstester bestod av pappershäften och svarsblanketter, gärna på karbonpapper som var mycket modernt, och administrerades under kontrollerade former.

Som testadministratör hade man inte bara en relevant högskoleutbildning i botten utan också en gedigen testutbildning face-to-face, och i manualen fanns ett helt kapitel med administreringsanvisningar som steg för steg och på detaljnivå beskrev exakt hur testet skulle administreras. Förutom självklara aspekter som tidtagning vid begåvningstest fanns tydliga instruktioner om hur testmiljön skulle utformas (t.ex. utrymme – hur testpersoner skulle placeras, temperatur, möjlighet till toalettbesök, ostördhet) och det lades även stor vikt vid den sociala miljön kring testningen, med fokus på motivation och tolkning av uppgiften. Varje testperson skulle vara villig att svara ärligt, inte vara orolig för testningen, och förstå vad som förväntades. Allt detta för att ge varje enskild testperson så goda möjligheter som möjligt att prestera och känna sig trygg i att svara uppriktigt och sanningsenligt. Exakta instruktioner gavs också för administrering, rättning, beräkning och sammanställning av poäng, som sedan jämfördes med en normtabell för att tolka resultatet. Mycket fokus låg på återkopplingen, som ofta skedde i anslutning till testtillfället.

En stor del av testutvecklingen på den tiden bestod av att konstruera smarta sätt att rätta och poängsätta, skriva manualer med tydliga anvisningar för administration, ta fram scoringmallar (gärna OH-hinnor med hål i), och mycket möda lades ner på att träna administratörer i att hantera hela testprocessen. Och varför var detta så viktigt? Jo, för att säkerställa en standardiserad process. Enligt paragraf 3.26 i ISO 10667 innebär standardisering:

I vilken utsträckning en bedömning är baserad på detaljerade regler och specifikationer, inklusive administrativa riktlinjer utarbetade av utvecklaren av bedömningstjänsten med syfte att uppnå ett enhetligt, bestående bedömningsförfarande och att poängsätta och tolka resultat så att testförfarande och förhållanden är desamma för alla de bedömningsdeltagare som genomgår samma bedömning.

Alltså, för att garantera att samma process tillämpas för alla testpersoner och säkerställa att varje individ, oavsett kön, könsöverskridande identitet eller uttryck, etnisk tillhörighet, religion eller annan trosuppfattning, funktionsnedsättning, sexuell läggning eller ålder, har lika möjlighet att visa sina förmågor och egenskaper som testet mäter. Standardiseringen omfattar alla dessa delar, både innan testning, under testning och efter testning. Det är standardiseringen som ÄR USPen med psykologiska test.

Historiskt kan man se att självklarheter kring standardisering successivt har suddats ut. Först kom datoriseringen, där papperstester lades in i en dator, men testningen skedde fortfarande på plats med en testadministratör som säkerställde allt med testmiljön och övervakade testsituationen. Detta sparade tid och kvalitetssäkrade poängsättningen som kunde automatiseras. I andra vågen kom digitaliseringen, där själva testsituationen förändrades då testadministratören inte längre behövde träffa testpersonen. Återkoppling kunde ske genom att en skriftlig beskrivning skickades ut direkt efter avslutad testning. Fördelen är såklart tidsbesparing, det vill säga att du kan testa många personer samtidigt.

Vi har idag inte längre lika fullständig kontroll över testmiljön, och övervakningen av administreringen är borta. Vi har bytt bort standardiseringen i delar av testprocessen mot enkelhet för administratörer och testtagare (och det blev fritt fram att marknadsföra sig som ett användarvänligt alternativ och trycka på devisen att alltid testa så många som möjligt).

Redan vid denna punkt var, eller är, vi ute på hal is och möter utmaningar gällande brist på standardisering och därmed kvaliteten på testprocessen. Och kanske (förmodligen) är detta något vi måste leva med och även kan lära oss att hantera och delvis parera. Det som är mer oroande är att man på senare tid har tagit ännu större steg bort från standardisering när det gäller hantering och administrering av psykologiska test. Det är helt enkelt inte längre självklart att individer som genomgår en testprocess bedöms på ett likvärdigt sätt.

Detta tar sig bland annat uttryck i att testpersoner som genomför test vid ett givet tillfälle uppmanas, eller snarare erbjuds, att spara sina resultat så att leverantörens andra kunder kan köpa resultatet gång på gång och använda sig av det vid en ”senare tidpunkt”. Vid en odefinierad ”senare tidpunkt” har omständigheter tveklöst förändrats, och kontexten för testresultaten från exempelvis kandidater är inte densamma. Rimligtvis kan också normgrupper ha uppdaterats, versioner, uppgifter och påståenden ha bytts ut, och kompetensmodeller ha ändrats eller instruktioner ha justerats. Vem har kontroll på detta, och framför allt: vem är ansvarig för att detta inte sker – testpersonen, leverantören, eller kunderna? Det tar sig också uttryck i möjligheten för testpersoner att pausa sitt test om de blir trötta, stressade eller störda, även när det gäller begåvningstest.

Denna typ av ”flexibilitet”, som naturligtvis är mycket tilltalande för testpersoner och administratörer (vilket gynnar leverantören), medför oundvikligen att testprocessen är olika för olika testpersoner – bedömningsprocessen är ostandardiserad, trots att det är samma test som administrerats.

Resultat mellan individer från ostandardiserade processer är inte jämförbara. I urvalssammanhang kan denna typ av testresultat inte användas för att jämföra eller rangordna kandidater. I de fall de tillämpas riskerar bedömningen att vara allt annat än rättvis (även om marknadsföringen säger det motsatta). Detta är naturligtvis förödande för psykologiska test som metod, vilka allt som oftast får klä skott för det som pekas ut som brister i olika bedömningsprocesser, trots att det inte handlar om brister i test som metod utan om brister i hur bedömningsprocesser levereras och testresultat används.

Denna typ av ”flexibilitet” liknar mer en individuellt anpassad bedömning. Sådana bedömningsprocesser är framför allt relevanta inom klinisk verksamhet där rangordning av individer (vilket är själva poängen i urval) sällan är relevant. Men även inom arbetslivets psykologi, däribland urval, kan individuella anpassningar av en bedömningsprocess vara både relevanta och påkallade. Det kan till exempel vara vid olika typer av funktionsvariationer. För att avgöra om en sådan är aktuell och för att utforma och anpassa en bedömningsprocess krävs både god dialog med kandidaten på förhand och specifik expertis om hur en bedömningsprocess kan och bör anpassas för den specifika individen och den aktuella situationen. Att ändra förutsättningarna i ett standardiserat test varken löser eller garanterar en likvärdig bedömning.

Fördelen (eller kanske meningsfullheten snarare) med psykologiska test är alltså det standardiserade formatet. Och som sagt, kanske måste vi leva med oövervakade digitala administreringar och den brist på kontroll (och standardisering) som det medför, men det är kritiskt att vi strävar efter standardisering i alla moment kring testningen, både före, under och efter testning. Rekommendationen bör alltid vara att testa övervakat enligt konstens alla regler. Den uppmaningen ger också svar på många frågor som dyker upp som pekar på ”brister i test” trots att det egentligen handlar om brister i standardiseringen gällande utformningen, administreringen och/eller handhavandet av test. Och visst, det är alltid en avvägning mellan testpersonernas upplevelse, administratörens/kundens tid och pengar, och validiteten i testpoängen. På senare tid har det varit en kraftig slagsida mot det första, alltså testpersonernas upplevelse, vilket i slutändan drabbar testpersonerna själva.

På Assessment Engine arbetar vi för att alla testpersoner ska ha samma chans och för att generera giltiga och träffsäkra testresultat. Det ställer krav på att våra testadministratörer, tillsammans med oss, arbetar för att upprätthålla en god praxis så att tester fortsätter att vara standardiserade. Annars riskerar de att förlora sin unika ställning som ett tillförlitligt mått på förmågor och egenskaper.

Genom att genomföra noggranna arbetsanalyser, högkvalitativa bedömningsprocesser och erbjuda högkvalificerad expertis om personbedömningar i arbetslivet (t.ex. gällande anpassningar vid funktionsvariation – som vi inte löser genom att ändra på ett standardiserat test), hittar vi tillvägagångssätt som gynnar både bedömningsdeltagare och beslutsfattare, allt enligt ISO 10667.

Hör gärna av dig till oss på team@assessmentengine.se om du vill diskutera med oss.

Stay up to date with all of my latest insights and receive an email when I release them!

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

Vad är poängen med standardiserade test?

Psykometribloggen

Hur mäter vi egentligen arbetsprestation?

Var står vi när krutröken lagt sig?

Personlighet och prestation i skolan