Adaptief testen bij persoonlijkheid: hoe werkt het?
Het begrijpen van het adaptief testen van cognitieve capaciteiten werkt wat intuïtiever dan het adaptief testen van persoonlijkheid. Bij adaptieve tests voor intelligentie geldt: de kandidaat beantwoordt eerst een vraag en krijgt vervolgens een makkelijkere vraag wanneer dit antwoord fout was, en een moeilijkere vraag bij een goed antwoord.
Het basisidee is bij persoonlijkheid eigenlijk hetzelfde. De kenmerken van een vraag bepalen of dit voor een bepaalde kandidaat de juiste vraag is om te stellen, om zo snel en nauwkeurig mogelijk iemands eigenschappen te meten. Door alleen de vragen te stellen die voor de kandidaat het meest relevant zijn kan de testtijd sterk gereduceerd worden.
Zo kun je je bij persoonlijkheid voorstellen dat sommige vragen meer differentiëren bij bijvoorbeeld hogere scores op een bepaalde eigenschap dan andere.
Een goed voorbeeld hierbij is het willen meten van de zwaarte van iemands depressie. Wanneer je de vraag stelt “Ik voel mij wel eens somber” aan iemand die ernstig depressief is, dan zal dit weinig informatie opleveren; hij of zij zal het hier immers zeker mee eens zijn. Om een goede diagnose te stellen zul je in dit geval dus beter kunnen vragen of iemand wel eens een hele dag het bed niet uit komt.
Itemresponstheorie (IRT)
De principes zoals hierboven beschreven komen uit de itemresponstheorie (IRT, zie bijvoorbeeld Hambleton, Swaminathan, & Rogers, 1991, en Embretson & Reise, 2000). Het doel van IRT is om de latente (dus niet geobserveerde) score, θ of ‘theta’, van iemand op een bepaald construct (bijvoorbeeld intelligentie of een persoonlijkheidstrek) te meten. Het is belangrijk om te noemen dat IRT-modellen draaien om kans. Gegeven bepaalde karakteristieken van items (bijvoorbeeld de ‘moeilijkheid’ en de mate van discriminatie van het item), hoe groot is de kans dan dat iemand een bepaald antwoord geeft? Het grote voordeel van IRT is dat de kenmerken van personen en items op dezelfde schaal kunnen worden weergegeven, waardoor we uitspraken over deze kansen kunnen doen.
Het Graded Response Model en categorieresponsfuncties
De meeste persoonlijkheidsvragenlijsten (ook onze WPV en WPV Adaptief) hanteren een vijf-punts Likert-schaal uiteenlopend van Helemaal oneens tot en met Helemaal eens. Voor data verkregen via Likertschalen zijn er meerdere IRT-modellen ontwikkeld. In de WPV Adaptief wordt gebruik gemaakt van het Graded Response Model (GRM; Samejima, 1969), één van de meest gebruikte modellen voor antwoorden verkregen via Likert-schalen. De basisformule van het GRM is de volgende:
Bij het GRM heeft elk item één a-parameter (discriminatie), en meerdere locatieparameters (d), waarbij het aantal locatieparameters gelijk staat aan het aantal antwoordcategorieën minus één (dus bij een vijf-punts-schaal zijn er vier locatieparameters) Deze formule kunt u echter snel vergeten.
Belangrijker om te onthouden is dat de waarden van a en d in de praktijk altijd bekend zijn: deze itemkenmerken worden geschat (“gekalibreerd” in IRT termen) op basis van onderzoek, wat ook bij de APV gebeurd is. Aangezien a en d bekend zijn, kunnen we voor verschillende waarden van θ bepalen hoe groot de kans is op ieder antwoord is. Wanneer we verschillende waarden voor θ invullen kunnen we voor ieder item de categorieresponsfunctie plotten (zie Figuur 1 voor categorieresponsfuncties van twee Competitie items), waarin de kans op een bepaald antwoord afgezet wordt tegen theta.
Figuur 1. Categorieresponsfuncties van twee items van de schaal Competitie.
In Figuur 1 zien we de categorieresponsfuncties van twee items van de schaal Competitie. Als we kijken naar Item 1 dan zien we dat bij zeer lage scores (bijvoorbeeld -3) de kans op het antwoord ‘Helemaal oneens’ logischerwijs het grootst is. Echter, naarmate de mate van competitiedrang toeneemt, dan neemt de kans op het antwoord ‘Helemaal oneens’ af, en de kans op de overige antwoorden juist toe. Bij een beneden gemiddelde mate van Competitie (-1) zien we dat de kans op het antwoord ‘Neutraal’ het grootst is. Wanneer we Item 1 en Item 2 met elkaar vergelijken dan zien we ook verschillen: bij een bovengemiddelde mate van competitiedrang (2) is bij Item 1 de kans op ‘Helemaal eens’ het grootst, terwijl bij Item 2 de kans op ‘Eens’ het grootst is. De items verschillen dus in hun karakteristieken, waardoor de ene keer het ene item beter is voor de ene persoon, en de andere keer het andere item.
Iteminformatiefuncties
Of een item ‘beter’ is, wordt in termen van IRT, bepaald door de hoeveelheid informatie die een item geeft, gegeven iemands score op een latente trek (bijv. Competitie). De itemkenmerken van een item bepalen hoeveel informatie elk item geeft voor elke waarde van theta. Hoe dit werkt wordt duidelijk uit Figuur 2.
Figuur 2. Iteminformatiefuncties van twee items van de schaal Competitie.
In Figuur 2 zijn de informatiefuncties weergegeven voor dezelfde twee items van de schalen van Competitie uit Figuur 1. Twee dingen vallen op:
- Over het algemeen levert Item 1 meer informatie dan Item 2. Door de bank genomen is Item 1 dus een ‘beter’ item dan Item 2.
- Hoewel Item 1 voor de meeste waarden van Competitie meer informatie levert dan Item 2, is dit niet altijd het geval. Bij zeer hoge waarden van Competitie (ongeveer > 3) zien we dat het lijntje van Item 2 boven die van Item 1 komt: hier levert Item 2 dus meer informatie dan Item 1. Met andere woorden, en dit sluit aan bij het voorbeeld over de meting van depressie uit de introductie, voor iemand met een zeer hoge mate van competitiedrang zou het beter zijn om Item 2 te bevragen dan Item 1.
Dit basisprincipe, het tonen van het item dat voor de gegeven theta de meeste informatie oplevert, vormt de basis van de itemselectie bij de APV.
Het schatten van de latente trek bij IRT
Op basis van de gegeven antwoorden van een persoon kan vervolgens de latente trek geschat worden. Er zijn meerdere methoden ontwikkeld in de IRT om iemands latente trek, theta, te schatten. Alle methoden gaan echter op basis van de kans (of eigenlijk de waarschijnlijkheid, of likelihood) op een gegeven antwoordpatroon; we vinden theta waar de waarschijnlijkheid op het gegeven antwoordpatroon van de persoon het grootst is (vandaar dat deze methode van schatten maximum likelihood genoemd wordt). Veel adaptieve vragenlijsten en tests gebruiken echter Bayesiaanse methoden om theta te schatten; bij deze methoden wordt ervan uitgaan dat een persoon (dus theta) getrokken is uit een populatie (bij ééndimensionale IRT is dit de populatie met een standaardnormale verdeling met gemiddelde 0 en standaarddeviatie van 1). Deze standaardnormale verdeling wordt de prior genoemd, en hiermee wordt de waarschijnlijkheid op een bepaald antwoordpatroon nog gewogen. Het gaat te ver om hier in detail uit te leggen hoe dit werkt, maar uiteindelijk is het maximum van de nieuwe gewogen waarschijnlijkheidsfunctie (de posterior verdeling) de geschatte theta (vandaar dat deze methode maximum a posteriori (MAP) genoemd wordt). De standaarddeviatie van deze posterior verdeling geeft de spreiding aan die rondom de geschatte θ verwacht mag worden: hoe kleiner deze spreiding, hoe nauwkeuriger de meting. Deze waarde wordt de standard error of measurement (SEM) of standaardfout genoemd. Deze SEM-waarde is belangrijk bij adaptieve tests en vragenlijsten, omdat deze SEM gebruikt wordt als het stopcriterium van de test (zo ook bij onze WPV Adaptief en ACT Algemene Intelligentie).
Multidimensionale IRT (MIRT): het model achter de Adaptieve Persoonlijkheid Vragenlijst
In het voorgaande hebben we ons beperkt tot ééndimensionale IRT, dus waarbij er steeds slechts één latente trek werd geschat. Bij de WPV Adaptief maken we gebruik van multidimensionele IRT (MIRT), waarbij het doel is om niet één maar meerdere latente trekken tegelijkertijd te schatten.
Er is een groot scala aan IRT-modellen die geschikt zijn voor multidimensionale adaptieve tests. Een eerste keuze die echter gemaakt dient te worden is of er uitgegaan wordt van between-item multidimensionaliteit of within-item dimensionaliteit (Figuur 3).
Figuur 3. Schematische weergave within-item en between-item dimensionaliteit.
Bij between-item multidimensionale modellen wordt aangenomen dat elk item slechts een indicator is van één latente trek (dus slechts op één trek laadt); multidimensionaliteit wordt gemodelleerd door de correlaties tussen de latente trekken (de dubbelzijdige pijlen aan de linkerkant van het figuur). Belangrijk om hierbij te onthouden is dat bij between-item multidimensionaliteit het antwoord op een vraag slechts afhankelijk is van één latente trek.
Bij within-item multidimensionaliteit kan een item één latente trek of meerdere latente trekken meten: in Figuur 3 hierboven zien we bijvoorbeeld dat item 6 een indicator is van Facet 2 en Facet 3. Binnen het domein van intelligentie kan dit bijvoorbeeld een item zijn dat zowel leesvaardigheid als rekenvaardigheid meet. Het ene model is niet per se beter dan het andere; het gaat erom van welk theoretisch model men uitgaat.
Voor de WPV Adaptief hebben wij gekozen voor between-item multidimensionaliteit. Voor een deel was dit een pragmatische en praktische keuze: een between-item multidimensionaal model is eenvoudig, intuïtief, en sluit aan bij de traditie van factoranalyse om zoveel mogelijk uit te gaan van simple structures waarbij een item slechts één indicator is van een latente trek. Bovendien is een between-item model consistent met hoe de items ooit ontwikkeld zijn, namelijk om zo goed mogelijk één latente trek te meten. Ook voor de uiteindelijke eindgebruiker is een between-item model eenvoudiger uit te leggen dan een within-item model.
Hoe MIRT precies in zijn werk gaat is complex; hier zijn boeken vol over geschreven. Het belangrijkste om voor dit moment te onthouden is dat op basis van multidimensionale IRT er nog sneller en nauwkeuriger geschat kan worden dan met ééndimensionale IRT, omdat er rekening gehouden wordt met de onderlinge relaties tussen de trekken die men wilt meten. De twee belangrijkste punten die hiervoor zorgen zijn:
- Bij ééndimensionale IRT gaven we aan dat bij methoden als MAP ervan uitgegaan wordt dat een persoon (dus theta) getrokken is uit een populatie met een normale verdeling met een gemiddelde van 0 en een standaardafwijking van 1. Bij de MAP methode bij MIRT gaan we ervan uit dat een persoon (in dit geval dus meerdere theta’s tegelijk) getrokken is uit een multivariate verdeling met gemiddelden gelijk aanµ, en (co)variantiematrix Φ. In de praktijk wordt deze prior, dus de gemiddelden µen (co)variantiematrix Φ op basis van een zeer grote steekproef geschat in de kalibratiefase van de testontwikkeling. Een duidelijk verschil tussen het schatten van theta(‘s) bij IRT en MIRT is dus de gehanteerde prior die informatie toevoegt aan de waarschijnlijkheid van een responspatroon. Bij MIRT is de prior informatie veel informatiever dan bij IRT.
- Deze prior wordt ook benut bij de itemselectie; de prior informatie wordt nog toegevoegd aan de informatie dat elk item levert (zie Figuur 2). Hierdoor wordt het item gekozen dat op dat moment het meest relevant is voor meerdere latente trekken tegelijk.
Een ander belangrijk verschil is dat er bij IRT sprake is van één waarschijnlijkheidsfunctie, bij MIRT zijn er evenveel functies als te schatten theta’s (in het geval van de WPV Adaptief zijn dit er 25). De schatting van de theta’s met behulp van de MAP-methode werkt overigens wel hetzelfde bij MIRT als bij IRT: op basis van een gegeven antwoordpatroon wordt nu gezocht naar theta’s waarbij de verschillende waarschijnlijkheidsfuncties, gewogen met de prior, allemaal tegelijkertijd maximaal zijn.
In dit achtergrondartikel hebben wij voor de geïnteresseerde lezer de basisprincipes achter adaptief testen, IRT en MIRT willen uitleggen. Wilt u meer weten? Lees dan de technische handleidingen van de WPV Adaptief en de ACT Algemene Intelligentie.
WPV Adaptief
Uitgaande van de beschreven basisideeën is de WPV Adaptief ontwikkeld. Deze adaptieve versie is gebaseerd op onze Werkgerelateerde PersoonlijkheidsVragenlijst (WPV), die positief beoordeeld is door de COTAN. Deze vragenlijst rapporteert op 25 schalen, en 5 factoren; de theoretische basis is het Big Five model. Ook rapporteert de vragenlijst op 29 competenties.
Uniek aan WPV Adaptief is dus het feit dat de vragenlijst gebaseerd is op het multidimensionale model zoals hiervoor beschreven. Samenvattend kunnen we stellen dat in dit model rekening gehouden wordt met de onderlinge relaties tussen schalen (de prior). Van iemand die hoog scoort op Contactbehoefte, verwachten we bijvoorbeeld dat diegene ook wat hoger zal scoren op bijvoorbeeld de schaal Sociaal Ontspannen. Het algoritme houdt hier rekening mee, waardoor nauwkeuriger en sneller geschat kan worden. Na elk beantwoord item worden steeds de 25 schalen tegelijkertijd geschat. Hierbij zoekt het algoritme naar het item dat de meeste informatie oplevert over de 25 schalen.
Hoe dit in de praktijk werkt voor een kandidaat is weergegeven in Figuur 4.
Figuur 4. Voorbeeld van WPV Adaptief in de praktijk.
We hebben hier maar 3 van de 25 schalen weergegeven omdat het anders te onoverzichtelijk zou worden. In de linker grafiek zien we op de X-as het verloop van de vragenlijst, op de Y-as de schattingen van de schalen Competitie, Zorgzaamheid en Zelfonthulling. In de rechter grafiek zien we op de X-as weer het verloop van de vragenlijst, en op de Y-as de SEM-waarden, die iets zeggen over de betrouwbaarheid van de geschatte scores; hoe lager de SEM, hoe betrouwbaarder de geschatte score. In de rechter grafiek is ook de stopregel die we hanteren bij de APV, namelijk wanneer voor alle schalen de SEM < 0.44 is, weergegeven.
De vragenlijst start ervan uitgaande dat alle scores gemiddeld (dus score 0, het gaat hier om Z-scores) zijn. De vragenlijst start met een vraag van de schaal Competitie. Deze persoon antwoordde ‘Zeer mee oneens’. Je ziet dan ook dat na het eerste antwoord de schatting van Competitie sterk naar beneden gaat. Rond vraag 25 krijgt de kandidaat een item van Zelfonthulling, waarop hij of zij ‘Zeer mee oneens’ antwoordt; je ziet dat de schatting van Zelfonthulling hierdoor sterk lager wordt, en die van Zorgzaamheid (een schaal die samenhangt met Zelfonthulling) ook wel, maar in mindere mate. Uiteindelijk scoort deze persoon hoog op zowel Zorgzaamheid als Zelfonthulling, schalen die als gezegd doorgaans samenhangen, en je ziet dan ook dat de scores redelijk samen opgaan.
Wanneer we naar de rechter grafiek kijken zien we een zelfde soort beeld; de SEM van een schaal daalt (oftewel de betrouwbaarheid stijgt) primair wanneer een item van de betreffende schaal bevraagd wordt. Door het multidimensionale karakter van de vragenlijst geven leveren vragen van een andere schalen echter ook bruikbare informatie op, waardoor we meer te weten komen over deze schalen (en de betrouwbaarheid van deze schalen dus stijgen). Dus zelfs als er geen item van Competitie bevraagd wordt (bijvoorbeeld tussen item 2 en item 60) de SEM van de schaal Competitie langzaam afneemt, omdat ook wanneer items van andere schalen bevraagd worden we al iets meer weten over hoe hoog iemand scoort op Competitie.
Al deze kenmerken van de WPV Adaptief leiden ertoe dat we veel sneller en nauwkeuriger kunnen schatten. Onze oorspronkelijke volledige versie van de WPV telt 276 items, terwijl er bij de adaptieve versie gemiddeld slechts 90 items nodig zijn voor even betrouwbare schattingen. Dit is een reductie van ⅔ qua testtijd: van 30-40 minuten naar ongeveer 10-15 minuten. Ondanks deze reductie in testtijd wordt er op kwaliteit niet ingeboet: onderzoek heeft aangetoond dat de WPV Adaptief en de reguliere WPV equivalent zijn.
CarrièreWaarden Vragenlijst Adaptief (CW Adaptief)
Naast een adaptieve vragenlijst voor persoonlijkheid hebben wij ook een adaptieve variant van onze CarrièreWaarden Vragenlijst ontwikkeld. Deze vragenlijst brengt de drijfveren van een persoon in kaart; dus welke aspecten van werk iemand als motiverend ervaart. Ook de CarrièreWaarden vragenlijst is positief beoordeeld door de COTAN.
De basisprincipes van de CW Adaptief zijn hetzelfde als bij de WPV Adaptief. Bij de CW Adaptief zien we dat het adaptieve karakter ook een reductie van ongeveer ⅔ van de testtijd oplevert: van 15-20 minuten naar ongeveer 8-10 minuten. Onderzoek heeft aangetoond dat deze reductie in testtijd niet ten koste gaat van de validiteit en betrouwbaarheid van de vragenlijst.
Bekijk de pagina CarrièreWaarden Vragenlijst.
Nieuwe adaptieve testen in ontwikkeling
Op zeer korte termijn zal er van de Interessevragenlijst voor Taken en Sectoren (ITS) ook een adaptieve variant beschikbaar komen. Tevens zullen de testprogramma’s die wij hebben (bijvoorbeeld de Loopbaanscan) binnenkort adaptief af te nemen zijn. Dit betekent dat het in ongeveer 30 minuten mogelijk zal zijn om een breed beeld te krijgen van de persoonlijkheid, drijfveren en interesses van een persoon.