Menu

Sofian Bouazzaoui

Sofian Bouazzaoui

Toepassing in andere populaties (regel van Bayes)

Wanneer de totale N bij alle groepen gelijk is, hebben de voorspellingen maximale precisie en maximale statistische power. Hoe schever een verdeling is (bijvoorbeeld wanneer je spreekt over een zeldzame ziekte: er zijn veel meer mensen die niet ziek zijn dan mensen die wel ziek zijn), hoe groter het aantal valso positieven wordt (in verhouding tot het aantal ware positieven). De formule wordt dan:

Dit is de stelling van Bayes (in het geval dat er maar twee mogelijkheden zijn). Bekijk pagina 13 voor een rekenvoorbeeld.

Lees meer...

Hoe accuraat is de voorspelling?

Om de accuratesse van een voorspelling te bepalen, gebruik je een classificatietabel. In deze tabel staan de voorspelde waarden en de geobserveerde waarden tegen elkaar uitgezet.

De kwaliteit van de voorspelling kun je berekenen met de PAC:

In veel situaties is PAC een te grove schatting om te kunnen gebruiken. Om een betere kwaliteit van de voorspelling te krijgen, kun je de sensitiviteit en de specifiteit gebruiken. Deze geven de kwaliteit van het instrument weer. De algemene vraag hierbij is: hoe groot is de kans voor elk van de betrokken groepen dat een individu uit een bepaalde groep als lid van die groep wordt herkend? De sensitiviteit (de kans dat een lid van groep A inderdaad in groep A wordt geclassificeerd) kun je berekenen:

Een hoge sensitiviteit is erg belangrijk, maar het is pas iets waard als ook de specificiteit hoog is:

Deze twee begripppen beschrijven de conditionele kans (de kans op gebeurtenis A wanneer gebeurtenis B heeft plaatsgevonden). Een conditionele kans geef je weer als: p(A|B).

Voor de individuele diagnostiek is het niet zo van belang hoe groot de sensitiviteit en de specificiteit zijn. Je wilt weten hoe groot de kans is dat jij zelf een bepaalde diagnose hebt (wanneer die diagnose is gesteld) en hoe groot de kans is dat jij die diagnose niet hebt (wanneer de diagnose is gesteld dat je het niet hebt). De percentages die hierbij horen, zijn de positive en negative predicted value. Ook dit zijn conditionele kansen.

Lees meer...

Discriminantanalyse (DA)

Je wilt op grond van een aantal intervalvariabelen (p≥2) voorspellen tot welke groep uit een set van k groepen iemand behoort. Je kunt onderscheid maken door te kijken vanuit de groepen (descriptieve DA) of vanuit de individuen binnen die groepen (predictieve DA).

Bij het doen van DA moet je jezelf afvragen of je voorspelling zin heeft. Da leidt altijd tot een optimale voorspelling van de nominale variabele vanuit de intervalvariabelen. Een voorspelling stelt iets voor als deze beter is dan wat je op basis van toeval mag verwachten. Dit kun je berekenen met behulp van Wilk’s lambda. Hierbij geldt H0: de groepen verschillen op geen enkele manier op de intervalvariabelen. Wanneer Wilk’s lambda niet significant is, kun je niets voorspellen. Wanneer deze wel significant is, kun je een voorspelling doen die beter is dan je toevalsverwachting. Het is geen garantie voor een goede voorspelling of voor een sterke samenhang tussen de groepsindeling en de intervalvariabelen.

Voor predictieve DA hoef je eigenlijk niet te weten hoe de groepen van elkaar verschillen. Toch wil je vaak graag weten hoe en waarom een voorspelling werkt. Dit kun je bekijken met behulp van de descriptieve DA (komt bij de cursus MVDA aan bod).

Wanneer je een p-dimensionale ruimte hebt waarin je de scores van de verschillende proefpersonen aftekent, die je vervolgens verbindt met de verschillende groepen, kun je achterhalen bij welke groep welke proefpersoon hoort. Dit is namelijk de groep waar de proefpersoon het dichtst bij in de buurt staat. Zie ook figuur 3 op pagina 5. Je kunt de afstand berekenen met de stelling van pythagoras:

Bekijk pagina 6 voor een rekenvoorbeeld. De algemene formule is als volgt:

Wanneer de variabelen verschillende standaarddeviaties hebben, moet je de variabelen standaardiseren (omzetten in z-scores). Als variabelen onderling gecorreleerd zijn, moet je werken in de ruimte van de discriminantfunctievariaten. Wanneer de groepen verschillen in spreiding rondom het gemiddelde moet je de groepspunten wegen naar de standaarddeviaties van de groepen (de afstand wordt kleiner bij een hoge standaarddeviatie).

Lees meer...

Classificatie en discriminantanalyse

In de psychometrie wil je twee soorten uitspraken kunnen doen:

Dimensionele uitspraken: wat is iemands plaats op een bepaalde dimensie (bijvoorbeeld extraversie)? Wanneer je het hebt over betrouwbaarheid en validiteit, gaat het meestal om deze benadering.

Classificatie: tot welke categorie behoren we (bijvoorbeeld depressief)? Je wijst hier mensen toe aan categorieën.

Van dimensioneel naar classificatie

Classificatiesystemen worden ook wel taxonomieën genoemd. Vaak zijn classificaties en diagnoses in de psychologie gebaseerd op één of meer dimensionele oordelen. Er is een algemene procedure om van dimensionele oordelen naar classificatie te komen:

1. Onderzoeksgroep: je hebt een steekproef nodig, waarbij de scores op de dimensionele oordelen en op de classificatie van ieder individu bekend zijn.

2. Voorspellingsregel: je probeert binnen die onderzoeksgroep op basis van de dimensionele oordelen te voorspellen wie welke classificatie krijgt. Hierdoor kun je nieuwe gevallen classificeren en je kunt checken hoe goed de voorspellingsregel binnen de steekproef werkt.

3. Classificatie van nieuwe gevallen: wanneer de gevonden voorspellingsregel goed is, kun je hiermee nieuwe gevallen classificeren.

In het eenvoudigste geval heb je scores op één dimensie die je binnen de steekproef op twee manieren kunt classificeren: wel of niet een stoornis. Wanneer je een t-toets uitvoert op de data en de gemiddelde scores van de stoornisgroep zijn sterk significant verschillend in vergelijking met de niet-stoornis groep, heb je aangetoond dat de dimensie samenhangt met de stoornis. Om te kunnen bepalen of je de stoornis ook uit de dimensie kunt voorspellen, maak je gebruik van de grenswaarde XC. Hierop is de voorspellingsregel van toepassing:

  • als Xi < XC, dan behoort persoon i tot de niet-stoornis groep.
  • als Xi ≥ XC, dan behoort persoon i tot de stoornis groep.


Deze regel werkt niet perfect, omdat er bij echte data altijd wel wat overlap is (mensen die hoog scoren op de dimensie hebben toch geen stoornis, of mensen die laag scoren op de dimensie hebben toch wel een stoornis). Je maakt dus altijd fouten in je voorspelling. Het bepalen van de grenswaarde XC is niet eenvoudig. Je kunt twee soorten fouten maken, de vals negatieven en de vals positieven. Bij het bepalen van de grenswaarde moet je bedenken welke fouten je erger vindt. Daarnaast hangt de grenswaarde af van de vergelijkbaarheid van beide verdelingen

Wanneer je in meer dan twee groepen gaat classificeren op basis van één dimensie, kun je het best gebruik maken van discriminantanalyse.

Lees meer...
Abonneren op deze RSS feed

Advies nodig?

Vraag dan nu een gratis en vrijblijvende scan aan voor uw website.
Wij voeren een uitgebreide scan en stellen een SEO-rapport op met aanbevelingen
voor het verbeteren van de vindbaarheid en de conversie van uw website.

Scan aanvragen