Mco/BS. Associatie nominaal



Dovnload 187.35 Kb.
Pagina1/3
Datum21.08.2016
Grootte187.35 Kb.
  1   2   3
MCO/BS.
H4. Associatie nominaal.

Kruistabel geeft de frequentieverdeling van 2 of meer variabelen tegelijk.

Variabelen zijn nominaal of ordinaal.

Cellen zijn de kruispunten van 2 variabelen.

Percenteren per onafhankelijke=verklarende variabele (=meestal kolom).

Variabelen symmetrisch als geen onderscheid onafhankelijk en afhankelijk.


Chi-kwadraat X2

Chi-kwadraat X2 om na te gaan of samenhang tussen 2 variabelen significant is (=meer dan toevallig). Significant als sig SPSS < 0,05.

Geen samenhang= gelijke percentages per kolom (-> X2=0).
(fo - fe)2

2= 

fe
fo= de gemeten score (=observed)

fe= de verwachte score als er geen samenhang is (=expected)


som rij * som kolom

fe=

totaal
Correlatie voor variabelen als nominaal en symmetrisch.
Phi φ (alleen in 2*2-tabel) of Cramer’s V.
X2 X2

φ= √( ) of V=√( )

N N(k-1) k=minimum aantal rijen/kolommen

Correlatie voor variabelen als nominaal en asymmetrisch.
Lambda λ.

Lambda= het % waarmee het aantal foutieve voorspellingen vermindert na het

toevoegen van de verklarende variabele X= relatieve reductie.
E1 – E2

λ=

E1
E1= aantal foute voorspellingen zonder X

E2= aantal foute voorspellingen met X

(Je voorspelt voor alle scores klasse met grootste kans)
Tau τ

Tau= het % waarmee het aantal foutieve voorspellingen vermindert na het

toevoegen van de verklarende variabele X= relatieve reductie.
E1 – E2

Tau=

E1
E1= aantal foute voorspellingen zonder X

E2= aantal foute voorspellingen met X

(Je voorspelt in elke klasse volgens verhouding tussen de klassen)

H5. Associatie ordinaal.
X1 X2

Y2 a b


Y1 c d
concordant= allebei klein (=c) met allebei groot (=b): c*b

discordant= als 1 variabele oploopt en ander daalt (a met d): a*d


symmetrisch: x verklaart y en y verklaart x

asymmetrisch: x verklaart y, maar y verklaart niet x

gamma γ als maat voor concordante paren (symmetrisch).
concordant – discordant

γ=

concordant + discordant

Somer’s d als maat voor concordante paren (asymmetrisch).
concordant – discordant

d=

concordant + discordant + Ties y
Ties y met gelijke scores op afhankelijke variabele y (a*b + c*d)

Tau-b als maat voor concordante paren (symmetrisch).
concordant – discordant

tau-b=

√(concordant+discordant+Ties x)*(concordant+discordant+ Ties y)

=ac+bd =ab+cd


Spearman rho- correlatie tussen 2 ordinale variabelen (symmetrisch).

Ordinale variabele:

- Als 1 van 2 variabelen nominaal: kies nominale maat

- Kendalls tau beter dan gamma (want houdt rekening met ties)

- Goodman en Kruskals tau beter dan lambda (want minder grof)

- Cramers V te hoge waarde als veel lege cellen

(oplossing=cellen samenvoegen)




H1, H2, H3. Centrum, spreiding.
Een absolute frequentietabel geeft aan hoe vaak waarnemingen voorkomen.

Een relatieve frequentietabel maakt kansen of percentages van de aantallen: p= frequentie/N



Een groepsfrequentieverdeling geeft aantal scores per interval.

Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner dan de klasse bovengrens.

Een frequentie polygoon trekt een lijntje door de middenpunten met het aantal waarnemingen per klasse.
De histogram geeft het aantal waarnemingen per klasse.

Voordeel: overzichtelijker.

Nadeel: verlies van informatie, berekeningen niet meer exact (want je hebt niet meer de echte score, alleen dat die score in die klasse zit).

Hoogte geeft frequentie, breedte geeft exacte klassengrenzen.

Klassen zijn kwantitatief: 10-20, 20-30, etc. en gemeten op intervalniveau.

Exacte of ware klassengrenzen zijn de grenzen van elke waarneming,

bijv: 174 cm= alles tussen 173,5 en 174,5.



Klasse intervallen zijn intervallen met gelijke lengte.
De staafdiagram geeft het aantal waarnemingen per klasse.

Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal: Ned/Belg, Man/Vrouw. En ook voor discrete kwantitatieve variabelen, bijv. aantal kinderen per gezin.

In een taartdiagram komt het oppervlakte van de cirkelsector overeen met het percentage waarnemingen in de klasse.

Centrummaten.
De Modus.

Bij losse waarnemingen is de modus de waarneming die het meest voorkomt.

Als waarnemingen in groepen is de modus het midden van de klasse met de meeste waarnemingen (de modale klasse).

Nadeel modus: geen info over de overige waarden van de variabele.



Unimodaal= 1 top. Bimodaal= 2 toppen.
De mediaan.

Als 50% kleiner= mediaan.

Mediaan vooral handig in scheve verdelingen.

De mediaan bij losse scores:

De mediaan is middelste waarneming als waarnemingen van laag naar hoog.

Als even aantal waarnemingen: gemiddelde van de middelste 2 waarnemingen.
Het Gemiddelde (=Mean).

Als losse scores:

_ som van de waarnemingen ΣX

X= =

aantal waarnemingen N


Als frequentieverdeling:

_ som van de waarnemingen ΣXf

X= =

aantal waarnemingen Σf

X= de uitkomsten

f= hoe vaak een uitkomst voorkomt


Keuze tussen mean, mediaan en modus

Mean meest gangbaar. Alleen bij interval.

Modus alleen bij Nominale variabele.

Mediaan beter dan mean als:

1. Als ordinale schaal (mean niet te bepalen).

2. Extreme scores (outliers) of scheve verdeling te bepalend bij mean.



Spreidingsmaten.
Een percentiel geeft het % waarnemingen kleiner dan dit punt.

Voordeel percentiel= uitschieters weinig invloed.



Eerste kwartiel= 25% kleiner.

Mediaan= 50% kleiner.

Derde kwartiel= 75% kleiner.

Berekenen kwartielen: deel de scores in 2 helften: bereken mediaan van de helft. Als oneven: middelste waarneming doet mee met beide helften.



Interkwartielafstand IKA= Q3 - Q1= derde kwartiel - eerste kwartiel.

Boxplot.

Een boxplot-grafiek zet het kleinste getal, het grootste getal,

Q1, Q3 en de mediaan in een plaatje.

Whiskers zijn de lijntjes naar de grootste en kleinste waarde.

Het plaatje van de boxplot heeft de volgende standaardvorm:

50%


25% 25%


Kleinste Q1 Mediaan Q3 Grootste

getal getal

kwartielafstand



Kurtois= Gepiektheid van verdeling

>0=gepiekter, 0=perfect normaal, <0=duidelijk platter


Skewness=Scheefheid van een verdeling

<0=Negatief of Linksscheef






>0=Positief of rechtsscheef






De steekproefvariantie s2:

Σ(losse scores X - X)2=kwadratensom

s2=

N - 1


standaarddeviatie s= √variantie s2

s= maat voor spreiding rond het gemiddelde.

Het is ruwweg de gemiddelde afstand van de losse scores tot het gemiddelde.
Ruwe score omrekenen naar z-score

Je kan van elke ruwe score een z-score maken:


ruwe score X - gemiddelde

= z-score

s
Doelstelling van berekenen z-scores:

Je kan scores van verschillende schalen met elkaar vergelijken.

Je kan zien hoe de score zich verhoudt tot de rest van de populatie.



Variabelen.
Variabele is kenmerk die per persoon (=onderzoekseenheid) kan verschillen.

Constante is voor alle personen hetzelfde.

Onafhankelijke variabele x wordt door de onderzoeker ingesteld om het effect te meten op de afhankelijke variabele y.

Leeftijd en sekse altijd onafhankelijk.



Een kwantitatieve onafhankelijke variabele kan je in verschillende hoeveelheden toedienen.

Een kwalitatieve onafhankelijke variabele is een behandeling die wel of niet wordt toegediend.

Afhankelijke variabele y reageert op onafhankelijke variabele.

Dichotome variabele heeft 2 mogelijke uitkomsten (0 of 1).

Univariaat als 1 variabele per proefpersoon, bivariaat als 2 variabelen per proefpersoon, multivariaat als meer dan 2 variabelen per proefpersoon.
Een kwantitatieve variabele geeft hoeveelheden.

Een kwalitatieve variabele geeft kenmerken.

Een nominale (=naam geven) variabele is een kwalitatieve variabele.

Variabele heeft wel of niet een kenmerk.

Bijv: Belg/Ned, Man/Vrouw.

Een ordinale (=rangordenen) variabele rangordent scores van laag naar hoog.

Afstand van 1 tot 2 ≠ afstand van 2 tot 3.

Bijv: Uitslag na sportwedstrijd.

Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal.

Afstand van 1 tot 2 = afstand van 2 tot 3.

Bijv: hoogte van temperatuur.

Een ratioschaal gaat van laag naar hoog met vaste schaal en nulpunt.

Afstand van 1 tot 2 = afstand van 2 tot 3.

Bijv: lengte in centimeters.
Een discrete variabele is discontinu met meestal alleen hele uitkomsten.

Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten.

4. Opgaven associatie nominaal.
Opgave 1.

Een psycholoog doet onderzoek hoe Feedback de kans op succes beïnvloedt.

11 personen krijgen positieve feedback, 9 negatieve feedback.
Positief Negatief

Succes 8 4

Geen S 3 5
a. Percenteer per verklarende variabele.

b. Is er samenhang.

c. Bereken X2.

d. V.
Antwoord.

a.

Positief Neg som

Succes 8 4 12

Geen X 3 5 8

som 11 9 20



Positief Neg

Succes 73% 44%

Geen S 27% 56%

55% 45%

b. Ja, want %succes verschilt per groep.
c. Expected linksboven = 12 * 11/20= 6,6 (of:12*55%)

Expected rechtsboven= 12 * 9/20= 5,4 (of:12*45%)

Expected linksonder = 8 * 11/20= 4,4 (of: 8*55%)

Expected rechtsonder= 8 * 9/20= 3,6 (of: 8*45%)


(8 – 6,6)2 (4 – 5,4)2 (3 – 4,4)2 (5 – 3,6)2

Χ2= + + + = 1,65

6,6 5,4 4,4 3,6

(0,30 + 0,36 + 0,45 + 0,54= 1,65)


d. V= √(1,65/20*1)= 0,29

Opgave 2.
X0=D0M X1=SLIM

Y0=ARM 30 10 40

Y1=RIJK 20 40 60

50 50 100


Bereken lambda (voorspellen: arm of rijk).
Antwoord.

E1= 40 (gok op iedereen rijk: 60 goed, 40 fout)

E2= 20 + 10= 30 (dom: gok op arm, slim: gok op rijk)
40 - 30

λ= = 0,25

40


Opgave 3.

Van 30 personen wordt favoriete soap

en favoriete drankje genoteerd:
ONM GTST ATWT

breezer 5 4 1 10

cola 2 6 3 11

bier 3 2 4 9

10 12 8 30
Bereken lambda met soap als X.


Antwoord.

19 - 15


λ= = 0,21

19
19= 30 – 11

15= 30 – (5+6+4)


Opgave 4.
vrouw man

NRC 40 60 100

Volkskrant 100 100 200

Telegraaf 60 40 100

200 200 400
a. Bereken tau.

b. Bereken lambda


Antwoord.

a.

Geen rekening houden met man/vrouw:



Voorspelling: 100 NRC (=25% Goed), 200 Volkskrant (=50% Goed),

100 Telegraaf(=25% Goed).


100 (25% goed voorspeld, 75% fout)
400 200 (50% goed voorspeld, 50% fout)
100 (25% goed voorspeld, 75% fout)
Goed= 0,25 * 100 + 0,50 * 200 + 0,25 * 100= 150

Fout= 0,75 * 100 + 0,50 * 200 + 0,75 * 100= 250 -> E1=250


Nieuwe Voorspelling:

Bij vrouwen: 40 NRC (=20%), 100 Volkskrant (=50%), 60 Telegraaf (=30%).

Bij mannen : 60 NRC (=30%), 100 Volkskrant (=50%), 40 Telegraaf (=20%).
vrouwen:

40 (20% goed, 80% fout)
200 100 (50% goed, 50% fout)
60 (30% goed, 70% fout)
mannen:

60 (30% goed, 70% fout)
200 100 (50% goed, 50% fout)
40 (20% goed, 80% fout)
Goed= 0,2 * 40 + 0,5 * 100 + 0,3 * 60 +

0,3 * 60 + 0,5 * 100 + 0,2 * 40 = 152

Fout= 0,8 * 40 + 0,5 * 100 + 0,7 * 60 +

0,7 * 60 + 0,5 * 100 + 0,8 * 40 = 248 -> E2=248


250 - 248

tau= = 0,008

250
b.

E1= 200


E2= 200 (100+100)
200 - 200

lambda= = 0,0

200

Opgave 5.

Een fansite voor Brad Pitt heeft een adverteerder gevonden die bezoekers een date met Brad Pitt voorspiegelt: ‘Win een date met Brad’.

De site heeft dagelijks 200 bezoekers.

De helft van de bezoekers is man en de helft van de bezoekers is vrouw.

Van de mannelijke bezoekers clickt 10% de advertentie aan,

van de vrouwelijke bezoekers clickt 80% de advertentie aan.

Je wil voorspellen of mensen wel/niet clicken.
a. Bereken tau.

b. Bereken lambda

c. Vergelijk opgave 4 en 5.
Antwoord.

Data:


Man Vrouw Totaal

Wel 10 80 90

Niet 90 20 110

Bezoekers 100 100 200


a.

Geen rekening houden met man/vrouw:

Voorspelling: 90 (=45%) clicken wel en 110 (=55%) niet.
90 (45% goed, 55% fout)

200

110 (55% goed, 45% fout)
Goed= 0,45 * 90 + 0,55 * 110= 101

Fout= 0,55 * 90 + 0,45 * 110= 99 -> E1=99


Wel rekening houden met man/vrouw.

Bij mannen: 10 (=10%) clicken wel en 90 (=90%) niet.

Bij vrouwen: 80 (=80%) clicken wel en 20 (=20%) niet.
Mannen:

10 (10% goed, 90% fout)

100

90 (90% goed, 10% fout)
Vrouwen:
80 (80% goed, 20% fout)

100

20 (20% goed, 80% fout)
Goed= 0,1 * 10 + 0,9 * 90 + 0,8 * 80 + 0,2 * 20= 150

Fout= 0,9 * 10 + 0,1 * 90 + 0,2 * 80 + 0,8 * 20= 50 -> E2=50


99 - 50

tau= = 0,495

99
b.

E1= 90


E2= 30 (10+20)
90 - 30

lambda= = 0,667

90
c. Opgave 5. liggen de waarden hoger, want veel meer verschil man/vrouw.


Examenopgaven 1-6.
Opgave 1.

Een studente onderzoekt de samenhang tussen gender en 5 Merken.


Man Vrouw Totaal

Merk A 8 4 12

Merk B 12 24 36

Merk C 2 9 11

Merk D 18 10 28

Merk E 3 14 17

Totaal 43 61 104
Wat is de verwachte frequentie voor vrouwen die Merk B kiezen, als beide variabelen onafhankelijk zijn.

a. 21,12


b. 2,20

c. 8,04


d. 9,97
Opgave 2.

De onderstaande kruistabel combineert de variabelen Gender en Opleidingsniveau:


Man Vrouw Totaal

Hoog 23 30 53

Laag 31 16 47

Totaal 54 46 100


De samenhang wordt getest met een X2-toets.

Wat is de bijdrage van de cel hoog opgeleide vrouwen aan X2


a. 1,1036

b. 1,2445

c. 1,2955

d. 1,4609


Opgave 3.

Uit een grote representatieve steekproef blijkt dat 60% van de

Nederlanders naar het buitenland op vakantie gaat.

In een vervolgonderzoek kijkt men naar het vakantiegedrag van 100

mensen met alleen lagere school.
I. Als opleiding en reisgedrag niet samenhangen, verwacht je dat 60 laag

opgeleiden naar het buitenland gaan.

II. Als er een sterke samenhang is tussen opleiding en reisgedrag is het

aantal laag opgeleiden dat naar het buitenland gaat niet te

voorspellen.
a. Beide juist.

b. Alleen I juist.

c. Alleen II juist.

d. Beide onjuist.


Opgave 4.

Gegeven is de onderstaande kruistabel uit een onderzoek onder jongens tussen de 8-10 jaar uit de grote stad en van het platte land, waarbij werd gevraagd: ‘wat wil je later worden’.




afkomst


platteland stad

boer 20 10

Wat wil je later voetballer 8 20



worden piloot 2 40
a. Het meetniveau van beide variabelen is nominaal

en de verwachte frequentie van de cel stad/piloot is 29,40

b. Het meetniveau van beide variabelen is niet nominaal

en de verwachte frequentie van de cel stad/piloot is 29,40

c. Het meetniveau van beide variabelen is nominaal

en de verwachte frequentie van de cel stad/piloot is 12,60

d. Het meetniveau van beide variabelen is niet nominaal

en de verwachte frequentie van de cel stad/piloot is 40,0



Opgave 5.

Kruistabel van opgave 4:

a. Chi-kwadraat is 54,079 en Cramer’s V=0,541.

b. Chi-kwadraat is 31,973 en Cramer’s V=0,320.

c. Chi-kwadraat is 54,079 en Cramer’s V=0,735.

d. Chi-kwadraat is 31,973 en Cramer’s V=0,565.



Opgave 6.

Kruistabel van opgave 4:

a. Met afkomst als onafhankelijke variabele is Lambda gelijk aan 0,333 en dat betekent

dat het percentage fouten van afkomst en beroep 33% bedraagt.

b. Met afkomst als onafhankelijke variabele is Lambda gelijk aan 0,333 en dat betekent

dat de relatieve foutenreductie met kennis van afkomst 33% bedraagt.

c. Met afkomst als onafhankelijke variabele is Lambda gelijk aan 0,310 en dat betekent

dat het percentage fouten van afkomst en beroep 31% bedraagt.

d. Met afkomst als onafhankelijke variabele is Lambda gelijk aan 0,310 en dat betekent

dat de relatieve foutenreductie met kennis van afkomst 31% bedraagt.


Antwoorden 1-6.



  1   2   3


De database wordt beschermd door het auteursrecht ©opleid.info 2019
stuur bericht

    Hoofdpagina