H2- statistiek haalt info uit data. Descriptieve statistiek



Dovnload 88.78 Kb.
Datum27.08.2016
Grootte88.78 Kb.
H2-H5.
Statistiek

Statistiek haalt info uit data.

Descriptieve statistiek beschrijft de dataset.

Inferentiële statistiek geeft met data conclusie over populatie.
Populatie en steekproef

Populatie= totale groep die wordt onderzocht.

Parameter= kengetal van de populatie

Steekproef= deel van de populatie.

Statistiek= kengetal van de steekproef.
Variabele

Variabele is kenmerk die per persoon kan verschillen.

Data is meting van kenmerk.

Een discrete variabele als vaste stappen tussen de uitkomsten,

bijv. aantal kinderen



Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten,

bijv. tussen 1,74 meter en 1,75 meter oneindig aantal lengtes.

Scores bij continu zijn dus altijd afgeronde getallen.

Frequentieverdelingen.

Een frequentietabel geeft aan hoe vaak waarnemingen voorkomen.

Grafisch weergave: lijndiagram.

Een relatieve frequentietabel maakt percentages van de aantallen:

p= frequentie/N

Een gegroepeerde frequentieverdeling geeft aantal scores per interval.

Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner

dan de klasse bovengrens.

Grafisch weergave: histogram histogram.
De staafdiagram (bar chart) geeft het aantal waarnemingen per categorie.

Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal: Ned/Belg, Man/Vrouw.

In een taartdiagram (pie chart) komt het oppervlakte van de cirkelsector overeen met het percentage waarnemingen in de klasse.

Verschillende schalen.

Een schaal is de meeteenheid om een variabele te meten
Een nominale (=naam geven) variabele heeft wel of niet een kenmerk,

bijv: Belg/Ned, Man/Vrouw.


Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3.

Bijv: laag-, midden-, hoogopgeleid.

Nominaal en ordinaal zijn kwalitatief= wel/niet in klasse.
Een kwantitatieve variabele is numeriek en krijgt een getalswaarde:

Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal.

Afstand van 1 tot 2 = afstand van 2 tot 3.

Bijv: hoogte van temperatuur.
Een ratioschaal gaat van laag naar hoog met vaste schaal en nulpunt.

Afstand van 1 tot 2 = afstand van 2 tot 3.

Bijv: lengte in centimeters.
Een absolute schaal als de variabele maar op een manier gemeten kunnen worden, bijv: aantal kinderen in een gezin
Zinvolle bewering.

Een bewering is zinvol als waar voor iedereen die werkt met dezelfde schaal.

Voorbeeld: ‘temperatuur ligt hoger’ is waar voor Celcius en Fahrenheit= zinvol

‘temperatuur 10 graden hoger’ verschilt voor Celcius en Fahrenheid= niet zinvol


Nominale variabelen kan je niet zinvol numeriek vergelijken.

Je kan niet zeggen dat Belg hogere score is dan Nederlander.

Je kan de frequenties per categorie wel vergelijken (meer Belgen dan Ned).
Bij ordinale variabelen kan je wel zeggen dat iemand hoger of lager scoort,

bijv: universiteit hogere opleiding dan alleen lagere school,

maar je kan dat verschil geen getalwaarde geven.
Bij interval wel hoger/lager,

je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C

je mag niet zeggen: A= 2B (verschilt tussen Celcius en Fahrenheit)

je mag niet zeggen: verschil= 5 (verschilt tussen Celcius en Fahrenheit),


Bij Ratio wel hoger/lager,

je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C

je mag zeggen: A= 2B (gelijk voor meting in centimeters en meters)

je mag niet zeggen: verschil= 5 (verschilt tussen cm en meters)


Bij absoluut wel hoger/lager

je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C

je mag zeggen: A= 2B

je mag zeggen: verschil= 1 (1 kind meer per gezin wordt altijd zo gemeten)



6. Reductietechnieken.

Reductie zoekt 1 score die data samenvat.

Nadruk op 2 kenmerken van de data:

- Centrale tendentie (=gemiddelde)

- Spreiding (=spreiding rond het gemiddelde).


Centrale tendentie.
Het rekenkundig gemiddelde
Als losse scores:

som van de waarnemingen ΣX

X= =

aantal waarnemingen n


Als data gegroepeerd in klassen:

n1 * Klassemidden Groep 1 + n2 * Klassemidden Groep 2

X=

aantal waarnemingen= n1 + n2


n1,n2= aantal waarnemingen per klasse

Klassemidden= (bovengrens + ondergrens)/2


Kenmerken van rekenkundig gemiddelde.

- Elke verandering van 1 score verandert uitkomst.

- Zeer gevoelig voor outliers.
De mediaan.

Als 50% kleiner en 50% groter= mediaan.


De mediaan bij losse scores:

De mediaan is de middelste waarneming als van laag naar hoog gerangschikt.

Als even aantal waarnemingen het gemiddelde van de middelste 2 waarnemingen.
Als data gegroepeerd in klassen:

Aflezen op y-as (=relatieve frequentie) bij 50%


De Modus.

Bij losse waarnemingen is de modus de waarneming die het meest voorkomt.

Als waarnemingen in groepen is de modus het midden van de klasse

met de meeste waarnemingen (=de modale klasse).

Als 2 modi: bimodaal
Keuze tussen gemiddelde, mediaan en modus

gemiddelde meest gangbaar.

Nominale variabele alleen met modus.

soms mediaan beter dan mean:

1. Extreme scores of scheve verdeling (uitersten te bepalend voor gemiddelde).

2. Als ordinale schaal (gemiddelde niet te bepalen).




Spreiding
Variantie s2

Σ(losse scores X - gemiddelde)2

s2=

n= aantal losse scores

standaarddeviatie s= √variantie s2
Percentiel

Een percentiel geeft het % waarnemingen kleiner dan deze waarde.

Het percentage staat op y-as, de waarde kan je aflezen op x-as




Percentiel


%

p

x-waarde




interkwartielafstand


75%

25%

Q x-waarde



p25 p75

Eerste kwartiel= p25= 25% kleiner, 75% groter

Mediaan= p50= 50% kleiner, 50% groter

Derde kwartiel= p75= 75% kleiner, 25% groter

Interkwartielafstand Q= derde kwartiel - eerste kwartiel.
Over percentielen.

- Het percentiel is een soort rangordenummer in een groep.

Score van persoon is dus sterk afhankelijk van niveau van de groep.

- De berekening wordt helemaal bepaald door het aantal mensen dat

lager scoort. Hoeveel lager anderen scoren heeft geen invloed.
De variatiebreedte

variatiebreedte =de grootste waarneming - de kleinste waarneming.

In klassen: bovenste klassegrens – onderste klassegrens


Spreidingsmaat d
1 – fmo/n

d=

1 – 1/p
fmo= aantal scores bij de modus of in modale klasse

n= aantal waarnemingen

p= aantal verschillende uitkomsten of aantal klassen
Vergelijken variantie=s2, percentiel, variatiebreedte en d

Doel: meting moet stabiel zijn

Outliers veel invloed op s2 en variatiebreedte, niet op percentiel en d

d vanaf nominaal, percentiel vanaf ordinaal, breedte en d vanaf interval



7. Bivariate statistiek

Bivariaat=2 variabelen, je kijkt naar 2 variabelen tegelijk


Een spreidinsdiagram (scatterplot) is een puntenwolk.

Elk punt geeft de scores op x en y van 1 individu.

Je kan in een scatterplot zien hoe x en y samenhangen:

- 1. de richting (stijgend=positief of dalend=negatief)

- 2. de sterkte (tussen -1 en 1)

- 3. de vorm (lineair of kwadratisch)



Het lineaire model.

y= b0 + b1 * x

Doel is voorspellen van y.

Residu= meting y – schatting b0 + b1 * x

(residu: hoe ver ligt een los punt van de rechte lijn)

De lijn wordt zo geschat dat ∑residuen2 wordt geminimaliseerd

=kleinste kwadratenmethode

Het model bestaat uit een rechte lijn die ergens begint (=b0)

en die een constante richting heeft (helling= b1).

b1 laat het effect van x op y zien als x met 1 punt stijgt.


Schatten van Regressielijn.

y= b0 + b1 * x


sy

b1= r *

sx

b0= y - b * x


Voorwaarden voor regressie.

- De relatie tussen X en Y is lineair.

- Beide variabelen minimaal interval.

Correlatie.


correlatie r.

cov(X,Y)


r=

sx*sy


cov(X,Y)= ∑(X-X)(Y-Y)/N-1
Kruisprodukt= ∑(X-X)(Y-Y)

Covariantie= gemiddeld kruisprodukt

Correlatie= gestandaardiseerde covariantie


y

(x,y)= ++




(X,Y) x


(x,y)= --


Als zowel x en y hoger of lager dan gemiddelde

draagt punt bij aan een positieve correlatie.

Pearson orrelatie r

- Pearson correlatie meet alleen lineaire correlatie (=lijntje).

Niet-lineaire correlatie wordt niet gemeten.

Duidelijke niet-lineaire samenhang kan r=0 opleveren.



- Extreme scores kunnen allesbepalend zijn.

Outliers liggen een eind buiten het algemene patroon.

- Beide variabelen minimaal interval.



Een correlatie is niet een causaal verband.

Wel gemeten correlatie, maar geen causaal effect.

Bijv.: X1 en Y worden allebei beïnvloed door X2.
X2

X1 Y


Voorbeeld: Hoge inkomen ouders (X1) hangt samen met IQ van kinderen (Y).

IQ ouders (X2) verklaart allebei: Slimme ouders verdienen meer en krijgen slimme kinderen. Kinderen worden niet slimmer als ouders meer gaan verdienen.



Kendall’s tau τ

Kendall als relatie x en y monotoon stijgend of monotoon dalend is,

maar niet lineair (dan Pearson)
Je hebt van een aantal personen de scores op 2 variabelen.

Je vergelijkt alle personen paarsgewijs.


A - B

τ =

n*(n-1)/2
A= aantal paren waar de ene persoon hoger of lager scoort op beide variabelen

B= aantal paren waar de ene hoger scoort op 1 variabele, maar lager op andere

Tie= als 2 personen gelijk scoren op 1 variabele (telt niet mee bij A of B)

n= aantal personen

n*(n-1)/2= aantal paren dat je kan maken met n personen

Spearman rS

Pearson r voor interval



Spearman rS- correlatie tussen 2 ordinale variabelen.
6 * ∑D2

rS= 1 – ( )

n * (n2-1)
1. Per kenmerk resultaten rangordenen.

2. Per paar rangnummers van elkaar aftrekken=D.

3. Verschillen gekwadrateerd bij elkaar optellen=D2.

Persoon 1 P2 P3 P4 P5 P6

Kenmerk X per paar

Kenmerk Y X EN Y APART RANGORDENEN aftrekken

D1 D2 D3 D4 D5 D6


H8. Theorie Kansen.
samenvatting 8.1-8.3
De toevalsvariabele

Een toevalsvariabele is een variabele waarvan de uitkomst toeval is.

Een gebeurtenis is een groepje mogelijke uitkomsten van de variabele.

Een zekere gebeurtenis zijn alle mogelijke uitkomsten.

De som van de kansen op alle uitkomsten is 1.


voorbeeld:

dobbelsteen is toevalsvariabele

uitkomst 1,2= gebeurtenis

uitkomst 1,2,3,4,5,6= zekere gebeurtenis


De uitkomsten van de variabele zijn discreet of continu:

discreet= eindig aantal uitkomsten.

continu= oneindig aantal waarnemingen in interval.
voorbeeld:

dobbelsteen is discreet, lengte in continu



De kans

de kans op een uitkomst is hoe vaak iets gebeurt als je eindeloos probeert:

aantal uitkomsten met A

P(A)= De kans op uitkomst A=

totaal aantal uitkomsten


complement van kans A:

De kans dat iets niet gebeurt= 1 - de kans dat het wel gebeurt.

p(AC)= 1 - p(A)

p(AC)= het complement van p(A)


voorbeeld zuivere dobbelsteen:

kans op gooien van 6= 1/6

complement van gooien van 6: 1 – 1/6= 5/6

Unie= kansen optellen.

aantal uitkomsten met tenminste 1 kenmerk A of B

P(A U B)=

totaal aantal uitkomsten




als A en B elkaar uitsluiten:

P(A U B)= P(A) + P(B)



als A en B elkaar niet uitsluiten:

P(A U B)= P(A) + P(B) - P(A ∩ B)



voorbeeld zuivere dobbelsteen als uitsluiten:

uitkomst A= 1,2,3

uitkomst B= 4,5 1 2 3 4 5

P(A U B)= 3/6 + 2/6= 5/6 6


voorbeeld zuivere dobbelsteen als niet uitsluiten: 4 6

uitkomst A= 1,2,3

uitkomst B= 1,3,5 2 1 3 5

P(A U B)= 3/6 + 3/6 – 2/6= 4/6
Onafhankelijke en afhankelijke kansen.

onafhankelijk= uitkomst A geen invloed op uitkomst B: P(B)= P(B│A)

afhankelijk= uitkomst A invloed op uitkomst B: P(B)≠ P(B│A)
voorbeeld zuivere dobbelsteen onafhankelijk

A= 1,2

B= even= 2,4,6

P(B)= 3/6= 1/2 1 3 5 2 4 6 1 2

P(B│A)= 1/2

P(B)=3/6 P(B│A)= 1/2

voorbeeld zuivere dobbelsteen afhankelijk

A= 1,2,3

B= even= 2,4,6

P(B)= 3/6= 1/2 1 3 5 2 4 6 1 2 3

P(B│A)= 1/3

P(B)=3/6 P(B│A)= 1/3




Doorsnede= overlap tussen de uitkomsten.

aantal uitkomsten met beide kenmerken A en B

P(A ∩ B)=

totaal aantal uitkomsten




Als kansen onafhankelijk:

p(A ∩ B)= p(A) * p(B)

P(A)=P(A│B)

P(B)=P(B│A)



Als kansen afhankelijk:

p(A ∩ B)= p(A) * p(B│A)



voorbeeld zuivere dobbelsteen onafhankelijk

A= 1,2

B= even= 2,4,6

P(A ∩ B)= 1/6 1 2 4 6
P(A ∩ B)= 3 5 P(A ∩ B)= 1/6

p(A) * p(B)=

2/6 * 1/2= 1/6
voorbeeld zuivere dobbelsteen afhankelijk

A= 1,2,3

B= even= 2,4,6

P(A ∩ B)= 1/6 1 3 2 4 6

P(A ∩ B)= 5 P(A ∩ B)= 1/6

P(A) * p(B│A)=

1/2 * 1/3= 1/6

De voorwaardelijke kans P(A│B):

het aantal waarnemingen A in B P(A ∩ B)

P(A│B)= =

het aantal waarnemingen B P(B)

voorbeeld zuivere dobbelsteen:

A=1,2,3


B=1,3,5

C=2,4,6
P(B)= 3/6

P(B│A)= 2/3 of met formule: P(A ∩ B) / P(B)= 2/6 / 3/6= 2/3

P(C)= 3/6

P(C│A)= 1/3 of met formule: P(A ∩ C) / P(C)= 1/6 / 3/6= 1/3


Samenvatting 8.4-8.7
Een discrete kansverdeling.

Een discrete kansverdeling f(x) geeft de uitkomsten met de kans.

De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan.

F(x)= een niet dalende stapsgewijze functie.


voorbeeld dobbelsteen

X 1 2 3 4 5 6

fx: 1/6 1/6 1/6 1/6 1/6 1/6

Fx: 1/6 2/6 3/6 4/6 5/6 1


Het gemiddelde van de discrete kansverdeling.

E(X)= Σ(de uitkomsten * de kansen)


De variantie van de discrete kansverdeling.

V(X)= Σ(de uitkomsten - gemiddelde)2 * de kansen


voorbeeld

X: 4 8

fx: 1/4 3/4


E(X)= 4 * 1/4 + 8 * 3/4= 7

V(X)= (4-7)2 * 1/4 + (8-7)2 * 3/4= 3


Een continue kansverdeling.

De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een interval. De kans op een uitkomst in een interval is gelijk aan het oppervlakte

dat hoort bij het interval.

In een continue kansverdeling heeft een punt geen oppervlakte ->

p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg)

Totale oppervlakte onder de functie is 1.

De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan.

F(x)= is een continue niet-dalende functie.



Bivariate (=gezamenlijke) kansverdeling.

Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y.

- kansen (x,y) ≥ 0

- som gezamenlijke kansen ∑(x,y) = 1

cov(X,Y) = E(XY) - E(X) * E(Y)

E(XY)= Σ(uitkomst X * uitkomst Y * kans op tegelijk X en Y)


cov(X,Y)

ρ(X,Y)=

σX * σY
voorbeeld

Y=0 Y=1

X=0 0,4 0,3

X=1 0,1 0,2
P(X=0)= 0,7

E(X)= 0 * 0,7 + 1 * 0,3= 0,3

V(X)= (0 – 0,3)2 * 0,7 + (1 – 0,3)2 * 0,3= 0,063 + 0,147= 0,21

E(Y)= 0 * 0,5 + 1 * 0,5= 0,5

V(X)= (0 – 0,5)2 * 0,5 + (1 – 0,5)2 * 0,5= 0,125 + 0,125= 0,25

E(XY)= 0*0*0,4 + 0*1*0,3 + 1*0*0,1 + 1*1*0,2= 0,2

COV(XY)= 0,2 – 0,3*0,5= 0,05

COR(XY)= 0,05/ (√0,21*√0,25)= 0,218

P(X=0│Y=0)= 0,4/0,5= 0,8

P(X=0│Y=1)= 0,3/0,5= 0,6



samenvatting 8.8
De verwachting voor een constante maal een variabele.

Als Z= aX

E(Z)=E(a * X)= a * E(X)
voorbeeld

Als E(X)=4 en Z=2X ->

E(Z)= 2* E(X)= 2*4= 8

De verwachting voor een constante maal een variabele.

Als Z= aX

V(Z)= a2 * V(X)
voorbeeld

Als V(X)=3 en Z=2X ->

V(Z)= 22* V(X)= 4*3= 12

De verwachting van een som.

Als Z= X + Y

E(Z)=E(X) + E(Y)
voorbeeld

Als E(X)=4 en E(Y)=2 en Z=X+Y ->

E(Z)= E(X) + E(Y)= 4+2= 6

De verwachting van een produkt.

Als Z= X * Y

E(Z)=E(X) * E(Y) (als onafhankelijk)
voorbeeld

Als E(X)=4 en E(Y)=2 en Z=X*Y ->

E(Z)= E(X) * E(Y)= 4*2= 8

De variantie van een som.

Als Z= X + Y

V(Z)=V(X) + V(Y) + 2*COV(X,Y)
voorbeeld

Als V(X)=4 en V(Y)=2 en COV(X,Y)=1 en Z=X+Y ->

V(Z)= V(X) + V(Y) + 2*COV(X,Y)= 4+2+2*1= 8

De variantie van een aftrekking.

Als Z= X - Y

V(Z)=V(X) + V(Y) - 2*COV(X,Y)
voorbeeld

Als V(X)=4 en V(Y)=2 en COV(X,Y)=1 en Z=X-Y ->

V(Z)= V(X) + V(Y) – 2*COV(X,Y)= 4+2-2*1= 4

H9. Bijzondere kansverdelingen
9.1 Binomiale kansverdeling B met parameters n en π.

n!


kans op k goede uitkomsten= * π k * (1- π)n-k

k!*(n-k)!



n= de steekproefgrootte

π= kans op succes bij elke poging

k= aantal successen in de steekproef


E(B)= n*π

V(B)= n*π*(1- π)



Aanname: De kans op succes is constant.


voorbeeld dobbelsteen:

je gooit 4x met een dobbelsteen,

kans op uitkomst 1x 6:


4!

* 1/61 * 5/64-1 = 4 * 1/6 * 0,5787= 0,386

1!*(4-1)!




9.2 Normale kansverdeling met parameters μ en σ.
De normale verdeling.

N(μ,σ) is een normale verdeling met gemiddelde μ en afwijking σ.

De normale verdeling is symmetrisch rond μ.
De z-verdeling.

De standaard normale verdeling Z is symmetrisch rond 0 met σ=1.

Elke score van normale verdeling N kan worden omgeschreven naar z:
ruwe score X - μ

z=

σ
voorbeeld:

μ=100 en σ=10

kans op score kleiner dan 90 ->

p(Z < ((90 – 100)/10)= p(Z < -1)= 0,1587



9.3 Χ2-verdeling.

E(Χ2)= v en V(Χ2)= 2v


9.4 t-verdeling.

z

t-verdeling (in vergelijking met z-verdeling).

t= meer uitgewaaierd dan z

Bij n>30 -> t ~ z

t en z beide symmetrisch rond 0.

t


0


9.5 F-verdeling:




0 1 ∞
- F altijd positief

- Rechtsscheef

- Piek bij ongeveer 1 (iets groter)





Steekproevenverdeling van X.

Je doet een steekproef uit populatie waarvan gemiddelde  en  bekend zijn.

Het gemiddelde van steekproef is niet bekend (kan door toeval afwijken van gemiddelde populatie) en de steekproevenverdeling X geeft kansverdeling

van de mogelijke uitkomsten van gemiddelde steekproef.



Rekenen met X.

X - μ


z =

σ/√n
voorbeeld

μ=10, σ=5, n=25

kans op uitkomst gemiddelde >12

p(X > ((12-10)/(5/√25)) ->

P(Z > 2)= 0,0228


Centrale limietstelling:

Als populatie normaal is kansverdeling X altijd normaal verdeeld.

Als n > 30 kan je het gemiddelde normaal benaderen,

ook als populatie niet normaal verdeeld is.

Steekproevenverdeling X heeft gemiddelde µ en V(X)= V(X)/n

Als n groter, wordt verdeling steeds normaler en V(X) steeds kleiner.



Steekproevenverdeling van S2.

Je doet een steekproef uit populatie waarvan variantie s2 bekend is.

De variantie in de steekproef is niet bekend (kan door toeval afwijken

van de populatie) en de steekproevenverdeling S2 geeft kansverdeling

van de mogelijke uitkomsten van variantie in steekproef.
Rekenen met S2.

Gegeven:nS22= Χ2n-1


Als P(S2 < getal) ->

(links en rechts vermenigvuldigen met n/σ2)

P(nS22 < n*getal/σ2) ->

P(Χ2n-1 < n*getal/σ2) ->

opzoeken in Χ2-tabel
voorbeeld

n=10 en σ2=100

P(S2 > 190) ->

P(10*S2/100 > 10*190/100) ->

P(Χ29 > 19)=

1 – 0,975= 0,025




Vanaf 26 december definitieve herziene versie

met H10 + vectoren



De database wordt beschermd door het auteursrecht ©opleid.info 2017
stuur bericht

    Hoofdpagina