Barbati Giulia lezione 1agg29-01-10

Transcript

Barbati Giulia lezione 1agg29-01-10
Corso di elementi di matematica per la statistica
Laurea Specialistica in Scienze della Prevenzione
A.A. 2009-2010
Università degli Studi di Trieste e Udine
Docente: Giulia Barbati
[email protected]
Testi di riferimento:
Le dispense del corso sono messe a disposizione dalla docente.
Testi di approfondimento:
G. Dall’Aglio “Calcolo delle probabilità”, Zanichelli.
P.Armitage, G.Berry “Statistical Methods in Medical Research”, Third
Edition, Blackwell Science.
F.E. Harrell “Regression modelling strategies”, Springer.
- Scale di misura dei caratteri.
- Distribuzioni unitarie e di frequenza.
-Gli indici di posizione delle distribuzioni
-Gli indici di dispersione delle distribuzioni
L'oggetto dell'osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo
in studio è detto 'unità statistica' .
Ex: un individuo, una A.S.L., un ospedale...
Ciascuna unità statistica presenta delle caratteristiche definite 'caratteri‘ .
Ex: il colore degli occhi in un individuo, il numero di medici che lavorano in una A.S.L.,
il numero di posti letto in un ospedale....
Ciascun carattere è presente in ogni unità con una determinata 'modalità‘
Ex: colore blu degli occhi, 10 medici in una certa ASL, 300 posti letto in un dato ospedale,...
La classificazione dei caratteri
I caratteri possono essere classificati in:
-Caratteri qualitativi (colore degli occhi, tipo di diagnosi...), a loro volta distinti in:
- ordinabili: è possibile ordinare le modalità del carattere in senso crescente o
decrescente (es: titolo di studio, livello di gravità della diagnosi...);
- sconnessi: non c’è alcun ordinamento intrinseco tra le modalità
(es: colore degli occhi, sesso...);
-Caratteri quantitativi (es: età, peso, numero di medici,...) distinguibili in:
- discreti: le modalità del carattere sono numeri interi (es: numero di medici...)
- continui: le modalità del carattere sono misurate su una scala continua (es: peso,
altezza...).
Alla base di tale classificazione dei caratteri vi è la 'scala di misura' con cui sono
espresse le modalità: se attraverso dei numeri o delle 'etichette'.
Classificazione dei caratteri e scala di misura
CARATTERE
qualitativo
SCALA
Sconnesso
Nominale
Ordinabile
Ordinale
quantitativo
Ad intervalli
(scala numerica discreta o continua)
Operazioni che è possibile fare sui caratteri in base alla loro classificazione
Operazioni sulle
Carattere
modalità del
Quantitativi
qualitativi
carattere
sconnessi
ordinabili
(discreti/continui)
=; ≠
si
si
si
>;<
no
si
si
+;-
no
no
si
Distribuzioni
Quando si rilevano le modalità con cui uno (o piu') caratteri si presentano in ciascuna
unità di una popolazione (o di un campione) si ottiene una 'distribuzione' della
popolazione/campione secondo il carattere considerato.
Ex: distribuzione 'unitaria' del peso in una classe:
Studente Peso (kg)
Marco
72
Chiara
55
Luca
68
...
...
distribuzione 'unitaria‘ = ad ogni unità del gruppo è associato
il suo peso, cioè la corrispondente modalità del carattere
considerato.
Possiamo anche suddividere in 'classi' la popolazione secondo il carattere considerato,
allora le modalità del carattere vengono raggruppate in classi ed otteniamo una
distribuzione di 'frequenze', dove per frequenza della classe si intende
il numero di individui che appartengono alla classe.
Classe di peso Frequenza di studenti
(kg)
nella classe di peso
< 50
3
50 ≤ < 60
7
60 ≤ <70
6
≥ 70
2
Tot
18
Il numero di unità che appartengono ad una classe= 'frequenza assoluta' della classe.
E' possibile calcolare anche le distribuzioni di 'frequenze relative' e di 'frequenze percentuali‘
Classe di peso Frequenza assoluta Frequenza relativa Frequenza percentuale
(kg)
(%)
< 50
3
3/18=0.17
17
50 ≤ < 60
7
7/18=0.39
39
60 ≤ <70
6
6/18=0.33
33
≥ 70
2
2/18=0.11
11
Tot
18
1
100
Alcuni simboli:
Abbiamo k classi di un dato carattere (nell’ex: 4 classi) cioè k=4; le possiamo
indicare tramite un indice i che varia da 1 a 4: i=1,2,3,4.
Abbiamo rilevato le modalità del carattere su N unità (nell’ex: N=18).
- Frequenza assoluta della classe i
- Frequenza relativa della classe i
- Frequenza percentuale della classe i
->
->
->
ni
fi=ni/N
pi=fi*100=(ni/N)*100
Esiste poi un simbolo matematico indica l'operazione di somma su un gruppo di oggetti
ed è chiamato 'sommatoria' :
k
∑n
i =1
i
= n1 + n 2 + n3 + n 4
(per k=4)
Classe di peso Frequenza assoluta Frequenza relativa Frequenza percentuale
(kg)
(%)
< 50
3
3/18=0.17
17
50 ≤ < 60
7
7/18=0.39
39
60 ≤ <70
6
6/18=0.33
33
70
2
2/18=0.11
11
Tot
18
1
100
≥
k
∑n
i
= n1 + n2 + n3 + n4 = 3 + 7 + 6 + 2 = 18
i =1
k
∑
i =1
k
ni = N ;
∑
i =1
k
fi = 1 ;
∑
i =1
p i = 100
Distribuzioni doppie
Se si rilevano invece due caratteri su un campione si ottiene una distribuzione doppia,
ed è uso comune rappresentare le distribuzioni doppie delle modalità rilevate per due caratteri
tramite la cosiddetta 'tabella di contingenza' o 'tabella a doppia entrata‘.
CLASSI DI PESO
1
2
3
4
<50 50<= <60 60<= <70 ≥ 70
SESSO
Totale
femmina
3
7
2
1
13
maschio
2
5
8
2
17
5
12
10
3
30
Totale
Come si puo’ confrontare correttamente la distribuzione di peso tra femmine e maschi?
(i due campioni hanno infatti numerosità diversa).
CLASSI DI PESO
1
<50
4
≥ 70
2
femmina f in SESSO 23.1%
53.8%
15.4%
7.7% 100.0%
f in Totale
10.0%
23.3%
6.7%
3.3%
43.3%
n
2
5
8
2
17
f in SESSO 11.8%
29.4%
47.1%
11.8% 100.0%
f in Totale
6.7%
16.7%
26.7%
6.7%
56.7%
n
5
12
10
3
30
f in SESSO 16.7%
40.0%
33.3%
10.0% 100.0%
16.7%
40.0%
33.3%
10.0% 100.0%
SESSO
maschio
Totale
f in Totale
n=
1
Totale
7
n
3
2
3
50<= <60 60<= <70
13
Frequenza assoluta
f in SESSO= Frequenza percentuale rispetto al sesso di appartenenza
f in Totale= Frequenza percentuale rispetto al totale degli individui
Tabella di Contingenza (a doppia entrata):
B
B1
B2
Totale
...
Bm
A1 na1b1 na1b2
...
na1bm
NA1
A2 na2b1 na2b2
...
na2bm
NA2
A ...
...
...
naibj
...
...
...
...
...
...
...
...
...
nakbm
NAk
...
NBm
N
Ak nakb1 nakb2
Totale NB1
NB2
naibj = numero di soggetti che presentano contemporaneamente
la modalità i del carattere A e la modalità j del carattere B.
Gli indici di posizione delle distribuzioni
Si usano in statistica degli indici per rappresentare in modo obiettivo una
massa di informazioni: un indice sintetico deve essere facilmente comprensibile,
relativamente semplice da calcolare e soprattutto confrontabile con indici ricavati
in tempi e luoghi diversi, sullo stesso tipo di dati.
Il dato di sintesi deve essere compreso tra il valore piu' piccolo e quello piu' grande
tra quelli osservati (naturalmente se è possibile ordinarli); deve inoltre identificarsi,
in qualche modo, con i valori piu' frequenti, i quali corrispondono spesso a
quelli localizzati al centro delle misure ordinate.
Si definiscono quindi i cosiddetti 'indici di tendenza centrale' o di 'indici di posizione'.
Un corretto approccio al problema richiede un'analisi preventiva della scala di misura
con cui sono espresse le modalità del carattere al fine di scegliere il tipo di indice di
posizione opportuno da utilizzare.
Gli indici di posizione delle distribuzioni:
MODA
Dato un qualsiasi tipo di carattere (qualitativo o quantitativo), la MODA della popolazione
distribuita secondo quel carattere è la modalità prevalente del carattere, ossia quella
a cui è associata la massima frequenza.
Classe di peso
Frequenza di studenti nella classe di peso
(kg)
< 50
3
50 ≤ < 60
7
(Moda o Classe Modale)
60 ≤ <70
6
≥ 70
2
Tot
18
Non è detto che vi sia un'unica moda in una distribuzione!
Colore degli occhi
Frequenza di studenti con quel colore di occhi
Blu
1
Castano
4
(Moda o Classe Modale)
Nero
4
(Moda o Classe Modale)
Verde
2
totale
11
…in questo caso la distribuzione viene definita bi-modale, cioè ha due mode.
Per quanto riguarda i caratteri qualitativi sconnessi la moda è
l'unico indice
di posizione che si puo' calcolare.
Distribuzioni di frequenze cumulate
Dato un carattere ordinabile (qualitativo ordinabile o quantitativo),
definiamo la 'distribuzione cumulativa' o 'distribuzione di frequenze cumulate'
popolazione rispetto a quel carattere:
della
-> dopo aver ordinato in senso crescente le modalità del carattere ed aver calcolato
le frequenze assolute per ogni modalità, la frequenza cumulata per la modalità i si
ottiene sommando le frequenze assolute corrispondenti alle modalità inferiori o uguali ad i.
Titolo di studio
Frequenze assolute
Frequenze cumulate
elementare
32
32
media inferiore
15
32+15=47
media superiore
10
32+15+10=57
laurea
4
32+15+10+4=61
totale
61
La frequenza cumulata della modalità i serve a rispondere alla domanda:
“Quante unità presentano una certa modalità i del carattere od una ad essa inferiore?”
Quante unità nella tab. hanno un titolo di studio di scuola media superiore o un titolo ad esso inferiore?
57=frequenza cumulata della modalità “media superiore”.
Distribuzioni di frequenze cumulate percentuali
Titolo di studio
Frequenze
Frequenze
Frequenze
Frequenze
assolute
percentuali
cumulate
cumulate
(%)
assolute
percentuali
(%)
elementare
32
52
32
52
media inferiore
15
24
47
52+24=76
media superiore
10
17
57
52+24+17=93
laurea
4
7
61
52+24+17+7=100
totale
61
100
"Quale % di questo campione ha un titolo di studio di scuola media superiore
o uno ad esso inferiore?"
Frequenza cumulata % della modalità "media superiore": 93%.
Gli indici di posizione delle distribuzioni: MEDIANA
La distribuzione di frequenze cumulate serve definire l'indice di posizione 'MEDIANA':
dato un carattere ordinabile (qualitativo ordinabile o quantitativo) la MEDIANA della
distribuzione è la modalità del carattere che bi-partisce (=divide in due parti uguali) la
distribuzione.
POSTO OCCUPATO
TITOLO DI STUDIO
NELL' ORDINAMENTO
ORDINATO
SOGGETTO 1
1
Elementari
SOGGETTO 4
2
Elementari
SOGGETTO 3
3
Medie inferiori
SOGGETTO 5
4
Medie inferiori
SOGGETTO 7
5
Medie inferiori
Medie superiori
SOGGETTO 6
6
Medie superiori
Medie inferiori
SOGGETTO 2
7
Laurea
SOGGETTO
TITOLO DI STUDIO
SOGGETTO 1
Elementari
SOGGETTO 2
Laurea
SOGGETTO 3
Medie inferiori
SOGGETTO 4
Elementari
SOGGETTO 5
Medie inferiori
SOGGETTO 6
SOGGETTO 7
SOGGETTO
Si ordinano le unità in base alla modalità del carattere rilevato (titolo di studio) e si identifica la
modalità dell'unità che occupa il posto centrale dell’ ordinamento
Con 7 unità -> centro=posto 4, divide la distribuzione in 2 parti uguali.
Regola generale per il calcolo della mediana, caratteri qualitativi ordinabili:
-Se la numerosità totale del campione N è dispari, la mediana è la modalità
del carattere associata all'unità che occupa il posto (N+1)/2 nell'ordinamento;
-Se la numerosità totale del campione N è pari, e se i due posti centrali dell'ordinamento
N/2 e (N/2 +1) sono occupati da unità aventi la stessa modalità, questa è la mediana;
altrimenti le modalità relative alle due unità sono dette entrambe modalità mediane.
SOGGETTO
TITOLO DI STUDIO
POSTO OCCUPATO
NELL' ORDINAMENTO
SOGGETTO 1
Elementari
1
SOGGETTO 2
Laurea
6
SOGGETTO 3
Medie inferiori
3
SOGGETTO 4
Elementari
2
SOGGETTO 5
Medie inferiori
4
SOGGETTO 6
Medie superiori
5
N=6 soggetti, gli individui
centrali occupano
N/2=3 e (N/2+1)=4 posto,
ed hanno
entrambi la modalità
scuola media inferiore che
è dunque la mediana.
SOGGETTO
TITOLO DI STUDIO
POSTO OCCUPATO
NELL' ORDINAMENTO
SOGGETTO 1
Elementari
1
SOGGETTO 2
Laurea
6
SOGGETTO 3
Medie inferiori
3
SOGGETTO 4
Elementari
2
SOGGETTO 5'
Medie superiori
4
SOGGETTO 6
Medie superiori
5
N=6 soggetti; il soggetto 5’ ha la media superiore, gli individui centrali nell'ordinamento
occupano sempre 3 e 4 posto, ma il campione ha due modalità mediane:
cioè media inferiore e media superiore.
Titolo di studio
Frequenze
Frequenze
Frequenze
Frequenze
assolute
percentuali
cumulate
cumulate
(%)
assolute
percentuali
(%)
Elementare
32
52
32
52
media inferiore
15
24
47
76
media superiore
10
17
57
93
laurea
4
7
61
100
totale
61
100
(mediana)
Per trovare la mediana, data una distribuzione di frequenze cumulate, basta guardare dove
si trova l'unità che occupa il posto centrale nella colonna delle frequenze cumulate assolute o,
ancora piu' semplicemente, dove cade il 50% dei casi nella colonna delle frequenze cumulate
percentuali.
Ex: N=61, dispari, l'unità centrale=posto (61+1)/2=31, nella classe che ha il titolo di studio
delle elementari, con associato il 52% delle frequenze cumulate percentuali del campione
(che contiene cioè il 50% che determina la mediana).
Calcolo della MEDIANA per caratteri quantitativi:
- Se la numerosità totale del campione N è dispari, la mediana è la modalità
del carattere associata all'unità che occupa il posto (N+1)/2 nell'ordinamento;
-Se la numerosità totale del campione N è pari, la mediana è la media aritmetica
dei valori assunti dalle due modalità corrispondenti alle unità centrali nell'ordinamento.
SOGGETTO
PESO
POSTO OCCUPATO
(kg)
NELL' ORDINAMENTO
SOGGETTO 1
55
2
SOGGETTO 2
78
5
SOGGETTO 3
52
1
SOGGETTO 4
67
3
SOGGETTO 5
91
6
SOGGETTO 6
76
4
la mediana è: (67+76)/2=71,5 Kg
Aver calcolato la mediana ci permette di dire che:
il 50% del campione esaminato ha un peso corporeo inferiore o uguale a 71,5 Kg
(sintesi dei dati).
Gli indici di posizione delle distribuzioni: quartili.
Col nome generico di ‘quantili’ o ‘percentili’ si identificano alcuni indici di posizione
che altro non sono che un’estensione del concetto di mediana, avendo in comune
con essa la caratteristica di suddividere in parti uguali una serie ordinata di dati.
Consideriamo ora i ‘quartili’ cioè gli indici di posizione che suddividono una
serie ordinata di dati in 4 parti uguali.
Classi di altezza
Frequenze assolute
(cm)
Frequenze cumulate
Frequenze cumulate
assolute
percentuali (%)
150 – 154
2
2
2
155 – 159
6
8
10
160 – 164
11
19
23
165 – 169
18
37
45
170 – 174
25
62
76
175 – 179
13
75
91
180 - 184
7
82
100
totale
82
Q1= primo quartile, che delimita il primo 25% della distribuzione;
Q3=terzo quartile, che delimita il 75% della distribuzione.
La mediana è quindi il secondo quartile:
Q2=mediana, poiché delimita il 50% della distribuzione, ed occupa infatti il posto centrale della
distribuzione ordinata:
Q1 =25%; Q2=Mediana=50%; Q3 =75%.
Classi di altezza
Frequenze assolute
(cm)
Frequenze cumulate
Frequenze cumulate
assolute
percentuali (%)
150 – 154
2
2
2
155 – 159
6
8
10
160 – 164
11
19
23
165 – 169
18
37
45
Q1
170 – 174
(contiene il 25%)
25
62
76
Q2
(contiene il 50%)
Q3
(contiene il 75%)
175 – 179
13
75
91
180 - 184
7
82
100
totale
82
Gli indici di posizione delle distribuzioni: media.
Per i caratteri quantitativi oltre alla moda, mediana, primo e terzo quartile
è possibile calcolare anche un altro indice di posizione: la media aritmetica.
Rilevate su n unità di una popolazione le modalità di un certo carattere quantitativo A:
a1, a2, …, an
definiamo la media aritmetica della distribuzione di misure la somma delle misure
diviso per il totale delle unità rilevate:
n
µ=
(a1 + a 2 + ... + a n )
µ=
n
Ex: un infermiere ha fatto delle ore di lavoro straordinario nell’anno 2004,
cosi’ distribuite da gennaio a dicembre:
10, 12, 11, 5, 7, 10, 5, 0, 7, 10, 7, 12.
Qual è il numero medio mensile di ore di straordinario?
µ=
(10 + 12 + 11 + 5 + 7 + 10 + 5 + 0 + 7 + 12) = 96 = 8
12
12
∑a
i =1
i=
n
i
Calcolo della media da una distribuzione di frequenze:
Ore di lavoro straordinario effettuate in un mese Frequenze assolute
µ=
0
1
5
2
7
3
10
3
11
1
12
2
Totale
12
(0 *1 + 5 * 2 + 7 * 3 + 10 * 3 + 11 *1 + 12 * 2) = 96 = 8
12
12
Carattere X Frequenze assolute Frequenze relative
x1
n1
f1
x2
n2
f2
x3
n3
f3
…
…
…
…
…
…
xk
nk
fk
Totale
n
1
frequenza relativa: fi=ni/n
k
µ=
x i * ni
(x1 * n1 + x2 * n2 + ... + xk * nk ) ∑
i =1
n
=
n
k
= ∑ xi * f i
i =1
Classi di altezza
Frequenze assolute
(cm): valore medio classe
150 – 154 : 152
2
155 – 159: 157
6
160 – 164: 162
11
165 – 169: 167
18
170 – 174: 172
25
175 – 179: 177
13
180 – 184: 182
7
totale
82
µ=
=
Nel caso in cui si abbiano delle classi di
frequenza per un carattere quantitativo, si
considera come valore centrale della classe
xi la modalità media tra gli estremi
massimo e minimo della classe i:
xi = ximin +
1
* ( ximax − ximin )
2
(152* 2 + 157* 6 + 162*11+ 167*18 + 172* 25 + 177*13 + 182* 7)
13909
= 169.62
82
82
Moda, mediana, quartili e media sono gli indici di posizione di piu’ frequente impiego.
Nel caso di distribuzioni simmetriche unimodali la moda coincide con la mediana e con la media.
Con il termine ‘simmetrico’ si intende una distribuzione di valori simmetrica
rispetto al valor medio, cioè che abbia la stessa quantità di osservazioni inferiori alla media
e superiori alla media:
10
Ex: distribuzione simmetrica e unimodale,
Moda=Mediana=Media
È la cosiddetta curva “normale” o curva “gaussiana”
8
6
4
2
Asse verticale (y): le frequenze con cui le modalità si
presentano
0
-2,75
-1,75
-2,25
-,75
-1,25
,25
-,25
asse orizzontale (x): i valori della distribuzione
(cioè le modalità del carattere quantitativo in studio)
1,25
,75
2,25
1,75
2,75
30
frequenze
MODA
MEDIANA
MEDIA
20
10
0
12
11
0
,0
0
,0
0
,0
00
00
00
00
00
00
00
00
00
00
10
9,
8,
7,
6,
5,
4,
3,
2,
1,
0,
classi di modalità del carattere
Quanto piu’ moda, mediana e media si differenziano,
tanto piu’ la distribuzione è asimmetrica.
Istogramma
frequenze
30
e la distribuzione sarà
-simmetrica se
Skewness=0
20
MODA
MEDIANA
MEDIA
-asimmetrica a sinistra
se Skewness > 0
- asimmetrica a destra
se Skewness < 0
10
0
12
11
0
,0
0
,0
0
,0
00
00
00
00
00
00
00
00
00
00
10
9,
8,
7,
6,
5,
4,
3,
2,
1,
0,
Si ha quindi l'indice di skewness (=asimmetria) pari a:
sk=3(media-mediana)/dev std
E’ necessario visualizzare i dati, in modo tale da scegliere un opportuno
indice di posizione. In caso di distribuzioni asimmetriche infatti è preferibile
usare la MEDIANA oltre alla MEDIA, che risente eccessivamente di valori
anomali (estremamente grandi o estremamente piccoli).
Quali indici di posizione sono opportuni per i vari tipi di caratteri:
CARATTERE
qualitativo
quantitativo
INDICE DI POSIZIONE
Sconnesso
Moda
Ordinabile
Moda, mediana, quartili
Moda, mediana, quartili, media
Gli indici di dispersione
Qualsiasi fenomeno collettivo misurato su un certo numero di unità puo’
essere sintetizzato da un indice di posizione. La posizione è rappresentativa
di un fenomeno, permette di inquadrarne la dimensione; tuttavia da sola
non basta per definire la reale distribuzione del fenomeno stesso.
Occorrono criteri aggiuntivi per quantificare la variabilità delle misure
rispetto ad un termine di riferimento.
(a) La variabilità delle misure puo’ essere valutata in base alla loro ‘oscillazione’,
vale a dire la loro ‘dispersione’ rispetto, per esempio, ai valori medi.
(b) La variabilità può essere valutata come distanza tra due modalità della
distribuzione:
- Misurando la distanza tra il valore minimo ed il valore massimo;
- Misurando la distanza tra il primo ed il terzo quartile della distribuzione.
1. VARIABILITA’ RISPETTO ALLA MEDIA:
2+5+5+5+8
=5
µA =
5
1+ 4 + 5 + 6 + 9
µB =
=5
5
2,5
3,5
3,0
2,0
2,5
1,5
2,0
1,5
1,0
1,0
,5
,5
0,0
0,0
2,0
4,0
6,0
A
8,0
2,0
4,0
6,0
8,0
B
…A e B non sembrano simili…
A: 2, 5, 5, 5, 8;
B: 1, 4, 5, 6, 9.
10,0
1. VARIABILITA’ RISPETTO ALLA MEDIA:
Due situazioni estreme:
-dispersione nulla: tutte le modalità sono uguali (e quindi uguali alla media);
C: 5, 5, 5, 5, 5;
5+5+5+5+5
µC =
=5
5
-dispersione massima: tutte le modalità sono pari a zero,
esclusa una che concentra in se’ tutta la variabilità: D: 0, 0, 0, 0, 5;
µD =
6
0+0+0+0+5
=1
5
5
NULLA
5
MASSIMA
4
4
3
3
2
2
1
1
0
0
5,0
C
0,0
D
2,5
5,0
2. VARIABILITA’ IN BASE ALLA DISTANZA:
Come distanza tra due particolari modalità della distribuzione:
2.a) Misurando la distanza tra il valore minimo ed il valore massimo:
in C tale distanza è 0 (dispersione nulla) mentre in D tale distanza è 5
(dispersione massima)
2.b) Misurando la distanza tra il primo ed il terzo quartile della distribuzione.
Due indici di dispersione del tipo 2 (distanza):
2.a) Data una distribuzione di valori x1, x2, x3…, xn di un carattere qualitativo ordinabile
o quantitativo, nei valori dal piu’ piccolo al piu’ grande: x(1)x(2) x(3) …x(n), si definisce:
INTERVALLO DI VARIAZIONE (RANGE) la distanza tra il valore minimo x(1) ed il
valore massimo x(n) della distribuzione ordinata: RANGE = x(n) - x(1)
2.b) Data una distribuzione di valori x1, x2, x3…, xn di un carattere qualitativo
ordinabile o quantitativo, si definisce: DIFFERENZA INTERQUARTILE (RANGE
INTERQUARTILE) la distanza tra il primo ed il terzo quartile:
RANGE INTERQUARTILE = Q3 - Q1
Questi indici di dispersione sono detti ASSOLUTI perché sono espressi nella
stessa unità di misura del carattere.
Classi di altezza
Frequenze assolute
(cm)
Frequenze cumulate
Frequenze cumulate
assolute
percentuali (%)
1: 150 – 154
2
2
2
2:155 – 159
6
8
10
3:160 – 164
11
19
23
4:165 – 169
18
37
45
5:170 – 174
25
62
76
6:175 – 179
13
75
91
7:180 - 184
7
82
100
totale
82
Il valore minimo della distribuzione delle altezze è nella classe 1:150-154,
il valore massimo è nella classe 7:180-184; per calcolare il RANGE si fa riferimento agli estremi
di queste due classi:
RANGE = 184 – 150 = 34 cm
Q1=165-169 (4) e Q3=170-174 (5); per calcolare il RANGE INTERQUARTILE
si fa riferimento ai valori medi di queste due classi:
RANGE INTERQUARTILE = 172 – 167 = 5 cm
30
20
10
0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
ALTEZZA
Range interquartile= 50% centrale delle unità
VARIABILITA’ RISPETTO ALLA MEDIA:
Indici di dispersione rispetto ad un valore medio: devianza
Per valutare la variabilità complessiva di una distribuzione di valori quantitativi:
x1 ,...x n
di media
µx
consideriamo gli scarti (cioè le differenze) di tutte le misure dalla media, cioè la
sommatoria:
n
∑ (x
i =1
i
− µx )
Per una particolare proprietà della media aritmetica, la sommatoria degli scarti dalla media è
sempre nulla:
n
∑ (x
i =1
i
− µx ) = 0
(a causa della compensazione tra scarti positivi e scarti negativi).
Si ricorre al quadrato, e si definisce ‘devianza’ la somma dei quadrati degli scarti dalla media:
n
2
DEV = ∑ (xi − µ x )
i =1
Riconsideriamo ad esempio le seguenti distribuzioni di valori:
A: 2, 5, 5, 5, 8;
B: 1, 4, 5, 6, 9.
2+5+5+5+8
=5
5
1+ 4 + 5 + 6 + 9
µB =
=5
5
µA =
Calcoliamo la devianza di A e di B:
Dev A = (2 − 5) + (5 − 5) + (5 − 5) + (5 − 5) + (8 − 5) = 9 + 0 + 0 + 0 + 9 = 18
2
2
2
2
2
Dev B = (1 − 5) + (4 − 5) + (5 − 5) + (6 − 5) + (9 − 5) = 16 + 1 + 0 + 1 + 16 = 34
2
2
3,5
2
2
2
2,5
3,0
B
2,0
A
2,5
1,5
2,0
1,5
1,0
1,0
,5
,5
0,0
0,0
2,0
A
4,0
Meno dispersa
6,0
8,0
2,0
4,0
6,0
8,0
10,0
B
Piu’ dispersa
Le unità di A hanno modalità del carattere piu’ vicine alla media e piu’ vicine tra loro
rispetto a B. La devianza di B (34) è infatti maggiore della devianza di A (18).
La devianza non contiene pero’ l’informazione del numero di osservazioni
utilizzate nel calcolo.
Per superare tale problema si calcola un altro indice di dispersione:
Varianza
N = numerosità del campione
N
VARIANZA = s =
2
2
(
)
x
−
µ
∑ i x
i =1
N −1
DEVIANZA
=
N −1
Le varianze diventano cosi’ confrontabili tra diverse distribuzioni e in
base al loro valore si puo’ stabilire quale, tra le due o piu’ serie di misure
considerate, presenta una maggiore dispersione rispetto alla media,
indipendentemente da N.
Varianza di B > Varianza di A; indipendentemente dal fatto che B ha
un'osservazione in piu' di A.
3.5
3.5
3.0
3.0
A
2.5
B
2.5
2.0
2.0
1.5
1.5
1.0
1.0
.5
.5
0.0
0.0
2.0
A
s A2
[(2 − 5 )
=
s B2
[(5 − 5 )
=
2
2
4.0
5
6.0
8.0
2.0
4.0
B
5
6.0
8.0
10.0
A: 2, 5, 5, 5, 8 ;
B: 5, 1, 4, 5, 6, 9 ;
µ A = 5; N A = 5
µ B = 5; N B = 6
]
+ (5 − 5 ) + (5 − 5 ) + (5 − 5 ) + (8 − 5 )
18
=
= 4 .5
5 −1
4
2
2
2
2
2
+ (1 − 5 ) + (4 − 5 ) + (5 − 5 ) + (6 − 5 ) + (9 − 5 )
34
=
= 6 .8
6 −1
5
2
2
2
2
]
Calcolo della varianza per distribuzioni di frequenza:
n
s2 =
2
(
)
x
−
µ
∑ i x * ni
i =1
n −1
ni = frequenza assoluta della modalità xi.
CLASSI DI PESO (kg): xi
Frequenze assolute
Frequenze relative
40 ≤ < 50 : 45.5
2
0.10
50 ≤ < 60 : 55.5
4
0.19
60 ≤ < 70 : 65.5
12
0.57
70 ≤ < 80 : 75.5
3
0.14
Totale
21
1
c
valore medio della classe: x i
n
∑x
µ peso =
∑ (x
n
s
2
peso
=
i =1
c
i
c
i
i =1
n
)
− µ x * ni
2
n −1
* ni
=
[45.5 * 2 + 55.5 * 4 + 65.5 *12 + 75.5 * 3] = 1325.5 = 63.12
21
21
[(45.5 − 63.12) * 2 + .... + (75.5 − 63.12) * 3] = 1380.95 = 69.05
=
2
2
21 − 1
20
Il peso medio è espresso nella stessa unità di misura dei dati: 63.12 kg.
La varianza (dispersione dei valori di peso intorno al peso medio) è invece al quadrato rispetto
all'unità di misura originaria. Per questo motivo, presentano i risultati usando la radice quadrata
della varianza.
Deviazione standard
n
s = s2 =
2
(
)
µ
x
−
∑ i x * ni
i =1
n −1
Deviazione standard= l'errore che si commette mediamente considerando il valore
medio al posto di ogni singolo valore della distribuzione.
s peso = s
2
peso
= 69.05 = 8.31 Kg
In media, le unità del campione osservato si discostano dal peso medio (63.12 kg)
di 8.31 kg al di sopra o al di sotto
(scostamento "assoluto", a prescindere
dal segno positivo o negativo)
E' MOLTO IMPORTANTE calcolare sempre la deviazione standard dalla media
perchè è un indice fondamentale per capire se i dati che stiamo osservando siano
ben sintetizzati dalla media oppure no.
Quanto piu' è alta infatti la deviazione standard, tanto meno è informativa la media,
perchè i dati si allontanano molto da essa.
14
20
12
10
8
10
6
4
Std. Dev = .60
Std. Dev = 2.07
2
Mean = -.15
Mean = -.13
N = 80.00
0
N = 80.00
0
4.
3.
2.
1.
.5
50
50
50
50
0
50
50
50
50
50
0
-.5
.
-1
.
-2
.
-3
.
-4
81
05
29
52
6
6
52
29
05
81
0
.
-5
3.
3.
2.
1.
.7
.0
-.7
.
-1
.
-2
.
-3
.
-3
NORM1
NORM2
NORM2: media= -0.13
deviazione standard= 0.6
NORM1: media= -0.15
deviazione standard= 2.07
…praticamente uguali in media pero' diverse come
dispersione intorno al valore medio.
Quale delle due è meno rappresentata dal valore medio?
Approfondimento
In piccoli studi si riduce la probabilità di includere dati particolarmente "dispersi" (in generale
infatti l'intervallo di variazione o range aumenta con il numero delle osservazioni) e quindi si
puo’ sottostimare la variabilità reale della popolazione.
Queste considerazioni giustificano, per N piccolo (<50/100), di modificare la formula
della varianza:
n
2
(
)
x
−
µ
∑ i x
VARIANZA = s 2 =
i =1
N −1
Motivo statistico-matematico: se di una distribuzione di dati è nota la media,
la conoscenza di uno degli N valori è superflua in quanto ricavabile utilizzando la formula del
calcolo della media stessa.
Ne deriva che questa misura, pur essendo indispensabile per determinare la media, non è
'indipendente' dalle altre, in quanto è implicita in esse e non fornisce ulteriore informazione;
per tale motivo viene trascurata nel calcolo della varianza. Le N-1 osservazioni indipendenti,
costituiscono un caso particolare di gradi di libertà; un concetto statistico importante,soprattutto
in inferenza, per indicare, nelle varie situazioni, il numero delle informazioni indipendenti.