Statistica univariata

Transcript

Statistica univariata
1
Capitolo zero:
STATISTICA DESCRITTIVA UNIVARIATA
La STATISTICA è la scienza che si occupa di fenomeni collettivi che richiedono lo studio di un grande
numero di dati.
Il termine STATISTICA deriva dalla parola STATO, già gli antichi Romani facevano “censimenti” per
contare gli abitanti e per conoscere le loro caratteristiche: età, professione,ecc.
I censimenti sono indagini statistiche che riguardano l’intera popolazione residente nello stato.
Si chiama POPOLAZIONE STATISTICA l’insieme su cui si fa l’indagine statistica. Il termine “popolazione”
si usa anche quando tale insieme non è costituito da persone, ad esempio le auto immatricolate in
Italia nel 2011 potrebbero essere oggetto di una indagine statistica e quindi costituire la “popolazione”
oggetto dell’indagine.
Per ragioni economiche spesso, le indagini statistiche riguardano un CAMPIONE e non l’intera
popolazione, in tal caso è essenziale che il campione sia rappresentativo altrimenti l’indagine statistica
darebbe risultati errati.
Per effettuare una INDAGINE STATISTICA bisogna:
 rilevare i dati,
 fare lo spoglio dei dati e correggere, se possibile, eventuali errori,
 elaborare i dati con strumenti matematici adatti
 interpretare i risultati ottenuti
Il nostro studio riguarda prevalentemente gli ultimi due punti dell’indagine statistica: l’elaborazione dei
dati con strumenti matematici e l’interpretazione dei risultati dell’indagine statistica.
Si dice UNITA’ STATISTICA ogni elemento della popolazione, di ciascuna unità statistica si studia
almeno un CARATTERE, il carattere può essere qualitativo o quantitativo :
CARATTERE QUALITATIVO
un CARATTERE QUANTITATIVO è
è espresso con attributi:
frutto di un conteggio o di una
maschio / femmina
misura ed è espresso con un
o
numero intero o con un numero
castano, rosso, biondo,…
reale
Per studiare i dati statistici si costruiscono delle tabelle di frequenza dove, accanto ad ogni modalità di
un carattere, si riporta la frequenza della modalità.
Tali tabelle si chiamano:
SERIE se vi sono caratteri qualitativi , SERIAZIONI se vi sono caratteri quantitativi.
Tra le serie statistiche, le più importanti e diffuse sono le serie storiche. Sono esempi di serie
statistiche, la serie che descrive l’andamento del costo della benzina negli ultimi dieci anni, la serie che
descrive il numero di multe date dai vigili urbani nei primi sette giorni dell’anno in corso, ecc. è una
serie, quella che descrive il colore degli occhi degli studenti della IIIaA.
Esempio: serie storica della produzione annua di olio, in quintali, e rappresentazione grafica con un
grafico cartesiano :
2
Anno
2003
2004
2005
2006
Produzione
In quintali
2.508.084
2.678.201
2.458.396
1.914.535
Esempio : serie delle materie scolastiche preferite dai ragazzi e dalle ragazze e loro rappresentazione
con diagramma a colonne
Materia
maschi
femmine
preferita
Italiano
5
3
Storia
4
7
Geografia
4
2
Matematica
2
3
Scienze
6
4
Ed. Fisica
5
5
totale
26
24
LE SERIAZIONI
Esempio 1 Con uno strumento, si è rilevato, per 40 minuti consecutivi, il numero delle particelle
cosmiche al minuto:
0
4
2
4
1
4
4
2
3
3
1
5
2
5
3
1
8
1
2
2
5
4
2
4
1
2
3
3
3
3
1
3
3
3
2
3
2
3
5
2
Possiamo chiederci:
Qual è il minor numero di particelle rilevato in un minuto?
Qual è il maggior numero di particelle rilevato in un minuto?
Quale numero di particelle è stato rilevato più frequentemente?
Per quanti minuti sono state rilevate meno di 5 particelle al minuto ?
Qual è il numero medio di particelle rilevate al minuto?
Ad alcune domande si può rispondere anche con i dati grezzi, ad altre no.
La variabile statistica che dobbiamo studiare la indichiamo con X.
X è uguale al numero di particelle cosmiche rilevate al minuto, essa può assumere i valori interi da 0 ( il valore
minore rilevato) a 8 ( il valore massimo rilevato ).
Il RANGE dei valori è 8-0=8
Ad ogni valore di X corrisponde una frequenza assoluta fa( il numero di volte che si è ottenuto quel valore)
Ad ogni valore di X corrisponde una frequenza relativa fr = fa/n , n è il numero dei dati, in questo caso n=40.
La frequenza può anche essere espressa in modo percentuale fr*100 %
Molto interessante è la frequenza cumulata: per ogni valore della variabile X , la frequenza cumulata é la
somma delle frequenze assolute minori o uguali al valore di X considerato.
In modo analogo si può costruire la tabella delle frequenze relative cumulate o di quelle percentuali cumulate.
3
X
0
1
2
3
4
5
6
7
8
Totale:
fa
1
6
10
12
6
4
0
0
1
40
numero dati
fr
0,025
0,15
0,25
0,3
0,15
0,1
0
0
0,025
1
f%
2,5%
15%
25%
30%
15%
10%
0%
0%
2,5%
100%
vale sempre 1
vale sempre 100
fa cumulata
1
7
17
29
35
39
39
39
40
40
numero dei dati
Istogramma che rappresenta la distribuzione della Frequenza assoluta cumulata del
frequenza assoluta del numero di particelle al minuto.
numero di particelle al minuto rilevate
Ora che i dati sono stati ordinati e rappresentati, possiamo rispondere ad alcune domande relative al
fenomeno su cui è stata fatta l’indagine statistica.
Qual è il minor numero di particelle rilevato in un minuto? 0 (nessuna particella)
Qual è il maggior numero di particelle rilevato in un minuto? 8 particelle
Quale numero di particelle è stato rilevato più frequentemente? 3 particelle
Per quanti minuti sono state rilevate meno di 5 particelle ? 35 minuti
Per quanti minuti sono state rilevate più di 4 particelle al minuto? 40-35= 5 minuti
Qual è il numero medio di particelle rilevate al minuto?
circa 3 particelle al minuto
La variabile X appena studiata è numerica e discreta perché i valori che assume sono il risultato di un
conteggio.
La variabile Y che, assume come valore l’altezza dei giocatori del Novara Calcio, è numerica e continua,
perché i valori sono frutto di una misura.
La variabile Z che assume come valore il colore degli occhi dei giocatori del Novara Calcio è una
variabile qualitativa detta mutabile, perché non assume valori numerici .
Talvolta è necessario suddividere in classi, l’intervallo dei valori da rappresentare.
Divideremo l’intervallo in classi della stessa ampiezza, il numero delle classi può variare tra 4 e 15,
solo in casi eccezionali il numero delle classi può arrivare a 20.
Ci sono regole pratiche che permettono di stimare il numero di classi in cui dividere i dati in modo da
ottenere una buona distribuzioni statistica di frequenze.
 Si può estrarre la radice quadrata del numero N di dati
e approssimare il risultato
 calcolare 1+3,322Log(N) e approssimare il risultato
Se i dati sono 80, con la prima formula si ottiene N ~
= 8.9 → 8 classi,
4
con la seconda formula si ottiene N ~1+3,322*Log(80)=7,32 → 7 classi
Esempio 2
Gli ottanta dati seguenti indicano le emissioni giornaliere di gas inquinante da un impianto industriale
espresse nella stessa unità di misura.
Il Range dei valori è R=31.8-6.2=25.6
Poiché i dati sono 80 decidiamo di dividere l’intervallo [6.2 , 31.8] in 7 parti uguali dette classi.
L’ampiezza di ciascuna classe è
a=(32-6.2)/7=3,7
NB: il valore maggiore è stato arrotondato per eccesso. A volte si aggiunge uno per essere certi di avere tutti
i dati distribuiti nelle 7 classi.
Quando la distribuzione statistica è suddivisa in classi, bisogna calcolare il valore centrale di ogni classe:
nella classe [c,d[ Il valore centrale è (c+d)/2
Classe
Valore centrale
Fa
8.05
7
11.75
10
15.45
12
19.15
23
22.85
16
26.55
8
30.25
4
Fr
0.0875
0.125
0.15
0.2875
0.2
0.1
0.05
1
totale
80
Istogramma delle frequenze assolute :
i valori sull’asse x sono quelli centrali di ogni classe
F%
8.75
12.5
15
28.75
20
10
5
100
F cumulata
7
17
29
52
68
76
80
80
Grafico delle frequenze cumulate, detto
anche “ogiva”
Sull’asse x vanno riportati i valori massimi di ogni
classe e sull’asse y la frequenza cumulativa della
rispettiva classe
Qual è il valor medio della distribuzione?
5
18,73
Indici di posizione centrale di una distribuzione di frequenze: valori medi
MODA: il dato, o la classe di dati, che ha maggiore frequenza. La moda si calcola sia con caratteri
qualitativi che con caratteri quantitativi.
 La moda può non esistere (se tutti i dati o tutte le classi hanno la stessa frequenza) o non
essere unica ( se ci sono più dati o più classi con la massima frequenza)
 la moda può essere molto lontana dal centro della distribuzione
la MODA è utile quando è importante conoscere quale sia il valore che si ottiene con maggiore
frequenza e si usa se il dato o la classe hanno una frequenza notevolmente superiore agli altri dati o
classi.
ESEMPIO: In una città l’orario dei negozi di alimentari è libero. Uno straniero appena giunto in città
chiede quale sia l’orario di apertura dei negozi di alimentari. Conviene rispondere indicando la MODA
cioè l’orario rispettato dalla maggior parte dei negozi di alimentari.
MEDIANA: è un valore che divide a metà i dati, ordinati in maniera crescente o decrescente. La
mediana si calcola con i caratteri quantitativi o con quelli qualitativi ordinabili ( ad esempio la modalità
titolo di studio è ordinabile, la modalità colore degli occhi non è ordinabile).
 La MEDIANA non risente dei valori estremi perché si determina indicando il valore centrale se la
distribuzione ha un numero dispari di dati, oppure indicando la media aritmetica tra i due
valori centrali se la distribuzione ha un numero pari di dati.
 La MEDIANA è l’indice centrale da considerare quando c’è molta variabilità tra i dati.
 La MEDIANA è il valore che divide a metà l’intervallo della distribuzione statistica e corrisponde
al cinquantesimo percentile e anche al secondo quartile. I quartili sono dei punti che dividono
l’intervallo dei dati in quattro parti, ognuna delle quali contiene il 25% dei dati.
ATTENZIONE: se la distribuzione e divisa in classi, per stimare la mediana bisogna calcolare l’area A
dell’istogramma e dividerla a metà, quindi si cerca il valore a che appartiene alla classe in cui cade
A/2 e si scrive una equazione per individuare il valore di a che dimezza l’area dell’istogramma.
Esempio
classe
area
area cumulata
fa
155-160
3
15
15
160-165
4
20
35
165-170
4
20
55
170-175
3
15
70
175-180
6
30
100
180-185
4
20
120
totale
24
MEDIANA=171,67
a
Area istogramma =5*3+5*4+5*4+5*3+5*6+5*4=120
Area/2=60
Osservando la colonna dell’area cumulata si vede che 60 appartiene
alla classe 170-175. Si scrive quindi l’equazione con incognita a
6
5*3+5*4+5*4+(a-170)*3=(175-a)*3+5*3+5*6+5*4 e si ottiene
a=171,67
La MEDIA ARITMETICA è quel valore che sostituito a tutti i termini della distribuzioni lascia invariata la
somma. La media si calcola solo se i caratteri sono quantitativi.
 La MEDIA ARITMETICA risente dei valori estremi della distribuzione e non conviene utilizzarla
quando c’è molta variabilità tra i dati .
 LA MEDIA PESATA è la media aritmetica calcolata considerando i pesi ( la frequenza ) di ogni xi
dove xi è il dato di indice i e pi il suo peso
Nel caso in cui i dati siano raggruppati in classi si usa il valore centrale di ogni classe:
xi è il valore centrale della classe i-esima ed fi la frequenza della classe i-esima
La MEDIA QUADRATICA è la radice quadrata della media aritmetica dei quadrati dei dati
Nel caso in cui i dati siano raggruppati in classi si usa il valore centrale di ogni classe:
xi è il valore centrale della classe i-esima ed fi la frequenza della classe i-esima
Indici di variabilità di una distribuzione di frequenze
IL RANGE o CAMPO DI VARIAZIONE: la differenza tra il massimo valore dei dati e il minimo valore dei
dati oppure la differenza tra l’estremo superiore dell’ultima classe e l’estremo inferiore della prima
classe, se i dati sono suddivisi in classi. NB: se tutti i dati sono uguali RANGE=0
Lo SCARTO è la differenza tra ogni valore della distribuzione e la media aritmetica xi - .
Lo SCARTO SEMPLICE MEDIO è la media aritmetica dei valori assoluti degli scarti
S=
La VARIANZA è il valor medio degli scarti al quadrato
o
Se i dati sono raggruppati in classi si considera come xi il valore centrale di ogni classe
o
Lo SCARTO QUADRATICO MEDIO o DEVIAZIONE STANDARD è la radice quadrata della varianza
Quando i dati sono suddivisi in classi, si utilizza come xi il valore centrale di ogni classe
7
Il COEFFICIENTE DI VARIABILITA’ ( che si può calcolare solo se la media non è nulla) è il rapporto tra lo
scarto quadratico medio e la media aritmetica in valore assoluto
σ/|μ| e viene espresso in
percentuale. E’ un numero puro che permette di confrontare tra loro la variabilità, di diverse
distribuzioni statistiche.
Esempio:
Giacomo ha preso questi voti: 5,7,6,8,9,7 il coeff. di variabilità è σ/|μ|=1,29/7=0,18=18%
Luca ha preso questi voti: 4,5,6,5,6 il coeff. di variabilità è σ/|μ|=0,75/5,2=0,14=14%
Marco ha preso questi voti : 7,7,7,7,7,7,7 il coeff. di variabilità è σ/|μ|=0/7=0
TABELLE CONSIGLIATE PER CALCOLARE LO SCARTO SEMPLICE MEDIO E LO SCARTO QUADRATICO MEDIO
X
…
…
Scarto Valore assoluto
(xi-μ) dello scarto
|xi - μ |
Scarti al
quadrato
(xi-μ)2
CLASSI
fi
Xi valore
centrale
della
classe
xi*fi
| xi – μ |*fi
(xi-μ)2*fi
-8,5
…….
0
8,5
72,75
0-4
5
2
………….
………….
4-8
7
6
Tot.
27
189,5
tot
SCARTO SEMPLICE MEDIO : S= | x1 - μ |+………………| xn - μ | = 27/6 =4,5 (6 è il numero dei dati)
N
SCARTO QUADRATICO MEDIO :
=
= 5,6
Vediamo in dettaglio tre tipi di distribuzione statistica univariata
DISTRIBUZIONE SEMPLICE: un esempio
Si rileva la temperatura alle ore 12 ( mezzogiorno) in una certa località, per sette giorni consecutivi.
Calcolare:media, mediana,range, scarto semplice medio, deviazione standard, coeff. di variabilità
giorni
Temperature in °C
lunedì
-3
Media μ=(-3+1+0-1+2-2+3)/7=0
Mediana: (dispongo i dati in ordine crescente: martedì
1
3,-2,-1,0,1,2,3) = 0
mercoledì
0
Range: 3-(-3)=6
giovedì
-1
S=(3+1+0+1+2+2+3)/7=1,71
venerdì
2
σ 2=(9+1+0+1+4+4+9)/7=4
sabato
-2
σ = 2 σ/|μ| non si può calcolare, media nulla
domenica
3
DISTRIBUZIONE PONDERATA: un esempio
Costruire la tabella statistica e determinare la media, la mediana,la moda, il range, lo scarto semplice
medio, la varianza, lo scarto quadratico medio e il coefficiente di variabilità relativi alla rilevazione
statistica: su un campione di 100 famiglie si studia il numero di automobili di proprietà .
8
Modalità
n. auto di
proprietà
fa
0
1
2
3
Tot.
15
48
29
8
100
Moda: 1 auto
Media: μ=(0*15+1*48+2*29+3*8)/ 100 =1.3
Mediana: è la media tra il 50esimo e il 51esimo dato
0.15 15% 15
-1.3
(1+1)/2=1
0.48 48% 63
-0.3
Range: min 0 , max 3 R=3-0=3
0.29 29% 92
0.7
S=[|-1.3|*15+|-0.3|*48+|0.7|*29+|1.7|*8]
0.8 8%
100 1.7
/100=0,678
Varianza: σ2=
1
100
=[(-1.3)2*15+(-0.3)2*48+(0.7)2*29+(1.7)2*8]/100=0.67
Scarto quadratico medio σ=√0.67=0.82 ; σ/|μ|=0.82/1.3=0,63=63%
fr
f%
fc
scarto
DISTRIBUZIONE PER CLASSI: un esempio
Costruire la tabella statistica delle altezze, suddivise in classi, degli alunni di una classe primaria e
calcolare: la media, la moda , la mediana, il range, la varianza,lo scarto quadratico medio il coeff. di
variabilità
Classi di
altezza
v.c.
fa
fr
f%
scarto
Area
classi
Area
cum.
130-139
140-144
145-149
150-170
tot
134.5
142
147
160
4
12
9
3
28
0.14
0.43
0.32
0.11
1
14
43
32
11
100
-9.96
-2.46
2.54
15.54
36
48
36
60
180
36
84
120
180
la classe modale è 140-144
Media: (134.5*4+142*12+147*9+160*3)/28=
=144.46
Range : R= 170-130=40
Varianza:
σ2=[(9.96)2*4+(2.46)2*12+(2.54)2*9+(15.54)2*3]/28
=42.64
Scarto quadratico medio = √42.64=6.5
Coeff. di variabilità σ/|μ|=6.5/144.46=0,045=
4,5%
Mediana: l’area complessiva delle classi è 180,
la metà dell’area è 90,
90 sta nella classe 145-149 nella posizione a, scrivo
equaz. per calcolare a
36+48+(a-145)*9=(149-a)*9+60
18a= 2622
a= 145.66
a
LA MEDIANA è 145,66
9
10
19) I voti riportati in un compito di matematica sono:
2 4 7 5 4 3
6 8 6 6 5 4
7 5 3 5 7 7
5 5 4 6 6 5
6 6 7 8 8 6
Costruire una tabella con le frequenze assolute, relative, percentuali e cumulate.
20) I dati relativi al numero di componenti per un campione di famiglie sono riportati in tabella:
N. componenti
1
2
3
4
5
6
7
totale
N. famiglie
160
257
381
478
127
61
37
1501
Calcola la frequenza relativa, la frequenza cumulata e la
frequenza percentuale, la deviazione standard e il coefficiente di
variabilità.
Quante famiglie sono formate da più di 4 persone?
Qual è la percentuale di famiglie formate da più di 4 persone?
21 )All’esame di stato 45 studenti hanno conseguito i voti seguenti:
62
83
92
100
92
100
92
90
84
86
Costruire una tabella con le
92
82
77
84
88
frequenza assolute e relative
96
86
83
88
92
riportando:
82
84
86
90
83
a) i dati divisi in 5 classi
81
88
79
76
91
b) i dati divisi in 9 classi
96
100
92
90
86
82
78
93
65
69
82
78
93
66
69
22) Si considerino i dati relativi alle altezze di 28 studenti :
163 163 175 170 175 171
158 171 162 173 164 180
150 163 177 149 183 183
168 168 178 181 147 164 174 180 158 171
Dopo aver raggruppato i dati in classi di frequenza pari a 10cm ( 140-149…) costruire i grafici delle
frequenze assolute, relative e cumulate.
Si chiede inoltre :
a. Quanti studenti sono alti meno di 160cm?
b. Quale classe contiene il maggior numero di dati?
[a. 5; b. 170-179]
23) I dati relativi al peso corporeo di 28 studenti di una classe sono i seguenti:
67 52 74 51 84 52 77
62 52 82 58 88 59 79
48 74 47 61 49 54 81
45 59 50 77 51 60 48
Dopo aver raggruppato in classi di ampiezza pari a 5Kg , calcolare:
a)Frequenza assoluta, b)Frequenza relativa c)Frequenza percentuale d)Frequenza cumulata
11
e) range, f) scarto semplice medio g) varianza h) deviazione standard i) coefficiente di
variabilità
24) Nella corsa dei 200m , 30 ragazzi hanno fatto registrare i tempi misurati sino ai decimi di secondo:
29,3
31,2
28,5
37,6
30,9
26,0
38,0
37,0 22,8 35,2
35,8 37,7
29,6
26,9
36,9
39,6
29,9
30,0
36,6
34,1 38,2 35,0
28,8
32,4
31,8
38,1
34,0
36,0
37,8
36,1
Costruire una tabella raggruppando i dati in 5 classi : determinare frequenza, frequenza relativa e
frequenza percentuale, media, moda , mediana, range, scarto semplice medio, varianza,deviazione
standard, coefficiente di variabilità . Disegnare il diagramma delle frequenze. Determinare quale
percentuale dei ragazzi ha corso i 200 m in meno di 29 secondi.
25) Le temperature massime in gradi Celsius registrate in una località sono
Tracciare l’istogramma, il poligono delle
frequenze, il poligono delle frequenze
cumulate. Determinare moda, media,
mediana, deviazione standard