Statistica descrittiva

Transcript

Statistica descrittiva
Statistica descrittiva
a.a. 2011/12 - Laboratorio
Problema: assegnato un insieme di valori numerici che restituisce il tempo di vita
di un prototipo, quale modello stocastico è possibile impiegare per descrivere il
tempo di vita del prototipo messo poi in produzione? Come è possibile validare
tale modello?
Dataset: collegarsi al sito http://www.unibas.it/utenti/dinardo/tempi.txt
Salvare il file in matlab/work
Popolazione: (insieme dei dispositivi che verranno messi in produzione) insieme
finito o infinito sul quale si desidera avere informazioni.
Campione casuale: (prototipi) sottoinsieme della popolazione scelta in modo casuale.
Unità statistica o campionaria: (un prototipo) un elemento del campione casuale
Taglia del campione: (numero di prototipi realizzati) numero di unità statistiche
Statistica descrittiva
Descrizione per via grafica
Descrizione per via numerica
a.a. 2011/12 - Laboratorio
Primo obbiettivo: Costruire una tabella riassuntiva del tipo:
Età in mesi
0-26.9877
26.9877-54.9877
54.9877-82.9877
82.9877- 110.9877
110.9877-138.9877
138.9877-166.9877
166.9877-194.9877
194.9877-222.9877
222.9877-250.9877
TOTALE
Frequenza dei guasti
127
70
27
15
11
7
3
1
1
262
Carattere: ogni aspetto elementare oggetto di rilevazione nelle unità statistiche
della popolazione (e quindi del campione)
Modalità o classe di modalità: i diversi modi con cui il carattere si presenta
nelle unità statistiche della popolazione (e quindi del campione)
Frequenza assoluta: numero di unità statistiche che presentano la modalità x o
la cui modalità appartiene alla classe individuata.
Distribuzione di frequenza assoluta
a.a. 2011/12 - Laboratorio
?
Passo 1: Decidere il numero delle classi usando
la formula
2k > n
dove k=numero di classi
n=taglia del campione
In questo caso k=9, perché 2^9=512
Passo 2: Determinare l’ampiezza della classe, o il
peso, con la formula
h > Max – Min
k
(249.84- 0.1263)/9=27.74
dove H=massimo valore, L=minimo valore
a.a. 2011/12 - Laboratorio
Passo 3: Determinare i limiti di ciascuna classe
Siccome 28*9=252>249.7227, la quantità 252-249.7227= 2.2773 va equamente ripartita a sinistra del minimo e a destra del massimo.
Ossia min(tempi)-1.1386 = -1.0123 e max(tempi)+1.1386= 250.9876
Prima classa è ( -1.0123, -1.0123+28 = 26.9877]
Seconda classe è (26.9877, 26.9877 +28 = ….]
In Matlab:
>> x(1)= -1.0123;
>> for i=2:10
x(i)=x(i-1)+ 28;
end
>> x
x=
-1.0123 26.9877 54.9877 82.9877 110.9877 138.9877 166.9877 194.9877 222.9877 250.9877
a.a. 2011/12 - Laboratorio
Passo 4: Contare il numero di dati contenuti in
ciascuna classe
Usare la function histc(tempi,x)
>>n= histc(tempi,x)
n=
127
70
27
15
11
7
3
1
1
0
Numero di dati del c.c. che
coincidono con l’ultimo estremo
a.a. 2011/12 - Laboratorio
Pertanto la distribuzione di frequenza risulta essere
Età in mesi
Frequenza dei guasti
0-26.9877
127
26.9877-54.9877
70
54.9877-82.9877
27
82.9877- 110.9877
15
110.9877-138.9877
11
138.9877-166.9877
7
166.9877-194.9877
3
194.9877-222.9877
1
222.9877-250.9877
1
Sia per la costruzione
dei grafici che per il
calcolo degli indici può
tornare utile…
Punto medio della classe: massimo + minimo
2
a.a. 2011/12 - Laboratorio
Costruire un vettore contenente i centri delle classi:
>> c(1)=(x(1)+x(2))/2;
>> for i=2:9
c(i)=c(i-1)+28;
end
>> c
c=
12.9877 40.9877 68.9877 96.9877 124.9877 152.9877 180.9877 208.9877 236.9877
Con I centri va usata la function >> [n,xout]=hist(tempi,c)
>> [n,xout]=hist(tempi,c)
n=
127
70
27
15
11
7
3
1
1
xout =
12.9877 40.9877 68.9877 96.9877 124.9877 152.9877 180.9877 208.9877 236.9877
a.a. 2011/12 - Laboratorio
La Distribuzione di Frequenza relativa mostra la
percentuale di osservazioni in ciascuna classe.
Per costruirla, bisogna dvidere il parametro di output n di hist per la taglia
del campione:
>> fr=n/262
fr =
0.4847
0.2672
0.1031
0.0573
0.0420
0.0267
0.0115
0.0038
>> sum(fr)
Quale proprietà caratterizza una distribuzione di
frequenza relativa?
Quando è opportuno usare la distribuzione di
frequenza relativa?
a.a. 2011/12 - Laboratorio
ans =
1.0000
0.0038
I 3 grafici comunemente usati sono
Istogrammi, Poligoni di frequenza e
Istogrammi,
Distribuzione di Frequenza cumulativa.
Un Istogramma è un grafico in cui i punti medi
delle classi sono riportati sull’asse orizzontale
(assieme agli estremi eventualmente) e le frequenze
associate a ciascuna classe sono riportate sull’asse
verticale. Le frequenze forniscono l’altezza delle
barre che insistono sui punti medi e vengono
disegnate una di fianco all’altro.
a.a. 2011/12 - Laboratorio
Si può utilizzare la function hist(tempi,c) oppure bar(c,n)
140
120
100
80
60
40
20
0
-50
0
50
100
150
200
a.a. 2011/12 - Laboratorio
250
300
Per le frequenze relative bar(c,fr)
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
50
100
150
Qualche didascalia…
a.a. 2011/12 - Laboratorio
200
250
>> title('Frequenze relative')
>> xlabel('Tempo di vita del prototipo')
>> text(200,0.45,'Istogramma')
Frequenze relative
0.5
0.45
Istogramma
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
50
100
150
Tempo di vita del prototipo
a.a. 2011/12 - Laboratorio
200
250
Le barre si toccano >> bar(c,fr,1)
0.5
>> barh(c,fr,1)
Barre orizzontali
300
0.45
250
0.4
0.35
200
0.3
150
0.25
0.2
100
0.15
50
0.1
0.05
0
0
-50
0
50
100
150
200
250
300
-50
0
0.05
0.1
0.15
0.2
0.25
0.3
0.5
0.4
0.3
0.2
0.1
>> bar3(c,fr,1,'r')
0
-50
0
Grafici 3-D
50
100
150
200
250
300
a.a. 2011/12 - Laboratorio
0.35
0.4
0.45
0.5
Un Poligono di frequenza consiste di pezzi di linea
retta che collegano i punti medi delle classi alle rispettive
frequenze.
0.5
0.45
0.4
>> plot(c,fr,'--rs')
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
50
a.a. 2011/12 - Laboratorio
100
150
200
250
IN MATLAB – La function plot
Vari tipi di grafici e vari colori possono caratterizzare I vostri grafici.
PLOT(X,Y,S) dove S è una stringa di caratteri costruita con uno, due
o tre elementi, presi ciascuno dalla seguente colonna:
b blu
.
g verde
o
r rosso
x
c fosfor.
+
m magenta *
y giallo
s
k nero
d
v
^
<
>
p
h
punto
cerchio
:
x
-.
piu’
-stella
quadrato
rombo
triangolo (su)
triangolo (giu’)
triangolo (sinistra)
triangolo (destra)
pentagramma
esagramma
a.a. 2011/12 - Laboratorio
linea continua
a punti
a punti e linee
doppio tratteggio
Una
Distribuzione di
Frequenza
cumulativa è
usata per
determinare quanti
o quale percentuale
di valori del
campione sono al
di sotto (o uguali)
ad un prefissato
valore.
Sul piano cartesiano si
riportano i dati del c.c.
ordinati in senso crescente. Le ordinate sono
F ( x(i ) ) =
a.a. 2011/12 - Laboratorio
numero di dati ≤ x(i)
n
Per effettuare un grafico della distribuzione di frequenza cumulativa, si può
usare la function cdfplot:
>> cdfplot(tempi)
Empirical CDF
1
0.9
0.8
0.7
F(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
50
100
150
x
a.a. 2011/12 - Laboratorio
200
250
Problema: Supponiamo che i dati siano stati raccolti in forma tabellare.
Come è possibile costruire allora le distribuzioni di frequenze assolute?
Quelle delle distribuzioni di frequenze relative? E quelle cumulative?
Età in mesi
Frequenza dei guasti
0-26.9877
127
26.9877-54.9877
70
54.9877-82.9877
27
82.9877- 110.9877
15
110.9877-138.9877
11
138.9877-166.9877
7
166.9877-194.9877
3
194.9877-222.9877
1
222.9877-250.9877
1
a.a. 2011/12 - Laboratorio
Distribuzione di frequenza cumulativa
raggruppata per classi
Per costruire un poligono di frequenza cumulativa
raggruppato, rappresentare il limite superiore di
ciascuna classe sull’asse delle X e la corrispondente
frequenza cumulata lungo l’asse delle Y.
numero di dati ≤ sup 

 sup classe i - esima,

n


Se la classe i -esima risulta essere ( xi , xi +1 ) rappresentare le coppie
( xi +1 , F ( xi +1 ))
a.a. 2011/12 - Laboratorio
Intanto per le ordinate è possibile usare la function cumsum
>> y=cumsum(n)/262
y=
0.4847
0.7519
0.8550
0.9122
…E poi la function stairs….
0.9542
0.9809
0.9924
0.9962
1.0000
1
0.9
>> stairs(x(2:10),y)
0.8
0.7
0.6
0.5
0.4
0
50
a.a. 2011/12 - Laboratorio
100
150
200
250
300
Con l’ausilio di questi grafici, è possibile “ipotizzare” un modello stocastico
per descrivere il tempo di vita del dispositivo.
Ad esempio: prendiamo il
poligono di frequenza.
0.5
0.45
0.4
0.35
Ricorda qualcuna delle
densità che avete
visto?
0.3
0.25
0.2
0.15
disttool
0.1
0.05
0
0
50
100
150
200
250
Perché f(0) sono
diverse?
a) Servono dei metodi per individuare i parametri….
b) Serve un metodo per confrontare PDF con poligoni di frequenza…
a.a. 2011/12 - Laboratorio
La Media aritmetica è
l’indice di posizione
maggiormente impiegato e
mostra il valore centrale dei
dati.
1 n
x = ∑ xi
n i =1
>>mean(tempi)
Principali caratteristiche:
Richiede
dati di tipo numerico.
Vengono usati tutti i valori.
E’ unica.
La somma delle distanze dalla media è 0.
a.a. 2011/12 - Laboratorio
Si consideri il seguente insieme di
dati: 3, 8, e 4. La media è 5.
Σ( xi − x ) = [ (3 − 5) + (8 − 5) + (4 − 5)] = 0
Si consideri ora il seguente insieme di
dati: 3, 8, 1000. La media è 337.
La media campionaria non è un indicatore robusto…Ossia può falsare
le informazioni.
a.a. 2011/12 - Laboratorio
Cosa succede se i dati sono già in forma tabellare? Come viene calcolata la
media campionaria?
Età in mesi
Si usa la formula
Frequenza dei guasti
0-26.9877
127
26.9877-54.9877
70
54.9877-82.9877
27
82.9877- 110.9877
15
110.9877-138.9877
11
138.9877-166.9877
7
166.9877-194.9877
3
194.9877-222.9877
1
222.9877-250.9877
1
1 k
x = ∑ ci ni
n i =1
>> media=sum(c.*n)/262
Confronta con
> mean(tempi) ans =
media =
42.0714
a.a. 2011/12 - Laboratorio
43.0182
La Mediana è il punto
medio dei valori del
campione, una volta messi
in ordine crescente.
Al di sotto e al di sopra
della mediana deve
comparire lo stesso
numero di dati.
Per un insieme pari di valori, la mediana è la media
aritmetica dei due valori di posto n/2 e (n+1)/2 nel
campione ordinato
A quale tipo di dati si applica?
a.a. 2011/12 - Laboratorio
La mediana
L’età di un campione di 5 studenti universitari è:
21, 25, 19, 20, 22.
Ordinando i dati in
ordine crescente:
19, 20, 21, 22, 25.
La mediana è 21.
a.a. 2011/12 - Laboratorio
L’altezza di 4 giocatori di basket (in pollici) è:
76, 73, 80, 75.
Ordinando i dati in
ordine crescente:
73, 75, 76, 80
Allora la mediana è 75.5.
La mediana si trova
al posto (n+1)/2 =
(4+1)/2 =2.5th
a.a. 2011/12 - Laboratorio
Proprietà della Mediana
La
mediana è unica per ogni insieme di dati.
La
mediana è una statistica robusta.
Può
essere calcolata anche per dati raggruppati.
>>>> median(tempi)
0.5
0.45
ans =
0.4
0.35
28.9202
0.3
0.25
0.2
Cosa ci dice il confronto
con la media, 43.01?
0.15
0.1
0.05
0
a.a. 2011/12 - Laboratorio
0
50
100
150
200
250
La Mediana di un campione di dati organizzati in
distribuzione di frequenza è calcolata con la
seguente formula:
n
− CF
Mediana = L + 2
h
f
?
dove L è il minimo della classe cui la mediana
appartiene, CF è la frequenza cumulata nell’estremo
destro della classe, f è la frequenza della classe cui
la mediana appartiene e h è l’ampiezza della classe
cui la mediana appartiene .
a.a. 2011/12 - Laboratorio
Per calcolare la mediana di dati raggruppati
Costruire una distribuzione di frequenza cumulata.
Dividere la taglia del campione per 2.
Determinare quale classe contiene questo valore. Ad
esempio se n=262, 262/2 = 131, allora determinare
quale classe contiene il valore di posto 131.
Età in mesi
0-26.9877
26.9877-54.9877
54.9877-82.9877
82.9877- 110.9877
110.9877-138.9877
138.9877-166.9877
166.9877-194.9877
194.9877-222.9877
222.9877-250.9877
TOTALE
Frequenza dei guasti
127
197
224
239
250
257
260
261
262
262
a.a. 2011/12 - Laboratorio
Età in mesi
0-26.9877
26.9877-54.9877
54.9877-82.9877
82.9877- 110.9877
110.9877-138.9877
138.9877-166.9877
166.9877-194.9877
194.9877-222.9877
222.9877-250.9877
TOTALE
Frequenza dei guasti
127
197
224
239
250
257
260
261
262
262
n
− CF
Mediana = L + 2
h
f
L=26.9877, n=262, f=70,
i=28, CF=127
>> 26.9877+(262/2-127)/70*28
ans =
28.5877
dove L è il minimo della classe cui la mediana
appartiene, CF è la frequenza cumulata che precede
quella della classe cui la mediana appartiene, f è la
frequenza della classe cui la mediana appartiene e i è
a.a. 2011/12 - Laboratorio
l’ampiezza della classe
cui la mediana appartiene .
La Moda è un altro indice di posizione e rappresenta
il valore del campione casuale che appare più
frequentemente.
Esempio 6: I punteggi di un esame per 10 studenti
sono i seguenti (in centesimi) : 81, 93, 84, 75, 68, 87,
81, 75, 81, 87. Poichè il punteggio 81 appare più
frequentemente di tutti gli altri, è la moda.
Un campione può avere anche più di una moda: se ne
ha due si parla di campione bimodale, se ne ha tre si
parla di campione trimodale e così via.
La Moda per dati raggruppati è approssimativamente il
punto medio della classe con frequenza più grande
La moda
Asimmetria nulla
Media
=Mediana
=Moda
Mean
Median
Mode
Le posizioni relative di Media, Mediana, e Moda in una
Distribuzione simmetrica
• Con coda destra (asimmetria positiva): Media e mediana sono
a destra della moda.
Media>Mediana>Moda
Mode
Mean
Median
Le posizioni relative di Media, Mediana, e Moda in una
distribuzione asimmetrica con coda destra
Con coda sinistra (asimmetria negativa): Media e Mediana sono a
sinistra della Moda.
Media<Mediana<Moda
Mean
Mode
Median
Le posizioni relative di Media, Mediana, e Moda in
una distribuzione asimmetrica con coda sinistra
IN MATLAB – Calcolo coefficiente di asimmetria
>> primo=[1;2*ones(2,1);3*ones(3,1);4*ones(4,1);5*ones(5,1);
6*ones(6,1);7*ones(7,1)];
>>hist(primo,[1,2,3,4,5,6,7])
>>secondo=[ones(7,1);2*ones(6,1);3*ones(5,1);4*ones(4,1);
5*ones(3,1);6*ones(2,1);7]
>>hist(secondo,[1,2,3,4,5,6,7])
>>[mean(primo),mean(secondo),median(primo),median(secondo)]
ans =
5
3
5
3
>> skewness(primo)
ans =
-0.5774
>> skewness(secondo)
ans =
0.5774
Dispersione
= variabilità o
diffusione dei
dati
30
25
20
15
10
5
0
0
Misure di dispersione sono:
2
4
6
8
10
12
range, varianza e
deviazione standard.
Misure di dispersione
>> range=max(tempi)-min(tempi)
Range = Massimo
range =
– Minimo
249.7227
Varianza:: la
Varianza
media aritmetica
dei quadrati delle
deviazioni dalla
media.
>> var(tempi)
ans =
1.7873e+003
std(tempi)
ans =
42.2759
Deviazione
standard:
standard
Radice quadrata
della varianza.
Varianza campionaria (s2)
n
1
2
s =
( xi − x )
∑
(n − 1) i =1
2
Deviazione standard campionaria (s)
s= s
2
Varianza e Deviazione standard campionarie
3- 43
Regola empirica : Per ogni distribuzione
simmetrica a forma di campana risulta
Circa
il 68% delle osservazioni distano dalla media
meno di 1 una volta la deviazione standard.
Circa
il 95% delle osservazioni distano dalla media
meno di 2 volte la deviazione standard.
Virtualmente
tutte le osservazioni distano dalla
media meno di 3 volte la deviazione standard.
Interpretazione e uso della
deviazione standard
3- 44
Curva a forma di campana che mostra la relazione tra σ e µ.
68%
95%
99.7%
µ−3σ
µ−2σ µ−1σ
µ
µ+1σ µ+2σ µ+ 3σ
In genere se s<< range/4 i dati sono concentrati attorno alla media campionaria
CURTOSI
Curtosi di una distribuzione =
Maggiore o minore appuntimento della curva
Indice di Curtosi
m4
γ2 = 2 −3
m2
>> kurtosis(tempi)-3
ans =
3.5747
 γ 2 > 0 per distribuzioni appuntite

γ 2 = 0 per la distribuzione gaussiana
 γ < 0 per distribuzioni piatte
2

Coefficiente di variazione
Una proprietà desiderabile per un indice di variabilità è che non dipenda
dall’unità di misura in cui è espresso il carattere.
Es: altezza di 5 studenti: 172, 175, 176, 178, 180
La media risulta essere 176,2 cm e la dev standard risulta essere 2,71.
Se esprimiamo in metri, la media diviene 1,762 e la dev.standard 0,0271.
Esempio: Un processo industriale produce bustine di camomilla del peso medio
di 2 grammi. La dev. standard è 0,034. Un secondo processo industriale produce confezioni di pasta alimentare del peso di 500 grammi. La dev. standard è
2.7. Quale tra i due processi è più “preciso”?
Questa comparazione può essere effettuata in modo appropriato esprimendo la
deviazione standard di ciascun processo come percentuale della rispettiva media.
0.034
×100 = 1.7
2
2.7
×100 = 0.5
500
a.a. 2011/12 - Laboratorio
12
Q4 11
10
9
Q3 8
7
6
Q2 5
4
3
Q1 2
1
esimo percentile
96 75
92 Media tra la nona e la decima
91 osservazione = (88 + 91)/2 = 89.5
88
86
50esimo percentile: Mediana
85
Media tra la sesta e la settima
84
osservazione = (84+85)/2 = 84.5
83
82
esimo percentile
25
79
78 Media tra la terza e la quarta osservazio69 ne = (79 + 82)/2 = 80.5
IN MATLAB
>> prctile(tempi,25), prctile(tempi,50), prctile(tempi,75)
ans =
12.5160
ans =
28.9202
ans =
53.5340
a.a. 2011/12 - Laboratorio
Il campo interquartile
(o intervallo
interquartile) è la
differenza tra il III
quartile Q3 e il I
quartile Q1.
Questa distanza
ingloba il 50% delle
informazioni.
Campo interquartile = Q3 - Q1
>> prctile(tempi,75) - prctile(tempi,25)
ans =
41.0180
>> iqr(tempi)
ans =
41.0180
Un box plot è un grafico
che aiuta a descrivere le
caratteristiche qualitative
di un insieme di dati.
5 dati sono
necessari alla
costruzione:
il minimo:
il I quartile;
la mediana;
il III quartile;
il massimo.
Basandosi su un campione
di 20 consegne,
Buddy’s Pizza determina la
seguente informazione. Il
minimo tempo impiegato per
la consegna è 13 minuti ed il
massimo tempo impiegato è
30 minuti. Il I quartile vale 15
minuti, la mediana 18 ed il III
quartile vale 22 minuti.
Costruire un box plot per il
tempo di consegna.
Min Q
1
12
14
16
Median
18
20
Max
Q3
22
24
26
28
30
32
IN MATLAB: >> boxplot(tempi)
250
200
Values
150
100
50
0
1
Column Number
a.a. 2011/12 - Laboratorio
a.a. 2011/12 - Laboratorio
ESERCITAZIONE
Tempi di attesa ad un centralino telefonico.
>> load - ascii esempio3
1.
Costruire l’istogramma (n=?)
>> 2^7
ans =
128
2.
Costruire il vettore contenente gli estremi delle classi
>> campo=max(es3)campo=max(es3)-min(es3), amp=campo/7
>> amp=0.7
>> % minimo dei tempi=0
>>x(1)=0.0, for i=2:8
x(i)=x(ix(i)=x(i-1)+amp;
end
3.
Distribuzione di frequenza
>> histc(es3,x)
ans =
52
27
13
1
3
2
2
0
4.
Istogramma
>>c=(x(1:7)+x(2:8))/2
>>hist(es3,c)
5.
Poligono di frequenza
>> n=hist(es3,c)/30;
>> plot(c,n,'r*-plot(c,n,'r*--')
--')
>> title('Poligono di frequenza')
6.
Indici statistici
>> loc=[median(es3), mode(es3), mean(es3)]
loc =
0.6558
1.0117
0.9621
>> disp=[iqr(es3), range(es3), var(es3), std(es3)]
disp =
0.9001
4.6074
0.6691 0.9468
>> altri=[skewness(es3), kurtosis(es3), loc(3)/disp(5)]
altri =
2.0133 7.3505 1.0161
7.
Box Plot
OUTLIERS
>> boxplot(es3)
>> [max(es3),min(es3)]
ans =
4.6191 0.0117
8.
Cumulativa empirica
>> cdfplot(es3)