La rappresentazione e la sintesi dei dati

Transcript

Metodi statistici e probabilistici per l’ingegneria
Corso di Laurea in Ingegneria Civile
A.A. 2009-10
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
LA RAPPRESENTAZIONE E LA SINTESI DEI DATI
1
LA RAPPRESENTAZIONE
E LA SINTESI
DEI DATI
2
1
SOMMARIO
¾ Definizione di statistica descrittiva
¾ Gli aspetti e gli strumenti della statistica
descrittiva
¾ Statistica descrittiva per i dati multivariati
3
LA STATISTICA DESCRITTIVA: DEFINIZIONE
Con il termine statistica descrittiva si intende un insieme di
tecniche e strumenti finalizzati ad assolvere uno dei
principali compiti assegnati della Statistica:
descrivere, rappresentare e sintetizzare in maniera
opportuna un campione di dati proveniente da un processo
produttivo o in generale da una popolazione di interesse.
Per popolazione si intende la totalità dei casi, ovvero delle
unità statistiche, sulle quali e possibile rilevare il fenomeno
numerico di interesse, ad esempio il diametro della fascia di
un pistone o la produzione di un impianto. In questo caso, la
popolazione è la totalità dei pistoni o l’insieme di tutti i
possibili volumi di produzione dell’impianto.
4
2
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Mentre la statistica descrittiva si occupa di rappresentare
l’informazione contenuta in un dato insieme o campione
di dati, la statistica inferenziale utilizza tale informazione
per fare delle affermazioni più generali riguardanti i
parametri (solitamente µ e σ) della popolazione, da cui il
campione è stato estratto.
Le affermazioni della statistica inferenziale sono di due tipi:
9 STIMA: si vuole indicare un valore plausibile per il
parametro della popolazione, sotto una delle 2 forme:
1. un valore ben definito (STIMA PUNTUALE)
2. un intervallo in cui molto verosimilmente il parametro
sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche
ipotesi sul parametro (nulla o alternativa) sia da accettare
5
LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI
Per descrivere e sintetizzare l’informazione campionaria di
un fenomeno numerico di interesse, la statistica descrittiva
si focalizza su 3 principali aspetti:
1. la descrizione e la forma della distribuzione
2. la posizione o tendenza centrale
3. la variabilità o dispersione
Gli strumenti messi a disposizione dalla statistica descrittiva
possono essere sia di tipo grafico che numerico. In questo
ultimo caso si tratta di opportuni indici di sintesi, che in
unico valore esprimono una specifica caratteristica della
distribuzione dei dati: la tendenza centrale, la variabilità e la
forma della distribuzione.
6
3
LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI
Grafici:
9 dotplot
9 boxplot
9 (tabella ed) istogramma di frequenza
¾ frequenza assoluta, frequenza relativa
¾ frequenza, frequenza cumulata
Indici di sintesi:
9 indici di posizione o tendenza centrale
¾ media, mediana, moda
9 indici di variabilità o dispersione
¾ varianza, deviazione standard (scarto quadr. medio)
range, range interquartile
9 indice di asimmetria
7
UN ESEMPIO: IL DIAMETRO DI UN PISTONE
Si consideri la fascia elastica di un pistone, per il quale si è
misurato il diametro interno in 25 campioni di lotti casuali,
ciascuno contente 5 pistoni (totale 125 osservazioni).
...
...
...
8
4
UNA PRIMA RAPPRESENTAZIONE GRAFICA
Una prima sintetica rappresentazione grafica dei dati è
fornita dal dotplot, dove ogni distinto valore osservato
corrisponde ad un pallino:
Osserviamo che la
Dotplot of Diametro
maggior parte dei
dati tende a
“addensarsi” attorno
ad un valore
centrale pari a
73.98
73.99
74.00
74.01
74.02
74.00 mm.
Diametro
Possiamo inoltre notare che i dati cadono in un range
(intervallo) di 0.04 mm, calcolato come differenza tra il
valore massimo (74.02) e minimo (73.98) osservato.
9
LA TABELLA E L’ISTOGRAMMA DI FREQUENZA
Per approfondire la descrizione della distribuzione dei dati,
partendo dal valore minimo di 73.98, dividiamo l’intervallo di
osservazione dei dati (di ampiezza 0.04 mm) in 8 intervalli
di uguale ampiezza pari a 0.005: [73.980, 73.985[, [73.985,
73.990[, ..., [74.015, 73.002[. Se contiamo il numero di unità
che cadano all’interno di ciascun intervallo, otteniamo la
tabella ed il corrispondente istogramma di frequenza.
frequenza
ass.
%
4
3.2
15
12.0
15
12.0
26
20.8
30
24.0
12
9.6
14
11.2
9
7.2
125
100.0
Istogramma di frequenza relativa %
frequenza percentuale
Conteggio di Diametro
Intervallo
73.980-73.985
73.985-73.990
73.990-73.995
73.995-74.000
74.000-74.005
74.005-74.010
74.010-74.015
74.015-74.020
Totale complessivo
20
10
0
73.980 73.985 73.990 73.995 74.000 74.005 74.010 74.015 74.020
diametro (mm)
10
5
LA FREQUENZA CUMULATA
Se sommiamo via via le frequenze in maniera cumulata
rispetto agli intervalli, si ottiene la cosiddetta frequenza
cumulata, che ci dice quante osservazioni cadono fino ad
una certa soglia. Per costruzione, il valore della frequenza
cumulata rispetto all’ultima soglia sarà il numero totale di
osservazioni o il valore 100% rispettivamente per la
frequenza cumulata assoluta o relativa.
Frequenza relativa % cumulata
100
Cumulative Percent
Conteggio di Diametro frequenza cumulata
Soglia
ass.
%
< 73.985
4
3.2
< 73.990
19
15.2
< 73.995
34
27.2
< 74.000
60
48.0
< 74.005
90
72.0
< 74.010
102
81.6
< 74.015
116
92.8
< 74.020
125
100.0
50
0
73.980 73.985 73.990 73.995 74.000 74.005 74.010 74.015 74.020
Diametro
11
LA DEFINIZIONE DEGLI INTERVALLI
Nella definizione degli intervalli è utile seguire alcune
semplici regole empiriche:

porre il limite inferiore della prima classe leggermente al
di sotto del valore minimo osservato, preferibilmente
individuando un valore di riferimento che faciliti
l’interpretazione dei dati

scegliere un numero di intervalli da un minimo di 4-5 ad
un massimo di 10-12; in base al numero di intervalli
calcolare la corrispondente ampiezza

in alternativa, scegliere una ampiezza opportuna
dell’intervallo, preferibilmente in modo che il numero di
classi sia coerente con il punto precedente
12
6
LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE
In un’analisi statistica siamo talvolta interessati a esaminare
il comportamento simultaneo di due variabili qualitative: per
esempio ci possiamo chiedere se esiste un legame fra il
livello delle acque ed un particolare bacino idrico, sulla
base ad es. delle osservazioni mensili negli ultimi 10 anni.
La tabella di contingenza è una tabella a doppia entrata in
cui le osservazioni relative a due variabili categoriali
vengono rappresentate/sintetizzate simultaneamente.
LIVELLO DELLE ACQUE
DEL BACINO
Basso
Medio
Alto
Totale
BACINO IDRICO
A
B
C
40
19
25
10
11
20
70
90
75
120
120
120
Totale
84
41
235
360
13
Al fine di analizzare la possibile relazione esistente fra le
due variabili, è opportuno convertire le frequenze
congiunte assolute in frequenze relative (o percentuali).
Questa operazione può essere realizzata riferendosi
(condizionandosi) alternativamente al:
1. totale complessivo (rappresentato nel nostro caso dalle
360 osservazioni mensili)
2. totale di riga (rispetto al numero totale di mesi per
livello delle acque)
3. totale per colonna (rispetto al numero totale di mesi di
osservazione per ciascun bacino)
Il risultato e l’informazione che se ne ottiene dipende dallo
specifico totale che viene scelto a riferimento.
14
7
Ad esempio, per analizzare lo stato di salute del livello
idrico rispetto a ciascuna area, è necessario riferirsi alla
tabella di frequenza condizionata al totale di colonna.
LIVELLO DELLE ACQUE
DEL BACINO
Basso
Medio
Alto
Totale
BACINO IDRICO
A
B
C
33.3%
15.8%
20.8%
8.3%
9.2%
16.7%
58.3%
75.0%
62.5%
100.0%
100.0%
100.0%
Totale
23.3%
11.4%
65.3%
100.0%
Frequenza nel livello delle acque per bacino idrico
80.0%
70.0%
Livello
delle
acque
Frequenza
60.0%
50.0%
Basso
Medio
Alto
40.0%
30.0%
20.0%
10.0%
0.0%
A
B
C
Bacino
15
MEDIANA E QUARTILI: DEFINIZIONE
Oltre ai valori massimo e minimo, altri indici statistici di
posizione possono fornirci informazioni importanti di sintesi
sulla distribuzione dei dati. Se ordiniamo i dati, dal più
piccolo al più grande
Posizione
1
Diametro 73.9801
2
...
31
32
...
63
...
94
95
...
124
125
73.9829
...
73.9942
73.9944
...
74.0007
...
74.0054
74.0066
...
74.0179
74.0199
73.9943
Indice
MIN
Q1 (1° quartile)
74.006
MEDIANA
Q3 (3° quartile)
MAX

il valore nella posizione centrale ( (125+1)/2, cioè il 63°)
definisce la MEDIANA

il valore nella posizione ¼ ( (125+1)/4=32.5 quindi la
media 31°-32° dato) definisce Q1 (primo QUARTILE)

il valore nella posizione ¾ ( (125+1)*3/4=94.5 quindi la
media 94°-95° dato) definisce Q3 (terzo QUARTILE)
16
8
MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI
Sia n il numero di osservazioni del campione di dati. In base
al fatto che n sia pari o dispari e che sia divisibile per 4, la
mediana ed i quartili vengono così definiti:
MEDIANA: se n è dispari, la mediana è il valore della
serie ordinata nella posizione (n+1)/2, mentre se n è
pari, la mediana è la media aritmetica dei due valori
della serie ordinata nelle posizioni n/2 e n/2+1
Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori
della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4,
mentre se n+1 non è divisibile per 4, se (n+1)/4 e
(n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e
94.5) allora Q1 e Q3 sono definiti dalla media aritmetica
dei due valori adiacenti della serie ordinata (es. 31-32 e
94-95), altrimenti sono definiti come i valore che sta
nella posizione corrispondente al valore (n+1)/4 e
(n+1)*3/4 una volta arrotondato all’intero più vicino
17
IL BOXPLOT
La rappresentazione
grafica dei 5 numeri di
sintesi: MIN, Q1,
MEDIANA, Q3 e MAX,
forniscono il cosiddetto
BOXPLOT.
Per costruzione, all’interno
della “scatola” è contenuto
il 50% dei dati osservati.
Boxplot of Diametro
Q1
Q3
MIN
MAX
MEDIANA
73.98
73.99
74.00
74.01
74.02
Diametro
La forma della scatola (rispetto alla mediana) ed il modo in
cui si allungano i tratti laterali (“baffi”) danno un’indicazione
sia della tendenza centrale, che sulla variabilità (“intensità”
della dispersione) che sulla simmetria della distribuzione.
18
9
IL BOXPLOT MODIFICATO
Se nella costruzione del boxplot, MIN e MAX sono sostituiti
o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}
o MAX*= min{MAX,Q3+1.5*(Q3-Q1)}
otteniamo il cosiddetto boxplot modificato.
In questo caso, se sono
presenti alcuni valori che
oltrepassano le soglie MIN*
e MAX*, essi sono indicati
con un asterisco, ad indicare
che si potrebbe trattare di
dati anomali (outlier) nel
campione di dati.
Boxplot modificato
MIN
MAX*
outliers
0
1
2
3
19
IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI
Boxplot e dotplot sono particolarmente efficaci nella
confronto tra più serie di dati, per la comparazione tra
tendenza centrale, variabilità e forma della distribuzione.
Ad esempio, considerati 3 impianti A,B,C, possiamo
confrontare un campione di valori di produzione per
ciascuno dei tre impianti.
Boxplots of Produzione by Impianto
115
110
110
105
105
Produzione
100
95
90
95
90
85
85
80
C
Impianto
B
C
B
80
A
Impianto
100
A
Produzione
Dotplots of Produzione by Impianto
115
20
10
LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI
Anche la frequenza può essere utilizzata a scopi
comparativi, per evidenziare differenze ad analogie in
diverse serie di dati.
Una curva più a destra o sotto/a destra rispetto ad un’altra,
rispettivamente per la frequenza o frequenza cumulata,
indica che la corrispondente serie di dati è distribuita su
valori tendenzialmente più elevati.
Frequenza assoluta cumulata, per impianto
Frequenza assoluta, per impianto
A
B
C
9
8
Frequency
7
6
5
4
3
2
25
Cumulative Frequency
10
A
B
C
20
15
10
5
1
0
0
80
85
90
95
100
105
110
115
120
80
85
90
95
Produzione
100
105
110
115
120
Produzione
21
INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE
La posizione o tendenza centrale di una serie di dati può
essere utilmente rappresentata da un unico valore di sintesi
come la mediana. Si noti che la mediana non è influenzata
dalla presenza di dati anomali e per questo è detta essere
un indicatore robusto.
Una alternativa è data dalla media campionaria dei valori
n
osservati ovvero
x
x=
x1 + x2 + ... + xn
=
n
∑
i =1
i
n
La media campionaria è una sorta di “baricentro” dei dati e,
a differenza della mediana, tende ad essere “trascinata”
verso i dati anomali.
Un’ulteriore alternativa (poco usata) è la moda, definita
come il valore più frequente in una serie di dati.
22
11
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
La variabilità o dispersione dei dati indica il grado di
“oscillazione” o variazione dei valori rispetto alla loro
tendenza centrale, misurata ad esempio con la media
campionaria. L’indice statistico s2, definito come
n
s2 =
∑ (x − x )
2
i
i =1
n −1
è detto varianza campionaria.
Dato che s2 è definito nel quadrato della unità di misura di
X, per facilità di interpretazione si preferisce usare la
deviazione standard o scarto quadratico medio s = s 2 .
Per comparare la variabilità di X e Y, se misurati su unità di
misura diverse si utilizza il coefficiente di variazione:
CV = s / x
23
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
Se in luogo della media campionaria, consideriamo come
indice di posizione la mediana, la variabilità dei dati può
essere misura dal Range Interquartile definito come
IQR = Q3-Q1
si noti che, per costruzione, tale indice di dispersione è
sempre ≥ 0, risultando tanto più grande quanto più i dati
sono variabili rispetto alla mediana.
Una ulteriore alternativa è fornita dal Range, ovvero
Range = MAX – MIN
Tale indice tuttavia è di scarso rilievo data la sua evidente
dipendenza dalla presenza di eventuali dati anomali.
24
12
INDICI STATISTICI DI SIMMETRIA
Confrontando i due indici di tendenza centrale media
campionaria e mediana è possibile trarre delle indicazioni in
merito alla simmetria della distribuzione dei dati:
z
media < mediana:
asimmetria negativa o distribuzione obliqua a sinistra
z
media = mediana: simmetria
z
media > mediana:
asimmetria positiva o distribuzione obliqua a destra
Una indicazione più precisa è data dall’indice di
asimmetria (skewness), che in base al valore assunto,
positivo o negativo, ci indica l’intensità ed il tipo
dell’eventuale asimmetria.
25
CONFRONTO TRA INDICI STATISTICI
L’informazione che si può desumere dagli indici statistici di
sintesi può essere particolarmente apprezzata in caso di
comparazione tra più serie di dati, come risulta chiaramente
dall’esempio della produzione dei tre impianti.
Impianto
A
B
C
A
B
C
Indice di posizione
Media
Mediana
100.1
100.0
96.1
95.7
91.5
89.8
Skewness
-0.150
0.103
1.109
Indice di dispersione
Varianza
DevStd
IQR
29.0
5.4
5.7
78.8
8.9
18.2
62.6
7.9
11.8
26
13
STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI
Quando sulla stessa unità od oggetto vengono rilevati
contemporaneamente due o più variabili numeriche, si parla
di dati bi- o multi-variati. In questo caso è di interesse
studiare il modo in cui queste variabili sono eventualmente
associate tra loro.
Ad esempio possiamo considerare il volume di produzione,
il ciclo temporale e la temperatura media, di un certo
processo industriale.
Il diagramma di dispersione per una coppia di variabili
numeriche X e Y, può fornire una prima chiave lettura del
legame esistente tra le variabili. Infatti, a seconda di come
si dispone la “nuvola” di punti, possiamo ritenere plausibile
un eventuale legame tra le due variabili.
27
MATRIX PLOT
Se consideriamo una serie di diagrammi di dispersione per
ogni possibile coppia di variabili, otteniamo il cosiddetto
matrix-plot, che può fornire una prima chiave lettura del
legame esistente tra le variabili.
1. tempo e volume di
produzione sono
correlati
positivamente,
24.925
TEMPO
22.375
3.46
TEMPER
VOL_PROD
Possiamo dedurre una chiara indicazione che
3.66
2.68
3.42
5
5
.37
.92
22
24
VOL_PROD
8
2.6
6
3.4
TEMPO
2
3.4
6
3.6
TEMPER
2. temperatura - tempo e
temperatura - volume
di produzione sono
invece correlati
negativamente.
28
14
IL COEFFICIENTE DI CORRELAZIONE
Un modalità più rigorosa che consente di studiare il grado di
intensità del legame lineare tra coppie di variabili consiste
nel calcolare l’indice di correlazione (lineare) campionaria:
n
r=
∑ ( x − x )( y − y )
i =1
n
i
∑ ( xi − x )2 ⋅
i =1
Correlations: VOL_PROD; TEMPO; TEMPER
i
n
∑ ( y − y)
i =1
i
VOL_PROD
2
TEMPO
0.908
TEMPER
-0.915
TEMPO
-0.990
Cell Contents: Pearson correlation
La correlazione, varia tra -1 e +1, indicando
¾ r = − 1 (+1): perfetta correlazione negativa (positiva)
¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):
forte correlazione negativa (positiva)
¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):
debole correlazione negativa (positiva)
¾ − 0.3 < r < + 0.3: assenza di correlazione
29
15