Elementi di Statistica descrittiva Parte I

Transcript

Elementi di Statistica descrittiva Parte I
Elementi di
Statistica descrittiva
Parte I
1
Elementi di Statistica descrittiva – Parte I
1
Che cos’è la statistica
“Metodo di studio di caratteri variabili, rilevabili su collettività”.
La statistica si occupa di caratteri (ossia aspetti
osservabili) variabili (possono assumere valori diversi).
Essi devono poter essere rilevati su soggetti (unità
unità
statistiche).
statistiche
Scopi della statistica:
• Sintetizzare: predisporre i dati raccolti in una forma
che consenta di comprendere meglio i fenomeni.
(STATISTICA DESCRITTIVA)
• Generalizzare: estendere con metodi di induzione i
risultati ottenuti da un gruppo limitato di unità
statistiche (campione) all’intera collettività (universo,
popolazione).
(STATISTICA INFERENZIALE)
2
I caratteri possono essere:
•Quantitativi, quando sono espressi da un numero (spesso una misura), esempio:
l’età di un individuo, il numero di componenti di una famiglia, l’altezza di un albero;
•Qualitativi, quando sono espressi mediante un giudizio o una qualità, esempio:
il colore degli occhi di un individuo, la serie in cui milita una squadra di calcio
(A,B,C,..).
La statistica inferenziale usa i metodi del calcolo delle probabilità, che qui non viene
considerato.
Elementi di Statistica descrittiva – Parte I
2
Che cos’è la statistica descrittiva
“Insieme di tecniche usate per sintetizzare una serie di dati”.
Raccolta dei dati:
• attraverso procedure di campionamento,
campionamento oppure:
• registrando le risposte a date sollecitazioni in un
ambiente sperimentale,
sperimentale oppure:
• osservando ripetutamente un processo nel tempo,
(serie
serie storiche).
storiche
Tecniche di rappresentazione:
– Tabulari: Si usano tabelle per sintetizzare i dati;
– Grafiche: Si usano grafici per sintetizzare i dati;
– Numeriche: Si calcolano certi valori per sintetizzare i
dati.
3
La statistica descrittiva ha per scopo la sintesi di dati raccolti secondo vari criteri e in vari
contesti.
Per campionamento si intende il rilevare caratteri da un campione, ossia un sottoinsieme
della popolazione che ci interessa.
I tre tipi di tecniche rappresentative elencati sono logicamente consecutivi (prima si genera
una tabella, poi si ottiene un grafico, infine si determinano dei numeri significativi), in
ogni caso verranno esposti in tale sequenza.
Elementi di Statistica descrittiva – Parte I
3
Variabili aleatorie, unità statistiche e campionamento
L’oggetto del nostro studio è una popolazione.
popolazione
Variabile aleatoria X:
– È una caratteristica della popolazione che a noi
interessa;
– La popolazione è costituita da unità statistiche;
statistiche
– Campione: un sottoinsieme della popolazione.
Esempio 1:
– Popolazione: studenti universitari di Milano;
– Variabile X: numero di film visti in un certo periodo;
– Campione: 40 studenti.
“A un gruppo di 40 studenti universitari si chiede quante
volte sono stati al cinema negli ultimi due mesi.”
4
In statistica i termini "aleatorio", "casuale", "stocastico" sono sinonimi e sono aggettivi che si
associano ai risultati di una prova.
Quando il risultato di un esperimento:
1. Non è prevedibile con certezza (ossia è non deterministico);
2. È esprimibile tramite un numero (ossia ci troviamo in presenza di un carattere
quantitativo),
allora tale risultato costituisce una variabile casuale (o variabile aleatoria o variabile
stocastica - random variable).
Ad esempio, il risultato del lancio di un dado a sei facce è una variabile casuale avente
come possibili valori gli interi da 1 a 6.
Un altro esempio di variabile casuale è il risultato dell’operazione di scegliere a caso una
persona e rilevare la sua altezza (o il peso, o l’età).
La terminologia “variabile casuale” è soggetta a critiche: una variabile casuale è da
considerarsi piuttosto come una funzione che fa corrispondere a degli eventi dei numeri
reali.
I 40 studenti dell’Esempio 1 costituiscono un campione perché a noi interessa una
caratteristica una popolazione (che è costituita da tutti gli studenti universitari di Milano e
che è certamente molto più numerosa di 40) e da questa popolazione estraiamo un
sottoinsieme su cui effettuiamo il rilevamento.
I criteri secondo cui scegliere il campione in modo tale che i risultati ottenuti siano applicabili
a tutta la popolazione fanno parte della statistica inferenziale.
Elementi di Statistica descrittiva – Parte I
4
Rilevazione di una variabile aleatoria
• Il campione è costituito da n unità: dimensione n;
(nell’esempio n = 40)
• u1, u2,. . ., un: valori di X ottenuti dal campione;
(nell’esempio 40 risposte: u1, u2,. . ., u40)
Una stessa risposta può venir fornita da più di uno
studente, si dice che tale risposta ha una frequenza
maggiore di 1.
Esempio: il rilevamento fornisce il risultato seguente:
5
Gli indici con cui distinguiamo le unità statistiche (nell’esempio gli studenti intervistati)
servono solo a distinguere un’unità dall’altra e non hanno in genere grande importanza:
nel nostro esempio u1 sarà lo studente intervistato per primo, u40 lo studente intervistato per
ultimo. Tale informazione non ha interesse per noi.
Elementi di Statistica descrittiva – Parte I
5
Esempio 1 – dati grezzi rilevati
u01
u02
u03
u01
u02
u03
u04
u05
u06
u07
u08
u09
u10
3
1
5
3
1
5
4
2
3
4
9
3
6
“40 valori rilevati. Di essi
solo 7 risultano distinti”
u11
u12
u13
u14
u15
u16
u17
u18
u19
u20
3
2
4
4
2
4
3
6
2
3
u21
u22
u23
u24
u25
u26
u27
u28
u29
u30
5
5
3
4
6
6
2
2
3
5
u31
u32
u33
u34
u35
u36
u37
u38
u39
u40
5
3
4
4
4
4
4
3
5
4
In genere: su n valori solo k sono distinti.
6
Vicino a ogni unità statistica ui è riportato il corrispondente valore rilevato (ossia la risposta
ottenuta).
Notiamo che:
1.
Le risposte sono comprese fra un minimo (=1) e un massimo (=9), quindi
possono assumere solo 9 valori distinti;
2.
Di conseguenza alcune risposte saranno date da più di un intervistato
(hanno frequenza >1);
3.
Di questi 9 valori due non figurano mai (hanno frequenza =0). In definitiva si
sono rilevate solo 7 risposte distinte.
Elementi di Statistica descrittiva – Parte I
6
Valori distinti e loro frequenza
• I k valori distinti osservati vengono ordinati in senso
crescente (x1, x2,. . ., xk)
• Invece di considerare gli n valori osservati (u1, u2,. . .,
un) conviene considerare i k valori distinti osservati, a
ognuno di essi si associa una frequenza campionaria;
• Frequenza (campionaria) ni: numero di unità statistiche
del campione che hanno l’i-esimo valore distinto.
Risulta quindi:
– k ≤ n;
– x1 < x2 <. . . < xk
– n1 + n2 +. . . + nk = n
7
N.B.: se il carattere rilevato è qualitativo (ossia non numerico) si hanno ancora k valori
distinti, ognuno con la propria frequenza associata. Si possono avere due sottocasi:
1. Il carattere è ordinabile (ossia esiste un ordine secondo si possono disporre i
valori distinti. Esempio: il giudizio ottenuto da uno studente in una prova scritta:
insufficiente, sufficiente, buono, ottimo). In questo caso l’ordine sarà quello
(nell’esempio x1= insufficiente, x4= insufficiente);
2. Il carattere non è ordinabile (Esempio: bianco, rosso, verde, blu). In questo caso
l’ordine sarà arbitrario.
La frequenza (campionaria) è anche il numero di volte che un dato valore è stato osservato.
Il caso k=n corrisponde a frequenze tutte =1 (ognuno fornisce una risposta diversa da tutti
gli altri).
Elementi di Statistica descrittiva – Parte I
7
Tabella delle frequenze
Aggreghiamo i valori osservati in k classi di frequenza:
Frequenza
Assoluta
Frequenza
Relativa
Frequenza
Cumulativa
p1=n1/n, p2=n2/n, . . ., pk=nk/n
p1 +p2 +p3 + … +pk = 1
F1 =p1, F2 =F1+p2, F3 =F2+p3, … , Fk =Fk-1+pk = 1
8
Con la tabella delle frequenze si riduce la dimensione dell’elenco (k righe invece di n) e si
evidenziano i valori ottenuti in un ordine crescente.
Informazione perduta: l’ordine con cui si è ottenuto un certo valore (non importante, come
già detto).
xk sono i valori distinti, ordinati.
Elementi di Statistica descrittiva – Parte I
8
Frequenze del valore i-esimo
Frequenza assoluta ni: numero di elementi della classe
k
i =1
ni = n
Frequenza relativa pi: rapporto fra la frequenza assoluta e n,
numero totale dei dati osservati (dimensione del campione)
k
n
pi = i
n
i =1
pi = 1
Frequenza cumulativa Fi: somma delle frequenze relative
dei valori ≤xi
Fi =
i
j =1
pj
F1 = p1
Fk = 1
9
Questa figura riassume, relativamente ai diversi tipi di frequenza, le definizioni e le proprietà
viste prima,
L’indice i identifica la generica unità statistica ui.
Elementi di Statistica descrittiva – Parte I
9
Tabella delle frequenze dell’Esempio 1
valori rilevati
min=
max=
1
9
classe
frequenza frequenza frequenza
assoluta
relativa
cumulativa
1
1
0,025
0,025
2
6
0,150
0,175
3
10
0,250
0,425
4
12
0,300
0,725
5
6
0,150
0,875
6
4
0,100
0,975
7
0
0,000
0,975
8
0
0,000
0,975
9
1
0,025
1,000
TOTALE
40
1
10
La colonna con intestazione “classe” riporta i valori distinti ordinati. Il motivo della dizione
“classe” è dovuto a uniformità di terminologia con il caso di variabile continua, come
risulta meglio più avanti.
Dato che il tipo di carattere che stiamo considerando (ossia la variabile aleatoria “numero di
spettacoli visti in due mesi”) può assumere tutti i valori interi compresi fra il minimo
rilevato (=1) e il massimo rilevato (=9), nella colonna dei valori distinti si riportano tutti
questi valori, compresi quindi il 7 e l’8 a cui corrisponde frequenza zero.
In definitiva in questo caso abbiamo: k=9, x1=1, x9=9.
Notiamo che queste scelte sono in parte arbitrarie e potrebbero non essere adeguate, ad
esempio nel caso che si volesse ripetere il campionamento utilizzando un campione
diverso che potrebbe fornire risposte diverse.
Una prima modifica potrebbe consistere nel porre x1=0 (nel nostro campione la risposta
“non ho visto alcuno spettacolo nei due mesi” non figura, ma è del tutto possibile),
inoltre conviene prevedere valori massimi maggiori di 9 che a priori non possiamo
escludere.
In definitiva la tabella come organizzata in figura è adeguata solo per il campione utilizzato
nell’esempio.
L’ultima riga riporta i totali a scopo di controllo. La somma delle frequenza cumulative non
ha senso.
Elementi di Statistica descrittiva – Parte I
10
Frequenze percentuali dell’Esempio 1
frequenza
frequenza cumulativa
cumulativa percentuale
classe
frequenza
assoluta
frequenza
relativa
frequenza
percentuale
1
1
0,025
2,50
0,025
2,50
2
6
0,150
15,00
0,175
17,50
3
10
0,250
25,00
0,425
42,50
4
12
0,300
30,00
0,725
72,50
5
6
0,150
15,00
0,875
87,50
6
4
0,100
10,00
0,975
97,50
7
0
0,000
0,00
0,975
97,50
8
0
0,000
0,00
0,975
97,50
9
1
0,025
2,50
1,000
100,00
TOTALE
40
1
100
11
Tabella delle frequenze della figura precedente, a cui sono state aggiunte le due colonne
“frequenza percentuale”, “frequenza cumulativa percentuale”.
La frequenza percentuale è la frequenza relativa moltiplicata per 100 e corrisponde alla
frequenza assoluta di un ipotetico campione di dimensione 100.
La somma delle frequenze percentuali è 100.
La frequenza cumulativa percentuale è la frequenza cumulativa moltiplicata per 100.
L’ultima frequenza cumulativa percentuale (quella dell’ultima classe) è 100.
Elementi di Statistica descrittiva – Parte I
11
Esempio 1 - istogramma
In un sistema cartesiano poniamo:
in ascissa i valori che definiscono la classe
in ordinata la frequenza
Costruiamo un grafico formato da rettangoli la cui base è centrata in
corrispondenza dei valori che definiscono la classe e la cui altezza
rappresenta la frequenza:
“La base di tutti i
rettangoli è fissa.
L’area di un
rettangolo è
proporzionale alla
frequenza”
Frequentazione cinema
14
frequenza assoluta
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9
No spettacoli visti
12
Oltre al tipo di istogramma illustrato esistono molte varianti, tutte basate sull’idea di rappresentare il valore
di una frequenza (assoluta o relativa) tramite la lunghezza di una barra.
Per una visualizzazione delle opzioni più diffuse si può ad esempio ricorrere alla voce di menu
[Inserisci]->[Grafico]
di Excel.
Elementi di Statistica descrittiva – Parte I
12
Variabili discrete e variabili continue
La variabile X dell’esempio precedente è numerica,
discreta e finita,
finita perché assume un numero finito di valori
numerici interi.
Una variabile continua può assumere valori reali, in genere
limitati entro un intervallo finito.
In questo caso i valori possibili sono infiniti.
Di conseguenza ogni valore rilevato avrà in genere
frequenza = 1 e i dati distinti tendono a coincidere coi dati
grezzi.
Per rappresentare i dati essi vengono allora aggregati in
classi di frequenze,
frequenze come nell’esempio che segue.
13
Stiamo considerando il caso di un carattere quantitativo il cui valore è un numero reale (ad
esempio una misura fisica).
In tal caso abbiamo una variabile che può assumere infiniti valori in un dato intervallo.
La probabilità di estrarre in maniera casuale più di una volta lo stesso valore è trascurabile.
Elementi di Statistica descrittiva – Parte I
13
Esempio 2 – dati grezzi
Si sono misurate le lunghezze di un campione di 20 pezzi
prodotti da una macchina:
u01
u02
u03
u04
u05
u06
u07
u08
u09
u10
17,2
17,9
18,0
18,0
18,2
18,4
18,5
18,6
18,6
19,0
u11
u12
u13
u14
u15
u16
u17
u18
u19
u20
19,1
19,2
20,3
20,4
20,4
20,4
20,7
20,8
20,8
21,1
La variabile è in questo caso numerica e continua perché assume
valori numerici reali, di cui si riportano delle approssimazioni.
14
Elementi di Statistica descrittiva – Parte I
14
Esempio 2: tabella delle frequenze
valori rilevati
min= 17,2
max= 21,1
frequenza frequenza frequenza
assoluta
relativa
cumulativa
classe No
classe
1
2
3
4
5
6
7
8
9
17,5
1
0,050
0,050
18,0
3
0,150
0,200
18,5
3
0,150
0,350
19,0
3
0,150
0,500
19,5
2
0,100
0,600
20,0
0
0,000
0,600
20,5
4
0,200
0,800
21,0
3
0,150
0,950
21,5
1
0,050
1,000
TOTALE
20
1
I dati rilevati sono organizzati
in classi di frequenza,
frequenza
ponendo in ciascuna classe
le ui i=1,…,20 che assumono
valori appartenenti a
sottointervalli dell’intervallo
(17.0,21.5) di ampiezza δ=0.5
(δ
δ può essere scelto
arbitrariamente)
15
Si considera per l’intervallo chiuso [17.0,21.5] e lo si suddivide in sottointervalli (“classi”) di
ampiezza costante.
Tali sottointervalli sono chiusi a destra, quindi:
classe 1 = [17.0,17.5]
classe 2 = (18.0,18.5]
classe 3 = (18.5,19.0]
...
classe 9 = (21.0,21.5]
Quindi ad esempio il valore 18.5 appartiene, in modo non ambiguo, alla classe 2 e non alla
classe 3.
Si noti che con questa suddivisione escludiamo a priori la possibilità ottenere valori minori di
17 o maggiori di 21.5, considerati valori anomali.
Dato che conviene tener conto anche dei valori anomali (sempre possibili ad esempio in
seguito a un errore di misura) la suddivisione precedente viene di solito modificata come
segue:
•La classe 1 viene ridefinita come (0,17.5] e comprenderà tutti i valori minori o
uguali a 17.5. (Nel caso in esame è fisicamente impossibile ottenere valori negativi,
se così non fosse si assumerebbe come classe 1 l’intervallo (-∞,17.5] );
•Si aggiunge un’ulteriore classe: classe 10 = (21.5, ∞) comprendente tutti i valori
>21.5.
Elementi di Statistica descrittiva – Parte I
15
Esempio 2: istogramma
In un sistema cartesiano, in cui poniamo in ascissa i valori che
definiscono la classe e in ordinata fa o fr, si costruisce un grafico
(istogramma) formato da rettangoli la cui base è l’intervallo che
definisce la classe e la cui altezza rappresenta la frequenza (fa o fr)
classe
fa
17 − 17 . 5
1
17 . 5 − 18
3
18 − 18 . 5
3
18 . 5 − 19
4
19 − 19 . 5
1
19 . 5 − 20
0
20 − 20 . 5
4
20 . 5 − 21
3
21 − 21 . 5
1
tot
20
16
Questo istogramma è del tutto simile a quello dell’esempio 1, con la differenza che qui ogni classe
corrisponde a un intervallo di valori possibili.
Elementi di Statistica descrittiva – Parte I
16
Esempio 2: torta
La visualizzazione dei dati è molto varia.
Ad esempio si possono utilizzare grafici “a torta” (pie-chart):
classe
fa
fc
17 − 17 . 5
1
5%
17 . 5 − 18
3
20 %
18 − 18 . 5
3
35 %
18 . 5 − 19
4
55 %
19 − 19 . 5
1
60 %
19 . 5 − 20
0
60 %
20 − 20 . 5
4
80 %
20 . 5 − 21
3
95 %
21 − 21 . 5
1
100 %
tot
20
21-22
5%
17-18
20%
20-21
35%
19-20
5%
18-19
35%
“L’area dello spicchio è proporzionale alla frequenza”
17
Esempio di grafico, di tipo diverso dal precedente, ma che riporta informazioni della stessa natura.
Rispetto al precedente notiamo:
•Le frequenze sono relative e non assolute;
•Le nove classi sono state aggregate in 5 classi si ampiezza doppia, allo scopo di rendere più
immediata la comprensibilità del grafico (perdendo ovviamente alcune informazioni).
Elementi di Statistica descrittiva – Parte I
17
Ogiva
Si chiama ogiva la linea che rappresenta la frequenza cumulativa di una variabile
numerica. Graficamente si presenta come una spezzata che unisce i punti che hanno
per ascisse i valori osservati (caso discreto) o gli estremi degli intervalli (caso continuo)
e per ordinate i valori della frequenza cumulativa.
Per costruire l’ogiva relativa all’Esempio 2 si congiungono i punti:
P1(17.5,5), P2(18,20), P3(18.5,35), P4(19,55), P5(19.5,60), P6(20,60),
P7(20.5,80), P8(21,95), P9(21.5,100).
18
Le frequenze cumulative percentuali dell’Esempio 2 sono riportate sul diagramma cartesiano (“pallini”), i
punti vengono poi collegati con segmenti di retta.
Il tutto riporta il grafico approssimato della frequenza cumulativa percentuale in funzione della classe.
Il punto iniziale ha sempre ordinata uguale alla frequenza della classe 1, il punto finale ha ordinata 100.
Elementi di Statistica descrittiva – Parte I
18
Esempio 3
Si sono rilevate le cause del guasto di un’automobile in un
dato periodo
La tipologia di causa del guasto è stato attribuita ad una variabile x,
ottenendo:
x1 = A
x2 = B
x3 = A
x4 = C
x5 = B
x6 = D
X7 = D
x8 = E
x9 = F x10 = A x11 = D x12 = A x13 = A x14 = C x15 = D x16 = A
A : motore
B : cambio C : elettronic a
D : sospension i E : benzina
F : incidente
La variabile x è in questo caso qualitativa perché non
assume valori numerici.
19
Il carattere che stiamo considerando è qualitativo e non ordinabile: la sequenza A, B,
C,… è arbitraria nel senso che si sarebbe potuto indicare con A qualunque dei sei tipi di
guasto considerati.
Elementi di Statistica descrittiva – Parte I
19
Esempio 3: tabelle di frequenza
I dati rilevati possono essere organizzati in classi di frequenza.
frequenza Le classi
sono determinate dalle tipologie assunte dalla variabile x.
Si costruisce una tabella in cui si affianca a ciascuna classe il numero
di volte in cui, nel periodo osservato, si realizza la tipologia di causa:
classe
A
B
C
D
E
F
fa
6
2
2
3
1
2
tot
16
fr
fp
6 / 16 = 0 . 375
37 . 5 %
2 / 16 = 0 . 125
12 . 5 %
2 / 16 = 0 . 125
12 . 5 %
3 / 16 = 0 . 1875 18 . 75 %
1 / 16 = 0 . 0625
6 . 25 %
2 / 16 = 0 . 125
12 . 5 %
tot 1
tot 100 %
fa: frequenza assoluta
fr: frequenza relativa
fp:frequenza
frequenza percentuale
Non ha senso la fc
20
Elementi di Statistica descrittiva – Parte I
20
Esempio 3: istogramma
In un sistema cartesiano, in cui poniamo in ascissa le tipologie di classi e
in ordinata fa o fr, si costruisce un grafico (istogramma) formato da
rettangoli la cui base di misura costante rappresenta la classe ovvero la
categoria di causa guasto e la cui altezza rappresenta il numero di volte
di realizzazione di tale causa
21
Elementi di Statistica descrittiva – Parte I
21