Introduzione alla statistica_lezione2 - UniFI

Transcript

Introduzione alla statistica_lezione2 - UniFI
Dipartimento di Statistica Regione Toscana Comune di Firenze
Progetto di diffusione della cultura Statistica
Introduzione alla
statistica descrittiva
Carla Rampichini
Dipartimento di Statistica “G. Parenti”
Università di Firenze
Materiale:
http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/
Tipi di variabili
„
„
„
„
Riprendiamo in esame le domande contenute nel
questionario e osserviamo che raccolgono
informazioni di vario tipo: quantitative e qualitative
Le variabili QUANTITATIVE misurano
caratteristiche numeriche: p.e. il peso e l’altezza di
una persona
Le variabili QUALITATIVE misurano delle qualità:
p.e. il colore degli occhi e dei capelli
Le variabili dicotomiche sono variabili qualitative
con due sole modalità: p.e. la variabile genere
assume le modalità maschio e femmina
Codici
Osserviamo che accanto alle modalità
delle variabili qualitative compaiono dei
numeri
„ Questi numeri NON sono quantità ma
sono dei CODICI che facilitano il lavoro di
registrazione dei dati
„
Classi di modalità
„
Confrontiamo la dom. 8 e la dom. 9 del questionario: entrambe
chiedono di indicare un orario in termini di ore e minuti
„
Nella Dom. 8 l’orario va indicato per esteso
(ore, minuti)? |__|__|:__|__|
„
Mentre nella Dom. 9 vi è stato chiesto di CLASSIFICARVI in una
delle possibili modalità di risposta
1 Prima delle 6.00
4 Dalle 7.00 alle 7.29
2 Dalle 6.00 alle 6.29 5 Dalle 7.30 in poi
3 Dalle 6.30 alle 6.59
Osservate che le modalità di risposta sono ESAUSTIVE e
MUTUALMENTE esclusive
„
„
quali sono secondo voi vantaggi e svantaggi di questi due modi di
presentare la risposta?
Pro e contro domande a risposta aperta e chiusa
Dom.8 A che ora vai
a dormire la sera
ora
Frequenza
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
21:00:00
1
21:30:00
1
22:00:00
2
22:15:00
2
22:30:00
6
22:45:00
1
22:49:00
1
23:00:00
6
23:15:00
3
23:30:00
12
23:45:00
4
23:47:00
1
0:00:00
11
0:50:00
1
1:00:00
3
1:30:00
1
Dom. 9 A che ora ti svegli
al mattino
ora
Frequenza
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 prima delle 6.00
1
2 6.00-6.29
3
3 6.30-6.59
12
4 7.00-7.29
29
5 7.30 e oltre
11
risposte
informazione
dispersione
errori misura
Domande a risposta
aperta
chiusa
non note
note a priori
più
meno
più
meno
più
meno
Domande ambigue
„
Come avreste posto la domanda 13
Tu fumi?
„
Questa domanda è posta in maniera AMBIGUA
„
Un modo migliore per porre la domanda è
Quante sigarette hai fumato nelle ultime 24 ore?
„
Confrontare anche le dom. 14 e 15
in cosa differiscono?
Consideriamo gli studenti presenti come unità di
osservazione, e classifichiamo le seguenti variabili
„
„
„
„
„
„
„
Quante ore hai dormito stanotte?
Quantitativa: 1,2, …, 12
Hai dormito almeno 7 ore stanotte?
Qualitativa, dicotomica: sì, no
Quanti stati esteri hai visitato?
Quantitativa: 0,1, …
Sei mancino?
Qualitativa, dicotomica: sì, no
In quale giorno della settimana sei nato?
Qualitativa: lun, mar, mer,gio,ven,sab,dom
Hai studiato ieri pomeriggio ?
Qualitativa, dicotomica: sì, no
Per quanto tempo hai studiato ieri pomeriggio?
Quantitativa: ore, minuti
Ricordate…
La distinzione tra variabili qualitative e
quantitative è importante per scegliere il
metodo da utilizzare
„ Molto spesso la classificazione di una
variabile dipende da come viene misurata
„ Una variabile che assume valori numerici
corrispondenti a codici (p.e. CAP) è
qualitativa
„
Validità e affidabilità di una misura (1)
alla domanda 8
A che ora vai a dormire abitualmente la sera?
avete probabilmente risposto con sincerità, e
quindi questa domanda fornisce risposte affidabili
„ Secondo voi, in base ai risultati della rilevazione,
si possono fare affermazioni del tipo “Qualche
studente studia poco perché dorme troppo poco?”
„ In altri termini, secondo voi la dom. 8 dà
indicazioni valide per analizzare il rendimento
nello studio?
„
Validità e affidabilità di una misura (2)
„
Il modo in cui abbiamo misurato il numero di battiti
cardiaci è molto approssimato e quindi probabilmente i
dati che abbiamo rilevato non sono molto affidabili
„
Potete fare una verifica misurando per 2 volte i vostri
battiti e osservare se avete ottenete la stessa misura
„
Secondo voi, l’informazione sul numero di battiti cardiaci
ci dà indicazioni valide per lo studio del vostro stato di
salute?
Osservazioni sulla variabilità
La variabilità nei dati si riscontra:
„ in due misurazioni dello stesso oggetto (errore di
misura: p.e. due misurazioni del battito cardiaco)
„ misurazione di due oggetti diversi (p.e.
variabilità ‘biologica’: il battito cardiaco a riposo
per un adulto dovrebbe variare tra 60 e 100,
come nei i vostri dati)
„ nei processi casuali (p.e. due estrazioni con
reintroduzione da un’urna contenente palline
numerate da 1 a 20)
Statistica descrittiva
scopo principale
sintetizzare e descrivere i dati attraverso
„
„
„
grafici (diagrammi a barre, a torta, boxplot, ecc.)
tabelle
indici sugli aspetti più importanti
… posizione,
come la media
… variabilità, come la varianza
… concentrazione
… relazione tra variabili
Distribuzione e sintesi dei dati
„
„
„
„
I dati sono un lungo elenco di valori ed è difficile
trovare una regolarità: ecco i dati raccolti in classe
Se volete confrontare la vostra altezza con quella
dei compagni come fate?
La lista di valori è lunga e ci vorrebbe molto tempo
per confrontare tutti i numeri!
Leggiamo invece una sintesi dei valori raccolti:
… il
50% centrale dei valori è compreso tra 168 e 180 cm
… la metà delle altezze è superiore a 175 cm e l’altra metà
è inferiore a questo valore
Distribuzione e sintesi dei dati
„
Se siete alti p.e. 178 cm, in base a questa
sintesi sapete subito che la vostra altezza si
trova nella parte centrale della distribuzione, non
lontana dal valore centrale
„
Notate che questa sintesi vi fornisce due
informazioni: il valore centrale è 175 cm e le
altezze si distribuiscono intorno a questo
valore, variando tra 170 e 180 cm nella parte
centrale (50% delle altezze) della distribuzione
„
Spesso questo tipo di sintesi fornisce tutte le
informazioni necessarie per capire l’andamento
del fenomeno, soprattutto quando la forma della
distribuzione è una di quelle tipiche
Matrice dei dati
„
I dati sono di solito raccolti in forma
RETTANGOLARE: matrice righe ×colonne
„
ogni riga della matrice corrisponde ad una unità
di osservazione
ogni colonna della matrice corrisponde ad una
variabile
„
„
„
Esempio dati raccolti in classe: 56 oss × 16 var
Esempio dati mammiferi: 39 osserv × 6 variabili
Distribuzioni
„
L’insieme dei valori assunti da una variabile e la
frequenza con cui ogni valore si presenta tra le
unità di osservazione produce la DISTRIBUZIONE
dei dati
selvaggio
distribuzione dei mammiferi
in base alla variabile SELVAGGIO
112
205
3000259
4000258
50
6
70
1
0
TOT
29
10
39
Tabella modalità e frequenze
distribuzione dei mammiferi in base alla velocità
Steam-and-leaf-plot
Distribuzione degli studenti
altezza
Stem Leaf
192 0
190
188 00
186
184 00
182 000
180 00000000
178 0000000
176 0000
174 000
172 0000
170 00000
168 00000000
166 0
164 00
162 000
160 000
----+----+----+----+
Mezzo di trasporto utilizzato
mezzo
cod freq
%
a piedi
1
4
7.14
bici
2
1
1.79
motorino
3 23 41.07
auto
4 16 28.57
bus
5
6 10.71
bus+altro
6
6 10.71
Totale
56 100.00
Come si esplorano i dati?
„
Ogni analisi esplorativa dovrebbe seguire questi passi
grafico → forma → centro → dispersione
1.
2.
3.
4.
Tracciare il grafico più appropriato
Descrivere la forma della distribuzione in base al grafico e
indici di forma
Calcolare una misura del centro della distribuzione,
appropriata in base alla forma della distribuzione
Calcolare un indice di dispersione appropriato in base
alla forma della distribuzione e coerente con la misura di
centro utilizzata
UTILIZZARE GRAFICI E INDICI APPROPRIATI IN BASE AL
TIPO DI VARIABILE
Aspetti notevoli delle distribuzioni
centro
Coda sinistra
Coda destra
Aspetti caratterizzanti le distribuzioni:
posizione e variabilità
Posizione
Più a sinistra
Variabilità
Più a destra
Meno variabile
più variabile
Aspetti caratterizzanti le distribuzioni: forma
asimmetrica
simmetrica
Grafici per variabili quantitative
„
Per capire come sintetizzare una
distribuzione è utile conoscere la sua
forma
„
La forma di una distribuzione può essere
vista attraverso un grafico
„
Grafici più utilizzati
● Dotplot
● Istogramma
● Boxplot
● Steam and leaf plot
● Plot frequenze cumulate
Esempio mammiferi
„
i gatti domestici vivono circa 12 anni,
ma possono vivere anche fino a 28 anni.
Questa durata è tipica di altri carnivori domestici?
„
Cosa si può dire per i mammiferi domestici che non sono
predatori, come le mucche e i maiali?
E per i mammiferi che vivono allo stato selvaggio?
„
I rinoceronti, mammiferi non predatori, vivono in media
15 anni, con una durata massima di 45 anni. Mentre
l’orso grizzly, che è un predatore, vive in media 25 anni,
con una durata di vita massima di circa 50 anni.
Possiamo affermare che tra i mammiferi selvaggi i
carnivori vivono più a lungo dei vegetariani?
Possiamo rispondere ad alcune di queste domande
osservando i grafici dei dati raccolti
DOTPLOT
„
„
mostra i singoli casi
osservati come punti
dal dotplot possiamo
vedere la forma, il centro
e la dispersione dei dati
5
15
25
35
45
55
65
velocità (mph)
Il dot plot è utile quando:
•si hanno pochi casi
•si vogliono vedere i singoli valori
•si vuole vedere qual è la forma della distribuzione
•si vogliono confrontare pochi gruppi
Quando leggete un dot plot, tenete presente che software diversi fanno dot plot
diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i
valori vengono arrotondati
75
dotplot studenti per genere e altezza (cm)
15
10
5
0
157 162 167 172 177 182 187 192 197
femmine, maschi
Altezza in classi di 5cm
( valori centrali di classe p.e. 162 ÍÎ[160,164])
Alcuni approfondimenti …
„
„
Classifichiamo ogni variabile che compare nella
matrice dei dati dei mammiferi come quantitativa o
qualitativa ►
Consideriamo la variabile velocità dei mammiferi
… Contiamo
con 0 o 5
il numero di mammiferi la cui velocità finisce
sono 12 su 18, cioè i 2/3
… Quanti valori pensate sarebbero finiti per 0 o 5 per il
solo effetto del caso?
2/10 di 18 cioè 3.6
… Quali sono le spiegazioni possibili del fatto che le
risposte ai due quesiti precedenti sono così diverse?
Vedi risposta R1
Dotplot per durata della gestazione
„
„
„
Costruiamo il dotplot (vedi foglio di lavoro)
Osservando il dotplot proviamo a descrivere la
forma, il centro e la dispersione
Quali mammiferi presentano la gestazione più
lunga?
Quelli più grandi!
risposte
R1
„
La spiegazione più plausibile è che le velocità sono
stime per gli animali selvaggi
Chi andrebbe a misurare la velocità di un grizzly in
natura?
„
Le velocità che non finiscono per 0 o 5 sono quelle
relative ad animali domestici: cane, volpe, giraffa,
cavallo, maiale e scoiattolo.
Per questi mammiferi, ad eccezione della giraffa, la
velocità può essere misurata in maniera accurata:
sicuramente nel caso di gare di corsa per cavalli e cani!
La distribuzione è centrata
R2 verso i valori più bassi,
senza gruppi o buchi
particolari
„ C’è una sorta di ‘muro’ a 0
giorni, perché nessun
mammifero può avere un
periodo di gestazione più
piccolo!
„
„
„
„
elefante
0
100
160
200
300
400
500
durata gestazione (giorni)
L’elefante è l’unico mammifero fuori norma (outlier)
Circa la metà dei mammiferi hanno un periodo di
gestazione superiore a 160 giorni e la metà hanno un
periodo più breve
La metà centrale ha un periodo di gestazione che
varia tra i 63 e i 284 giorni.
600
700
Tipo variabili mammiferi
„
„
„
„
„
„
„
Mammifero
Periodo di gestazione
Durata vita media
Durata vita max
Velocità
Selvaggio
Predatore
„
È un’etichetta
Quantitativa gg
Quantitativa anni
Quantitativa anni
Quantitativa mph
Qualitativa sì/no
„
Qualitativa sì/no
„
„
„
„
„
Istogramma altezza