VARIABILI E DISTRIBUZIONI DI FREQUENZA

Transcript

VARIABILI E DISTRIBUZIONI DI FREQUENZA
VARIABILI E DISTRIBUZIONI DI
FREQUENZA
A.A. 2010/2011
1
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Un insieme di misure è detto serie statistica o serie dei dati
1) Una sua prima elementare elaborazione può essere una distribuzione
ordinata di tutti i valori, in modo crescente o decrescente.
2) Il valore minimo e il valore massimo insieme permettono di individuare
immediatamente il campo (od intervallo) di variazione.
3) Successivamente, la serie può essere raggruppata in classi, contando
quanti valori od unità statistiche appartengono ad ogni gruppo o categoria.
DISTRIBUZIONE DI FREQUENZA
2
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Consideriamo una variabile ottenuta dal conteggio del numero di giorni di
incubazione del virus influenzale trascorsi dal momenti dell’inoculazione
del virus in una cavia (variabile discreta).
n=45
X = (x1, x2, … , x45) = (5, 6, 3, 4, … , 5, 0, 4, 5)
3
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Il primo passaggio, in una distribuzione
discreta, consiste nel definire le classi:
1)
identificare il valore minimo (0, nei dati
della tabella) e quello massimo (9),
2)
contare quante volte compare ogni valore
(modalità o intervalli di classe) (cioè
quante sono le cavie con uguale numero
di giorni di incubazione del virus).
3)
Si ottiene la seguente tabella:
4
RAPPRESENTARE I DATI: TABELLE E GRAFICI
5
PERCHÉ USARE LE FREQUENZE
RELATIVE?
Per il confronto della distribuzione
di una variabile in campioni di
dimensioni diverse
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco
nel curare forme di balbuzie. L’esperimento coinvolge due
gruppi randomizzati di pazienti (A e B): il farmaco viene
somministrato a 150 pazienti nel gruppo A, mentre un
placebo viene somministrato a 100 soggetti in B.
6
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE ASSOLUTE
GRUPPO A
GRUPPO B
90
EFFETTO ni (A) ni(B)
80
70
60
migliorato
invariato
peggiorato
50
80
20
33
53
14
50
40
30
20
150
100
10
0
migliorato
invariato
peggiorato
7
PERCHÉ USARE LE FREQUENZE RELATIVE?
EFFETTO ni (A) ni(B) pi (A) pi(B)
migliorato
invariato
peggiorato
50
80
20
33
53
14
0,33
0,53
0,14
0,33
0,53
0,14
150
100
1,00
1,00
FREQUENZE
RELATIVE
0,60
0,50
0,40
GRUPPO A
GRUPPO B
0,30
0,20
0,10
8
0,00
migliorato
invariato
peggiorato
RAPPRESENTARE I DATI: TABELLE E GRAFICI
La frequenza cumulata offre informazioni importanti quando si intende
stimare il numero totale di osservazioni inferiore (o superiore) ad un valore
prefissato (ad es.: il 71% delle cavie sviluppa il virus in meno di 5 giorni; il
56% al massimo 3 in giorni).
9
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Consideriamo l’altezza di un gruppo di pazienti visitati in un ambulatorio
ortopedico (variabile continua).
10
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Non conviene fare una classe per ogni cm.
raggruppamento in classi (arbitrario), che comprendano più modalità di
espressione.
Classe
F. Ass.
F. relat
F. Cumul
Xi
ni
fi
Fi
[60-80)
1
2.5
2.5
[80-100)
3
7.5
10.0
[100-120)
10
25.5
35.0
[120-140)
12
30.0
65.0
[140-160)
7
17.5
82.5
[160-180)
5
12.5
95.0
[180-200)
2
5.0
100.0
11
Costruiamo gli intervalli di frequenza:
Trovo il valore minimo e il valore massimo
min = 60 cm
max = 200 cm
Calcolo il campo di variazione (range):
Xmax− Xmin
r = 140
Stabilire il numero degli intervalli
k=7
Calcolare l’ampiezza degli intervalli:
δi= Range / k
δi = 140/7 =20
Costruisco gli intervalli di classe (esclusivi ed esaustivi)
Conto il numero di individui per ogni classe
12
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Esempio: I dati seguenti si riferiscono al grado del trauma
in 100 ricoverati al pronto soccorso:
X= grado del trauma
xi:
0=assente 1=trauma lieve 2=trauma grave
3=lesioni permanenti 4=decesso
0
2
1
1
1
2
0
0
1
0
1
1
0
0
0
3
1
2
0
1
1
0
0
1
0
1
1
0
2
0
0
0
1
0
1
0
2
1
2
0
0
2
0
1
0
1
0
1
0
3
1
2
0
0
0
0
1
0
0
0
1
0
1
0
1
0
2
0
1
2
1
2
0
1
0
2
2
1
0
1
0
0
0
0
4
0
1
1
2
0
0
2
1
0
2
0
0
2
1
0
13
Costruzione della tabella e calcolo di frequenze relative:
VARIABILE QUALITATIVA
MODALITA'
frequenza
frequenza
assoluta
ni
relativa
n i /n
assente
48
48/100 = 0,48
lieve
32
0,32
grave
17
0,17
2
1
0,02
0,01
lesioni permanenti
decesso
TOTALE
100
k=5
14
COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZA
1. definire un criterio di classificazione delle osservazioni
⇒ definizione delle modalità (variabile qualitativa)
⇒ definizione degli intervalli di classe (variabile quantitativa)
IL CRITERIO DI CLASSIFICAZIONE
DEVE ESSERE
1. ESAUSTIVO: devono essere
riportate tutte le modalità o i
valori assunti dalla variabile
2. NON AMBIGUO: le
modalità/gli intervalli di classe
devono essere mutuamente
esclusivi
Ω
Ωj
Ω4
Ω3
Ω1
Ω2
5
2
6
3
1
7
4
ogni unità statistica
deve essere assegnata
ad una unica modalità
o intervallo di classe
15
R
Esempio
Variabile quantativa:
classificazione dell’età in anni compiuti
SCORRETTA
CORRETTA
0-10
0-9
10-20
10-19
…..
…..
70-80
70-79
≥ 80
Variabile qualitativa:
classificazione del colore dei capelli
SCORRETTA
CORRETTA
Nero
Nero
Chiaro
Castano
Biondo
Biondo
Rosso
Rosso
16
2. Assegnare ad ogni valore (modalità/intervallo di classe) la
frequenza (assoluta e/o relativa) corrispondente
FREQUENZA ASSOLUTA (ni)
numero di osservazioni corrispondente ai
diversi valori (modalità/intervalli di classe)
della variabile
⇒
0 ≤ ni ≤ n
⇒ ΣKi=1 ni = n1 + n2 + .. + nK = n
ottenuta tramite
un CONTEGGIO
n= numero totale delle osservazioni
K= numero dei valori/modalità/classi
della variabile
17
FREQUENZA RELATIVA: (pi = ni / n)
rapporto tra il numero di osservazioni corrispondente ai
diversi valori (modalità/intervalli di classe) della variabile e la
dimensione campionaria
⇒
0 ≤ pi ≤ 1
⇒ ΣKi=1 pi = p1 + p2 + .. + pK = 1
FREQUENZA RELATIVA PERCENTUALE: (pi% = ni / n * 100)
indica quanto volte un fenomeno si manifesta su una
casistica di 100 osservazioni
⇒
0% ≤ pi% ≤ 100%
⇒ ΣKi=1 pi % = p1 % + p2 % + .. + pK % = 100%
18
FREQUENZA CUMULATA
FREQUENZA ASSOLUTA CUMULATA (Fi)
numero di osservazioni il cui valore è inferiore o uguale
ad una data modalità o a un dato valore xi
Fi (-∞ )=0
Fi (+ ∞ )=n
FREQUENZA RELATIVA CUMULATA
(Pi = Fi / n; Pi% = Fi /n * 100%)
Pi (-∞ )=0
Pi (+ ∞ )=1
19
MISURE D’ORDINE IN UNA DISTRIBUZIONE
SCOPO: descrivere la posizione di un dato individuale nell’ambito di
una distribuzione
RANGO: posizione di un’osservazione xi in una serie di
dati ordinati in modo crescente
RANGO PERCENTILICO: sia xi la i-esima osservazione
di un campione di n unità ordinate in modo crescente. Il
rango percentilico corrispondente è dato da:
rango (xi)
Rp =
*100%
n+1
20
Esempio:
nelle seguenti tabelle si riportano le osservazioni del peso per n soggetti
n=6
PESO (kg)
53
55
60
61
63
65
Rango = 3
Rp = 3 / (6+1)*100 = 43%
n = 60
PESO (kg)
53
55
60
61
63
65
…..
92
Rango = 3
Rp = 3 / (60+1)*100 = 5%
21
RAPPRESENTAZIONI GRAFICHE DEI DATI
Le rappresentazioni grafiche servono per evidenziare in modo semplice le
caratteristiche fondamentali di una distribuzione di frequenza.
Le rappresentazioni grafiche sono numerose e debbono essere scelte in rapporto al
tipo di dati e quindi alla scala utilizzata.
22
GRAFICI PER DATI QUANTITATIVI
Variabili continue misurate su scale ad intervallo o di rapporto
(altezza, peso, emoglobina, pressione arteriosa, colesterolo ematico….)
ISTOGRAMMI O POLIGONI
23
Gli istogrammi sono grafici a barre verticali accostate, nei quali:
- le misure della variabile sono riportate lungo l'asse orizzontale,
- l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o
quella percentuale, con cui compaiono i valori di ogni classe.
24
I poligoni
• Rappresentazione di valori relativi o di percentuali, in quanto è implicito che l’area
totale sottesa sia uguale a 1 o 100%.
• L'asse orizzontale rappresenta il fenomeno (valore variabile), mentre l'asse verticale
rappresenta la frequenza o percentuale di ogni classe (relativa o cumulata).
• Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una
linea spezzata :
A) i punti centrali superiori di ogni classe se frequenza relativa,
B) i punti estremi superiori destri dei rettangoli se frequenza cumulata.
25
POLIGONO FREQUENZE RELATIVE
35
30
25
20
15
10
5
0
[60-80)
[80-100) [100-120) [120-140) [140-160) [160-180) [180-200)
26
POLIGONO FREQUENZE CUMULATE
120
100
80
60
40
20
0
80
100
120
140
160
180
200
27
Sempre sugli istogrammi…
•
Un istogramma deve essere inteso come una rappresentazione di un area: le
superfici dei vari rettangoli devono essere proporzionali alle frequenze
corrispondenti.
•
Se le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di
conseguenza, le loro altezze risultano proporzionali alle frequenze che
rappresentano.
•
Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di
aree di ogni rettangolo.
•
se le ampiezze delle classi sono diverse le frequenze sono rappresentate dalle
superfici e quindi è necessario rendere l'altezza proporzionale
28
GRAFICI PER DATI QUALITATIVI
Variabili nominali o ordinali
(sesso, città di provenienza, intensità del dolore, numero colonie batteriche,
numero linfonodi metastatici ….)
DIAGRAMMI A BARRE O GRAFICI A TORTA
29
DIAGRAMMI A BARRE
Rettangoli con basi uguali ed altezze proporzionali alle frequenze dei vari gruppi
considerati.
• I Rettangoli non sono tra loro contigui, ma distaccati;
• Sull’asse delle ascisse vengono riportati nomi, numeri interi, etichette o simboli;
• Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche
avendo solo un significato simbolico.
0,6
0,5
0,4
0,3
0,2
0,1
0
assente
lieve
grave
lesioni
permanenti
decesso
30
MA ANCHE….
0,6
0,5
0,4
Ospedale A
Ospedale B
0,3
0,2
0,1
0
assente
lieve
grave
lesioni
permanenti
decesso
100%
90%
decesso
80%
lesioni permanenti
70%
grave
60%
lieve
50%
assente
40%
30%
20%
10%
0%
Ospedale A
Ospedale B
31
GRAFICI A TORTA (AEREOGRAMMI)
• si divide un cerchio in parti proporzionali alle classi di frequenza;
• la somma di tutte le classi è uguale all’unità (1 o 100%).
Ospedale A
assente
lieve
grave
17; 17%
2; 2%
1; 1%
lesioni permanenti
decesso
48; 48%
32; 32%
32
DIAGRAMMI IN SINTESI
ISTOGRAMMA
A CANNE
D’ORGANO
DIAGRAMMA
A BARRE
variabile
continua
variabile
discreta
variabile
qualitativa
1.
rettangoli adiacenti
2.
le basi dei rettangoli possono
essere diverse
3.
frequenza sempre proporzionale
all’AREA dei rettangoli (anche
all’altezza se basi uguali)
1.
barre separate (per evidenziare la
non continuità dei valori / la
distinzione tra le modalità)
2.
le basi delle barre sono tutte di
uguale ampiezza
3.
frequenza
proporzionale
ALTEZZA delle barre
alla
33
ESERCIZIO
I dati seguenti si riferiscono al tipo di parto di 50 neonati in Italia:
X = tipo di parto
xi = normale
forcipe
cesareo
→ 0
→ 1
→ 2
0
2
0
0
0
2
0
0
2
0
0
0
2
0
0
0
0
0
0
2
0
2
0
0
0
2
0
0
2
2
0
0
2
0
0
2
0
0
2
0
0
1
0
0
2
0
0
2
0
0
Determinare la distribuzione di frequenza
frequenza
modalità assoluta
xi
ni
frequenza
relativa
pi
frequenza relativa
percentuale
pi (%)
normale
35
35/50 = 0.70
(35/50)*100 = 70%
forcipe
1
1/50 = 0.02
(1/50)*100 = 2%
cesareo
14
14/50 = 0.28
(14/50)*100 = 28%
TOTALE
50
1.00
100%
34
ESERCIZIO
Nella tabella seguente sono riportati i dati relativi ad uno studio sulla crescita
condotto su 40 soggetti:
Distanza in mm fra il centro della ghiandola
pituitaria e la fossa pterigo-mascellare:
16
21
23
24
19
21
23
24
19
21
23
24
20
22
23
25
20
22
23
25
20
22
23
25
20
22
23
25
21
22
24
26
21
22
24
26
21
23
24
27
1.
Costruire 4 intervalli di frequenza
2.
Costruire la tabella di frequenza riportando frequenze assolute,
frequenze relative e frequenze cumulate relative.
35
SOLUZIONE ESERCIZIO
Valore minimo=16 mm
valore massimo =27 mm
Campo di variazione (range):
27-16=11
Numero degli intervalli:
k=4
Ampiezza degli intervalli:
δi= 11/4 = 2.75 ~3
TABELLA DI FREQUENZA:
classe
16-18
19-21
22-24
25-27
ni
1
12
20
7
40
pi
2,5%
30,0%
50,0%
17,5%
100,0%
Fi
1
13
33
40
Pi
2,5%
32,5%
82,5%
100,0%
36
TABELLA DI FREQUENZA
ni
statura in
classi
[150-155)
[155-160)
[160-165)
[165-170)
[170-175)
[175-180)
[180-185)
[185-190)
[190-195)
TOTALE
Freq.
Assoluta
pi
Fi
Pi
Freq. Relativa
(%)
Freq.
Assoluta
Cumulata
Freq. Relativa Cumulata
(%)
1
1/125=
8
8/125=
24 24/125=
34
27
19
9
1
2
125
0.8%
6.4%
19.2%
27.2%
21.6%
15.2%
7.2%
0.8%
1.6%
100.0%
1
1+8 9
1+8+24 33
1+8+24+34 67
94
113
122
123
125
125
0.8%
0,8+6,4
7.2%
0,8+6,4+19,2 26.4%
0,8+6,4+19,2+27,2 53.6%
75.2%
90.4%
97.6%
98.4%
100.0%
37
ISTOGRAMMA e POLIGONO DELLE FREQUENZE
CUMULATE (CURVA AD OGIVA)
100%
90%
L’L’OGIVA
OGIVAsisiottiene
ottieneunendo
unendoi i
punti
punticorrispondenti
corrispondentiaiaiLIMITI
LIMITI
SUPERIORI
SUPERIORIdidiciascuna
ciascunaclasse
classe
della
delladistribuzione
distribuzionecumulata
cumulata
80%
70%
60%
50%
40%
30%
20%
10%
0%
150
155
160
165
170
175
180
185
190
statura (cm)
195
38
RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE DI FREQUENZA
DI UNA VARIABILE QUANTITATIVA:
POLIGONO DELLE FREQUENZE SEMPLICI E
CUMULATE
100%
90%
80%
curva ad ogiva
(poligono delle frequenze
relative cumulate)
70%
60%
50%
40%
30%
poligono delle
frequenze relative
20%
10%
0%
150
155
160
165
170
175
180
185
190
statura (cm)
195
39