8 - Scuola di Medicina

Transcript

8 - Scuola di Medicina
Università del Piemonte Orientale
Corsi di Laurea Triennale di Area Tecnica
Corso di Statistica e Biometria
Statistica descrittiva
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
1
Statistica
Funzioni
Descrittiva
Induttiva (inferenziale)
Statistica descrittiva :
• sintesi delle informazioni in pochi valori
• descrizione della variabilità dei dati
• presentazione grafica.
Statistica induttiva :
formulazione di previsioni (leggi generali) sulle
caratteristiche della popolazione (universo dei dati)
partendo da un campione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
2
La statistica opera su dati che definiamo ‘variabili’.
I dati di interesse vengono raccolti (misurati) per tutti
i soggetti inclusi nella popolazione o nel campione.
Il termine ‘variabile’ sottolinea che il valore cambia
da un soggetto all’altro.
I dati che non possono cambiare di valore sono
denominati ‘costanti’.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
3
Alcune definizioni di ‘variabile’:
•“una caratteristica che varia da un’entità biologica
ad un’altra” (J.H.Zar)
•“qualunque genere di misura di cui si eseguano
rilievi individuali è detta variabile” (P.Armitage)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
4
Il valore delle variabili è conosciuto attraverso un
processo di misurazione a livello di ciascun
individuo (unità statistica).
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
5
Livello di misurazione (categorie di variabili)
Categoriche
Nominale
Solo classificazione, senza ordinamento
Es. sesso, specie, area geografica, scuola
Ordinale
Classificazione con ordinamento, ma con distanza
tra i valori ignota
Es. Punteggio scolastico, valutazioni cliniche
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
6
Numeriche
Variabili numeriche continue: possono assumere
tutti i valori in un intervallo,
di regola sono prodotte da operazioni di misura
Es. altezza, peso, valori di laboratorio.
Variabili numeriche discrete: quando solo alcuni
valori sono possibili, ad esempio i valori
corrispondenti ai numeri reali interi;
di regola sono prodotte da operazioni di
conteggio.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
7
Numeriche
Le Variabili numeriche consentono di effettuare
calcoli matematici:
Guadagno di peso nella prima settimana=
Peso a 7 gg – Peso alla nascita
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
8
Categoriche
Le variabili categoriche NON consentono di
effettuare calcoli matematici.
Anche se sono stati usati numeri per indicare i
valori della variabile, sono soltanto delle etichette.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
9
Tipo di variabile
Categorica
Numerica
Nominale
Ordinale
Frequenza
SI
SI
SI
Frequenza cumulativa
NO
SI
SI
Diagrammi a barre
SI
SI
SI
Media
NO
NO
SI
Mediana
NO
NO
SI
Istogrammi
NO
NO
SI
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
10
Distribuzione di frequenza
Frequenza assoluta: il numero di osservazioni con
la caratteristica in esame (ad es. con un dato valore
della variabile in studio).
Frequenza relativa o proporzione: si esprime come
relazione quantitativa tra una parte ed il tutto. La si
calcola con una frazione in cui il numeratore è
compreso nel denominatore:
proporzione = parte / totale
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
11
Percentuale o frequenza relativa percentuale:
indica una proporzione od una variazione riferiti ad
una base di 100.
Percentuale = % = Proporzione * 100
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
12
Distribuzione di frequenza:
il valore della frequenza (assoluta o relativa) per
ciascuno dei possibili valori della variabile
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
13
Distribuzione di frequenza dell’ immunofenotipo
dei casi di leucemia linfoblastica acuta infantile
in Piemonte (1979-98).
Variabile nominale
Immunofenotipo
Totale
Non specificato
T
B
B precursor
N
%
35
54
12
397
7,0
10,8
2,4
79,7
498
100
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
14
Risultato scolastico Frequenza
Insufficiente
4
Sufficiente
8
Buono
7
Distinto
4
Ottimo
5
Totale
28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
15
Distribuzione di frequenza: procedure
Variabili categoriche:
1. elencare i possibili valori della variabile
2. contare quante osservazioni per ciascun valore
(frequenza assoluta)
3. calcolare le corrispondenti proporzioni /
percentuali (frequenza relativa)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
16
Risultato scolastico
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
Totale
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
17
Risultato scolastico Frequenza
Insufficiente
4
Sufficiente
8
Buono
7
Distinto
4
Ottimo
5
Totale
28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
18
Risultato
Frequenza
scolastico
Proporzione
(frequenza relativa)
Insufficiente
4
0,14
Sufficiente
8
0,28
Buono
7
0,25
Distinto
4
0,14
Ottimo
5
0,19
Totale
28
1,0
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
19
Riepilogo: Come si calcola una proporzione?
p = f / totale
Dove:
p = proporzione
f = frequenza assoluta nella classe o categoria
totale = numero totale di soggetti
Percentuale = proporzione * 100
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
20
Per rappresentare graficamente la distribuzione
di frequenza di una variabile categorica si utilizza
il diagramma a barre.
In questo tipo di grafico le altezze delle barre
sono proporzionali alla frequenza (assoluta o
relativa) osservata. La base è sempre uguale, e
può anche ridursi ad una linea.
Le barre sono separate e sono equidistanziate.
Se la variabile è ordinale, le barre sono ordinate
secondo il valore della variabile.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
21
esempio di diagramma a barre con variabile ordinale (totale= 28 osservazioni)
numero di bambini (frequenza)
9
8
7
6
5
4
3
2
1
0
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
risultato scolastico
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
22
esempio di diagramma a barre con variabile ordinale (totale= 28 osservazioni)
numero di bambini (frequenza)
9
8
7
6
5
4
3
2
1
0
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
risultato scolastico
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
23
esempio di diagramma a barre con variabile ordinale e distribuzione di frequenza relativa (proporzione)
0.36
0.28
proporzione
0.21
0.14
0.07
0.00
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
risultato scolastico
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
24
Diagramma a torta, distribuzione di frequenza relativa percentuale.
Nei diagrammi a torta la frequenza relativa percentuale è proporzionale
all'angolo al centro.
A ttività operatoria
2%
4%
4%
26%
4%
Colelitiasi
6%
Ernia inguinale
Tumore del colon
Ulcera duodenale
Tumore del pancreas
8%
Tumore del retto
Ulcera gastrica
Tumore dello stomaco
Tumore dell’esof ago
8%
Stenosi esof agea
19%
19%
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
25
Angolo al centro = 360° x proporzione
Diagnosi di dimissione
N
%
Colelitiasi
12 25
360*0,25=98
Ernia inguinale
9
19
360*0,19=68
Tumore del colon
9
19
68
Ulcera duodenale
4
8
29
Tumore del pancreas
4
8
29
Tumore del retto
3
6
22
Ulcera gastrica
2
4
14
Tumore dello stomaco
2
4
14
Tumore dell’esofago
2
4
14
Stenosi esofagea
1
2
7
Angolo
Totale 48 100
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
26
Distribuzione di frequenza cumulativa
La frequenza cumulativa è somma della frequenza delle
osservazioni con valore della variabile inferiore od uguale al
valore considerato. Si calcola dopo aver ordinato la
variabile.
Può essere calcolata per
variabili ordinali
variabili numeriche
Calcolata la frequenza cumulativa si può calcolare la
corrispondente proporzione o percentuale cumulativa.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
27
Risultato
scolastico
Insufficiente
Frequenza
Sufficiente
8
Buono
7
Distinto
4
Ottimo
5
Totale
28
4
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
28
Risultato
scolastico
Insufficiente
Frequenza Frequenza
cumulativa
4
=4+0=4
Sufficiente
8
=4+8=12
Buono
7
=4+8+7=19
Distinto
4
23
Ottimo
5
28
Totale
28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
29
Risultato
scolastico
Insufficiente
Frequenza Frequenza Frequenza relativa
cumulativa cumulativa (in%)
4
4
14%
Sufficiente
8
12
43%
Buono
7
19
68%
Distinto
4
23
82%
Ottimo
5
28
100%
Totale
28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
30
100%
Risultato scolastico
90%
Frequenza relativa (percentuale)
80%
70%
60%
50%
40%
30%
20%
10%
0%
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
31
www.man.deakin.edu.au/rodneyc/xlstats.htm
Un utile strumento:
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
32
Esempi sull’uso di XLSTATS
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
33
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
34
Distribuzione di frequenza di dati (variabili) numerici
Se le variabili sono numeriche (continue o discrete con molti valori)
occorre dapprima definire gli intervalli dei valori della variabile (classi di
valori)
1. gli intervalli debbono essere definiti in modo che tutte le possibili
osservazioni cadano in uno ed uno solo di essi.
2. è conveniente che gli intervalli siano di uguale ampiezza
Esempio: ETA (variabile indicata con il simbolo x )
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
00<= x <10
10<= x <20
20<= x <30
30<= x <40
40<= x <50
50<= x <60
60<= x <70
70<= x <80
80<= x <90
90<= x <100
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
35
1. calcolare le corrispondenti distribuzioni di frequenza e
proporzioni semplici e cumulative
Cumulative Cumulative
ETA
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
00<= x <10
0
0.0
0
0.0
10<= x <20
0
0.0
0
0.0
20<= x <30
0
0.0
0
0.0
30<= x <40
2
0.5
2
0.5
40<= x <50
38
8.8
40
9.3
50<= x <60
70
16.3
110
25.6
60<= x <70
212
49.3
322
74.9
70<= x <80
104
24.2
426
99.1
80<= x <90
2
0.5
428
99.5
90<= x <100
2
0.5
430
100.0
TOTALE
430
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
36
I simboli che si utilizzano per definire un intervallo sono:
=
es x=1
>=
x>=1 Æ include i soggetti con variabile X di valore 1
(incluso) o superiore ad 1
>
x>1 Æ include solo i soggetti con variabile X di valore
superiore ad 1
<
x>1 Æ include solo i soggetti con variabile X di valore
inferiore ad 1
<=
x<=1 Æ include i soggetti con variabile X di valore 1
(incluso) o inferiore ad 1
Æ include solo i soggetti con variabile X di valore 1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
37
Istogrammi : rappresentazione grafica di distribuzioni di
frequenza di variabili numeriche.
Vengono disegnati su un grafico dei rettangoli contigui, uno per
ciascun valore o intervallo (classe) di valori della variabile.
L’area dei rettangoli è proporzionale alla frequenza di
osservazioni, è opportuno che gli intervalli siano della stessa
ampiezza e quindi che i rettangoli corrispondenti abbiano tutti
base uguale: semplifica sia la preparazione sia la lettura.
Come disporre i valori
Ascisse (asse X): valori della variabile
Ordinate (asse Y): Frequenza (assoluta o percentuale,
semplice o cumulativa, a scelta).
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
38
Un esempio di istogramma con valori della variabile
suddivisi in classi
100,0%
90,0%
80,0%
Frequenza relativa %
70,0%
%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
10
0
90
<=
et
a<
90
80
<=
et
a<
80
70
<=
et
a<
70
60
<=
et
a<
60
50
<=
et
a<
50
40
<=
et
a<
40
30
<=
et
a<
30
20
<=
et
a<
20
10
<=
et
a<
00
<=
et
a<
10
0,0%
classe di età
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
39
Un esempio di istogramma con variabile discreta
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
40
Distribuzione cumulata con variabile discreta
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
41
Un esempio di istogramma con variabile continua
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
42
Distribuzione della percentuale cumulata con variabile
continua
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
43
Poligono di frequenza
Si ottiene unendo con una linea i punti mediani
della parte superiore dei rettangoli
dell'istogramma
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
44
100.0%
90.0%
80.0%
Frequenza relativa %
70.0%
%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
90
<=
et
a<
10
0
80
<=
et
a<
90
70
<=
et
a<
80
60
<=
et
a<
70
50
<=
et
a<
60
40
<=
et
a<
50
30
<=
et
a<
40
20
<=
et
a<
30
10
<=
et
a<
20
00
<=
et
a<
10
0.0%
classe di età
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
45
60
50
casi
popolazione
40
30
20
10
0
35
40
45
50
55
60
65
70
75
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
46
100
90
80
casi
70
pop.
60
50
40
30
20
10
0
35
40
45
50
55
60
65
70
75
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
47
100.0%
90.0%
80.0%
Frequenza relativa %
70.0%
%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
90
<=
et
a<
10
0
80
<=
et
a<
90
70
<=
et
a<
80
60
<=
et
a<
70
50
<=
et
a<
60
40
<=
et
a<
50
30
<=
et
a<
40
20
<=
et
a<
30
10
<=
et
a<
20
00
<=
et
a<
10
0.0%
classe di età
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
48
Distribuzione di frequenza di 2 variabili
Il procedimento è analogo a quanto descritto per una sola
variabile, complicato solo dalla necessità di classificare
ciascun soggetto per due variabili contemporaneamente.
1.definire i possibili valori di ciascuna delle due variabili
2.costruire una tabella con le due variabili a definire le righe
e le colonne
3.scrivere i valori delle variabili in ordine crescente
4.contare le osservazioni per ciascuna combinazione di
valori
5.calcolare i totali di riga, colonna e tabella
6.calcolare le corrispondenti proporzioni (o percentuali)
riferite a: totale generale, tot. di riga, tot. di colonna
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
49
Problema: descrivere l’associazione tra arteriopatia ed
abitudine al fumo (due variabili categoriche) in uno studio:
1. identifico le variabili ed i valori possibili
Var. A (arteriopatia),
nominale,
valori possibili = 2 (malato, sano).
Var. B (fumo),
nominale,
valori possibili = 3 (mai fumatore, ex fum., attuale fum.).
2. preparo una tabella con le due variabili che definiscono le
righe e le colonne
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
50
Arteriopatia
Malato
Totale
Sano
Mai
Fumo
Ex
Attuale
Totale
Queste tabelle sono anche chiamate:
tabelle di contingenza
tabelle crociate (o crosstabs)
tabelle a doppia entrata
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
51
Arteriopatia
Totale
Malato
Sano
Mai
8
43
51
Ex
26
45
71
Attuale
30
48
78
64
136
Fumo
Totale
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
200
52
Percentuali sul totale delle osservazioni
Arteriopatia
Malati
Sani
% totale
Totale
Malati
Sani
%
%
F Mai
8
43
4,0
21,5
U Ex
26
45
13,0
22,5
M attuale
30
48
15,0
24,0
O Totale
200
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
100,0
53
Istogrammi da tabella con 2 variabili
Percentuali sul totale delle osservazioni
Malati
Sani
30,0
25,0
20,0
%
15,0
10,0
5,0
0,0
Mai
Ex
attuale
Malati
4,0
13,0
15,0
Sani
21,5
22,5
24,0
Fumo
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
54
Istogrammi da tabella con 2 variabili
Percentuali sul totale delle osservazioni
25,0
20,0
15,0
%
10,0
Mal
San
5,0
Sani
0,0
Mai
Malati
Ex
Fumo
attuale
Mai
Ex
attuale
Malati
4,0
13,0
15,0
Sani
21,5
22,5
24,0
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
55
Percentuali sul totale di riga
Arteriopatia
Malati
Sani
%riga
Totale
Malati Sani
%
%
%
F
Mai
8
43
51
15,7
84,3 100,0
U
Ex
26
45
71
36,6
63,4 100,0
M
attuale
30
48
78
38,5
61,5 100,0
O
Totale
200
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
56
Istogrammi da tabella con 2 variabili Percentuali di malati per ciascuna categoria di fumo
90,0
80,0
70,0
60,0
50,0
Malati
%
Sani
40,0
30,0
20,0
10,0
0,0
Mai
Ex
attuale
Totale
Malati
15,7
36,6
38,5
32,0
Sani
84,3
63,4
61,5
68,0
Fumo
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
57
Percentuali sul totale di colonna
Arteriopatia
Malati
Sani
%colonna
Totale
Malati
Sani
F Mai
8
43
12,5
31,6
U Ex
26
45
40,6
33,1
M Attuale
30
48
46,9
35,3
O Totale
64
136
200
100,0 100,0
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
58
Istogrammi da tabella con 2 variabili Percentuali di fumatori tra malati e sani
50,0
45,0
40,0
35,0
30,0
%
Malati
25,0
Sani
20,0
15,0
10,0
5,0
0,0
Mai
Ex
attuale
Malati
12,5
40,6
46,9
Sani
31,6
33,1
35,3
Fumo
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
59
Esercizi consigliati
da: Fowler et al, ed Edises.
•
•
•
•
Cap 4 (p 212) es 1
Cap 4 (p 212) es 3
Cap 4 (p 212) es 6
Cap 4 (p 212) es 8
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
60