biostatistica - Center of Statistical Genetics

Transcript

biostatistica - Center of Statistical Genetics
BIOSTATISTICA
Corso per le Lauree Magistrali
in Scienze Biologiche (LM-6)
Silvano Presciuttini
Biostatistica 2015-16
Silvano Presciuttini
MEDIA E VARIANZA
Biostatistica 2015-16
Silvano Presciuttini
Un esperimento in aula
●
“Muniamoci tutti di carta e penna e ciascuno di noi tenga in vista il
proprio orologio digitale; al mio segnale guardiamo tutti l'orologio e
scriviamo l'ora, i minuti e i secondi che esso mostra sul quadro”
Orologio
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Lettura
11.46.48
11.40.42
11.45.18
11.45.39
11.46.32
11.45.36
11.46.10
11.44.44
11.43.56
11.47.54
11.52.10
11.48.10
11.46.14
11.45.52
11.46.02
11.47.39
11.46.33
11.46.30
11.45.21
11.44.28
11.46.10
11.45.24
Ed ecco i risultati; come possiamo commentare questi dati?
–
È ovvio che il valore di riferimento è l'ora esatta fornita
dall'Istituto Elettrotecnico Nazionale "Galileo Ferraris" di
Torino, che però nessuno di noi conosce con certezza in
questo momento
–
E tuttavia un'inferenza possiamo tentarla. Ammettiamo
che gli scarti di ciascun orologio siano dettati dal caso:
qualcuno di noi sarà più assillato dall'idea di avere l'ora
precisa e qualcuno meno, ma possiamo accettare il
principio per cui i valori mostrati si scostano alcuni in più
e altri in meno rispetto all'ora esatta
Biostatistica 2015-16
Silvano Presciuttini
La miglior stima dell'ora esatta
11.53.00
●
Più precisamente ci aspettiamo che la probabilità che il
valore della misura sia alterato in avanti rispetto all'ora
esatta X è uguale alla probabilità che il valore sia
alterato all'indietro
●
È ovvio allora che la media delle letture degli orologi
fornirà una stima dell'ora esatta migliore (più
affidabile) di qualunque singola lettura presa a caso
●
Osserviamo che il valor medio delle letture (11.46.05
nel nostro caso) ha la proprietà di trovarsi
necessariamente in una posizione più o meno centrale
rispetto alle letture effettuate
11.52.00
11.51.00
11.50.00
11.49.00
11.48.00
11.47.00
11.46.00
11.45.00
11.44.00
11.43.00
11.42.00
11.41.00
Valor medio
11.40.00
0
1
2
Biostatistica 2015-16
Silvano Presciuttini
Misure descrittive sintetiche
da L. Soliani http://www.chierici.biz/biblio/statistica%20ambientale.pdf
●
●
●
Una serie di dati numerici è descritta da 3 proprietà principali:
–
1) la tendenza centrale o posizione;
–
2) la dispersione o variabilità;
–
3) la forma
Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono
chiamate
–
statistiche, quando sono calcolate su un campione di dati,
–
parametri, quando descrivono la popolazione od universo dei dati.
Molto raramente accade di poter conoscere tutta la popolazione; di
conseguenza, i metodi statistici di norma utilizzati sono riferiti quasi
esclusivamente alla descrizione, all’analisi e al confronto di campioni.
Biostatistica 2015-16
Silvano Presciuttini
Tre misure di tendenza centrale
●
Le misure di tendenza centrale o posizione servono per individuare il
valore intorno al quale i dati sono raggruppati
–
●
Le misure proposte sono essenzialmente 3: la media, la moda e la
mediana.
–
●
la tendenza centrale è la misura più appropriata per sintetizzare l'insieme
delle osservazioni; se una distribuzione di dati dovesse essere descritta con
un solo valore, è la prima indicazione della dimensione del fenomeno.
Più raramente ed in discipline specifiche si utilizzano altre misure, come
l'intervallo medio
La scelta della misura di tendenza centrale di una serie di dati
dipende dalle caratteristiche della distribuzione e dal tipo di scala.
Biostatistica 2015-16
Silvano Presciuttini
La media aritmetica
●
La media aritmetica è la misura di tendenza centrale più comunemente
utilizzata. Quando si parla di media, si intende la media aritmetica
●
E' definita come la somma del valore di tutte le osservazioni, diviso il
numero di unità
●
Detti x1, x2 ... xN i valori delle singole osservazioni, la media aritmetica
della grandezza X è:
( x1+ x 2 + ...+ x N ) 1
x m=
=
N
N
n
∑ xi
i=1
Biostatistica 2015-16
Silvano Presciuttini
Il centro di gravità della distribuzione
●
La media aritmetica può essere vista come il baricentro della
distribuzione campionaria, quando ogni singola osservazione è
rappresentata da un peso identico per tutte
–
11.53.00
11.52.00
11.51.00
11.50.00
11.49.00
11.48.00
11.47.00
11.46.00
11.45.00
11.44.00
11.43.00
11.42.00
11.41.00
11.40.00
Se ogni dato fosse un peso, il segmento fisico incluso fra i due estremi
starebbe in equilibrio se fosse appoggiato sul punto corrispondente alla
media
0
1
2
Media aritmetica
–
Si può mostrare algebricamente che la somma della distanza dalla media
dei valori collocati a sinistra della media sia uguale alla somma della
distanza dei valori collocati a destra
Biostatistica 2015-16
Silvano Presciuttini
La media ponderata
●
In una distribuzione di frequenza raggruppata in classi, si prende come
valore rappresentativo di ogni classe il dato centrale, nell’assunzione
che entro ognuna i dati siano distribuiti in modo uniforme.
–
Ad esempio, se 25 dati sono raggruppati in 5 classi,
la media aritmetica (ponderata) di x si calcola come:
Biostatistica 2015-16
Silvano Presciuttini
Alla fin fine nessuna variabile empirica
è “quantitativa continua”
●
Quando la variabile è quantitativa continua diventa praticamente
necessario effettuare un raggruppamento in classi
●
Ad esempio la variabile statura assume valori in un continuo, ma è
inevitabile “fermarsi” ad una certa approssimazione
–
Quando rileviamo che una persona è alta 173 cm., in realtà la sua altezza
sarà compresa diciamo tra 172,5 e 173,4 cm e tutti gli individui con altezza
in questa classe verranno codificati come alti 173 cm.
–
Quindi quando i caratteri sono quantitativi continui, raggruppare in classi è
un procedimento “naturale” dovuto alla imprecisione propria degli
strumenti di misura.
Biostatistica 2015-16
Silvano Presciuttini
La media ponderata dei voti di esame
●
Se il peso che noi attribuiamo ad un dato è espresso come frazione del
totale, il valor medio calcolato è semplicemente la somma del valore
centrale della classe moltiplicata per il suo peso
–
Se ad esempio il voto di uno studente in un modulo di 2 crediti è 30 e il
suo voto in un modulo di 6 crediti è 26, il voto d'esame non sarà 28, ma
30  2/8 + 26  6/8 = 27
–
questa è anche la media aritmetica dei voti di ciascun credito, cioè
media di 30, 30, 26, 26, 26, 26, 26, 26 = 216/8 = 27
Biostatistica 2015-16
Silvano Presciuttini
La media come valore atteso (Wikipedia)
●
In probability theory, the expected value of a random variable is the
long-run average value of repetitions of the experiment it represents
–
For example, the expected value of a dice roll is 3.5 because, roughly
speaking, the average of an extremely large number of dice rolls is
practically always nearly equal to 3.5
–
Less roughly, the law of large numbers guarantees that the arithmetic mean
of the values converges to the expected value as the number of repetitions
goes to infinity
●
The expected value is also known as the expectation, mathematical
expectation, EV, mean, or first moment
●
The formal definition works for distributions which are neither discrete
nor continuous: the expected value of a random variable is the integral
of the random variable with respect to its probability measure.
Biostatistica 2015-16
Silvano Presciuttini
Altri modi di mediare i dati
●
●
La media aritmetica è fondamentale perchè
–
le grandezze additive sono le più frequenti in natura;
–
la media aritmetica effettua la correzione degli errori accidentali
d'osservazione, per cui essa è la stima più precisa di misure ripetute;
–
la media aritmetica è la più semplice fra varie medie algebriche
Quando le quantità od i fattori causali non sono additivi oppure i dati
sono ottenuti da rapporti, si ricorre ad altri tipi di medie, ad esempio
–
La media geometrica. E’ la radice ennesima del prodotto di n dati.
–
–
È utile quando le osservazioni raccolte sono in progressione geometrica, anche
approssimata, come succede spesso nei fenomeni economici
La media armonica. Si ottiene calcolando il reciproco della media
aritmetica dei reciproci dei dati.
–
È utile per calcolare, ad esempio, la dimensione effettiva di una popolazione
animale la cui numerosità fluttua considerevolmente nel corso delle generazioni
Biostatistica 2015-16
Silvano Presciuttini
La mediana
●
La mediana è il valore che occupa la posizione centrale in un insieme
ordinato di dati
–
●
●
E’ una misura robusta, in quanto poco influenzata dalla presenza di dati
anomali. La sua utilizzazione è indispensabile nel caso di scale ordinali o
di ranghi.
La sue caratteristiche più importante sono:
–
è calcolata sul numero di osservazioni; si ricorre al suo uso quando si
vuole attenuare l'effetto di valori estremi o comunque prendere in
considerazione solo l’informazione fornita dal rango delle osservazioni
–
in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa
probabilità di essere inferiore o superiore alla mediana
Così come la media è la misura di tendenza centrale nella statistica
parametrica, la mediana è la misura di posizione o tendenza centrale
utilizzata in quasi tutti i test non parametrici
Biostatistica 2015-16
Silvano Presciuttini
Il calcolo della mediana
●
Per calcolare la mediana di un gruppo di dati, occorre
1) disporre i valori in una fila ordinata in modo crescente oppure
decrescente e contare il numero totale n di dati;
2) se il numero (n) di dati è dispari, la mediana corrisponde al valore
numerico del dato centrale, quello che occupa la posizione (n+1)/2;
3) se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori
centrali che occupano le posizioni n/2 e n/2+1;
●
con poche osservazioni, come mediana viene assunta la media aritmetica di
queste due osservazioni intermedie; con molte osservazioni raggruppate in
classi, si ricorre talvolta ad una estrapolazione lineare.
Biostatistica 2015-16
Silvano Presciuttini
La moda
●
La moda è semplicemente il valore osservato più spesso nel campione
–
–
Esempio: i dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1, 2 vengono riassunti nella
tabella di frequenza e nel grafico seguenti
xi
ni
6
0
1
5
1
2
4
2
5
3
3
3
2
4
2
1
5
1
0
0
1
2
3
4
5
La moda è quindi pari a 2
Biostatistica 2015-16
Silvano Presciuttini
Proprietà della moda
●
La moda è una statistica molto semplice e intuitiva per riassumere una
distribuzione di frequenza attraverso il suo picco più elevato. Anche se,
come la mediana, non considera il peso delle singole osservazioni, ha
alcune proprietà importanti:
–
è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche
nelle variabili qualitative non ordinabili
–
indica sempre un valore realmente osservato nel campione
–
non è influenzata dai valori estremi
–
nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse
il miglior indice per descrivere la tendenza centrale di un campione
–
è collegata direttamente al concetto di probabilità: la moda di una
popolazione è il valore della variabile con la la maggior probabilità di
essere osservata
Biostatistica 2015-16
Silvano Presciuttini
I tre indici di posizione
●
Una distribuzione con una forte asimmetria.
Moda (2)
Mediana (3)
Media (5,24)
Biostatistica 2015-16
Silvano Presciuttini
L'approssimazione dei nostri orologi
Orologio
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Scostamento
dalla media (sec)
43
-323
-47
-26
27
-29
5
-81
-129
109
365
125
9
-13
-3
94
28
25
-44
-97
5
-41
●
Tornando all'esperimento sull'ora mostrata dagli
orologi di un gruppo di studenti, è evidente che il
nostro interesse non è tanto l'“ora media”, che è una
grandezza volatile, quanto lo scostamento rispetto ad
essa, perché ci dà un'idea dell'approssimazione che
mediamente tolleriamo nella vita quotidiana
●
Non conoscendo l'ora esatta, possiamo calcolare di
quanto si discostano i singoli valori dalla media
–
Vediamo che lo scarto minimo in valore assoluto è
3 secondi e lo scarto massimo è 365 sec (6 minuti
e 5 secondi)
–
Ma come sono distribuiti gli scarti? È intuitivo
che non possiamo aspettarci che qualsiasi scarto
sia equiprobabile rispetto a tutti gli altri
Biostatistica 2015-16
Silvano Presciuttini
Gli scarti dalla media non sono
distribuiti in modo uniforme
8
7
6
5
4
3
2
1
●
>300
300/350
250/300
200/250
150/200
100/150
50/100
0/50
-50/0
-100/-50
-150/-100
-200/-150
-250/-200
-300/-250
<-300
0
Questo è ciò che succede nel nostro campione
–
Due orologi si scostano molto dalla media, mentre tutti gli altri non
superano i 150 secondi di scarto
–
Inoltre il 64% degli orologi (14 su 22) si trova in un intervallo di 100
secondi (circa un minuto e mezzo) intorno alla media
Biostatistica 2015-16
Silvano Presciuttini
La media degli scarti
●
Abbiamo visto la distribuzione degli scarti, ma quanto vale la loro
media? Quanto accettiamo mediamente che il nostro orologio sbagli
rispetto all'ora esatta?
–
Se noi prendessimo gli orologi di un altro campione di popolazione,
magari ad es. dirigenti di industria, troveremmo uno scarto medio
maggiore, uguale o minore di quello degli studenti?
●
Potremmo pensare di calcolare il valor medio degli scarti e
vedere se sono diversi fra studenti e imprenditori
●
Il problema è che il calcolo della media
aritmetica degli scarti non ha senso perchè la loro
somma è uguale a zero per definizione... (provare
per credere)
Biostatistica 2015-16
Silvano Presciuttini
Lo “scarto medio”
●
Però un modo per calcolare uno scarto medio ci deve pur essere: perchè
non prendere ad es. la media dei valori assoluti?
–
●
In effetti questo approccio non è insensato, soprattutto ora che sono
disponibili potenti strumenti di calcolo a costo irrisorio (i valori assoluti
sono difficili da trattare con gli strumenti dell'analisi matematica)
Storicamente tuttavia è stato sviluppato un procedimento
apparentemente più complicato per stimare la dispersione media dei
valori di un campione intorno alla sua media:
Si elevano gli scarti al quadrato, se ne fa la media e si estrae la
radice quadrata di questa media
●
Questo è in effetti un altro modo di calcolare una media,
precisamente la cosiddetta “media quadratica” (degli scarti)
Biostatistica 2015-16
Silvano Presciuttini
Varianza e deviazione standard
●
La media degli scarti quadratici (o scarto quadratico medio) prende il
nome di varianza:
n
1
2
s 

n  1 i 1
–
●
xi  x 
2
Poiché questa quantità è intesa come stima della varianza in una
popolazione di cui abbiamo solo un campione finito, la somma degli scarti
quadratici viene divisa per n-1 anziché per n, e il simbolo spesso usato per
indicarla è s2, mentre per la varianza della popolazione si usa la lettera
greca corrispondente s2
La radice quadrata della varianza prende il nome di deviazione standard
n


2
1 n
1
xxi xx

s s  n  1
n  1 ii11 i
2
Biostatistica 2015-16
Silvano Presciuttini
N or N – 1? the sample sd versus the poputation sd
●
The whole point of statistical calculations is to make inferences
about the entire population from measurements of a sample. To
calculate the standard deviation, you need to calculate the deviation of
each value from the population mean. But you don't know the
population mean.
●
All you know is the sample mean
–
●
Sample values are always closer (on average) to their sample mean
than to the overall population mean. The sum of the squares of the
deviations from the sample mean is therefore smaller than the sum of
squares of the deviations from the population mean
This problem is eliminated by reducing the denominator to N-1, rather
than N.
Biostatistica 2015-16
Silvano Presciuttini
Degrees of freedom
●
Here is another way to understand why the denominator is N-1 rather than N.
●
When we calculate the sample mean m, we take the sum of all Y values and
divide by the number of values N. Why divide by N? You learned to calculate
a mean so long ago that you probably never thought about it
●
The mean is technically defined as the sum divided by degrees of freedom.
The sample mean has N degrees of freedom because each of the N
observations is free to assume any value. Knowing some of the values does
not tell you anything about the remaining values.
●
The sample variance is the mean of the square of the deviations of the values
from the sample mean. This mean has only N-1 degrees of freedom. Why? It
is because you must calculate the sample mean m before you can calculate the
sample variance and SD. Once you know the sample mean and N-1 values,
you can calculate the value of the remaining (Nth) value with certainty. The
Nth value is absolutely determined from the sample mean and the other N-l
values. Only N-l of the values are free to assume any value.
Biostatistica 2015-16
Silvano Presciuttini
Posizione e dispersione dei dati
●
In conclusione, se abbiamo motivo di ritenere che i nostri dati, ottenuti
da un campionamento, siano distribuiti secondo il tipico errore
statistico, possiamo riassumere l'informazione che abbiano su di essi
attraverso il calcolo di due indici
●
Un indice di posizione: la media aritmetica (m) dei singoli valori (x i)
●
Un indice di dispersione: la deviazione standard (s), o la media
quadratica degli scarti
Biostatistica 2015-16
Silvano Presciuttini
La deviazione standard degli orologi
●
Applicando questa formula ai nostri dati sulle letture degli orologi
troviamo che s = 123 secondi (2 minuti!)
●
Questa è una stima di quanto mediamente ci aspettiamo che sbagli
l'orologio di uno studente preso a caso
Biostatistica 2015-16
Silvano Presciuttini
La devianza
●
Nella formula della varianza il fattore di destra (
) è la devianza
o Somma dei Quadrati (SQ) degli scarti dalla media (SS = Sum of
Squares, in inglese)
n
1
s2 

n  1 i 1
xi  x 
2
●
Essa è la base delle misure di dispersione dei dati. Tutta la statistica
parametrica è fondata sulla devianza e sulle misure da essa derivate
●
Un modo alternativo e conveniente di calcolare la devianza è attraverso
la formula
Biostatistica 2015-16
Silvano Presciuttini
La differenza interquartile
●
I quartili sono imparentati con la mediana, solo che invece di separare
l’insieme dei dati ordinati in due gruppi lo separano in quattro
●
Ogni gruppo contiene il 25% delle osservazioni
–
●
il primo quartile, Q1, è il valore che separa il primo 25% delle
osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo
quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal
restante 25%.
La differenza interquartile è data dalla differenza Q3-Q1, e identifica
quindi l’intervallo centrale della distribuzione di frequenza all’interno
del quale cade il 50% delle osservazioni
Biostatistica 2015-16
Silvano Presciuttini
Il coefficiente di variazione (Wikipedia)
●
Il coefficiente di variazione o deviazione standard relativa, indicato con
CV, permette di confrontare misure di fenomeni riferite a unità di misura
differenti, in quanto si tratta di un numero adimensionale
●
È un indice della precisione di una misura. È definito, per un dato
campione, come il rapporto tra la sua deviazione standard e la sua media
aritmetica:
s
C V  1 0 0
x
●
Permette di valutare la dispersione dei valori attorno alla media
indipendentemente dall'unità di misura
–
Ad esempio, la deviazione standard di un campione di redditi espressi in
Lire è completamente diversa della deviazione standard degli stessi redditi
espressi in Euro, mentre il coefficiente di dispersione è lo stesso in
entrambi i casi.
Biostatistica 2015-16
Silvano Presciuttini
SUMMARY
●
Many kinds of data are expressed as measurements
–
You can display the scatter of measurements in a sample on a histogram,
after grouping the data in bins
●
The center of the distribution can be described by the mean or median
●
The spread or scatter of the data can be described by the range, the
interquartile range, the variance, the SD, or the coefficient of variation
Biostatistica 2015-16
Silvano Presciuttini