biostatistica - Center of Statistical Genetics
Transcript
biostatistica - Center of Statistical Genetics
BIOSTATISTICA Corso per le Lauree Magistrali in Scienze Biologiche (LM-6) Silvano Presciuttini Biostatistica 2015-16 Silvano Presciuttini MEDIA E VARIANZA Biostatistica 2015-16 Silvano Presciuttini Un esperimento in aula ● “Muniamoci tutti di carta e penna e ciascuno di noi tenga in vista il proprio orologio digitale; al mio segnale guardiamo tutti l'orologio e scriviamo l'ora, i minuti e i secondi che esso mostra sul quadro” Orologio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Lettura 11.46.48 11.40.42 11.45.18 11.45.39 11.46.32 11.45.36 11.46.10 11.44.44 11.43.56 11.47.54 11.52.10 11.48.10 11.46.14 11.45.52 11.46.02 11.47.39 11.46.33 11.46.30 11.45.21 11.44.28 11.46.10 11.45.24 Ed ecco i risultati; come possiamo commentare questi dati? – È ovvio che il valore di riferimento è l'ora esatta fornita dall'Istituto Elettrotecnico Nazionale "Galileo Ferraris" di Torino, che però nessuno di noi conosce con certezza in questo momento – E tuttavia un'inferenza possiamo tentarla. Ammettiamo che gli scarti di ciascun orologio siano dettati dal caso: qualcuno di noi sarà più assillato dall'idea di avere l'ora precisa e qualcuno meno, ma possiamo accettare il principio per cui i valori mostrati si scostano alcuni in più e altri in meno rispetto all'ora esatta Biostatistica 2015-16 Silvano Presciuttini La miglior stima dell'ora esatta 11.53.00 ● Più precisamente ci aspettiamo che la probabilità che il valore della misura sia alterato in avanti rispetto all'ora esatta X è uguale alla probabilità che il valore sia alterato all'indietro ● È ovvio allora che la media delle letture degli orologi fornirà una stima dell'ora esatta migliore (più affidabile) di qualunque singola lettura presa a caso ● Osserviamo che il valor medio delle letture (11.46.05 nel nostro caso) ha la proprietà di trovarsi necessariamente in una posizione più o meno centrale rispetto alle letture effettuate 11.52.00 11.51.00 11.50.00 11.49.00 11.48.00 11.47.00 11.46.00 11.45.00 11.44.00 11.43.00 11.42.00 11.41.00 Valor medio 11.40.00 0 1 2 Biostatistica 2015-16 Silvano Presciuttini Misure descrittive sintetiche da L. Soliani http://www.chierici.biz/biblio/statistica%20ambientale.pdf ● ● ● Una serie di dati numerici è descritta da 3 proprietà principali: – 1) la tendenza centrale o posizione; – 2) la dispersione o variabilità; – 3) la forma Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate – statistiche, quando sono calcolate su un campione di dati, – parametri, quando descrivono la popolazione od universo dei dati. Molto raramente accade di poter conoscere tutta la popolazione; di conseguenza, i metodi statistici di norma utilizzati sono riferiti quasi esclusivamente alla descrizione, all’analisi e al confronto di campioni. Biostatistica 2015-16 Silvano Presciuttini Tre misure di tendenza centrale ● Le misure di tendenza centrale o posizione servono per individuare il valore intorno al quale i dati sono raggruppati – ● Le misure proposte sono essenzialmente 3: la media, la moda e la mediana. – ● la tendenza centrale è la misura più appropriata per sintetizzare l'insieme delle osservazioni; se una distribuzione di dati dovesse essere descritta con un solo valore, è la prima indicazione della dimensione del fenomeno. Più raramente ed in discipline specifiche si utilizzano altre misure, come l'intervallo medio La scelta della misura di tendenza centrale di una serie di dati dipende dalle caratteristiche della distribuzione e dal tipo di scala. Biostatistica 2015-16 Silvano Presciuttini La media aritmetica ● La media aritmetica è la misura di tendenza centrale più comunemente utilizzata. Quando si parla di media, si intende la media aritmetica ● E' definita come la somma del valore di tutte le osservazioni, diviso il numero di unità ● Detti x1, x2 ... xN i valori delle singole osservazioni, la media aritmetica della grandezza X è: ( x1+ x 2 + ...+ x N ) 1 x m= = N N n ∑ xi i=1 Biostatistica 2015-16 Silvano Presciuttini Il centro di gravità della distribuzione ● La media aritmetica può essere vista come il baricentro della distribuzione campionaria, quando ogni singola osservazione è rappresentata da un peso identico per tutte – 11.53.00 11.52.00 11.51.00 11.50.00 11.49.00 11.48.00 11.47.00 11.46.00 11.45.00 11.44.00 11.43.00 11.42.00 11.41.00 11.40.00 Se ogni dato fosse un peso, il segmento fisico incluso fra i due estremi starebbe in equilibrio se fosse appoggiato sul punto corrispondente alla media 0 1 2 Media aritmetica – Si può mostrare algebricamente che la somma della distanza dalla media dei valori collocati a sinistra della media sia uguale alla somma della distanza dei valori collocati a destra Biostatistica 2015-16 Silvano Presciuttini La media ponderata ● In una distribuzione di frequenza raggruppata in classi, si prende come valore rappresentativo di ogni classe il dato centrale, nell’assunzione che entro ognuna i dati siano distribuiti in modo uniforme. – Ad esempio, se 25 dati sono raggruppati in 5 classi, la media aritmetica (ponderata) di x si calcola come: Biostatistica 2015-16 Silvano Presciuttini Alla fin fine nessuna variabile empirica è “quantitativa continua” ● Quando la variabile è quantitativa continua diventa praticamente necessario effettuare un raggruppamento in classi ● Ad esempio la variabile statura assume valori in un continuo, ma è inevitabile “fermarsi” ad una certa approssimazione – Quando rileviamo che una persona è alta 173 cm., in realtà la sua altezza sarà compresa diciamo tra 172,5 e 173,4 cm e tutti gli individui con altezza in questa classe verranno codificati come alti 173 cm. – Quindi quando i caratteri sono quantitativi continui, raggruppare in classi è un procedimento “naturale” dovuto alla imprecisione propria degli strumenti di misura. Biostatistica 2015-16 Silvano Presciuttini La media ponderata dei voti di esame ● Se il peso che noi attribuiamo ad un dato è espresso come frazione del totale, il valor medio calcolato è semplicemente la somma del valore centrale della classe moltiplicata per il suo peso – Se ad esempio il voto di uno studente in un modulo di 2 crediti è 30 e il suo voto in un modulo di 6 crediti è 26, il voto d'esame non sarà 28, ma 30 2/8 + 26 6/8 = 27 – questa è anche la media aritmetica dei voti di ciascun credito, cioè media di 30, 30, 26, 26, 26, 26, 26, 26 = 216/8 = 27 Biostatistica 2015-16 Silvano Presciuttini La media come valore atteso (Wikipedia) ● In probability theory, the expected value of a random variable is the long-run average value of repetitions of the experiment it represents – For example, the expected value of a dice roll is 3.5 because, roughly speaking, the average of an extremely large number of dice rolls is practically always nearly equal to 3.5 – Less roughly, the law of large numbers guarantees that the arithmetic mean of the values converges to the expected value as the number of repetitions goes to infinity ● The expected value is also known as the expectation, mathematical expectation, EV, mean, or first moment ● The formal definition works for distributions which are neither discrete nor continuous: the expected value of a random variable is the integral of the random variable with respect to its probability measure. Biostatistica 2015-16 Silvano Presciuttini Altri modi di mediare i dati ● ● La media aritmetica è fondamentale perchè – le grandezze additive sono le più frequenti in natura; – la media aritmetica effettua la correzione degli errori accidentali d'osservazione, per cui essa è la stima più precisa di misure ripetute; – la media aritmetica è la più semplice fra varie medie algebriche Quando le quantità od i fattori causali non sono additivi oppure i dati sono ottenuti da rapporti, si ricorre ad altri tipi di medie, ad esempio – La media geometrica. E’ la radice ennesima del prodotto di n dati. – – È utile quando le osservazioni raccolte sono in progressione geometrica, anche approssimata, come succede spesso nei fenomeni economici La media armonica. Si ottiene calcolando il reciproco della media aritmetica dei reciproci dei dati. – È utile per calcolare, ad esempio, la dimensione effettiva di una popolazione animale la cui numerosità fluttua considerevolmente nel corso delle generazioni Biostatistica 2015-16 Silvano Presciuttini La mediana ● La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati – ● ● E’ una misura robusta, in quanto poco influenzata dalla presenza di dati anomali. La sua utilizzazione è indispensabile nel caso di scale ordinali o di ranghi. La sue caratteristiche più importante sono: – è calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effetto di valori estremi o comunque prendere in considerazione solo l’informazione fornita dal rango delle osservazioni – in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana Così come la media è la misura di tendenza centrale nella statistica parametrica, la mediana è la misura di posizione o tendenza centrale utilizzata in quasi tutti i test non parametrici Biostatistica 2015-16 Silvano Presciuttini Il calcolo della mediana ● Per calcolare la mediana di un gruppo di dati, occorre 1) disporre i valori in una fila ordinata in modo crescente oppure decrescente e contare il numero totale n di dati; 2) se il numero (n) di dati è dispari, la mediana corrisponde al valore numerico del dato centrale, quello che occupa la posizione (n+1)/2; 3) se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori centrali che occupano le posizioni n/2 e n/2+1; ● con poche osservazioni, come mediana viene assunta la media aritmetica di queste due osservazioni intermedie; con molte osservazioni raggruppate in classi, si ricorre talvolta ad una estrapolazione lineare. Biostatistica 2015-16 Silvano Presciuttini La moda ● La moda è semplicemente il valore osservato più spesso nel campione – – Esempio: i dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1, 2 vengono riassunti nella tabella di frequenza e nel grafico seguenti xi ni 6 0 1 5 1 2 4 2 5 3 3 3 2 4 2 1 5 1 0 0 1 2 3 4 5 La moda è quindi pari a 2 Biostatistica 2015-16 Silvano Presciuttini Proprietà della moda ● La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di frequenza attraverso il suo picco più elevato. Anche se, come la mediana, non considera il peso delle singole osservazioni, ha alcune proprietà importanti: – è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative non ordinabili – indica sempre un valore realmente osservato nel campione – non è influenzata dai valori estremi – nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per descrivere la tendenza centrale di un campione – è collegata direttamente al concetto di probabilità: la moda di una popolazione è il valore della variabile con la la maggior probabilità di essere osservata Biostatistica 2015-16 Silvano Presciuttini I tre indici di posizione ● Una distribuzione con una forte asimmetria. Moda (2) Mediana (3) Media (5,24) Biostatistica 2015-16 Silvano Presciuttini L'approssimazione dei nostri orologi Orologio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Scostamento dalla media (sec) 43 -323 -47 -26 27 -29 5 -81 -129 109 365 125 9 -13 -3 94 28 25 -44 -97 5 -41 ● Tornando all'esperimento sull'ora mostrata dagli orologi di un gruppo di studenti, è evidente che il nostro interesse non è tanto l'“ora media”, che è una grandezza volatile, quanto lo scostamento rispetto ad essa, perché ci dà un'idea dell'approssimazione che mediamente tolleriamo nella vita quotidiana ● Non conoscendo l'ora esatta, possiamo calcolare di quanto si discostano i singoli valori dalla media – Vediamo che lo scarto minimo in valore assoluto è 3 secondi e lo scarto massimo è 365 sec (6 minuti e 5 secondi) – Ma come sono distribuiti gli scarti? È intuitivo che non possiamo aspettarci che qualsiasi scarto sia equiprobabile rispetto a tutti gli altri Biostatistica 2015-16 Silvano Presciuttini Gli scarti dalla media non sono distribuiti in modo uniforme 8 7 6 5 4 3 2 1 ● >300 300/350 250/300 200/250 150/200 100/150 50/100 0/50 -50/0 -100/-50 -150/-100 -200/-150 -250/-200 -300/-250 <-300 0 Questo è ciò che succede nel nostro campione – Due orologi si scostano molto dalla media, mentre tutti gli altri non superano i 150 secondi di scarto – Inoltre il 64% degli orologi (14 su 22) si trova in un intervallo di 100 secondi (circa un minuto e mezzo) intorno alla media Biostatistica 2015-16 Silvano Presciuttini La media degli scarti ● Abbiamo visto la distribuzione degli scarti, ma quanto vale la loro media? Quanto accettiamo mediamente che il nostro orologio sbagli rispetto all'ora esatta? – Se noi prendessimo gli orologi di un altro campione di popolazione, magari ad es. dirigenti di industria, troveremmo uno scarto medio maggiore, uguale o minore di quello degli studenti? ● Potremmo pensare di calcolare il valor medio degli scarti e vedere se sono diversi fra studenti e imprenditori ● Il problema è che il calcolo della media aritmetica degli scarti non ha senso perchè la loro somma è uguale a zero per definizione... (provare per credere) Biostatistica 2015-16 Silvano Presciuttini Lo “scarto medio” ● Però un modo per calcolare uno scarto medio ci deve pur essere: perchè non prendere ad es. la media dei valori assoluti? – ● In effetti questo approccio non è insensato, soprattutto ora che sono disponibili potenti strumenti di calcolo a costo irrisorio (i valori assoluti sono difficili da trattare con gli strumenti dell'analisi matematica) Storicamente tuttavia è stato sviluppato un procedimento apparentemente più complicato per stimare la dispersione media dei valori di un campione intorno alla sua media: Si elevano gli scarti al quadrato, se ne fa la media e si estrae la radice quadrata di questa media ● Questo è in effetti un altro modo di calcolare una media, precisamente la cosiddetta “media quadratica” (degli scarti) Biostatistica 2015-16 Silvano Presciuttini Varianza e deviazione standard ● La media degli scarti quadratici (o scarto quadratico medio) prende il nome di varianza: n 1 2 s n 1 i 1 – ● xi x 2 Poiché questa quantità è intesa come stima della varianza in una popolazione di cui abbiamo solo un campione finito, la somma degli scarti quadratici viene divisa per n-1 anziché per n, e il simbolo spesso usato per indicarla è s2, mentre per la varianza della popolazione si usa la lettera greca corrispondente s2 La radice quadrata della varianza prende il nome di deviazione standard n 2 1 n 1 xxi xx s s n 1 n 1 ii11 i 2 Biostatistica 2015-16 Silvano Presciuttini N or N – 1? the sample sd versus the poputation sd ● The whole point of statistical calculations is to make inferences about the entire population from measurements of a sample. To calculate the standard deviation, you need to calculate the deviation of each value from the population mean. But you don't know the population mean. ● All you know is the sample mean – ● Sample values are always closer (on average) to their sample mean than to the overall population mean. The sum of the squares of the deviations from the sample mean is therefore smaller than the sum of squares of the deviations from the population mean This problem is eliminated by reducing the denominator to N-1, rather than N. Biostatistica 2015-16 Silvano Presciuttini Degrees of freedom ● Here is another way to understand why the denominator is N-1 rather than N. ● When we calculate the sample mean m, we take the sum of all Y values and divide by the number of values N. Why divide by N? You learned to calculate a mean so long ago that you probably never thought about it ● The mean is technically defined as the sum divided by degrees of freedom. The sample mean has N degrees of freedom because each of the N observations is free to assume any value. Knowing some of the values does not tell you anything about the remaining values. ● The sample variance is the mean of the square of the deviations of the values from the sample mean. This mean has only N-1 degrees of freedom. Why? It is because you must calculate the sample mean m before you can calculate the sample variance and SD. Once you know the sample mean and N-1 values, you can calculate the value of the remaining (Nth) value with certainty. The Nth value is absolutely determined from the sample mean and the other N-l values. Only N-l of the values are free to assume any value. Biostatistica 2015-16 Silvano Presciuttini Posizione e dispersione dei dati ● In conclusione, se abbiamo motivo di ritenere che i nostri dati, ottenuti da un campionamento, siano distribuiti secondo il tipico errore statistico, possiamo riassumere l'informazione che abbiano su di essi attraverso il calcolo di due indici ● Un indice di posizione: la media aritmetica (m) dei singoli valori (x i) ● Un indice di dispersione: la deviazione standard (s), o la media quadratica degli scarti Biostatistica 2015-16 Silvano Presciuttini La deviazione standard degli orologi ● Applicando questa formula ai nostri dati sulle letture degli orologi troviamo che s = 123 secondi (2 minuti!) ● Questa è una stima di quanto mediamente ci aspettiamo che sbagli l'orologio di uno studente preso a caso Biostatistica 2015-16 Silvano Presciuttini La devianza ● Nella formula della varianza il fattore di destra ( ) è la devianza o Somma dei Quadrati (SQ) degli scarti dalla media (SS = Sum of Squares, in inglese) n 1 s2 n 1 i 1 xi x 2 ● Essa è la base delle misure di dispersione dei dati. Tutta la statistica parametrica è fondata sulla devianza e sulle misure da essa derivate ● Un modo alternativo e conveniente di calcolare la devianza è attraverso la formula Biostatistica 2015-16 Silvano Presciuttini La differenza interquartile ● I quartili sono imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due gruppi lo separano in quattro ● Ogni gruppo contiene il 25% delle osservazioni – ● il primo quartile, Q1, è il valore che separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante 25%. La differenza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni Biostatistica 2015-16 Silvano Presciuttini Il coefficiente di variazione (Wikipedia) ● Il coefficiente di variazione o deviazione standard relativa, indicato con CV, permette di confrontare misure di fenomeni riferite a unità di misura differenti, in quanto si tratta di un numero adimensionale ● È un indice della precisione di una misura. È definito, per un dato campione, come il rapporto tra la sua deviazione standard e la sua media aritmetica: s C V 1 0 0 x ● Permette di valutare la dispersione dei valori attorno alla media indipendentemente dall'unità di misura – Ad esempio, la deviazione standard di un campione di redditi espressi in Lire è completamente diversa della deviazione standard degli stessi redditi espressi in Euro, mentre il coefficiente di dispersione è lo stesso in entrambi i casi. Biostatistica 2015-16 Silvano Presciuttini SUMMARY ● Many kinds of data are expressed as measurements – You can display the scatter of measurements in a sample on a histogram, after grouping the data in bins ● The center of the distribution can be described by the mean or median ● The spread or scatter of the data can be described by the range, the interquartile range, the variance, the SD, or the coefficient of variation Biostatistica 2015-16 Silvano Presciuttini