Le Variabili - Scuola di Medicina
Transcript
Le Variabili - Scuola di Medicina
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione • Determinismo e variabilità • Correlazione • Regressione Lineare • Requisiti e valutazione Determinismo e Variabilità Modelli Deterministici L’approccio scientifico alla medicina si basa sulla definizione di modelli che sono composti da relazioni e da quantità. Ad esempio la Compliance Polmonare:C=∆V/∆P Esiste tuttavia una variabilità in relazione alla legge generale Variabilità Per studiare le relazioni esistenti tra variabili si deve considerare 4,5 a) una compenente deterministica 4 Manuale Variabile dipendente b) una compenete casuale della loro relazione 3,5 Variabilità Casuale 3 Legge (Modello) che mette in relazione la variabile indipendente e la variabile dipendente 2,5 2 1,5 1,5 2 2,5 VariabileUltrasuoni indipendente 3 3,5 4 Le Variabili La statistica lavora su VARIABILI, VARIABILI ossia su dati che cambiano valore da un soggetto all’altro. Ad esempio: Pressione Arteriosa, Altezza, Peso. Il valore delle variabili viene misurato a livello di ogni unità statistica (singolo soggetto o aggregato di soggetti). Le variabili statistiche sono dette “Aleatorie o Casuali”, infatti ad ogni possibile valore di una variabile è associata una specifica ed i valori osservati sono considerate come estratti casualmente da una distribuzione di probabilità. Modelli Probabilistici Lo scopo è quello di costruire una rappresentazione statistica (cioè che quantifichi la variabilità esistente tra le osservazioni) adeguata per descrive gli aspetti essenziali del fenomeno che vogliamo studiare. Modello: descrizione o riproduzione selettiva, più o meno formalizzata, della realtà. Nel nostro caso è un equazione matematica. Ad esempio, peso osservato alla nascita e peso stimato prima della nascita con l’ecografia. Esempio (Peso alla nascita) Soggetto No. 1 2 3 4 5 6 7 8 . . . 44 45 46 Peso Peso alla stimato nascita Ecografia 2,33 2,95 2,95 2,64 3,57 2,95 3,1 2,48 . . . 2,17 2,17 2,79 2,21 2,11 2,32 2,04 2,09 2,25 2,84 2,34 . . . 2,61 2,31 2,6 Si possono studiare (A) la distribuzione del peso alla nascita di un neonato, (B) la distribuzione della stima del peso alla nascita di un neonato (ecografia) (C) la relazione che esiste tra A e B. Esempio (Peso alla nascita) Diagramma di dispersione 4,5 3,5 3 2,5 Peso (Kg) Nascita 4 2 Peso (Kg) Ecografia 1,5 1,5 2 2,5 3 3,5 4 Esempio (Peso alla nascita) Regressione (lineare) 4,5 3,5 3 2,5 Peso (Kg) Nascita 4 Retta che mette in relazione il peso stimato con l’ecografia e quello osservato alla nascita 2 Peso (Kg) Ecografia 1,5 1,5 2 2,5 3 3,5 4 Esempio (Peso alla nascita) Variabilità 4,5 3,5 3 2,5 Peso (Kg) Nascita 4 Variabilità Casuale Retta che mette in relazione il peso stimato con l’ecografia e quello osservato alla nascita (non “spiegata” dal modello) 2 Peso (Kg) Ecografia 1,5 1,5 2 2,5 3 3,5 4 Campo di applicazione Analisi della relazione tra due variabili continue 1) Correlazione Æ Le variabili sono associate? 2) Regressione Æ Come varia il valore di una variabile in conseguenza del variare di un’altra variabile? Spiegato dalla componente deterministica del modello. 3) Variabilità ÆQual’è la variabilità residua non spiegata dall’equazione lineare? Correlazione Correlazione Dato un insieme di osservazioni definite da due variabili continue, valutiamo la forza dell’associazione tra le due variabili disegnando il diagramma di dispersione e calcolando il coefficiente di correlazione. Diagramma di dispersione Si disegna riportando i valori delle osservazioni su un sistema di assi cartesiani, in cui l’asse x rappresenta una delle due variabili e l’asse y l’altra variabile. Il diagramma consente di collocare ogni osservazione nello spazio definito dai valori possibili delle due variabili. Diagramma di dispersione 4,5 La forma della nuvola di punti così ottenuta consente una valutazione visiva del grado di associazione tra le due variabili 3,5 3 2,5 Peso (Kg) Nascita 4 2 Peso (Kg) Ecografia 1,5 1,5 2 2,5 3 3,5 4 Coefficiente di Pearson (definizione) Il coefficiente di correlazione di Pearson (r) consente la valutazione formale del grado di associazione. • L’intervallo dei valori possibili di r è: -1 <= r <=1 • Se r = 1 o r = -1 tutti i punti giacciono su una retta (assenza di variabilità) • Se il valore è positivo l’associazione è diretta se il valore è negativo l’associazione è inversa. Coefficiente di Pearson (formula) ∑ (x n r= i =1 ∑ (x n i =1 i i )( − x yi − y −x ) ) ∑ (y − y ) 2 n i =1 2 i n:numero di osservazioni xi ; yi: valore della singola osservazione x ; y : valore medio della variabile indipendente e dipendente Coefficiente di Pearson (esempio) 36,0 r = 0,15 circonferenza cranica 34,0 32,0 30,0 28,0 26,0 24,0 22,0 20,0 10 15 20 25 30 età materna 35 40 45 Coefficiente di Pearson (esempio) 36,0 r = 0,72 circonferenza cranica 34,0 32,0 30,0 28,0 26,0 24,0 22,0 20,0 19 24 29 34 lunghezza 39 44 49 Esempio (variabili e dati) Relazione tra concentrazione plasmatica di colesterolo e di trigliceridi 1 2 3 4 5 6 7 8 9 10 medie: Colesterolo Trigliceridi (x) (y) 3,45 6,24 3,5 6,18 2,95 5,2 3,77 6,11 3,67 6,36 5,31 5,67 5,1 5,48 7,85 5,67 8,79 9,4 12,3 8,4 5,669 6,471 Esempio (scatterplot) 10 9 trigliceridi 8 7 6 5 4 3 2 1 0 0 2 4 6 8 colesterolo 10 12 14 Esempio (correlazione) Colesterolo Trigliceri (x) di (y) 3,45 3,5 2,95 3,77 3,67 5,31 5,1 7,85 8,79 12,3 6,24 6,18 5,2 6,11 6,36 5,67 5,48 5,67 9,4 8,4 (x − x ) (y − y ) (x − x )* (y − y ) i -2,459 -2,409 -2,959 -2,139 -2,239 -0,599 -0,809 1,941 2,881 6,391 i i i (x − x) (y − y) 2 i 2 i -0,493 -0,553 -1,533 -0,623 -0,373 -1,063 -1,253 -1,063 2,667 1,667 1,212287 1,332177 4,536147 1,332597 0,835147 0,636737 1,013677 -2,063283 7,683627 10,653797 6,046681 5,803281 8,755681 4,575321 5,013121 0,358801 0,654481 3,767481 8,300161 40,844881 0,243049 0,305809 2,350089 0,388129 0,139129 1,129969 1,570009 1,129969 7,112889 2,778889 Sommatorie: 26,54411 83,54389 16,46149 Coeff. Pearson r= 0,716 Regressione lineare Regressione lineare Regressione: Regressione stima della variazione media di una variabile dipendente in funzione della variazione unitaria di una variabile indipendente Lineare: Lineare la funzione in questo caso è quella che definisce una retta Perchè Regressione Lineare? • La variazione lineare è spesso una spiegazione adeguata • Variazioni non lineari diventano tali dopo una trasformazione matematica di una delle variabili • La variazione lineare è un punto di partenza Esempio (Peso alla nascita) 4,5 Regressione lineare 3,5 3 2,5 Peso (Kg) Nascita 4 Variabilità Casuale Retta che mette in relazione il peso stimato con l’ecografia e quello osservato alla nascita (non “spiegata” dal modello) 2 Peso (Kg) Ecografia 1,5 1,5 2 2,5 3 3,5 4 Regressione lineare (variabili) Possibile Effetto (var. dipendente) Variabile indipendente Æ possibile causa Æ sulle ascisse y x Possibile Causa (var. dipendente) Variabile dipendente Æ possibile effetto Æ sulle ordinate Equazione della Retta Individuare la retta che meglio predice il valore di y (variabile dipendente), dato il valore di x (variabile indipendente). y = a + bx a: intercetta b: pendenza (coefficiente angolare) Come stimiamo i valori dei due coefficienti (a,b)? Quale Retta? Media di y y La retta che meglio predice y|x passa per la media di x e di y Per un punto passano infinite rette! Quale retta scegliamo? Con quale criterio? Media di x x Metodo detto ‘dei minimi quadrati’ y Residuo (o scarto) = valore y osservato – valore y predetto valore y osservato Residuo o scarto valore y predetto x La retta migliore minimizza la somma dei quadrati dei residui Equazione della Retta Individuare la retta che meglio predice il valore di y (variabile dipendente), dato il valore di x (variabile indipendente). y = a + bx a: intercetta b: pendenza (coefficiente angolare) ∑ (x − x )(y − y ) b= ∑ (xi − x ) i i 2 a = y − bx Esempio (colesterolo e trigliceridi) (x ) (y ) (x ) (y ) (x − x) Colester Triglice −x i olo (x) ridi (y) 1 3,45 6,24 -2,219 -0,231 0,512589 i 4,923961 2 3,5 6,18 -2,169 -0,291 0,631179 4,704561 3 2,95 5,2 -2,719 -1,271 3,455849 7,392961 4 3,77 6,11 -1,899 -0,361 0,685539 3,606201 5 3,67 6,36 -1,999 -0,111 0,221889 3,996001 6 5,31 5,67 -0,359 -0,801 0,287559 0,128881 7 5,1 5,48 -0,569 -0,991 0,563879 0,323761 8 7,85 5,67 2,181 -0,801 -1,746981 4,756761 9 8,79 9,4 3,121 2,929 9,141409 9,740641 10 12,3 8,4 6,631 1,929 5,669 6,471 medie: b= 0,318 a= 4,67 i −y −x * i i −y 2 12,791199 43,970161 26,54411 83,54389 Relazione tra Colesterolo e TG trigliceridi (y) 10 a=4,67 8 b = 0,32 6 4 2 0 0 2 4 6 8 10 12 colesterolo (x) trigliceridi=4,67 + 0,32* colesterolo 14 IC del coefficiente di regressione Intervallo di confidenza coeff. di regressione (b) CI = b ± tcrit × SE (b) t ha (n-2) gradi di libertà ed il valore è scelto in modo corrispondente all’errore di I tipo, con test a 2 code ES (b) = s 2 ∑ (x − x ) 2 i Varianza intorno alla retta di regressione (stima campionaria) ∑ ( y − yˆ ) 2 s = 2 i n−2 i Errore standard di b ES (b) = s 2 ∑ (x − x ) 2 i L’errore standard di b si riduce, a parità di s, quando la variabilità di x è maggiore ! Relazione tra Colesterolo e TG trigliceridi (y) 10 a=4,67 8 b = 0,32 IC(95%) = 0,06 -0,57 6 4 2 0 0 2 4 6 8 10 12 colesterolo (x) trigliceridi=4,67 + 0,32* colesterolo 14 Intervallo di confidenza dei valori predetti ( 1 xi′ − x ) PI = yˆ ± t gl ,α s 1 + + 2 2 n ∑ (xi − x ) 2 Relazione alla nascita tra circonferenza cranica e lunghezza Es. il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è ŷ =29,05 IC( ŷ )= 25,47 - 32,63 Intervallo di confidenza dei valori predetti ( 1 xi′ − x ) PI = yˆ ± t gl ,α s 1 + + 2 2 n ∑ (xi − x ) 2 La predizione ha un errore maggiore allontanandosi dalla media di x La predizione ha un errore minore con un’ampia variabilità di x Requisiti ed valutazione Requisiti dell’analisi di regressione Il modello lineare è adeguato a rappresentare la relazione tra x ed y (come variabile casuale) se vengono rispettati i seguenti assunti. •Omogeneità della varianza di y|x (Omoscedasticità) •Distribuzione normale di y|x •Linearità della relazione tra x ed y Verifica delle assunzioni del modello La verifica delle assunzioni del modello viene condotta esaminando la distribuzione dei residui Residuo (o scarto) = valore y osservato – valore y predetto valore y osservato Residuo valore y predetto Omoscedasticità (omogeneità della varianza) Se la varianza è costante per tutta la distribuzione della x, anche i residui saranno distribuiti in modo uniforme. Distribuzione uniforme dei residui Distribuzione non uniforme dei residui Distribuzione non normale dei residui Non-linearità Trasformazioni normalizzanti e linearizzanti • Radice quadrata • Logaritmo • Inversa (meglio se ulteriormente moltiplicata per -1) Trasformazioni normalizzanti e linearizzanti Dati trasformati Inversa negativa Log Radice Dati originali Trasformazioni normalizzanti e linearizzanti FR E Q U E N C Y 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 5 0 0 0 7 1 5 0 0 0 0 1 2 5 0 1 5 0 0 1 7 5 0 2 0 0 0 2 2 5 0 2 5 0 0 2 7 5 0 3 0 0 0 3 2 5 0 3 5 0 0 3 7 5 0 4 0 0 0 4 2 5 0 4 5 0 0 4 7 5 0 5 0 0 0 5 2 5 0 5 5 0 0 5 7 5 0 6 0 0 0 6 2 5 0 6 5 0 0 6 7 5 0 7 0 0 0 7 2 5 0 7 5 0 0 7 7 5 0 8 0 0 0 8 2 5 0 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 1 0 0 0 0 C O R P U S C OM ID P O IN T FR E Q U E N C Y 50 40 30 20 10 0 0 . 0 0 00 . . 25 50 01 . . 70 50 11 . . 25 50 12 . . 70 50 22 . . 25 50 23 . . 70 50 33 . . 25 50 34 . . 70 50 44 . . 25 50 45 . . 70 50 55 . . 25 50 56 . . 70 50 66 . . 25 50 L_c 67 . . 70 50 77 . . 25 50 78 . . 70 50 M I D P O I N T 88 . . 25 50 89 . . 70 50 99 . . 25 50 91 . 0 7. 50 0 11 00 . . 25 50 11 01 . . 70 50 11 11 . . 25 50 11 12 . . 70 50 11 22 . . 25 50 11 23 . . 70 50 11 33 . . 25 50 11 34 . . 70 50 Valutazione del modello • R2 : proporzione della varianza che è spiegata dal modello di regressione • R2 = (coefficiente di correlazione) ^2 Relazione tra Colesterolo e TG r =0,716 R2 =0,51 trigliceridi (y) 10 a=4,67 8 b = 0,32 IC(95%) = 0,06 -0,57 6 4 2 0 0 2 4 6 8 10 12 colesterolo (x) trigliceridi=4,67 + 0,32* colesterolo 14