Analisi grafica residui in R
Transcript
Analisi grafica residui in R
Analisi grafica residui in R Da output grafico analisi regressioneLm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati . I residui devono essere distribuiti in modo casuale attorno alla linea orizzontale che rappresenta un errore residuo pari a zero, cioè non dovrebbe esserci una netta tendenza nella distribuzione dei punti . Es Peso,Statura non si evidenzia tendenza particolare ma le osservazioni 30 e 33 sono abbastanza lontane dai valori della regressione, notiamo che i valori più lontani sono collocati sopra i valori teorici della regressione, non sotto. Ci sono persone obese (31-30-33) con un peso molto maggiore di quello delineato teoricamente dalla regressione sulla statura, che si scostano in eccesso, ovvero nel campione ci sono punte-condizioni limite di peso in eccesso non di peso in carenza, se ripetessimo l’analisi in un campione di denutriti sarebbe probabilmente il contrario. 2) il plot in basso a sinistra è un plot QQ standard, ovvero confronta i valori dei residui standardizzati (quantile reale) verso la linea che individua la loro distribuzione normale (quantile terorico), ovvero il grafico rappresenta una figura per cui se i punti si distribuiscono sulla linea la distribuzione dei residui risulta normale e quindi la regressione rappresenta un modello adeguato. Es Peso,Statura i valori sono sulla o vicino la linea, si spostano le osservazioni 33 e 30. 3) il plot in alto a destra mostra la radice quadrata dei residui standardizzati in funzione dei valori stimati, valori al di sopra di 1.5 sono da considerare. Anche in questo caso non ci deve essere alcuna tendenza evidente in questo grafico. non si evidenzia tendenza ma le osservazioni 30 e 33 e 31 sono abbastanza lontane 4) Infine il plot in basso a destra mostra il valore di leverage dei punti che rappresenta una misura della importanza della osservazione nel determinare il risultato regressione (forti deviazioni dalla tendenza nei punti iniziali o finali della serie di regressione hanno molto peso sulla regressione). I punti spostati a destra ed in alto sono quelli che hanno peso maggiore sulla regressione. Sovrapposte al plot ci sono linee di contorno per la distanza di Cook, che è un'altra misura dell'importanza di ciascuna osservazione alla regressione. Valori di distanze di Cook bassi per un punto indicano che la rimozione della rispettiva osservazione ha poco effetto sui risultati della regressione, ovvero l’osservazione in particolare non ha valori devianti dalla tendenza. Invece valori di distanze di Cook superiori a 1 sono sospetti ed indicano la presenza di un possibile outlier o di un modello povero . le osservazioni 30 e 31 segnalate hanno valori standardizzati abbastanza alti ma non assumono valori di leverage elevati, l’osservazione 33 ha valri standardizzati elevati e leverage elevata, ma la sua Cook distance è compresa tra 0,5 ed 1 e quindi è solo un sospetto outlier. Esempio con outliers Creo ad arte due variabili di cui X= sequenza numerica ed la Y = 3X alterando l’osservazione 10 e 19. Valuto la risposta in R Entrambe sono particolarmente devianti dalla tendenza ma l’osservazione 19 essendo alla fine della serie dovrebbe avere un peso-levarge potenziale maggiore di influenza sulla regressione X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Y 3 6 9 12 15 18 21 24 27 10 33 36 39 42 45 48 51 54 87 60 > fitY=lm(Y~ X) > summary (fit) Call: lm(formula = Y ~ X) Residuals: Min 1Q -20.3008 -2.3929 Median -0.3008 3Q 1.7914 Max 26.1128 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -3.6842 3.7761 -0.976 0.342 X 3.3985 0.3152 10.781 2.77e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.129 on 18 degrees of freedom Multiple R-squared: 0.8659, Adjusted R-squared: 0.8585 F-statistic: 116.2 on 1 and 18 DF, p-value: 2.772e-09 La regressione appare significativa cor.test(X,Y) Pearson's product-moment correlation data: X and Y t = 10.7813, df = 18, p-value = 2.772e-09 alternative hypothesis:true correlation is not equal to 0 95 percent confidence interval: 0.8296627 0.9725726 sample estimates: cor 0.9305416 anche la correlazione appare molto forte e significativa -------------------------------------------------- ANALISI RESIDUI > layout(matrix(1:4,2,2)) > plot(fit) Grafico 1 alto e sinistra Si evidenzia una tendenza deviante nella distribuzione dei residui, e due osservazioni (10 e 19) lontane dai valori stimati. Grafico 3 basso e sinistra Si evidenzia una quasi perfetta aderenza delle osservazioni alla linea della distribuzione normale, ma le due osservazioni 10 e 19 che sono fuori. Grafico 4 in basso a destra Si evidenzia una distribuzione attorno ai valori stimati, ma due osservazioni ( 19 e 10 ) fuori; in particolare la n. 10 non influisce (leverage bassa) molto, ma la 19 influisce molto, essa ha anche un valore di Cook distance maggiore di 1 e quindi è problematica.