Analisi grafica residui in R

Transcript

Analisi grafica residui in R
Analisi grafica residui in R
Da output grafico analisi regressioneLm1.csv Vedi dispensa
peso-statura
1) Il plot in alto a sinistra mostra gli errori residui contro i loro
valori stimati .
I residui devono essere distribuiti in modo casuale attorno
alla linea orizzontale che rappresenta un errore residuo pari a
zero, cioè non dovrebbe esserci una netta tendenza nella
distribuzione dei punti .
Es Peso,Statura
non si evidenzia tendenza particolare ma le osservazioni 30 e 33
sono abbastanza lontane dai valori della regressione, notiamo che i
valori più lontani sono collocati sopra i valori teorici della
regressione, non sotto.
Ci sono persone obese (31-30-33) con un peso molto maggiore di
quello delineato teoricamente dalla regressione sulla statura, che si
scostano in eccesso, ovvero nel campione ci sono punte-condizioni
limite di peso in eccesso non di peso in carenza, se ripetessimo
l’analisi in un campione di denutriti sarebbe probabilmente il
contrario.
2) il plot in basso a sinistra è un plot QQ standard, ovvero
confronta i valori dei residui standardizzati (quantile reale)
verso la linea che individua la loro distribuzione normale
(quantile terorico), ovvero il grafico rappresenta una figura per
cui se i punti si distribuiscono sulla linea la distribuzione dei
residui risulta normale e quindi la regressione rappresenta un
modello adeguato.
Es Peso,Statura
i valori sono sulla o vicino la linea, si spostano le
osservazioni 33 e 30.
3) il plot in alto a destra mostra la radice quadrata dei
residui standardizzati in funzione dei valori stimati, valori al
di sopra di 1.5 sono da considerare.
Anche in questo caso non ci deve essere alcuna
tendenza evidente in questo grafico.
non si evidenzia tendenza ma le osservazioni 30 e 33 e 31 sono
abbastanza lontane
4) Infine il plot in basso a destra mostra il valore di leverage dei
punti che rappresenta una misura della importanza della
osservazione nel determinare il risultato regressione (forti deviazioni
dalla tendenza nei punti iniziali o finali della serie di regressione
hanno molto peso sulla regressione). I punti spostati a destra
ed in alto sono quelli che hanno peso maggiore sulla
regressione.
Sovrapposte al plot ci sono linee di contorno per la distanza di
Cook, che è un'altra misura dell'importanza di ciascuna
osservazione alla regressione.
Valori di distanze di Cook bassi per un punto indicano che la
rimozione della rispettiva osservazione ha poco effetto sui risultati
della regressione, ovvero l’osservazione in particolare non ha valori
devianti dalla tendenza. Invece valori di distanze di Cook
superiori a 1 sono sospetti ed indicano la presenza di un
possibile outlier o di un modello povero .
le osservazioni 30 e 31 segnalate hanno valori standardizzati
abbastanza alti ma non assumono valori di leverage elevati,
l’osservazione 33 ha valri standardizzati elevati e leverage elevata,
ma la sua Cook distance è compresa tra 0,5 ed 1 e quindi è solo un
sospetto outlier.
Esempio con outliers
Creo ad arte due variabili di cui X= sequenza numerica ed la
Y = 3X alterando l’osservazione 10 e 19.
Valuto la risposta in R
Entrambe sono particolarmente devianti dalla tendenza ma
l’osservazione 19 essendo alla fine della serie dovrebbe
avere un peso-levarge potenziale maggiore di influenza sulla
regressione
X
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Y
3
6
9
12
15
18
21
24
27
10
33
36
39
42
45
48
51
54
87
60
> fitY=lm(Y~ X)
> summary (fit)
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-20.3008 -2.3929
Median
-0.3008
3Q
1.7914
Max
26.1128
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.6842
3.7761 -0.976
0.342
X
3.3985
0.3152 10.781 2.77e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1
‘ ’ 1
Residual standard error: 8.129 on 18 degrees of freedom
Multiple R-squared: 0.8659,
Adjusted R-squared: 0.8585
F-statistic: 116.2 on 1 and 18 DF, p-value: 2.772e-09
La regressione appare significativa
cor.test(X,Y)
Pearson's product-moment correlation
data: X and Y
t = 10.7813, df = 18, p-value = 2.772e-09
alternative hypothesis:true correlation is not equal to 0
95 percent confidence interval:
0.8296627 0.9725726
sample estimates:
cor 0.9305416
anche la correlazione appare molto forte e significativa
--------------------------------------------------
ANALISI RESIDUI
> layout(matrix(1:4,2,2))
> plot(fit)
Grafico 1 alto e sinistra
Si evidenzia una tendenza deviante nella distribuzione dei residui, e
due osservazioni (10 e 19) lontane dai valori stimati.
Grafico 3 basso e sinistra
Si evidenzia una quasi perfetta aderenza delle osservazioni alla linea
della distribuzione normale, ma le due osservazioni 10 e 19 che
sono fuori.
Grafico 4 in basso a destra
Si evidenzia una distribuzione attorno ai valori stimati, ma due
osservazioni ( 19 e 10 ) fuori; in particolare la n. 10 non influisce
(leverage bassa) molto, ma la 19 influisce molto, essa ha anche un
valore di Cook distance maggiore di 1 e quindi è problematica.