note PDF - Università degli Studi di Milano

Transcript

note PDF - Università degli Studi di Milano
1. Analisi di regressione
L’analisi di indipendenza sin qui vista non prevede particolari assunzioni sulle tipologie dei caratteri impiegati dal momento che gli unici ingredienti utilizzati nel calcolo
dell’indice di connessione χ̃2 sono le frequenze (nij , ni. e n.j ). Passiamo ora all’analisi
congiunta di due fenomeni di tipo quantitativo (meglio se continui). Come prima cosa
introduciamo un nuovo tipo di grafico, poi estendiamo il concetto di variabilità al caso di
due variabili e infine studieremo un caso particolare di dipendenza: la relazione lineare.
1.1. I grafici di dispersione e la covarianza. Supponiamo di avere due fenomeni
X ed Y di tipo quantitativo e di aver raccolto su n individui le coppie di valori (xi , yi ).
Abbiamo già visto come raccogliere i dati in tabelle di contingenza come per l’analisi di
connessione. Se i dati sono di tipo quantitativo continuo, spesso ogni coppia compare
con frequenza unitaria e si avrebbe quindi un’immensa tabella di contigenza (n righe
per n colonne) piena di 0 ed 1. L’alternativa è quindi quella di presentare i dati uno di
seguito all’altro (se n è piccolo) o meglio rappresentare i dati su di un opportuno grafico.
L’“opportuno” grafico è il grafico di dispersione che consiste nel rappresentare le coppie
di punti su di un piano euclideo. Si sceglie quale variabile mettere in ascissa e quale
in ordinata ed una volta fissate le unità di misura sugli assi, si disegnano dei punti in
corrispondenza delle coppie (xi , yi ). Vediamo subito un esempio visto che è più semplice
tracciare il grafico che spiegare a parole come fare. Supponiamo di aver raccolto i seguenti
dati
xi 2 3 4 2 5 4 5 3 4 1
yi 5 4 3 6 2 5 3 5 3 3
Scegliamo di porre la variabile X sull’asse delle ascisse e la Y sull’asse delle ordinate.
Prendiamo la prima coppia di valori (xi , yi ) = (2, 5). In corrispondenza di x = 2 ed y = 5
tracciamo un punto. Si procede poi con le altre coppie di punti. Il risultato finale è la
nuvola di punti e lo riportiamo in Figura 1.
Il grafico di dispersione è cosı̀ chiamato perché è stato ideato con l’idea di verificare,
appunto graficamente, se le coppie di punti (e quindi i fenomeni statistici), presentano
una qualche forma di regolarità ed in particolare, per vedere come i punti si disperdono
attorno ad un particolare valore. Questo valore è il baricentro della nuvola dei punti
che corrisponde alla coppia di valori (x̄n , ȳn ). Nel caso specifico x̄n = 3.3 e ȳn = 3.9.
Oltre all’analisi qualitativa proveniente dalla lettura del grafico, come sempre accade, la
statistica ha bisogno di indici numerici. L’indice che misura la dispersione delle coppie di
punti da un proprio centro è l’indice di covarianza o semplicemente la covarianza. Già il
nome dell’indice lascia intuire che si tratta di un’estensione al caso di due fenomeni della
varianza. La covarianza si basa sulla misura degli scarti delle xi dalla propria media x̄n
(xi − x̄n ) e delle yi dalla propria media ȳn , cioè: yi − ȳn . La covarianza, al contrario della
varianza, si occupa anche di misurare l’eventuale direzione della variabilità ovvero, se i
due fenomeni si muovono nella stessa direzione o in direzioni opposte. In sintesi, quando
X tende a crescere lo stesso accade anche per Y o invece questa tende a decrescere?
Guardiamo ai punti della Figura 1. Quello che si vede è che quando X passa da 3 a 4
1
6
●
5
2
●
●
●
(x, y)
●
●
●
●
2
3
y
y
●
1
2
3
x
4
5
x
Figura 1. Esempio di grafico di dispersione. A titolo di esempio abbiamo
segnato con il “+” il punto di coordinate (xi , yi ) = (2, 5) e con il simbolo “×” il
baricentro della nuvola dei punti, cioè il punto di coordinate (x̄n , ȳn ) = (3.3, 3.9).
(cioè cresce) la Y decresce. Quindi, si può notare che la X ed la Y si muovono, all’incirca,
in direzioni opposte. La covarianza segnala una concordanza (sia X che Y descrescono o
crescono) con un segno “+” e una discordanza (quando X cresce Y descresce o viceversa)
con il segno “-”. Passiamo alla definizione dell’indice
Covarianza tra X ed Y
n
σxy
1X
(xi − x̄n )(yi − ȳn )
= Cov(X, Y ) =
n i=1
La Figura 2 mette in evidenza l’idea con cui è costruito l’indice e rimandiamo alla
didascalia della figura stessa per l’interpretazione della covarianza. Torniamo invece alla
formula di σxy : se scriviamo la formula di Cov(X, X) ci accorgiamo che non è altro se
non la varianza di X, ovvero Cov(X, Y ) = σxx = σx2 .
Una volta visto un grafico ci rendiamo subito conto di quale segno sarà la covarianza:
positivo per i dati della Figura 2 e negativo per i dati della Figura 1. Proviamo a calcolare
la covarianza dei dati di Figura 1 ripresendendo i dati originari
1. ANALISI DI REGRESSIONE
3
xi yi xi − x̄n yi − ȳn (xi − x̄n ) · (yi − ȳn )
2 5
-1.3
1.1
-1.43
3 4
-0.3
0.1
-0.03
4 3
0.7
-0.9
-0.63
2 6
-1.3
2.1
-2.73
5 2
1.7
-1.9
-3.23
4 5
0.7
1.1
0.77
1.7
-0.9
-1.53
5 3
3 5
-0.3
1.1
-0.33
0.7
-0.9
-0.63
4 3
1 3
-2.3
-0.9
2.07
-7.70
Come si vede abbiamo organizzato i calcoli in modo da rendere più agevole i conti. In
sostanza ci interessa il valore -7.7 che è il risultato della somma del prodotto degli scarti
incrociati (xi − x̄n )(yi − ȳn ). Poi basta dividere il risultato per n e nel nostro caso si ha:
σxy = −7.7/10 = −0.77. C’è però un metodo più veloce per il calcolo della covarianza
che è simile a quello rapido per il calcolo della varianza
Covarianza tra X ed Y (formula alternativa)
n
σxy
1X
=
(xi · yi ) − (x̄n · ȳn )
n i=1
Vediamo di applicare la formula rapida agli stessi dati per verificare la rapidità e l’equivalenza dei risultati. Costruiamo ancora una tabella
xi
2 3 4 2 5 4 5 3 4 1
yi
5 4 3 6 2 5 3 5 3 3
xi · yi 10 12 12 12 10 20 15 15 12 3 121
Ci rimane ora da prendere il valore della somma dell’ultima riga della tabella: 121
dividerlo per n = 10 e sottrarre al valore il prodotto delle medie aritmetiche di X ed Y ,
otteniamo
121
σxy =
− 3.3 · 3.9 = −0.77
10
Sappiamo ora come calcolare la covarianza e come interpretarne il segno, non sappiamo
però come valutarne il valore numerico. Il problema risiede ancora una volta nell’unità di
misura dei dati cioè dall’unità di misura sia di X che Y . Fortunatamente, contrariamente
a quanto accade per la varianza, è possibile avere una misurazione oggettiva di quanto un
certo valore della covarianza sia alto o basso. Infatti vale la seguente relazione
−σx · σy ≤ σxy ≤ σx · σy
Il che vuol dire che possiamo costruire un indice relativo semplicemente divendo σxy per
il prodotto degli scarti quadratici medi di X ed Y . L’indice cosı̀ ottenuto assumerà valori
●
II
(xi − x) > 0
(xi − x) < 0
14
16
4
●
(yi − y) > 0
I
●
●
●
12
●
10
●
y8
● ●
●● ●
●
● ●
● ●
● ●
●
●
●●
●
●
●
●●
2
(xi − x) < 0
0
4
III
(yi − y) < 0
−2
−1
(yi − y) > 0
●
●
●
● ●
● ●
●
●●
● ●●
y
6
(xi, yi)
(xi − x) > 0
(yi − y) < 0
●●
●
IV
0
1
3
x
4
5
6
x
Figura 2. Sul grafico di dispersione abbiamo rappresentato le coppie di punti
(xi , yi ). Abbiamo quindi diviso il grafico in quattro quadranti tracciando le medie
di X ed di Y . Quello che si nota è che per ogni coppia di punti del quadrante I
si ha che (xi − x̄) > 0 e congiuntamente (yi − ȳ) > 0. Il prodotto dei due termini
(xi − x̄)(yi − ȳ) sarà quindi un valore positivo. Per il punti nel quadrante II
osserviamo che (xi − x̄) < 0 mentre (yi − ȳ) > 0 quindi il prodotto dei termini è
negativo. Per il quandrante III entrambi i termini sono negativi quindi il prodotto
è positivo. Infine, per i punti nel quadrante IV, si ha un termine positivo (xi − x̄)
ed uno negativo (yi − ȳ) e quindi ancora un prodotto negativo.
1. ANALISI DI REGRESSIONE
5
tra -1 ed 1. Tale indice si chiama indice di correlazione e si indica con la lettera “r”
dell’alfabeto greco ρ.
Indice di correlazione X ed Y
ρxy =
ρxy
σxy
σx · σy
− 1 ≤ ρxy ≤ 1


solo se X ed Y sono incorrelate
0,
= 1,
solo se X ed Y sono in relazione lineare diretta

−1, solo se X ed Y sono in relazione lineare inversa
Nel box qui sopra viene espressamente citato il termine relazione lineare. In effetti, l’indice
ρ è in grado di misurare se vi è o meno una relazione lineare tra X ed Y cioè se le coppie
di valori (xi , yi ) sono allineati lungo una retta del tipo yi = a + b · xi . Quando tra X ed
Y non si presenta una regolarità di quelle viste sinora (X cresce ed anche Y o viceversa)
si rileva un’assenza di relazione lineare tra X ed Y e il valore dell’indice ρ è circa pari
a 0. Quando siamo in questa condizione si dice che X ed Y sono incorrelate. Si noti
che l’assenza di relazione lineare non implica che non siano presenti altri tipi di relazione.
Consideriamo il seguente esempio
xi
-2 -1 0 1 2 0
yi
4 1 0 1 4 0
xi · yi -8 -1 0 1 8 0
quindi ρxy =
1
5
5
P
i=1
xi yi − x̄n ȳn = 05 − 0 · 0 = 0, ovvero c’è assenza di relazione lineare tra X
ed Y . Ed infatti la relazione è di tipo quadratico essendo yi = x2i . Costruiamo la tabella
a doppia entrata e calcoliamo l’indice di connessione per verificare che X ed Y non sono
indipendenti
Y
X
−2
−1
0
1
2
0 1 4
0
0
1
0
0
1
0
1
0
1
0
2
1
0
0
0
1
2
1
1
1
1
1
5
6
Calcoliamo quindi l’indice χ̃2
5 P
3
P
2
χ̃ =
i=1 j=1
n2ij
ni. n.j
−1
=
12
1·2
+
12
1·2
+
min(3 − 1, 5 − 1)
1
+ 21 + 1 + 12 + 12 − 1
2
2
=
= =1
2
2
12
1·1
+
2
12
1·2
+
12
1·2
−1
Come si vede χ̃2 = 1 cioè siamo in presenza di massima connessione!
Concludiamo dando la formula della covarianza nel caso di dati raccolti in una tabella
a doppia entrata nel caso capitasse di lavorare con dati di tale forma.
Covarianza tra X ed Y
Se abbiamo dati provenienti da una tabella di contingenza {xi , yj , nij } la formula della
covarianza assume la forma
h
k
h
k
1 XX
1 XX
(xi − x̄)(yj − ȳ) nij =
xi yj nij − x̄ ȳ
σxy =
n i=1 j=1
n i=1 j=1
mentre nulla cambia per ρxy .
1.2. La retta di regressione. Ricordiamo che mentre l’indipendenza è una relazione simmetrica, la dipendenza non lo è. L’analisi che stiamo per condurre riguarda un
particolare tipo di relazione tra una variabile X ed una Y : quella lineare. Metteremo
anche in risalto l’asimmetria di tale relazione.
Se abbiamo rilevato X ed Y su n individui della popolazione avremo a disposizione
n coppie di numeri (xi , yi ), i = 1, . . . , n (che, per semplicità, supponiamo distinti) come
quelli riportati nella Tabella 1. Abbiamo già visto che possiamo rappresentare graficamente queste coppie di numeri in un grafico di dispersione ponendo la variabile X in
ascissa ed Y in ordinata, cosı̀ come mostra la Figura 3.
Dal grafico di dispersione ci aspettiamo un valore positivo per la covarianza e quindi per
ρ. Quello che ci chiediamo ora è se esiste una qualche relazione funzionale tra la variabile
X e la variabile Y del tipo Y = f (X). Dalla figura si può notare che al crescere dei valori
di X crescono, tendenzialmente, anche i valori di Y . Questa relazione di proporzionalità
ricorda quella della retta di equazione Y = f (X) = a + b · X e, a meno di una certa
variabilità intrinseca in essi, i dati sembrano proprio disporsi su una retta crescente ed
uscente dall’origine. Cerchiamo allora di vedere quali siano i valori di a e b che rendono
la retta Y = a + b · X la più vicina alle coppie dei punti di coordinate (xi , yi ). Cerchiamo
dunque una retta che passi più o meno vicino a tutti i punti.
I punti della eventuale retta Y = a + b · X sono le coppie di punti (xi , a + b · xi ) che, per
comodità, indichiamo con (xi , yi∗ ). Gli yi∗ sono i valori, che chiameremo d’ora in avanti,
teorici o previsti che la variabile Y dovrebbe assumere quando la X assume il valore xi se
il vero modello, cioè la vera relazione tra X ed Y , fosse quello ipotizzato: Y = a + b · X.
1. ANALISI DI REGRESSIONE
(xi ,
11
8
28
17
9
4
28
5
12
23
yi ) (xi ,
28
6
21 24
63 18
42 21
28
6
2
22
80 27
19 17
33 27
60
6
yi ) (xi ,
14 29
58
9
54
3
67 12
18
9
64 23
65
5
68 27
77 20
17 13
7
yi )
95
12
1
30
34
67
20
75
59
55
Tabella 1. Rilevazione statistica di n = 30 coppie di valori (xi , yi ) per le
variabili X = età ed Y = peso.
80
●
●
●
●
●
●
●
●
60
●
●
●
●
●
●
y
●
40
●
●
0
20
●
●
● ●
●
●
●
●
●
●
●
● ●
5
10
15
20
25
30
x
Figura 3. Rappresentazione delle coppie di punti (xi , yi ) sul piano cartesiano
relativi alla Tabella 1.
Il coefficiente di correlazione ρxy misura appunto quanto bene i dati sono allineati
lungo una tale retta. Quando abbiamo introdotto l’indice abbiamo detto che il suo valore
è pari a 1 se i dati sono esattamente allineati lungo una retta crescente e vale -1 in caso
contrario (la retta è descrescente). A parte il valore 0 che indica incorrelazione, tutti gli
altri valori tra -1 e 0 e tra 0 ed 1 sono in generale difficilmente interpretabili. Come regola
empirica si può assumere che valori da 0.85 ad 1 (rispettivamente da -1 a -0.85) fanno
sospettare di una relazione lineare di tipo diretto (rispettivamente inverso), negli altri casi
si sospende il giudizio.
8
Ricordiamo che quando ρxy = 0 ciò non esclude che X ed Y non possano essere legate
da altre relazioni come ad esempio Y = log(x) + sin (x3 ) o altre mostruosità del genere.
Inoltre, un valore non nullo di ρ non implica che vi sia una relazione funzionale tra X ed
Y ma solo che le due variabili variano in modo concorde (segno “+”) o discorde (segno
“-”).
Il coefficiente di correlazione ρ, nel caso dei punti considerati, assume il valore 0.95, un
valore dunque molto elevato che giustifica l’obiettivo della ricerca della retta interpolante
i nostri dati. Infatti, abbiamo che
469
1326
x̄ =
= 15.63̄
ȳ =
= 44.2
30
30
n
1X
26881
σxy =
xi yi − x̄ȳ =
− 15.63̄ · 44.2 = 205.04
n i=1
30
e
r
r
2192.967
19284.8
σx =
= 8.55
σy =
= 25.35
30
30
quindi
205.04
= 0.95
ρ=
8.55 · 25.35
In che termini cerchiamo “la retta migliore” passante per i punti (xi , yi )? Se yi sono i
punti effettivamente osservati e yi∗ quelli che dovremmo aspettarci dal modello Y = a+b X,
le quantità yi −yi∗ , |yi −yi∗ |, (yi −yi∗ )2 sono tutti indicatori della distanza tra i punti osservati
e quelli teorici. Per motivi di ordine analitico è conveniente scegliere la distanza detta
quadratica, cioè (yi −yi∗ )2 un po’ come abbiamo fatto quando abbiamo definito la varianza.
Ne consegue che la distanza totale tra tutte le coppie di punti è data dalla funzione
n
n
X
X
∗ 2
(yi − yi ) =
(yi − (a + b · xi ))2 = g(a, b)
i=1
i=1
Questa funzione dipende solo dalle quantità a e b dato che le coppie di valori xi ed yi sono
state osservate, cioè sono dei numeri e non più delle variabili. Il nostro scopo è quello
di determinare i valori di a e b che rendono minima la funzione g(a, b). Qualcuno ha
fatto questo per noi una volta per tutte fornendo delle semplici formule per il calcolo dei
coefficienti a e b della retta di regressione
Retta di regressione di Y in funzione di X
Se abbiamo n coppie di punti (xi , yi ) la miglior retta passante “vicino” ad essi, detta retta
di regressione, è quella di equazione:
Y =a+b·X
dove
b=
σxy
σx2
a = ȳ − b · x̄
1. ANALISI DI REGRESSIONE
9
Calcoliamo a e b per i dati in esame:
b=
σxy
205.04
= 2.805
=
2
σx
73.1
a = ȳ − bx̄ = 44.2 − 2.805 · 15.63̄ = 0.349
e dunque la miglior retta (nel senso della distanza quadratica) che passa per i punti (xi , yi )
è data da yi∗ = 0.349 + 2.805 · xi . Nella Figura 4 abbiamo sovrapposto ai punti (xi , yi ) la
retta dei minimi quadrati cosı̀ determinata.
●
80
yi = 0.349 + 2.805xi
●
●
●
●
●
●
●
60
●
●
●
●
●
●
y
●
40
●
●
0
20
●
●
● ●
●
●
●
●
●
●
●
● ●
5
10
15
20
25
30
x
Figura 4. Retta di regressione y ∗ = 0.349 + 2.805 x sovrapposta alle coppie di
punti (xi , yi ) della Tabella 1.
Si noti che sia il coefficiente di correlazione che quello della retta dei minimi quadrati
dipendono dalla covarianza σxy , infatti
σxy
σxy
ρ=
b= 2 .
σx · σy
σx
Essendo le quantità al denominatore sempre positive, è evidente che il segno del coefficiente
di correlazione e quello del coefficiente della retta dei minimi quadrati sono identici. Se
c’è relazione diretta tra X ed Y allora anche la retta dei minimi quadrati dovrà avere
inclinazione positiva e viceversa. Inoltre, se il coefficiente di correlazione è nullo questo
accade perché è σxy ad essere nulla e quindi anche b = 0, ovvero le Y teoriche sono
tutte pari ad a = ȳ qualsiasi sia il valore di X, ciò sta ad indicare una sostanziale non
dipendenza lineare tra le due variabili. Si veda l’esempio alla fine della precedente sezione.
Una volta in possesso della formula della retta di regressione siamo in grado di descrivere la relazione lineare tra le due variabili e quindi disponiamo di un modello interpretativo
per il fenomeno nel suo complesso. Se riteniamo attendibile il modello, tramite la retta
10
di regressione1 sappiamo calcolare quali valori assume Y in corrispondenza di ogni valore
di X, cioè siamo in grado di fare previsioni o ricostruire i valori mancanti per Y .
Per come è stato costruito, il modello basato sulla retta dei minimi quadrati fornisce
risultati attendibili solo per i valori di X compresi nell’intervallo (xmin , xmax ), cioè tra il
valore minimo e massimo dei dati per cui abbiamo calcolato il modello. Se ci spingiamo
con la previsione sotto xmin o sopra xmax il metodo dei minimi quadrati non ci fornisce
alcuna sicurezza sulla attendibilità dei valori y ∗ che determiniamo. Prendiamo l’esempio
appena svolto, l’intervallo di valori accettabili è (xmin , xmax ) = (3, 29). Se prendiamo un
valore di X negativo (età negativa?) otteniamo un valore di Y negativo (peso negativo?)
entrambi valori privi di alcuna utilità. E ancora, se prendiamo X molto grande, ad
esempio X = 50 anni, otteniamo un valore di Y pari a y50 = 0.349 + 2.805 · 50 ' 141
chilogrammi, e ancora per X = 70, y70 ' 197 valori decisamente poco credibili poiché è
sensato supporre che esista un limite fisico al peso di un individuo della specie umana.
Chiudiamo il paragrafo sottolineando che la retta di regressione passa sempre per il
baricentro della nuvola di punti, ovvero il punto di coordinate (x̄, ȳ). Infatti, se pensiamo
alla formula del termine noto della retta di regressione: a = ȳ − bx̄, si ricava direttamente
che ȳ = a+bx̄ e dunque che il punto (x̄, ȳ) è un punto che si trova sulla retta di regressione.
1.3. Bontà di adattamento. Supponendo di dover fare un uso corretto del modello
di regressione si può valutare in modo semplice e rapido se il modello cosı̀ costruito è un
buon modello applicato ai nostri dati. Sappiamo che, per costruzione, la retta dei minimi
quadrati è sicuramente la migliore che passa per i nostri punti ma possiamo ulteriormente
verificare se i nostri dati sono ben spiegati da questo modello o, viceversa, se il nostro
modello è un buon modello per i nostri dati.
Come strumento interpretativo utilizziamo i residui, cioè gli scarti ei = yi − yi∗ . Ci
dobbiamo aspettare che questi non siano troppo elevati (in termini dell’unità di misura
di Y ) e che ve ne siano un po’ positivi ed un po’ negativi ma senza troppa regolarità.
La Figura 5 mostra i residui calcolati per il nostro modello. Ad esempio, quando xi =
6 : yi∗ = 0.349 + 2.805 · 6 = 17.179 mentre i nostri dati contengono l’informazione yi = 14.
Quindi il residuo è pari a ei = yi − yi∗ = 14 − 17.179 = −3.179. La Figura 5 evidenzia
un buon comportamento dei residui: ve ne sono alternativamente sopra e sotto lo zero
e distribuiti in modo non sistematico. Situazioni in cui i residui con lo stesso segno si
concentrano tutti in una zona oppure si ripetono in modo sistematico (come mostrato in
Figura 6) sono indicatori di una distorsione indotta dal modello matematico della retta
di regressione. In tal caso, benché la retta di regressione sia la migliore tra quelle passanti
per i punti, è probabilmente un modello interpretativo sbagliato per i nostri dati.
Questa analisi grafica dei residui è sempre consigliabile in prima battuta ma, al solito,
vedremo come quantificarla con un opportuno indice.
1L’analisi
di regressione deve il suo nome ai primi studi di questo tipo condotti da Galton. Lo studioso
era interessato a prevedere l’altezza di alcuni individui primogeniti in relazione a quella dei propri padri.
Sulla base di un cospicuo campione, Galton determinò che padri alti generavano figli più bassi e padri
bassi figli più alti concludendo che l’altezza media regrediva di padre in figlio. E a ben pensarci se non
fosse cosı̀ saremmo ora tutti esseri giganti o microscopici!
20
1. ANALISI DI REGRESSIONE
11
●
15
●
10
●
●
●
residui
5
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
−5
●
●
●
●
●
−10
●
●
●
●
−15
●
●
0
5
10
15
20
25
30
i
Figura 5. Grafico dei residui ei = yi∗ − yi per i dati (xi , yi ) della Tabella 1 e
la retta di regressione y ∗ = 0.349 + 2.805 x.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
residui
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
residui
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
i
i
Figura 6. Grafici dei residui “sospetti”: in quello di sinistra il modello prima
sovrastima (yi∗ > yi ) e poi sottostima (yi∗ < yi ) i dati reali; nell’altro il modello
sovrastima al centro e sottostima negli estremi.
Come ultima nota ricordiamo che mentre il coefficiente di correlazione lineare segnala
solo il segno e l’intensità di una eventuale relazione lineare (bidirezionale) tra Y ed X,
quando si studia la regressione, cioè si costruisce un modello attraverso la retta dei minimi
quadrati, si sottointende implicitamente una relazione di causalità tra X ed Y 2.
2Deve
essere ben chiaro che le relazioni Y = f (X) e X = f (Y ) non sono la stessa relazione poiché nel
primo caso è X a determinare i valori di Y attraverso f (·) mentre nel secondo caso la relazione causale
è esattamente opposta. Immaginiamo che X rappresenti la statura e Y il peso e che il coefficiente di
12
Un altro tipico tranello dell’analisi di regressione è che il metodo non permette di
stabilire se la relazione funzionale (di causa-effetto) che si sta studiando ha realmente
significato. Un classico esempio che, dati alla mano, ognuno può verificare, è che la
correlazione tra la crescita giornaliera dei capelli di un individuo e la deriva dei continenti,
cioè lo scorrere delle placche terrestri sul fondo magmatico, è molto elevata. Si potrebbe
quindi creare un modello per spiegare la deriva dei continenti scegliendo come X la crescita
giornaliera dei capelli ed Y lo spostamento annuale delle placche continentali. Benché il
modello sia palesemente privo di significato, la retta di regressione ci fornisce comunque
una soluzione. Questo è sempre vero purché si scelgano due grandezze sempre crescenti
e/o decrescenti.
Ricordiamo che la varianza di Y contiene i termini del tipo (yi − ȳ)2 . Aggiungendo e
sottraendo i valori yi∗ otteniamo
(yi − y ± yi∗ )2 = ((yi∗ − y) + (yi − yi∗ ))2
ora, senza entrare nei dettagli, con alcuni passaggi algebrici si ricava che
Scomposizione della varianza di Y
n
σy2
=
σ 2y
+
σe2
n
1X
1X ∗
(yi − ȳ)2 +
(yi − yi∗ )2
=
n i=1
n i=1
chiamate rispettivamente varianza dovuta alla regressione (σ 2y ) e varianza dei residui (σe2 ).
Se il modello è un buon modello, la varianza di regressione dovrà essere molto elevata in
quanto, minimizzando la funzione g(·) non abbiamo fatto altro se non minimizzare la
varianza dei residui. Ci aspettiamo quindi che sia prossimo ad 1 il valore
σ 2y
'1
σy2
e invece prossimo allo 0
σe2
' 0.
σy2
Dunque, l’indicatore da scegliere per misurare la bontà di adattamento (della retta di
regressione ai dati) è
σe2
2
R =1− 2
σy
Tanto più è alto, tanto più ci riterremo soddisfatti del nostro modello. Si può mostrare
che R2 è pari proprio a ρ2 , cosa che fa risparmiare parecchi conti! Nel nostro esempio, se
correlazione sia molto prossimo ad 1. È lecito aspettarsi che il peso sia funzione della statura (Y = f (X))
ma è molto meno verosimile credere, o far credere, che sia la statura a dipendere dal peso (X = f (Y )).
1. ANALISI DI REGRESSIONE
13
calcoliamo tutte le quantità ei = yi − yi∗ , la varianza dei residui è pari a
n
1X
σe2 =
(yi − yi∗ )2 = 67.7
n i=1
mentre σy2 = 19284.8/30 = 664.83. Otteniamo dunque
67.7
= 0.8947 = ρ2
664.83
un valore decisamente alto. La regola empirica vuole che valori di ρ2 > 0.7 indicano un
buon adattamento del modello ai dati.
R2 = 1 −
1.4. Effetto degli outlier sulla retta di regressione. Si consideri il seguente
esempio: supponiamo di aver rilevato i dati relativi a 4 aziende relativamente a due
variabili X ed Y . Riportiamo i dati nella tabella sottostante e disegnamo il grafico di
dispersione con la relativa retta di regressione.
xi yi
1 4
1 3
2 3
2 2
1+1+2+2
1+1+4+4
x̄ =
= 1.5 σx2 =
− 1.52 = 0.25
4
4
4+3+3+2
16 + 9 + 9 + 4
ȳ =
= 3 σy2 =
− 32 = 0.5
4
4
4+3+6+4
−0.25
σxy =
− 1.5 3 = −0.25 ρxy = √ √ = −0.71
4
.25 .5
−0.25
= −1 a = 3 − (−1) 1.5 = 4.5
b=
0.25
Supponiamo ora di aggiungere un ulteriore dato ai 4 rilevati ottenendo la seguente tabella
xi yi
1 4
1 3
2 3
2 2
8 8
ricalcoliamo tutto quanto ci serve per fare l’analisi di regressione
1+1+2+2+8
1 + 1 + 4 + 4 + 64
x̄ =
= 2.8 σx2 =
− 2.82 = 6.96
5
5
4+3+3+2+8
16 + 9 + 9 + 4 + 64
ȳ =
= 4 σy2 =
− 42 = 4.4
5
5
4 + 3 + 6 + 4 + 64
5
√
σxy =
− 2.8 4 = 5 ρxy = √
= 0.9
5
6.96 4.4
10
6
8
●
y
y
6
8
10
14
●
●
●
0
0
●
●
2
●
2
●
4
4
●
0
2
4
6
x
8
10
0
2
4
6
8
10
x
Figura 7. Aggiungendo un solo punto alla nuvola di punti del grafico di sinistra, la retta di regressione cambia inclinazione e il coefficiente di correlazione
passa da -0.71 a + 0.9! Eppure è evidente che il punto che abbiamo aggiunto non
ha nulla a che vedere con l’insieme di dati originario. Il punto di coordinate (8,8)
è dunque un outlier che, come si vede, ha conseguenze disastrose sull’analisi di
regressione. Ecco perché è sempre consigliabile visualizzare i dati in un diagramma di dispersione. La linea continua è la retta y = 4.5 − x e quella tratteggiata
è y = 1.98 + 0.72 x.
b=
5
= −0.72 a = 4 − 0.72 2.8 = 1.98
6.96
Prima di analizzare i grafici della Figura 7 osserviamo cosa è accaduto. L’aggiunta di un
solo dato a quelli precedenti ha portato ad uno stravolgimento dei risultati. Il coefficiente
di correlazione cambia di segno e addirittura assume un valore più elevato (passa da -0.71 a
0.9). Questo implica che le due rette di regressione avranno inclinazione diversa. Andiamo
ora a vedere i grafici della Figura 7. Quello che si può notare è come il valore (8,8), cioè
il dato aggiunto, è di fatto un valore anomalo (un outlier) e l’effetto che ha sull’analisi
di regressione è quello di spostare notevolmente la retta di regressione, come una sorta
di attrattore. È chiaro che il modello determinato dopo l’aggiunta del punto (8,8) non
ha alcuna validità interpretativa. Se avessimo osservato preventivamente il diagramma di
dispersione ci saremmo accorti per tempo che quel punto non è rappresentativo del nostro
fenomeno e quindi avremmo dovuto tenerne conto, ad esempio, eliminandolo dall’analisi.
La morale di quanto detto è che è sempre meglio prima visualizzare i dati tramite il
grafico di dispersione per poter valutare l’opportunità di eseguire un’analisi di regressione
e/o, eventualmente, restringere l’analisi ad un sottoinsieme di osservazioni trattando gli
outlier separatamente.
1.5. Cambiamenti di scala. Molto spesso però guardando il grafico dei dati rilevati
ci si accorge che questi non si distribuiscono neppure lungo una retta del tipo Y = a+b X.
1. ANALISI DI REGRESSIONE
15
Anno 1975 1976 1977 1978 1979 1980 1981
Casi
21 15.5 11.7 10.7 9.2
8.9
8
Tabella 2. Numero medio di casi di febbre tifoidea dal 1975 al 1981.
16
14
●
12
incidenza
18
20
●
●
10
●
●
●
8
●
75
76
77
78
79
80
81
anni
Figura 8. Andamento del numero di casi di febbre tifoidea (Y ) negli anni
1975-1981 (X) . L’andamento non può considerarsi di tipo lineare.
Si considerino i dati della Tabella 2, ottenuti da un’indagine epidemiologica condotta
a seguito della somministrazione di una nuovo tipo di vaccino ritenuto efficace nella cura
del contagio da febbre tifoidea.
Dalla Figura 8 appare evidente come l’eventuale relazione che lega Y ad X non possa
essere di tipo lineare. Il calcolo del coefficiente di correlazione risulta però essere molto
elevato: ρ = −0.91 indicando una forte correlazione negativa tra le variabili. Il grafico in
effetti evidenzia che al crescere di X (cioè con il passare degli anni) decresce l’incidenza
della febbre da tifo (Y ). Effettuiamo comunque il calcolo dei coefficienti della retta di
regressione ed otteniamo che b = −1.95 e a = 164.5. Tracciamo anche il grafico della
retta di regressione e quello dei residui (v. Figura 9).
L’andamento che lega Y ad X sembra più prossimo ad un andamento di tipo esponenziale negativo, cioè del tipo Y = e−X . Se vogliamo ricondurci ad una forma funzionale
di tipo lineare possiamo passare ai logaritmi naturali, cioè scrivere
log(Y ) = log e−X = −X
e quindi pensare ad un modello di regressione lineare del tipo
log(Y ) = a + b X
16
●
2
20
3
●
16
1
●
●
0
14
residui
●
●
12
●
−1
incidenza
18
yi = − 1.95 + 164.5xi
●
●
●
−2
10
●
●
8
●
75
76
77
78
79
80
●
81
1
2
3
4
anni
5
6
7
i
Figura 9. Retta di regressione e grafico dei residui per i dati della Tabella 2.
Entrambi evidenziano un pessimo adattamento del modello ai dati.
trascurando il segno “-” che verrà incluso nel calcolo dei coefficienti a e b. Abbiamo
semplicemente effettuato un cambiamento di scala sulla variabile Y (si confronti la Figura
10).
2.8
3.0
●
2.6
log(y)
●
2.4
●
●
2.2
●
●
●
75
76
77
78
79
80
81
anni
Figura 10. A seguito di un cambiamento di scala da Y a log(Y ) i dati sembrano
“stirarsi” lungo una retta.
Se calcoliamo la correlazione tra log(Y ) ed X otteniamo un coefficiente di correlazione
pari a −0.96 decisamente più elevato di quello tra X ed Y .
1. ANALISI DI REGRESSIONE
17
Effettuiamo quindi il calcolo dei coefficienti della retta di regressione usando log(yi )
al posto di yi ed otteniamo come soluzione
log(Y ) = −0.152X + 14.27 .
Se vogliamo ottenere la funzione in termini di Y anziché di log(Y ) basta passare all’esponenziale ed otteniamo
Y = elog(Y ) = e−0.152X+14.27
16
14
●
12
incidenza
18
20
●
●
10
●
●
●
8
●
75
76
77
78
79
80
81
anni
Figura 11. I dati (xi , yi ) cui è stata sovrapposta la curva y = e−0.152 x+14.27
(linea continua) sembra essere migliore della retta di regressione y = −1.95x +
164.5 (linea tratteggiata).
Il modello è ulteriormente affinabile provando altre trasformazioni ma già cosı̀ ha un
elevato valore interpretativo. Supponiamo di voler fare una previsione del numero medio
di casi di tifo per il 1985 utilizzando i due modelli otteniamo:
y = −1.95x + 164.5 = −1.95 · 85 + 164.5 = −1.25
lineare
−0.152x+14.27
−0.152·85+14.27
y=e
=e
= 4.6
esponenziale
È evidente come il primo modello fallisca clamorosamente la previsione mentre il secondo
offra un dato verosimile. In aggiunta a questo, mettiamo ancora una volta in evidenza che
l’attendibilità del modello di regressione è sensibile al campo di valori su cui effettuiamo i
nostri calcoli (xmin , xmax ). Infine, la relazione cui giungiamo attraverso i nostri calcoli deve
avere un significato rispetto ai dati per cui essa è stata determinata. Dal punto di vista
18
X
Y
1900 1935 1965 1980
500 325 230 180
Tabella 3. Consumo medio annuale di pane procapite.
epidemiologico, cosı̀ come la diffusione di alcuni tipi di virus è di tipo esponenziale3 è lecito
aspettarsi che il regredire della diffusione di un’epidemia a seguito di un vaccino efficace
avvenga con velocità anch’essa esponenziale. Quindi il secondo modello, in quest’ottica,
appare più appropriato a descrivere il fenomeno in esame.
a)
b)
c)
d)
e)
f)
g)
h)
Passi di un’analisi di regressione
Decidere chi è la variabile dipendente (Y ) e quale quella indipendente (X) nel
modello Y = a + b X. Cioè chi dipende da cosa?
Rappresentare i dati su un grafico di dispersione.
Se i dati non appaiono allineati, provare ad effettuare cambiamenti di scala.
Calcolare l’indice di correlazione ρ, se è troppo vicino a 0, non eseguire l’analisi.
Calcolare i coefficienti della retta di regressione.
Tracciare il grafico dei residui, se compaiono evidenti regolarità il modello è
sospetto.
Tracciare la retta di regressione e calcolare R2 = ρ2 . Se R2 < 0.75 il modello non
è utilizzabile, provare a ripartire dal punto c).
Utilizzare con cautela il modello per le previsioni a lungo termine.
1.6. Esercizi riepilogativi.
Esercizio 1. Si supponga di aver osservato i consumi medi annuali procapite di pane
Y (in kg) di una certa popolazione in 4 distinti anni. I dati sono riportati nella Tabella
3. Studiare l’andamento del consumo di pane nel tempo tramite un modello di regressione
e ricostruire i dati mancanti per l’anno 1920. È possibile prevedere quale sarà il consumo
di pane nel 2020 e nel 2030?
Per prima cosa rappresentiamo i dati in grafico di dispersione come in Figura 12. Dal
grafico si nota un evidente allineamento dei dati lungo una retta con inclinazione negativa.
3Le
stesse osservazioni possono farsi per gli ormai famosi virus informatici.
●
230
kg
19
●
325
500
1. ANALISI DI REGRESSIONE
180
●
●
1900
1935
1965
1980
anni
Figura 12. Consumo di pane.
Prima di calcolare le stime dei minimi quadrati verifichiamo se esiste correlazione tra
le variabili X ed Y calcolando l’indice ρ.
1900 + 1935 + 1965 + 1980
= 1945
x̄ =
4
500 + 325 + 230 + 180
ȳ =
= 308.75
4
19002 + 19352 + 19652 + 19802
σx2 =
− 19452 = 937.5
4
5002 + 3252 + 2302 + 1802
σy2 =
− 308.752 = 14904.69
4
1900 · 500 + 195 · 325 + 1965 · 230 + 1980 · 180
σxy =
4
− 1945 · 308.75 = −3712.5
Abbiamo a disposizione tutto quello che ci serve per il calcolo di ρ, quindi
σxy
−3712.5
√
= −0.993
ρ=
=√
σx σy
937.5 14904.69
che, come ci aspettavamo, ci conferma una relazione di quasi linearità (il coefficiente di
correlazione è circa pari ad uno) e di tipo inverso (segno di ρ e di σxy negativo).
Calcoliamo i coefficienti della retta di regressione Y = a + b X
σxy
b = 2 = −3.96
a = ȳ − b x̄ = 308.75 − (−3.96) · 1945 = 8010.95
σx
500
20
●
325
yi = 8010.95 − 3.96xi
●
●
0
kg
180
●
1900
1935
1965
2023
anni
Figura 13. Grafico della retta di regressione Y = 8010.95 − 3.96X. Si noti
che mentre è lecito ricostuire i valori mancanti nella serie temporale, non lo è
spingersi troppo in avanti con le previsioni, in quanto il modello per valori di X
troppo elevati fornirà consumi di pane negativi!!!
quindi la retta di regressione assume la forma Y = 8010.95 − 3.96 · X. Tracciamo ora la
retta sul grafico a dispersione come nella Figura 13. La retta passa praticamente per i
punti ed infatti l’indice di bontà di adattamento risulta essere pari a ρ2 = −0.9933 = 0.986.
Rispondiamo ora alle domande del testo dell’esercizio. Ricostruire il valore del dato
relativo al consumo di pane per il 1920 vuol dire calcolare il valore y1920 = 8010.95 − 3.96 ·
1920 = 407.75 kg. Occupiamoci ora della previsione e calcoliamo y2020 e y2030 . Già dal
grafico si evidenziano potenziali problemi, infatti mentre y2020 = 8010.95 − 3.96 · 2020 =
11.75 kg è un valore opinabile ma coerente con il modello, invece y2030 = 8010.95 −
3.96 · 2030 = −27.85 kg è un valore assurdo per il modello. Come si vede il modello di
regressione cessa di essere un utile strumento di analisi se ci spingiamo troppo lontano
dai dati con cui è stato calcolato. Per il problema in esame ci si può aspettare che il
consumo di pane non scenda oltre una certa soglia o che per qualsiasi motivo possa invece
tornare a crescere (ad esempio perché cambiano le abitudini alimentari a seguito di un
qualche effetto “moda”). Vediamo, per curiosità qual è l’anno oltre il quale non possiamo
spingerci per fare previsioni, cioè l’anno in cui Y diventa pari a 0. Basta risolvere la
semplice equazione
8010.95
0 = 8010.95 − 3.96 x
x=
= 2022.967 ' 2023
3.96
cioè oltre il 2023 il modello non può più essere impiegato.
1. ANALISI DI REGRESSIONE
21
70 80 100 110 120 140 150 160 170
4.9 5.1 5.9 6.4 7.1 8.6 9.4 10.6 12
Tabella 4. Analisi consumi/velocità.
12
X (km/h)
Y (lt/100km)
11
●
9
●
8
●
●
7
consumi (lt/100km)
10
●
5
6
●
●
●
●
80
100
120
140
160
velocita' (km/h)
Figura 14. Grafico di dispersione per i dati della Tabella 4.
Esercizio 2. Supponiamo di aver rilevato su 9 autovetture le velocità e i consumi corrispondenti cosı̀ come riportato nella Tabella 4. Cercare un modello sensato per spiegare
la relazione tra le variabili X ed Y .
Disegnamo il grafico di dispersione per questi dati come in Figura 14. Non si può certo
ipotizzare una relazione di tipo lineare tra i consumi e la velocità. Verifichiamo comunque
con il calcolo diretto queste sensazioni.
x̄ = 122.22
ȳ = 7.78
144400
σx2 =
− 122.222 = 1106.17
9
594.88
σy2 =
− 7.782 = 5.60
9
9247
σxy =
− 122.22 · 7.78 = 76.83
9
12
22
11
●
9
●
8
●
●
7
consumi (lt/100km)
10
●
5
6
●
●
●
●
80
100
120
140
160
velocita' (km/h)
Figura 15. Grafico di dispersione e retta dei minimi quadrati y = −0.71 +
0.06945 x per i dati della Tabella 4.
Abbiamo a disposizione tutto quello che ci serve per il calcolo di ρ e dei coefficienti della
retta di regressione, quindi
76.83
σxy
√
=√
ρ=
= −0.976
σx σy
1106.17 5.60
σxy
76.83
b= 2 =
= 0.06945
σx
1106.17
a = ȳ − b x̄ = 7.78 − 0.069 · 122.22 = −0.71
Il coefficiente ρ ha un valore elevato ma può essere migliorato ed effettivamente guardando
il grafico della Figura 15 si nota un comportamento non buono del modello che sottostima
i dati iniziali e finali (basse e alte velocità) mentre sovrastima quelli centrali.
Un’analisi superficiale dei dati sembra evidenziare un andamento esponenziale dei
consumi in relazione alla velocità, quindi un modello del tipo
Y ∼ λeγ·X
da cui è possibile ricavarne un modello lineare in X passando ai logaritmi ln(y) = a + bX.
Se proviamo a calcolare l’indice ρ tra ln(y) ed x otteniamo ρ = 0.992 che risulta essere
notevolmente più elevato di quello tra y ed x. Procediamo quindi al calcolo di ρ e dei
coefficienti della retta di regressione ln(yi ) = a + b xi . Indichiamo con zi = ln(yi ) per cui
la nuova tabella dei dati diventa
xi
yi
zi
70
80
100
110
120
140
150
160
170
4.9
5.1
5.9
6.4
7.1
8.6
9.4
10.6
12
1.589 1.629 1.775 1.856 1.960 2.152 2.241 2.361 2.485
23
12
1. ANALISI DI REGRESSIONE
11
●
9
●
8
●
●
7
consumi (lt/100km)
10
●
5
6
●
●
●
●
80
100
120
140
160
velocita' (km/h)
Figura 16. Modello di regressione Y = e0.893+0.0091 X (linea continua) e Y =
−0.71 + 0.06945 X (linea tratteggiata).
da cui si ricava che
18.048
= 2.005
9
37.01825
σz2 =
− 2.0052 = 0.09311
9
2296.05
σzx =
− 2.005 · 122.22 = 10.065
9
10.065
√
ρzx = √
= 0.992
1106.17 0.09311
10.065
b=
= 0.0091 a = 2.005 − 0.0091 · 122.22 = 0.893
1106.17
Quindi la retta di regressione ha equazione Z = 0.893 + 0.0091 X. Per ricondurci alla
curva che lega Y ad X basta semplicemente ricordare che z = ln(y) e quindi y = ez , per
cui la curva è quella di equazione
z̄ =
Y = e0.893+0.0091 X
Disegnamo su un unico grafico (cfr. Figura 16) la retta di regressione semplice e questa
nuova curva per convincerci di quanto verificato numericamente.
Esercizio 3. La tabella seguente riporta i risultati di 7 prove di frenata relative ad
altrettante velocità :
50
24
●
7
●
6
40
●
●
20
5
●
4
y
z= y
30
●
●
●
3
●
10
●
●
●
●
●
40
50
60
70
80
90
x
40
50
60
70
80
90
x
Figura 17. Grafico dei punti relativi alla velocità X e allo spazio di frenata
Y . Come si vede nel grafico di destra i punti sembrano essere più allineati che in
quello di sinistra.
Vettura
Velocità X (km/h)
Spazio di frenata Y (m)
1
2
3
4
5
6
7
33 49
65
33
79
49
93
5.3 14.5 21.21 6.5 38.45 11.23 50.42
Si studi la relazione tra le due variabili proponendo un modello interpretativo per spiegare
lo spazio di frenata Y in relazione alla velocità X.
Rappresentiamo i dati su di un grafico come in Figura 17 e ci accorgiamo subito che
anche in questo caso l’utilizzo di una retta non è appropriato. Senza calcolare alcunché
pensiamo ad un altro tipo di relazione funzionale tra X ed Y . Un possibile modello
esplicativo potrebbe essere:
√
+ Y =a+b·X
e cioè
Y = (a + b · X)2
cosı̀ come raccontano i test per la patente di guida! Quindi costruiamoci la tabella
√
contenente i valori di y e disegnamo la nuova nuvola di punti (cfr. Figura 17).
Vettura
Velocità X (km/h)
Spazio di frenata Y (m)
1
2
3
4
5
6
7
33 49
65
33
79
49
93
5.3 14.5 21.21 6.5 38.45 11.23 50.42
●
7
25
50
1. ANALISI DI REGRESSIONE
●
●
y
30
5
●
●
20
4
z= y
6
40
●
●
●
3
●
●
10
●
●
●
●
40
50
60
70
x
80
90
40
50
60
70
80
90
x
2
Figura
√ 18. A sinistra il grafico di Y = (−0.246 + 0.0789 X) e a destra quello
di + Y = −0.246 + 0.0789 X. Ovviamente si tratta dello stesso grafico, dove
l’unica cosa che cambia è la scala sull’asse delle ordinate.
Calcoliamo tutte le quantità necessarie all’analisi di regressione.
401
x̄ =
= 57.286
7
29.917
= 4.274
z̄ =
7
26095
σx2 =
− 57.2862 = 446.171
7
147.609
2
− 4.2742 = 2.820
σz =
7
1960.471
σzx =
− 57.286 · 4.274 = 35.227
7
35.227
√
ρzx = √
= 0.993
446.171 2.820
35.227
b=
= 0.0789 a = 4.274 − 0.0789 · 57.286 = −0.246
446.171
Come si vede il coefficiente di correlazione ρzx è molto elevato (ρxy = 0.975) e cosı̀ sarà
per ρ2 . Non ci resta che disegnare la retta z = −0.246 + 0.0789 x oppure, sul grafico
originario, la curva di equazione y = (−0.246 + 0.0789 x)2 . Si veda a tal proposito la
Figura 18.