manuale statistica

Transcript

manuale statistica

GIUSEPPE BOARI - GABRIELE CANTALUPPI
NOTE DI STATISTICA DESCRITTIVA
E PRIMI ELEMENTI
DI CALCOLO DELLE PROBABILITÀ
GIUSEPPE BOARI - GABRIELE CANTALUPPI
NOTE DI STATISTICA DESCRITTIVA
E PRIMI ELEMENTI
DI CALCOLO DELLE PROBABILITÀ
Milano 2013
© 2013 EDUCatt - Ente per il Diritto allo Studio Universitario dell'Università Cattolica
© 2013 Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215
© 2013 e-mail: [email protected] (produzione); [email protected] (distribuzione)
© 2013 web: www.educatt.it/libri
© 2013 ISBN edizione cartacea: 978-88-6780-023-0
Questo volume è stato stampato nel mese di settembre 2013
presso la Litografia Solari (Peschiera Borromeo - Milano) - la copia elettronica della pubblicazione
è disponibile gratuitamente per il download nell’area Freebooks di EDUCatt (www.educatt.it/libri/freebook)
Sommario
1 Introduzione .............................................................................................. 1 2 Caratteri e scale di misura ......................................................................... 7 3 Caratteri e loro rappresentazione grafica ............................................... 23 4 Classificazione congiunta di due caratteri ............................................... 49 5 Indici di posizione (1) ............................................................................... 53 6 Indici di posizione (2) ............................................................................... 83 7 Variabilità (1) ........................................................................................... 97 8 Variabilità (2) ......................................................................................... 107 9 Variabilità (3) ......................................................................................... 121 10 Variabilità (4) ......................................................................................... 127 11 Indici di forma ........................................................................................ 139 12 Rapporti statistici ................................................................................... 149 13 Analisi statistica bivariata ...................................................................... 169 14 Connessione (1) ..................................................................................... 179 15 Connessione (2) ..................................................................................... 189 16 Studio della dipendenza se la variabile dipendente è di tipo quantitativo ........................................................................................... 203 17 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (1) ...................................................................................... 215 18 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (2) ...................................................................................... 227 19 Modelli polinomiali ................................................................................ 239 20 Modelli riconducibili al modello retta ................................................... 257 21 Esempio stima modelli in presenza di tabella a doppia entrata ........... 265 22 Esempio stima modelli in presenza di coppie di dati ............................ 275 23 Regressione lineare multipla ................................................................. 285 24 Calcolo delle probabilità (1) ................................................................... 297 25 Calcolo delle probabilità (2) ................................................................... 311 26 Calcolo delle probabilità (3) ................................................................... 323 27 Calcolo delle probabilità (4) ................................................................... 333 28 Richiami di matematica ......................................................................... 345 29 Riferimenti bibliografici ......................................................................... 357 Sezione 1
Introduzione
1.1
Indice
1
Che cosa è la Statistica
1
2
Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo
2
3
La variabilità accidentale
2
4
Il modello statistico
4
5
Caratterizzazione della componente di errore
4
6
Le branche della statistica
5
1.2
1 Che cosa è la Statistica
• Diramazione delle Matematiche
• Ausilio alle discipline sperimentali
– Fisica
– Chimica
– Biologia
– Medicina
– Economia
Categorie di discipline scientifiche
• DEDUTTIVE
– matematica
– geometria
• INDUTTIVE
– fanno ricorso alle indagini sperimentali empiriche
1.3
1
2 Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo
Approccio deduttivo
1. Assunzione preliminare di certi enti e di alcune loro proprietà
assiomi
2. Acquisizione di altri contenuti per via deduttiva dagli assiomi
teoremi
1.4
Approccio induttivo (sperimentale)
osservazioni / nuovi fatti
IPOTESI
conferma sperimentale
NO
SI
TEORIA (formulazione/aggiornamento)
(il ciclo si riattiva quando si presentano fatti nuovi)
1.5
3 La variabilità accidentale
La statistica si interessa in particolare della variabilità accidentale
variabilità accidentale
esistono fenomeni ripetitivi caratterizzati da molteplici manifestazioni
(risultati NON prevedibili con certezza)
1.6
fenomeni caratterizzati da ripetitività virtuale
possono idealmente essere ripetuti nelle stesse condizioni sperimentali
lancio di una moneta (T;C)
∼ 50%T
∼ 50%C
cause di variabilità:
non si ripete l’esperimento nelle stesse condizioni
2
1.7
Riduzione delle fonti di variabilità
1. faccia della moneta posta in alto (T )
∼ 55%T
T
∼ 45%C
2. faccia della moneta posta in alto (T ) e supporto di lancio
∼ 80%T
T
∼ 20%C
3. faccia della moneta posta in alto (T ) e supporto di lancio e piano di atterraggio
∼ 99%T
T
∼ 1%C
1.8
Fenomeni caratterizzati da ripetitività attuale
si sono già manifestati: i risultati che si osservano sono caratterizzati da una certa variabilità (molteplicità).
Indagine sul reddito degli abitanti di una certa città a una certa data
classi di reddito
0 20
20 30
superiore a 30
frequenza
10%
60%
30%
la variabilità dipende dalle differenti caratteristiche dei soggetti esaminati
1.9
considerando altri fattori, con cui specificare meglio le unità statistiche, si può ridurre la varibiabilità
1. soggetti con età 40 50
classi di reddito frequenza
0 20
2%
20 30
33%
superiore a 30
65%
2. soggetti con età 40 50 e professione impiegato
0 20
2%
20 30
13%
superiore a 30
85%
3. soggetti con età 40 50 e professione impiegato e titolo di studio laurea
0 20
0%
20 30
5%
superiore a 30
95%
1.10
3
4 Il modello statistico
MODELLO ≡ MECCANISMO GENERATORE
• descrive i possibili risultati (osservazioni)
• nell’ipotesi di ripetere più volte l’esperimento
1.11
Esempio 1. Relazione fra il peso (Y ) e la sola altezza (X) di n individui adulti
modello:
yi = a + bxi + ei , i = 1, . . . , n
Y = f (X) + E = legge + errore accidentale
100
90
80
70
60
50
40
150
160
170
180
190
200
1.12
5 Caratterizzazione della componente di errore
Accidentalità
• non prevedibile con certezza
• non presenta sistematicità
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
● ●●
●
●
●
●
●
●
●
●● ●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
● ●● ● ● ●
●
●●
●
●
●
●
●●
●
● ●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●● ● ●●
●●
● ● ● ●●●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●● ●
●
● ●
●
●
●
●
● ● ●
●
●
●
●● ●
●●
●
●
● ●●● ●●
●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
● ●
●●
●
●● ●●
●● ●
●●
●
●
●
●
● ●●
●● ● ● ●
● ●●
●
● ●
●
● ●
●●
●
●
●
●
● ● ●
● ● ●
●
● ●●
●● ●
●
●●
●
● ●
●
●
●
●
● ●●
●
●
●●●
●
●
●
●
●
● ● ●● ● ● ● ● ●
●
●●
●
●●
●● ● ●
●
●
●
●
●
●
●
● ● ●
●●
●●
●● ●
● ● ●●
●
●
●
● ●●
●●● ●●
●●
● ● ●●●
●
●
●
● ●
●
● ●
●● ●
● ●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ● ●● ● ●
●●
● ●
●
●
●
●
●● ●● ● ●
●
●
●● ● ● ●
●●
●
●●
●● ●
●●
● ● ●
●● ●
●
●●
●
●
● ●
●
●
●● ●
●
●
●● ● ● ●
● ● ●●
● ●●
● ●
●●
●
●
●
●●
● ●●
●
●
●
●
● ● ● ●
●
●
●
●
●●
●
●
●
● ●●
●
●●
●
●
●● ● ● ●
●●
● ●
● ●
●
●● ● ●
●
●
●●● ● ●
● ●
●●
● ●●● ● ●
● ●● ●
●
●
●
●
● ● ● ● ●●
●
● ● ● ●●● ●
●
● ●
●
●●●
●
● ●
● ● ●
●
●●
●● ●● ● ●● ● ● ● ●●
● ●
●● ●
●
●●
●
● ● ●
●
●
●
●●
●● ●
●
●
●●
●●
● ●
●●
● ●
● ●
●● ●
● ●●
●
●
●
●
● ●
● ●
● ● ● ●● ● ●
●
●
●
●
●
●●
●
●
●
●
●
● ● ●
●
●
●
● ●●
● ●
●●
● ●● ●
●
●●
●
●
●
●
●● ●
● ●
● ●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●●
●
●
●
● ● ● ● ●●
● ●●
●
●
●
●
●
● ●●
●
●
●
●
●
● ●●
●
●
●
●
●
●● ●● ●
●
●
●
●●
●
● ●
●● ●
●
●
●
●
●
● ●
●●
●
●●
● ●●
●
●
● ●
●
●
● ●
●
●
●●
●
●
●
●
●
● ●
●
● ●
●
●
●
● ●
●
●
●
●●
● ●
●
●
● ●
●
●
●●
●●
●● ●
●
●
●
● ●● ●
●
●
● ●●
● ●
●
● ●
●
●
●
●
●● ●
●
●
●● ●
●
● ●
●
● ●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
● ●● ● ● ●
● ● ● ●●
●
●
●
●
●
●
●
●
●●
●
● ●
●●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●● ● ●●
●●
●●
● ● ● ●●●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●●
●
●●● ●
●
● ●
●
●
●
●
●
● ● ●
●
●
●
●
●● ●
●●
●
●
● ●●● ●●
● ●● ●●● ●
●
●
●
●
●
●
●● ● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●● ●
●● ●
●●
●
●
●
●
●
● ●●
●● ● ● ●
● ●●
●
●
● ●
●
● ●
●●
●
●
●
●
● ● ●
● ● ●
●
● ●●
●● ●
● ● ●
●
●●
●
●
● ●
●
●
●
● ●●
●
●
●●●
●
●●
●
●
● ● ●● ● ● ● ● ●
●
●
●●
●
●●
●● ● ●
●
●
●
●
●
●
● ● ●
●
●●
●●
●● ●
● ● ●●
●
●
●
● ●●
●●● ●●
●●
● ● ●●●
●
●
●
● ●
●
● ●
●● ●
● ●●●
●
●
●●
●
●
●
●
● ● ●
●
●
●
● ●● ●●●● ● ●
●●
● ●
●
●
●● ● ●
●
●
●
●
●
●
●
●
●
●● ●
●●
●
●● ●
●
●
● ● ●
●● ●
●
● ●●
●
●
● ●
●
●
●● ●
●
●
●● ● ● ●
● ● ●●
● ●●
● ●
●●
●
●
●●
● ●●●
●
●
●
●
● ● ● ●
●
●
●
●
●
● ● ●● ●
●
● ●●
●
●
●
●● ● ● ●
●●
● ●
●● ● ●
● ●
●
●
●● ●
●
●● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ● ●●
●
● ● ● ●●● ●
●
● ●
●
●●●
●
● ●
● ● ●
●
●●
●● ●● ● ●● ● ● ● ●●
● ●
●● ●
●
●●
●
● ● ●
●
●
●
●●
●● ●
●
●
●●
●●
● ●
●●
● ●
● ●
●● ●
● ●●
●
●
●
●
● ●
● ●
● ● ● ●● ● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
● ●
● ●● ●● ● ●
●
●●
●
●
●
●
●● ●
● ●
● ●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●●
●
●
●● ● ●
●
●● ●
●
●
● ●●
●
●●
●
●
●
● ● ● ● ●●
● ●●
●
●
●
●
●
● ●●
●
●
●
●
● ●●
●
●
●
●
●
●
●● ●● ●
●
●
●
●●
●
● ●
●● ●
●
●
●
●
●
● ●
●●
●
●●
● ●●
●
●
● ●
●
●
● ●
●
●
●●
●
●
●
●
●
● ●
●
● ●
●
●
●
● ●
●
●
●
●●
● ●
●
●
● ●
●
●
●●
●●
●● ●
●
●
●
● ●● ●
●
●
● ●●
● ●
●
● ●
●
●
●
● ●
●
●● ●
●
●
●
●
● ●
●
● ●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
caratteristica minimale:
compensazione tra errori positivi e negativi (somma nulla)
1.13
COMPITO DELLA STATISTICA
• identificazione del modello più prossimo ai dati
• verifica della validità del modello
4
FONTI DI INDETERMINATEZZA
• Imperfetta specificazione del modello
– forma delle relazioni presenti nel modello
– variabili esplicative incluse nel modello
• Imprecisione degli strumenti di misura
COME AFFRONTARE LA VARIABILITÀ
• punto di vista deterministico
cerca di eliminare la variabilità individuandone le fonti
• approccio statistico
separa la componente strutturale da quella aleatoria (segnale/rumore)
f (X)
la legge
da
dall’
E
errore accidentale
1.14
Osservazione
a volte l’aleatorietà è parte essenziale dell’esperimento
(es. giochi d’azzardo)
Considerazione conclusiva
Si accetta l’indeterminatezza quando:
• l’eccessiva analiticità diventa troppo onerosa
• la parte strutturale f (x) non è sovrastata dall’errore (rumore)
compito della statistica
PREVEDERE al meglio il valore della generica realizzazione del fenomeno oggetto di
studio
1.15
6 Le branche della statistica
Statistica descrittiva
sintesi delle osservazioni campionarie o dei dati censuari
Statistica probabilistica
studio del meccanismo generatore delle realizzazioni campionarie
(modello → campione)
Statistica inferenziale
dal campione al suo meccanismo generatore
(campione → modello)
1.16
5
Sezione 2
Caratteri e scale di misura
2.1
Indice
1
Le fasi di una ricerca
7
2
La rilevazione dei dati
7
3
Lo spoglio dei dati
13
4
Terminologia essenziale
13
5
Tipi di caratteri e scale di misura
14
6
I caratteri qualitativi
14
7
I caratteri quantitativi
7.1 Variazione assoluta, misura relativa e variazione relativa . . . . . . . . .
17
18
8
Scale per caratteri quantitativi
19
9
Alcune considerazioni sulle scale di misura
21
2.2
1 Le fasi di una ricerca
1. Identificazione del problema
2. Astrazione
• individuazione variabili osservabili (proxy)
3. Rilevazione
• sperimentazione, questionari, . . .
4. Spoglio dei dati
(a) organizzazione dati
(b) classificazione
5. Elaborazione dei dati
(a) sintesi
(b) interpretazione
(c) inferenza
Osservazione
una prima statistica consiste nel costruire le tabelle riassuntive
7
2.3
2 La rilevazione dei dati
Può essere effettuata tramite:
• sperimentazione
tipicamente in ambito industriale
• questionari
– anche in questo caso spesso si stanno effettuando delle ’sperimentazioni’, ad
esempio con riferimento alla valutazione del gradimento di nuove caratteristiche di un prodotto/servizio
– il questionario ha anche una finalità di comunicazione
• basi dati aziendali
interrogazioni dei data base aziendali con procedure SQL
• basi dati istituzionali:
Istat, Banca d’Italia, Uffici comunali dati statistici
• Internet, social networks, tweet (analisi testuali)
8
2.4
HELP US TO IMPROVE THE MUSEUM
AND BE OUR GUEST FOR A NIGHT!
Knowing your opinion about your visit to Palazzo Reale
will help us to satisfy better your expectations and the other visitors’ ones
FILL IN THIS QUESTIONNAIRE in every form, assigning a value between 1 and 7 when prompted:
/
.
-
ɷɷɷɷɷɷɷ
I don’t agree 1 2 3 4 5 6 7 I agree
INSERT YOUR E-MAIL ADDRESS AT THE END AND WE WILL SEND YOUR INVITATION
TO BE OUR GUEST AT THE NEXT OPENING AT PALAZZO REALE
Date of the visit: . . . . . . . . . . . . . . . . . .
ɷ Morning ɷ Afternoon
Personal information
Your visit at the museum
1. Gender:
ɷM
ɷF
1. Who have you visited the museum with?
ɷ Alone
ɷ With your family/friends
ɷ Group
2. Age: …………………….
2. Is this the first time you visit Palazzo Reale?
ɷ Yes
ɷ No
3. Italian city / Foreign state of residence: ………………
4. Title of study:
ɷ Elementary school grade
ɷ Junior high school grade
ɷ Superior high school grade
ɷ University degree
ɷ Other
3. Why did you choose to visit this exhibition?
ɷ Personal interest for the artist/the works
ɷ Study or professional interest
ɷ Part of a tour of the city/country
ɷ To take here some parents/friends
ɷ Other (specify:…………………….)
5. Job:
ɷ Student
ɷ Employee/Professional
ɷ Pensioner
ɷ Unemployed/other
4. How many exhibition did you visit during the last 12
months?
ɷ None
ɷ From 1 to 3
ɷ From 4 to 6
ɷ 6 and more
1. Information availability
2. Impression at the visitor’s arrival
1. Information about the exhibition are easily available
1. The waiting times to enter the exposition are acceptable.
2. How did you notice about the exhibition?
ɷ a newspaper article
ɷ exhibition website
ɷ manifests
ɷ from a friend
ɷ Other (specify: . . . . . . . . . . . . . . . . . . )
2. The number of operating counters is proportionate to visitors’
flux.
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
3. Was you aware of an on-line booking service?
ɷ Yes
ɷ No
• If yes, I made use of it
ɷ Yes
ɷ No
• If yes, the service is easy to use.
3. Did you use the Palazzo Reale website?
ɷ No
ɷ Yes
• If yes, the site is accessible.
• If yes, the site is acceptably complete.
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
4. The presence of contact personnel is proportionate to visitors’
flux.
ɷɷɷɷɷɷɷ
Continua nella pagina seguente Ⱥ
2.5
9
3. Logistical aspects
4. Expositive route
1. The main seat of the Palazzo is easily locatable.
1. The hall sequence provides a well-structured visit.
2. Opening days are suitable to your requirements.
2. The works positions is proper to the type of exposition
(thematic, monographic, etc).
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
3. Opening hours are suitable to your requirements.
I don’t’ agree 1 2 3 4 5 6 7 I agree
ɷɷɷɷɷɷɷ
3. Information about the works are easily found near the works
themselves
ɷɷɷɷɷɷɷ
4. The fee is proportionate to the exhibition’s offer.
ɷɷɷɷɷɷɷ
4. You visited the museum:
ɷ Using a guided tour
ɷ Using an audio guide
ɷ Using a printed guide
ɷ Without a guide
5. The system of signs provides complete information.
ɷɷɷɷɷɷɷ
6. Have you found some deficiency you have to report?
ɷ No
ɷ Yes
• If yes, the deficiency management is working
properly.
5. Guide services are useful.
ɷ I did not use the service
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷ I did not report the deficiency
5. Hall personnel
6. Extra services
1. The hall personnel is properly prepared.
1. Which of these services of Palazzo Reale did you use?
ɷ Wardrobe
ɷ Audio guide
ɷ Bookshop and souvenir shop
ɷɷɷɷɷɷɷ
2. Their explanations are complete and easy to understand.
ɷɷɷɷɷɷɷ
3. The presence of hall personnel is proportionate to visitors’
flux.
ɷɷɷɷɷɷɷ
2. Satisfaction
Wardrobe
Little satisfied 1 2 3 4 5 6 7 Very satisfied
Audio guide
Bookshop and souvenir shop
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
3. Which of the following services (not present at Palazzo
Reale) do you consider essential?
ɷ Restaurant/pub
ɷ Internet Point
Overall valuation
Overall importance
Make an overall valuation of the following aspects:
Sign the level of importance, in your opinion, of the following
aspects:
Cultural offer
1. Information availability
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
Little importance 1 2 3 4 5 6 7 Great importance
Personnel competence and efficiency
2. Impression at the visitor’s arrival
Global organization of the expositive route
3. Logistical aspects.
Extra services
4. Expositive route
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
5. Hall personnel
Overall valuation of the museum
ɷɷɷɷɷɷɷ
ɷɷɷɷɷɷɷ
6. Extra services
ɷɷɷɷɷɷɷ
2.6
2.7
10
2.8
2.9
11
Una volta raccolti, i dati confluiscono nella cosiddetta matrice dei dati
id
matr
1234321
4321234
..
.
7654567
1
2
..
.
n
1
2
..
.
n
Esempio 1 (Matrice dati votazioni studenti).
1
2
3
4
...
cognome
nome
età voto stat . . .
Astolfi
Antonio 23
28
...
Bianchi
Mario
22
31
...
..
..
..
..
.
.
.
.
Zito
Mario
22
28
...
id
ragione soc.
abc
ayz
..
.
zyz
Esempio 2 (Matrice dati imprese).
1
2
3
settore
dimensione n. dipendenti
industria
grande
123
terziario
piccola
5
..
..
..
.
.
.
industria
media
60
k
voto laurea
105
110L
..
.
108
4
fatturato
2 050 234
520 342
..
.
520 420
2.10
• In ogni riga della matrice dei dati figurano tutte le informazioni riferite a un singolo
soggetto.
• In ogni colonna della matrice dei dati figurano le manifestazioni di una singola
variabile per tutti i soggetti.
2.11
12
3 Lo spoglio dei dati
Esempio 3. Rilevazione tipologia ultima vacanza effettuata da un campione di n = 36
soggetti
tipologia
mare
montagna
città d’arte
agriturismo
conteggio
—
|||| —
|||| —
|||| ||||
—
|||| —
|||| |
||||
||
n◦
19
11
4
2
n = 36
v j = singoli valori ( j = 1, 2, . . . , n)
(le osservazioni di base)
2.12
Formalizzazione
Indicando con xi (i = 1, 2, . . . , k) le modalità distinte e con ni le rispettive frequenze abbiamo
X = tipologia ultima vacanza
xi = tipologia
x1 = mare
x2 = montagna
x3 = città d’arte
x4 = agriturismo
ni = frequenza
n1 = 19
n2 = 11
n3 = 4
n4 = 2
n = 36
e, in estrema sintesi,
X = {(xi , ni ),
i = 1, 2, . . . , k}
2.13
4 Terminologia essenziale
Unità statistiche o sperimentali
supporto fisico/materiale su cui si estrinseca il fenomeno
• numero finito (popolazione)
• infinità numerabile (universo)
Caratteri
proprietà dell’unità sperimentale
• qualitativi
• quantitativi
Modalità del carattere
• attributi o categorie (caratteri qualitativi)
• misure (caratteri quantitativi)
2.14
13
5 Tipi di caratteri e scale di misura
Qualitativi / Categorici
tipologia
sconnessi
ordinati
scala
scala nominale / per attributi
scala ordinale
(non ha senso confrontare distanze tra categorie)
Quantitativi / Metrici
(sono misure espresse da numeri interi o reali)
tipologia
discreti
continui
scale
scala per intervalli
scala per rapporti
2.15
6 I caratteri qualitativi
sconnessi (scala nominale)
• comune di residenza
• tipo di industria
• tipo di fabbricazione
..
.
ordinati (scala ordinale)
•
•
•
•
titolo di studio
grado di vendibilità
tipo di abitazione
risultato di un esame (A,B,C, . . . )
..
.
2.16
Esempio 4. Esprimi la tua opinione riguardo al prolungamento degli orari di apertura
delle sale studio
molto
d'accordo
indifferente
(punteggi espressi su scale convenzionali)
(tipicamente la scala di Likert)
14
decisamente
contrario
2.17
Indagine sulla soddisfazione dei clienti (’customer satisfaction’)
Esempio 5. Grado di soddisfazione relativo al servizio di bookshop di un museo
poco
Insoddisfatto
indifferente
soddisfatto
soddisfatto
molto
soddisfatto
2.18
1
2
3
4
5
con 1 = Insoddisfatto, ..., 5 = Molto soddisfatto
2.19
Molto
soddisfatto
Insoddisfatto
2.20
Funzione di trasferimento tra status mentale e punteggio dichiarato
giudizio espresso
M.sodd.
5
4
3
2
{
{
{
{
{
1
Ins.
molto sodd.
insodd.
status mentale
la trasformazione ideale è lineare (proporzionalità)
15
2.21
Funzione di trasferimento tra status mentale e punteggio dichiarato
giudizio espresso
M.sodd.
5
4
3
2
{
{
{
{
{
1
Ins.
molto sodd.
insodd.
status mentale
Nella realtà difficilmente la trasformazione sarà lineare.
2.22
Osservazione
Non ha senso confrontare distanze tra categorie
(anche se codificate con valori numerici)
giudizio espresso
M.sodd.
5
4
3
2
{
{
{
{
{
1
Ins.
insodd.
a
b
c
d
molto sodd.
status mentale
infatti
ab = cd
mentre (2 − 1) = (5 − 4)
2.23
16
Osservazione
Due soggetti potrebbero perfino avere funzioni di trasferimento diverse ed esprimere
punteggi differenti in corrispondenza dello stesso livello di percezione della soddisfazione
giudizio espresso
M.sodd.
5
4
3
2
{
{
{
{
{
soggetto A
soggetto B
1
Ins.
molto sodd.
insodd.
status mentale
Quale tra i due soggetti è più severo nelle sue valutazioni?
2.24
7 I caratteri quantitativi
modalità = misure
numeri reali che descrivono una proprietà oggettiva dell’unità statistica
tipologia
• continui
insieme di modalità: intervallo
• discreti
insieme di modalità: finito o numerabile
proprietà
• ordinamento dei numeri reali
• definibile una distanza d tra modalità
2.25
distanza
1. d(x1 , x2 ) = |x2 − x1 | = |x1 − x2 | ≥ 0
2. d(x1 , x2 ) = 0 ↔ x1 = x2
3. |x1 − x2 | ≤ |x1 − x3 | + |x2 − x3 |
x3
●
x1●
x2
●
Osservazione
hanno senso le differenze (e le somme) e, quindi, per i caratteri quantitativi, è possibile
effettuare operazioni aritmetiche (medie)
17
2.26
7.1
Variazione assoluta, misura relativa e variazione relativa
Si considerino due misurazioni x1 e x2 di una grandezza X;
Esempi:
• presenze alle esposizioni delle opere di Mirò e di Schiele
• valore del titolo Sotheby’s al 30.01.2013 e al 28.02.2013
Si ipotizzi che
x1 = 15 x2 = 20
Definizione 8 (Variazione assoluta tra x1 e x2 ).
⎧
⎨ > 0 se x2 > x1
= 0 se x2 = x1
Δ = x2 − x1 =
⎩
< 0 se x2 < x1
Δ = x2 − x1 = 20 − 15 = 5
2.27
Definizione 9 (Misura relativa di x2 rispetto a x1 ).
⎧
⎨ > 1 se x2 > x1
x2
= 1 se x2 = x1
=
⎩
x1
< 1 se x2 < x1
20
x2
=
= 1.3333
x1
15
Se x1 e x2 sono due misurazioni di X in due istanti temporali, ad esempio t1 e t2 , la misura
relativa viene denominata montante unitario.
In ambito finanziario il montante unitario è il capitale che si riceve alla fine del periodo di
investimento a fronte di un investimento unitario.
2.28
Definizione 10 (Variazione relativa tra x1 e x2 ).
⎧
⎨ > 0 se x2 > x1
x2
x2 − x1
= 0 se x2 = x1
=
−1 =
⎩
x1
x1
< 0 se x2 < x1
20 − 15 x2
5
20
x2 − x1
=
= −1 =
=
− 1 = 0.3333.
x1
15
x1
15 15
La variazione relativa può essere espressa in termini percentuali
x2
x2 − x1
% = 100
100
−1
%
x1
x1
e con riferimento all’esempio abbiamo:
(100 · 0.3333) % = 33.33%.
2.29
Esercizio 11 (Ideogrammi). Cosa suggerisce la seguente rappresentazione grafica?
In seguito a nuove assunzioni il numero di meccanici
→
è raddoppiato
è triplicato
è quadruplicato
18
2.30
Esercizio 12. Cosa suggerisce la seguente rappresentazione grafica?
In seguito a nuove assunzioni il numero di meccanici
→DQDORJRD
→
qUDGGRSSLDWR
qWULSOLFDWR
qTXDGUXSOLFDWR
2.31
Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato
rispetto alle precedenti indagini?
o
del 100%
o
del 300%
oppure
del 150%
2.32
Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato
rispetto alle precedenti indagini?
→DQDORJRD
GHO
→
GHO
GHO
2.33
8 Scale per caratteri quantitativi
Definizione 15 (Scala per intervalli). È caratterizzata dalle seguenti due proprietà
• zero convenzionale
• unità di misura convenzionale
Esempio: temperature, date di calendario, anno di nascita, . . .
(confrontabili differenze semplici, non percentuali)
Esempio 16. Una temperatura di 30◦ non è il doppio di una di 15◦
invece
la differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦
Si considerino le misurazioni in gradi Fahrenheit (F = 32 + 1.8C)
◦C
◦F
0
15
20
22
30
34
32.0
59.0
68.0
71.6
86.0
93.2
19
2.34
34 − 30 = 4 = 2(22 − 20) = 2 · 2
93.2 − 86 = 7.2 = 2(71.6 − 68) = 2 · 3.6
30/15 = 2 = 86/59 = 1.4576
non ha quindi senso calcolare ’misure relative’ e nemmeno ’variazioni relative’.
2.35
Esempio 17. Se la temperatura in gradi Celsius passa da 20 a 24 si ha un aumento del
20%
◦C
◦F
20
24
68.0
75.2
In corrispondenza F(20) = 68 e F(24) = 75.2 e si registra un aumento del 10.59%
2.36
Definizione 18 (scala per rapporti). È caratterizzata dalle seguenti tre proprietà
• zero oggettivo (naturale)
• unità di misura convenzionale
• modalità positive
Esempio: peso, lunghezza, velocità, età
(ha senso trattare le variazioni percentuali)
Esempio 19. Una variazione di velocità da 60 a 90 km/h corrisponde all’incremento
percentuale tra le stesse velocità misurate, ad esempio, in m/s
Ricordando che 1km/h = 1000m/3600s = 0.2778m/s
km/ora
60
90
2.37
m/sec
16.6667
25.0000
e la variazione relativa in termini percentuali risulta
90 − 60
25 − 16.6667
100 ·
% = 50% = 100 ·
%.
60
16.6667
2.38
Osservazione
I numeri indici (misure relative) (anno base = 100) sono definiti solo per caratteri misurati
su scale per rapporti.
Osservazione
Le variazioni assolute, calcolate su un carattere definito su scala per intervalli, sono
definite su scala per rapporti.
2.39
Esempio 20. L’anno 2000 non rappresenta il doppio dell’anno 1000
mentre un’età di 30 anni è superiore del 50% di quella di 20 anni
(età = differenza tra anno corrente e anno di nascita)
L’età ha uno zero oggettivo (età alla nascita).
Esempio 21. La differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦
●
●
0 convenzionale
●
20 22
●
30
34
32
68 71.6
86
93.2
oggettivo 0 2
oggettivo 0 3.6
oggettivo 0
oggettivo 0
7.2
si crea uno zero oggettivo.
●
4
2.40
20
9 Alcune considerazioni sulle scale di misura
L’impostazione seguita nella presentazione delle scale di misura fa riferimento a Stevens
SS 1946 On the Theory of Scales of Measurement. Science 103, 677-680.
Problema
(Lord FM 1953 On the statistical treatment of football numbers. American Psychologist,
8, 750-775)
A ciascun componente di 2 squadre universitarie (matricole, 2◦ anno) di football
Americano viene assegnato in maniera casuale il numero di maglia.
Ricevuti i numeri i componenti della squadra del 1◦ anno lamentano che i numeri loro
assegnati sono troppo bassi.
• Come possiamo classificare il carattere ’numeri assegnati’?
• È possibile considerare il carattere ’numeri assegnati’ come un carattere di tipo
quantitativo e utilizzare le conseguenti misure di sintesi per risolvere il problema?
2.41
Possibili soluzioni
• Si tratta di un carattere qualitativo ordinato.
• I sostenitori dell’approccio cosiddetto ’operazionalista’ affermando
«Since the numbers don’t remember where they came from ...»
applicherebbero ’senza farsi troppi scrupoli’ la media aritmetica per confrontare i
due gruppi di numeri.
In base alla classificazione proposta da Stevens tale prassi non può essere ammessa.
Una possibile soluzione può essere trovata adottando un’approccio cosiddetto pragmatico.
2.42
Approccio pragmatico
(Hand DJ 2004 Measurement theory and practice. The world through quantification,
Wiley).
Occorre definire in maniera molto accurata il contesto e le finalità dell’applicazione che
stiamo conducendo.
• nel caso in oggetto non esiste relazione alcuna tra i numeri assegnati e il sistema
empirico basato sul livello di abilità dei giocatori.
• l’applicazione dei metodi statistici propri dei caratteri quantitativi può avere senso
solo se si considerano i due gruppi di numeri solo ’come numeri’, tenendo presente
che non descrivono l’abilità dei giocatori.
2.43
Quesiti
• La famosa batteria di test relativi al Quoziente Intellettivo che porta all’indicatore
QI misura l’ ’intelligenza’ di un individuo?
• Su quale scala è espressa?
2.44
Risposte
• La batteria dei test misura, in realtà, il concetto sotteso all’insieme di quesiti proposti.
La batteria di test e, in generale, ogni questionario rappresentano uno strumento di
misurazione.
21
• In base all’approccio pragmatico possiamo dire che:
«The precise property being measured is defined simultaneously with the procedure
for measuring it, under the assumption of explicitly defining the meaning of the
concept one is measuring»
(Hand DJ in Kenett Salini (eds.) 2012 Modern Analysis of Customer Satisfaction
Surveys, Wiley)
e che
«In a sense this makes the scale type the choice of the researcher»
(Hand DJ 2004 Measurement theory and practice. The world through quantification, Wiley, p. 63.)
2.45
Osservazione
Questi ragionamenti possono, in alcune situazioni, giustificare il trattamento delle scale
presenti, ad esempio, nelle indagini di customer satisfaction che sarebbero da trattare
come propriamente ordinali, ma che correntemente vengono utilizzate come se fossero di
tipo metrico.
(Essenzialità delle fasi di astrazione e di ricerca della definizione dei concetti che saranno
oggetto di analisi.)
Esercizio 22. Qual è la scala di misura della variabile ’quantità di cibo ingerito’?
La risposta sembra ovvia: si tratta di un carattere quantitativo continuo.
E se questa variabile fosse considerata una misura del ’livello di fame/sazietà di un individuo’?
2.46
22
Sezione 3
Caratteri e loro rappresentazione
grafica
3.1
Indice
1
2
Organizzazione dei dati elementari
1.1 Carattere qualitativo sconnesso . . . . . . . . .
1.2 Carattere qualitativo ordinato . . . . . . . . . .
1.3 Carattere quantitativo non raggruppato in classi
1.4 Carattere quantitativo raggruppato in classi . .
1.5 Riepilogo rappresentazioni grafiche . . . . . .
1.6 Esercizi . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Rappresentazione grafica delle serie storiche
23
24
28
31
33
42
43
45
3.2
1 Organizzazione dei dati elementari
Si costruiscono dei prospetti riassuntivi a partire dall’elenco delle osservazioni.
1
2
..
.
ragione soc.
abc
ayz
..
.
n
zyz
matrice dati imprese
settore
industria
grande
123
terziario
piccola
5
..
..
..
.
.
.
industria
media
60
fatturato
2 050 234
520 342
..
.
520 420
v1 , v2 , . . . , vn (generica colonna estratta dalla matrice dei dati)
Se il numero di categorie/valori distinti è limitato risulta agevole raccoglierli in una tabella
3.3
Esempio 1.
n◦
imprese per settore
xi
agricoltura
industria
terziario
ni
76
195
257
528
tra le n = 528 unità sperimentali esistono n2 = 195 unità con modalità x2 = industria
23
3.4
Esempio 2. n◦ stanze per abitazione
xi
1
2
3
4
5
6
ni
184
451
312
197
84
26
1254
tra le n = 1254 unità sperimentali esistono n3 = 312 unità con modalità x3 = 3
1.1
3.5
Carattere qualitativo sconnesso
carattere qualitativo sconnesso
Si è rilevato il carattere X = ’tipologia dell’ultimo spettacolo di evasione a cui hai partecipato’, ottenendo, per 8 soggetti, le seguenti osservazioni ( f = film, t = teatro, c =
concerto)
soggetto 1 2 3 4 5 6 7 8
evento
f f c c f t f c
i valori possono essere riclassificati nella seguente tabella
xi
f
t
c
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
• xi : modalità
• ni : frequenze assolute; numero di unità statistiche con modalità xi
• fi = nni : frequenze relative; quota di unità statistiche con modalità xi
3.6
Definizione 3 (Mutabile statistica). L’insieme delle coppie
{(xi , ni ), i = 1, . . . , k}
è detto mutabile statistica.
Perdita d’informazione
xi
f
t
c
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
Rispetto ai dati iniziali si è persa l’informazione su quale soggetto abbia partecipato a una
determinata manifestazione.
24
3.7
Rappresentazione grafica (grafico a bastoncini o canne d’organo)
ni oppure fi
xi
f
t
c
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
f
t
c
xi
(modalità convenzionalmente equispaziate)
3.8
Il grafico di Pareto
In presenza di un carattere qualitativo sconnesso l’ordine dato nella rappresentazione
grafica alle categorie è arbitrario.
Nel grafico di Pareto le categorie vengono ordinate in funzione decrescente delle rispettive
frequenze.
ni oppure fi
xi
f
t
c
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
f
c
t
xi
3.9
25
frequenze assolute o relative? (1)
0.0e+00 2.0e+07 4.0e+07 6.0e+07 8.0e+07 1.0e+08 1.2e+08 1.4e+08
bovini
suini
ovini
numero capi
USA
CH
127976000 2005000
49602000 2006000
13346000
377000
190924000 4388000
composizione
USA
CH
0.67
0.46
0.26
0.46
0.07
0.09
1.00
1.00
ni
bovini
suini
ovini
xi
confronto in termini di dimensione
3.10
26
frequenze assolute o relative? (2)
numero capi
USA
CH
127976000 2005000
49602000 2006000
13346000
377000
190924000 4388000
bovini
suini
ovini
composizione
USA
CH
0.67
0.46
0.26
0.46
0.07
0.09
1.00
1.00
0.0
0.2
0.4
0.6
0.8
1.0
fi
bovini
suini
ovini
xi
confronto in termini di composizione
3.11
È anche possibile costruire un grafico a torta (settori proporzionali alle frequenze)
xi
f
t
c
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
settore
180◦
45◦
135◦
360◦
film
teatro
concerto
3.12
27
1.2
Carattere qualitativo ordinato
carattere qualitativo ordinato
Si è rilevato il carattere X = ’votazione’ ottenuta da 8 soggetti, ottenendo le seguenti
osservazioni (d = discreto, b = buono, o = ottimo)
soggetto
votazione
1
d
2
d
3 4
o o
5
d
6
b
7
d
8
o
(perdendo l’informazione sul voto conseguito da ciascun soggetto)
xi
d
b
o
ni
4
1
3
8
fi
Ni
0.500 4
0.125 5
0.375 8
1.000
Fi
0.500
0.625
1.000
• xi : modalità
• ni : frequenze assolute; numero di unità statistiche con modalità xi
• fi = nni : frequenze relative; quota di unità statistiche con modalità xi
3.13
xi
d
b
o
•
•
•
•
•
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
Ni
4=4
5 = 4+1
8 = 4+1+3
Fi
0.500 = 0.5 = 4/8
0.625 = 0.5 + 0.125 = 5/8
1.000 = 0.5 + 0.125 + 0.375 = 8/8
xi : modalità
ni : frequenze assolute; numero di unità statistiche con modalità xi
fi = nni : frequenze relative; quota di unità statistiche con modalità xi
Ni : frequenze assolute cumulate; numero di unità statistiche con modalità fino a xi
Fi = Nni = ∑ij=1 f j = 1n ∑ij=1 n j : frequenze relative cumulate; quota di unità statistiche con modalità fino a xi
3.14
28
Rappresentazione grafica (grafico a bastoncini o canne d’organo)
ni oppure fi
xi
d
b
o
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
d
b
o
xi
Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripartizione F(x)
3.15
Funzione di ripartizione
• F(x) quota di unità statistiche con modalità fino a x
La definizione di funzione di ripartizione ha carattere generale (anche per i caratteri quantitativi); si osserva come x possa corrispondere anche a valori non osservati o inesistenti;
nell’esempio in esame: una votazione insufficiente o compresa tra buono e ottimo o anche
superiore a ottimo.
3.16
29
Grafico Funzione di Ripartizione
F(x) quota di unità statistiche con modalità fino a x
1.0
F(x)
0.8
●
Fi
0.500
0.625
1.000
●
0.6
fi
Ni
0.500 4
0.125 5
0.375 8
1.000
●
0.4
ni
4
1
3
8
0.0
0.2
xi
d
b
o
d
o
b
x
3.17
Grafico frequenze cumulate
È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la
funzione N(x)
• N(x) numero di unità statistiche con modalità fino a x
N(x)
6
8
●
●
●
4
fi
Ni
0.500 4
0.125 5
0.375 8
1.000
2
ni
4
1
3
8
0
xi
d
b
o
d
b
o
x
3.18
30
1.3
Carattere quantitativo non raggruppato in classi
carattere quantitativo non raggruppato in classi
Valgono le stesse considerazioni fatte per i caratteri qualitativi ordinati; occorre solo tenere presente, nel costruire le rappresentazioni grafiche, che le modalità del carattere sono
delle misure e quindi potrebbero essere non equispaziate.
3.19
Si è rilevata la variabile X = ’votazione’ riportata da 8 soggetti, considerata metrica
secondo l’approccio pragmatico, ottenendo le seguenti osservazioni
soggetto
votazione
1
2
24 24
3
30
4
30
5
24
6
28
7
24
8
30
xi
24
28
30
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
Ni
4
5
8
Fi
0.500
0.625
1.000
3.20
xi
24
28
30
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
Ni
4
5
8
Fi
0.500
0.625
1.000
xi : modalità
ni : frequenze assolute; numero di unità statistiche con modalità xi
fi = nni : frequenze relative; quota di unità statistiche con modalità xi
Ni = ∑ij=1 n j : frequenze assolute cumulate; numero di unità statistiche con modalità
minore o eguale a xi
• Fi = Nni = ∑ij=1 f j : frequenze relative cumulate; quota di unità statistiche con modalità minore o eguale a xi
•
•
•
•
3.21
Definizione 4 (Serie statistica). L’insieme delle coppie
{(xi , ni ), i = 1, . . . , k}
è detto serie statistica.
3.22
31
Rappresentazione grafica (grafico a bastoncini)
ni oppure fi
xi
24
28
30
ni
4
1
3
8
fi
0.500
0.125
0.375
1.000
20
22
24
26
28
30
32
x
3.23
Grafico Funzione di Ripartizione
Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripartizione F(x)
• F(x) quota di unità statistiche con modalità minore o eguale a x
1.0
F(x)
0.8
●
Fi
0.500
0.625
1.000
●
0.6
Ni
4
5
8
●
0.4
fi
0.500
0.125
0.375
1.000
0.2
ni
4
1
3
8
0.0
xi
24
28
30
20
22
24
26
28
30
32
x
3.24
32
Grafico Frequenze cumulate
funzione N(x)
N(x)
6
8
●
●
fi
Ni
0.500 4
0.125 5
0.375 8
1.000
●
4
ni
4
1
3
8
0
2
xi
24
28
30
20
22
24
26
28
30
32
x
3.25
1.4
Carattere quantitativo raggruppato in classi
Nel caso di variabile continua si hanno troppi valori distinti!!
È possibile raggruppare i dati in classi.
In genere le classi sono chiuse a destra (da . . . escluso, a . . . incluso]
Esempio 5. Si è rilevata l’altezza di 10 individui ottenendo le seguenti misurazioni:
soggetto
altezza
1
175
2
168
3
165
↑
min
4
172
5
180
6
185
↑
max
7
178
8
172
9
174
3.26
10
183
I valori assunti dalle unità statistiche possono essere rappresentati come punti sulla retta
reale.
●
●
●
● ●
●
●
●
●
165
168
172
174 175
178
180
183
185
3.27
33
si consideri un intervallo (h0 , hk ] inclusivo di tutti i valori,
●
●
●
● ●
●
●
●
●
165
168
172
174 175
178
180
183
185
(
]
h0
hk
(ma anche di possibili valori che potrebbero essere rilevati su altre unità statistiche)
quindi
h0 < min teorico
e
hk ≥ max teorico
3.28
si definisca una partizione dell’intervallo in k sottoinsiemi (denominati classi)
(
classe 1
h0
](
...
classe 2
h1
classe k
]
(
]
h2
h k−1
hk
Le k classi
(h0 , h1 ], (h1 , h2 ], . . . , (hk−1 , hk ]
costituiscono una partizione dell’intervallo (h0 , hk ]:
1. sono intervalli (insiemi) disgiunti
2. la loro unione coincide con (h0 , hk ]
3.29
Nel caso in esame si ipotizzi di utilizzare k = 3 classi.
soggetto
altezza
1
175
2
168
3
165
↑
min
4
172
5
180
6
185
↑
max
7
178
8
172
9
174
10
183
È, quindi, possibile assegnare ciascuno dei valori osservati a una e una sola delle classi.
(
162
●
●
165
168
](
](
●
● ●
●
●
●
●
172
174 175
178
180
183
185
170
180
]
190
Si osserva il carattere esaustivo della classificazione operata
3.30
34
Una volta definiti gli estremi delle classi, i seguenti valori
soggetto
altezza
1
175
2
168
3
165
4
172
5
180
6
185
7
178
8
172
9
174
10
183
possono essere riclassificati in una tabella
i
classe hi−1 hi
1 h0 = 162 h1 = 170
2 h1 = 170 h2 = 180
3 h2 = 180 h3 = 190
ni
2
6
2
10
• hi−1 : estremo inferiore della classe i-esima
• hi : estremo superiore della classe i-esima
• ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi
3.31
Definizione 6 (Seriazione statistica). L’insieme degli elementi
{((hi−1 , hi ), ni ), i = 1, . . . , k}
è detto seriazione statistica.
Osservazione
Nella determinazione delle classi (hi−1 hi ) occorre evitare le seguenti situazioni:
• poche classi con frequenze troppo elevate,
• molte classi con frequenze troppo basse (≤ 15).
3.32
Il fenomeno può essere analizzato non solo in termini assoluti, ma anche in termini relativi
hi−1 hi
162 170
170 180
180 190
• fi =
ni
n:
ni
fi
2 0.2
6 0.6
2 0.2
10 1
frequenze relative; quota di unità statistiche con valore tra hi−1 e hi
3.33
e si possono anche costruire le frequenze cumulate
hi−1 hi
162 170
170 180
180 190
•
•
•
•
•
ni
fi Ni
2 0.2 2
6 0.6 8
2 0.2 10
10 1
Fi
0.2
0.8
1
hi−1 , hi : estremi inferiore e superiore della classe i-esima
ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi
fi = nni : frequenze relative; quota di unità statistiche con valore tra hi−1 e hi
Ni : frequenze assolute cumulate; numero di unità statistiche con modalità ≤ hi
Fi : frequenze relative cumulate; quota di unità statistiche con modalità ≤ hi
3.34
35
Perdita d’informazione
soggetto
altezza
1
175
2
168
3
165
4
172
5
180
6
185
hi−1 hi
162 170
170 180
180 190
7
178
8
172
9
174
10
183
ni
2
6
2
10
Rispetto ai dati iniziali non si è solo persa l’informazione su quale soggetto abbia una determinata altezza, ma non si hanno più nemmeno i valori delle singole altezze all’interno
di ciascuna classe.
3.35
Ipotesi di equidistribuzione delle unità statistiche all’interno di ciascuna classe
hi−1 hi ni
162 170 2
170 180 6
180 190 2
10
(
162
●
](
●
●
●
●
●
170
●
](
●
180
●
]
●
190
È come se si suddividesse ciascuna classe hi−1 hi in ni sottoclassi e si posizionassero i
dati in corrispondenza degli estremi superiori di queste sottoclassi.
3.36
Definizione 7 (Densità di frequenza (assoluta)). Rapporto tra il numero, ni , di unità
statistiche nella classe i e l’ampiezza della classe ai = hi − hi−1
di =
ni
ai
Essa rappresenta il numero (medio) di unità statistiche che cadono in un generico intervallo di ampiezza unitaria.
graficamente, nell’ipotesi che ni 1, abbiamo
(
]
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
hi−1
hi
intervallo unitario
3.37
La densità di frequenza può, naturalmente, essere espressa anche in termini relativi.
Definizione 8 (Densità di frequenza (relativa)). Quota (media) di unità statistiche che
vengono a cadere in un generico intervallo di ampiezza unitaria all’interno della classe
di =
fi
ai
rapporto tra quota di unità statistiche nella classe e ampiezza della classe ai = hi − hi−1
3.38
36
Rappresentazione grafica (istogramma)
Sull’asse delle ordinate si riportano le densità di frequenza (assolute o relative)
hi−1 hi
162 170
170 180
180 190
ni
fi ai
2 0.2 8
6 0.6 10
2 0.2 10
10 1.0
di (assolute) di (relative)
0.25
0.025
0.60
0.060
0.20
0.020
ni ai oppure fi ai
150
160
170
180
190
200
x
3.39
Interpretazione istogramma
L’area di ciascun rettangolo nell’istogramma coincide con la frequenza assoluta (relativa)
della classe
ni
ai
ai · naii = ni
fi
ai
ai
ai · afii = fi
ai
3.40
37
Funzione di ripartizione F(x)
Quota di unità statistiche con modalità minore o eguale a x
hi−1 hi
162 170
170 180
180 190
ni
2
6
2
10
fi
0.2
0.6
0.2
1
Ni
2
8
10
Fi
0.2
0.8
1
F(x)
1.0
●
0.4
0.6
0.8
●
0.2
●
0.0
●
150
160
170
180
190
200
x
sulla base delle informazioni disponibili possiamo solo quantificare il valore di F(x) solo
per x = hi , i = 1, . . . , k, x < h0 e x > hk
38
3.41
Ipotizzando però l’equidistribuzione delle unità statistiche all’interno di ciascuna classe possiamo individuare la posizione delle singole ni osservazioni di ciascuna classe
ottenendo (cfr. rappresentazione per caratteri discreti)
hi−1 hi
162 170
170 180
180 190
ni
2
6
2
10
fi
0.2
0.6
0.2
1
Ni
2
8
10
Fi
0.2
0.8
1
1.0
F(x)
●
0.8
●
●
0.6
●
●
0.4
●
●
0.2
●
●
0.0
●
150
160
170
180
190
200
x
3.42
39
Quando il numero di unità statistiche risulta sufficientemente elevato in ciascuna classe,
ni 1, otteniamo
0.8
1.0
F(x)
●
●
●
●
●
●
●
●
●
●
●
●
●
0.6
●
●
●
0.4
●
●
●
0.2
●
0.0
●
150
●
160
●
●
●
●
●
●
●
●
170
180
190
200
x
3.43
In tal caso la funzione a gradini può essere approssimata con una spezzata
F(x)
1.0
●
0.4
0.6
0.8
●
0.2
●
0.0
●
150
160
170
180
190
200
x
Questa rappresentazione viene comunque utilizzata anche nel caso di ni qualsiasi, facendo
l’ipotesi che ni 1.
40
3.44
funzione N(x)
hi−1 hi
162 170
170 180
180 190
ni
2
6
2
10
fi
0.2
0.6
0.2
1
Ni
2
8
10
N(x)
10
●
4
6
8
●
2
●
0
●
150
160
170
180
190
200
x
3.45
41
1.5
Riepilogo rappresentazioni grafiche
qualitativo
sconnesso
Frequenze semplici ni , fi
Tipologia carattere
qualitativo quantitativo
quantitativo
ordinato
no classi
con classi
ni ai oppure fi ai
3.46
qualitativo
sconnesso
qualitativo
ordinato
Frequenze cumulate Ni , Fi
Tipologia carattere
quantitativo
no classi
quantitativo
con classi
●
●
●
●
●
non definita
●
●
3.47
Osservazione
Per ogni variabile presente nella matrice dei dati
1
2
..
.
ragione soc.
abc
ayz
..
.
n
zyz
matrice dati imprese
settore
industria
grande
123
terziario
piccola
5
..
..
..
.
.
.
industria
media
60
fatturato
2 050 234
520 342
..
.
520 420
siamo in grado di effettuare sintesi univariate (tabelle e grafici).
Nel seguito considereremo ulteriori analisi (indici di posizione e variabilità).
3.48
42
1.6
Esercizi
Eventuali riferimenti in parentesi riportano numero del tema d’esame, data e numero di
esercizio della corrispondente prova di Statistica I (Università Cattolica del Sacro Cuore,
Milano, Facoltà di Economia, Interfacoltà di Economia-Lettere).
Esercizio 9. Nella seguente figura sono riportate le Funzioni di Ripartizione relative alle
seriazioni statistiche:
• X: distribuzione dei redditi nella località A;
• Y : distribuzione dei redditi nella località B.
●
1
●
A
●
0.8
●
0.7
B
●
0.2
●
0
10
20
30
40
50
60
In quale località si ha presenza di redditi più elevati?
A ≺ B: i redditi in B sono superiori a quelli in A
A B: i redditi in A sono superiori a quelli in B
3.49
43
Esercizio 10 (T 162, 24.06.1998, A). Una delegazione provinciale della F.I.C. (Federazione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati dai suoi 8 componenti (A, B, . . . , H) durante l’anno. Si riportano il tipo di sport (S,
nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno,
i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità del
rimborso complessivamente percepito per il servizio (R, in e).
serv
cron
S
T
D
R
1
B
n
a
120
20
2
B
n
a
120
20
3
H
c
a
360
45
4
G
c
a
60
60
5
F
n
i
180
30
6
A
s
i
360
50
7
E
s
i
360
70
8
E
n
i
120
30
9
B
s
i
360
60
10
C
n
p
180
45
11
D
s
p
480
60
12
D
s
p
420
70
13
B
c
p
300
40
14
C
c
p
420
60
15
G
n
p
180
30
1. Si rappresenti graficamente la mutabile S.
2. Si rappresentino graficamente le frequenze assolute e la funzione di ripartizione
della variabile D.
3. Si raggruppino i valori di R in tre classi chiuse a destra di ampiezza 25, considerando come estremo inferiore della prima classe il valore 10, e se ne dia una
rappresentazione grafica.
3.50
Esercizio 11 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al
livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’):
’visitatori occasionali’
hi−1 hi
fi
5 10
0.76
10 20
0.08
20 25
0.16
1.00
’visitatori esperti’
hi−1 hi
fi
5 10
0.40
10 20
0.40
20 25
0.20
1.00
1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due
tipologie di visitatori.
3.51
Esercizio 12 (T 180, 14.09.2000, 1). Lo spessore X
china è compreso tra 15.2 e 16.5 mm.
Si individuino le ampiezze delle 4 classi (Ii ) in cui è
modo tale che:
I1
I2
I3
fi 0.05 0.09 0.72
di 0.25 0.45 2.40
delle lamine prodotte da una macripartito l’intervallo (15.1; 16.5] in
I4
0.14
0.20
1. Si costruisca l’istogramma della variabile X.
2. Supponendo che dalla produzione vengano scartate le lamine con spessore minore
di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito,
la percentuale di lamine eliminate.
3.52
44
2 Rappresentazione grafica delle serie storiche
Le serie storiche
Una serie storica {Xt } è una sequenza di valori
x0 , x1 , . . . , xT
registrati:
• in corrispondenza degli istanti temporali t = 0, 1, 2, . . . , T
• al termine degli intervalli (t − 1,t], t = 1, 2, . . . , T .
Si pensi, ad esempio, alla quotazione giornaliera di un titolo di borsa oppure alla realizzazione mensile o trimestrale del fatturato di un’azienda.
Serie storiche di stock e di flusso
• La serie storica si definisce di stock se i riferimenti temporali sono istanti temporali
(’capitale sociale’, ’quotazione di chiusura di un titolo’)
• La serie storica si definisce di flusso se i riferimenti temporali sono degli intervalli
temporali
(’risultato economico di esercizio’, ’volume degli scambi’)
3.53
3.54
A partire dai valori osservati è possibile definire:
• la sequenza delle variazioni assolute rispetto a un particolare istante temporale, ad
esempio t = 0:
x0 − x0 = 0, x1 − x0 , . . . , xT − x0
• la sequenza delle misure relative rispetto a un particolare istante temporale, ad
esempio t = 0:
x0
x1
xT
= 1, , . . . ,
x0
x0
x0
• la sequenza delle variazioni relative rispetto a un particolare istante temporale, ad
esempio t = 0:
x1 − x0
x1
xT − x0
xT
x0 − x0
= 0,
= − 1, . . . ,
=
−1
x0
x0
x0
x0
x0
45
che possono anche essere espresse come variazioni relative percentuali (se moltiplicate per 100):
x1 − x0
x1 − x0
xT − x0
xT − x0
0,
= 100 0,
%
,...,
,...,
x0
x0
x0
x0
x1
xT
x1
xT
0, − 1, . . . , − 1 = 100 0, − 1, . . . , − 1 %
x0
x0
x0
x0
3.55
Esempio 13. Serie storica {Xt } delle valutazioni contabili del patrimonio dell’azienda Y
risultanti dai bilanci degli esercizi 2003, . . . , 2007 (dati in milioni di e); le sequenze delle
xt
variazioni assolute xt − xt−1 , delle misure relative xt−1
e delle variazioni relative semplici
e percentuali,
xt −xt−1
xt−1
t
0
1
2
3
4
e 100
Anno
2003
2004
2005
2006
2007
xt −xt−1
xt−1 %,
xt
518
550
540
580
608
definite rispetto agli istanti temporali t − 1:
xt − xt−1
xt
xt−1
xt −xt−1
xt−1
%
32
−10
40
28
1.0618
0.9818
1.0741
1.0483
0.0618
−0.0182
0.0741
0.0483
6.18
−1.82
7.41
4.83
3.56
650
Si riportano le possibili rappresentazioni grafiche delle serie storiche oggetto di analisi.
600
●
550
●
●
●
450
500
●
2002
2003
2004
2005
2006
2007
2008
Serie storica xt che descrive l’andamento del patrimonio dell’azienda Y tra il 2003 e il
2007 (dati in milioni di e) (stock)
46
3.57
50
40
30
20
10
0
2003
2004
2005
2006
2007
2008
−20
−10
2002
3.58
650
Serie storica xt − xt−1 che descrive le variazioni del patrimonio dell’azienda Y tra il 2003
e il 2007 (dati in milioni di e) (flusso)
●
550
●
●
●
450
●
2003
2004
2005
2006
2007
2008
2002
2003
2004
2005
2006
2007
2008
2002
2003
2004
2005
2006
2007
2008
0.90
1.00
1.10
−20
0
20
40
2002
xt
Serie storiche xt , xt −xt−1 e xt−1
che descrivono rispettivamente il patrimonio dell’azienda
Y , le sue variazioni semplici e i valori relativi, di anno in anno, tra il 2003 e il 2007.
47
3.59
40
20
0
−20
2003
2004
2005
2006
2007
2008
2002
2003
2004
2005
2006
2007
2008
2002
2003
2004
2005
2006
2007
2008
−0.04 0.00
0.04
0.08
−0.04 0.00
0.04
0.08
2002
Serie storiche che descrivono le variazioni assolute xt − xt−1 , le variazioni relative semplix −x
x −x
ci e percentuali, t xt−1t−1 e 100 t xt−1t−1 %, subite di anno in anno dal patrimonio dell’azienda
Y tra il 2003 e il 2007.
3.60
Esercizio 14. Si ricostruiscano le rappresentazioni grafiche precedenti con riferimento
alla seguente serie storica:
t
0
1
2
3
4
Anno
2000
2001
2002
2003
2004
xt
100
50
100
150
100
xt − xt−1
xt
xt−1
xt −xt−1
xt−1
100
xt −xt−1
xt−1 %
3.61
48
Sezione 4
La classificazione congiunta di
due caratteri
4.1
Indice
1
La classificazione congiunta di due caratteri
49
4.2
1 La classificazione congiunta di due caratteri
Esempio 1. Con riferimento ai dati, inerenti 15 servizi di cronometraggio complessivamente espletati da 8 componenti della F.I.C. (Federazione Italiana Cronometristi), cfr.
Esercizio nella sezione precedente.
servizio
D
R
1
120
20
2
120
20
3
360
45
4
60
60
5
180
30
6
360
50
7
360
70
8
120
30
9
360
60
10
180
45
11
480
60
12
420
70
13
300
40
14
420
60
15
180
30
si vuole studiare il comportamento congiunto delle variabili D ed R.
A tal fine si raggruppano i valori di D nelle tre classi (50, 180], (180, 360], (360, 480] e i
valori di R nelle tre classi (10, 35], (35, 60], (60, 85].
D\R
50 180
180 360
360 480
10 35
35 60
60 85
ni•
Ciascuna unità statistica può essere assegnata a una e una sola delle celle nella tabella;
occorre conteggiare quante unità statistiche corrispondono a ciascuna combinazione delle
classi di D = durata del servizio e R = entità del rimborso
D\R
50 180
180 360
360 480
n• j
10 35
5
0
0
5
35 60
2
4
2
8
60 85
0
1
1
2
4.3
ni•
7
5
3
15
Il valore 4 nella seconda riga, seconda colonna (parte interna della tabella) indica che tra
le 15 unità statistiche ve ne sono 4 che hanno prestato una durata del servizio tra 180 e
360 minuti ricevendo un rimborso compreso tra 35 e 60 e.
Esso viene indicato con n22 , dove il primo indice sta a indicare la classe della variabile
D (indice di riga) mentre il secondo indice indica la classe della variabile R (indice di
colonna).
49
4.4
Abbiamo quindi
D\R
50 180
180 360
360 480
n• j
10 35
n11 = 5
n21 = 0
n31 = 0
n•1 = 5
35 60
n12 = 2
n22 = 4
n32 = 2
n•2 = 8
60 85
n13 = 0
n23 = 1
n33 = 1
n•3 = 2
ni•
n1• = 7
n2• = 5
n3• = 3
n = 15
• ni j frequenze congiunte; numero di unità statistiche con modalità (appartenenti alla
classe) corrispondente alla i-esima riga e j-esima colonna.
• ni• frequenze marginali di D; numero di unità statistiche con i-esima modalità (appartenenti alla i-esima classe) di D; (somma delle frequenze congiunte nella i-esima
riga;
• n• j frequenze marginali di R; numero di unità statistiche con j-esima modalità
(appartenenti alla j-esima classe) di R; (somma delle frequenze congiunte nella
j-esima colonna.
Si osserva come nella tabella
D\R
50 180
180 360
360 480
n• j
10 35
n11 = 5
n21 = 0
n31 = 0
n•1 = 5
35 60
n12 = 2
n22 = 4
n32 = 2
n•2 = 8
60 85
n13 = 0
n23 = 1
n33 = 1
n•3 = 2
4.5
ni•
n1• = 7
n2• = 5
n3• = 3
n = 15
figurino anche le frequenze assolute delle due variabili D e R separatamente considerate
D
50 180
180 360
360 480
ni•
7
5
3
15
R
10 35
35 60
60 85
n• j
5
8
2
15
La frequenza n1• = 7, attinente alla classe 50 180 è stata ottenuta sommando n11 = 5,
n12 = 2 e n13 = 0.
Il simbolo • sostituisce l’indice rispetto al quale si è effettuata la somma:
7 = n1• = n11 + n12 + n13 =
3
∑ n1 j
j=1
4.6
Definizione 2 (Variabile/Mutabile statistica doppia). L’insieme (X,Y ) delle terne
{xi , y j , ni j , i = 1, 2 . . . , h; j = 1, 2, . . . , k},
dove gli elementi xi , y j possono essere categorie, valori singoli, classi o valori centrali
delle classi, è detto mutabile/variabile statistica doppia.
Le coppie di dati elementari {vr , wr } (r = 1, 2, . . . , n) sono riassunte in h modalità/classi
xi e k modalità/classi y j
X\Y
x1
..
.
y1
n11
..
.
...
...
yj
n1 j
..
.
...
...
yk
n1k
..
.
ni•
n1•
..
.
xi
..
.
ni1
..
.
...
ni j
..
.
...
nik
..
.
ni•
..
.
xh
n• j
nh1
n•1
...
...
nh j
n• j
...
...
nhk
n•k
nh•
n
50
4.7
xi , y j = eventuali valori centrali
ni• = totali di riga = ∑kj=1 ni j
n• j = totali di colonna = ∑hi=1 ni j
h
k
h
k
i=1
j=1
∑ ∑ ni j = ∑ ni• = ∑ n• j = n
i=1 j=1
Dalla mutabile/serie/seriazione doppia è possibile ricavare due distribuzioni marginali
univariate.
4.8
Esempio 3. X = spessore Y = durezza
X,Y
5.5 7.5
7.5 9.5
9.5 11.5
11.5 13.5
n• j
70 80
6
25
7
2
40
80 90
9
29
10
4
52
90 100
9
25
9
5
48
ni•
24
79
26
11
140
Nel caso in esame siamo in presenza di una seriazione statistica doppia, le cui marginali
sono
xi
5.5 7.5
7.5 9.5
9.5 11.5
11.5 13.5
ni•
24
79
26
11
140
yj
70 80
80 90
90 100
n• j
40
52
48
140
4.9
Osservazione
Non è immediato stabilire, con la semplice lettura della tabella, se lo spessore (X) induce
un aumento di durezza (Y ); necessitano, a tale proposito, ulteriori strumenti statistici che
verranno presentati nell’ambito dell’analisi statistica bivariata.
4.10
51
Sezione 5
Indici di posizione (1)
5.1
Indice
1
Indici sintetici o statistiche
53
2
Indici di posizione
53
3
La moda
55
4
I Percentili
4.1 Procedura grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Calcolo ’preciso’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
62
65
5
Box & Whiskers plot
67
6
Le medie potenziate
6.1 La media aritmetica (r = 1) . . . . . . . . . . .
6.2 La media armonica (r = −1) . . . . . . . . . .
6.3 La media quadratica (r = 2) . . . . . . . . . .
6.4 Il Teorema fondamentale sulle medie potenziate
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
72
73
74
7 Esercizi
77
8
L’operatore media aritmetica
79
9
Interpretazione fisica della media aritmetica
80
10 Media aritmetica di una trasformazione lineare
80
5.2
1 Indici sintetici o statistiche
Date le n osservazioni campionarie
v 1 , v2 , . . . , v n ,
eventualmente raccolte in una serie statistica
X = {(xi , ni )},
un indice sintetico è una funzione
I = α(v1 , v2 , . . . , vn ) = α(X)
5.3
53
2 Indici di posizione
?
sono migliori gli studenti maschi o le femmine
?
si mangiano più polli pro-capite in Italia o in Danimarca
?
(si confrontano statistiche che rappresentano i livelli/valori tipici)
5.4
LA STATISTICA
di Trilussa
Sai ched’è la statistica? È na’ cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che spósa.
Ma pè me la statistica curiosa
è dove c’entra la percentuale,
pè via che, lì,la media è sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perch’è c’è un antro che ne magna due.
5.5
A seconda della scala di misurazione un indice di posizione dovrà soddisfare le seguenti
caratteristiche:
• da nominale in su
modalità/valore più simile a tutti
(o alla maggioranza)
1. internalità
uno dei valori assunti dal fenomeno
(condizione di Cauchy)
• da ordinale in su
valore centrale della distribuzione
1. internalità
xmin ≤ α(X) ≤ xmax
(condizione di Cauchy)
2. monotonicità
X ≤ Y → α(X) ≤ α(Y )
• da scala per intervalli (dati metrici)
modalità più vicina a tutti
3. moltiplicatività
α(cX) = cα(X)
con c costante arbitraria
54
5.6
È possibile definire i seguenti indici di posizione, in accordo alla scala di misurazione del
carattere oggetto di studio
• da nominale in su
→ moda (o norma)
• da ordinale in su
→ mediana (o percentili)
• da scala per intervalli (dati metrici)
→ medie
5.7
Osservazioni
• la proprietà di Cauchy è irrinunciabile
• 1) 2) e 3) media in senso stretto
• se cade la proprietà di monotonicità la media si dice in senso lato
Alcuni indici tipici
• moda
• percentili x p di ordine p (0 ≤ p ≤ 1)
• mediana
• medie potenziate
–
–
–
–
aritmetica
armonica
geometrica
quadratica
..
.
(la moda è definibile anche per caratteri qualitativi sconnessi)
5.8
3 La moda
Definizione 1 (Moda per caratteri qualitativi e caratteri quantitativi con valori non raggruppati in classi).
Moda(X) = {x j : n j = max ni } = {x j : f j = max fi }
(modalità/valore di massima frequenza)
5
ni oppure fi
ni
2
5
3
2
12
0
xi
2
4
7
8
0
2
4
Moda(X)=4
6
8
1
xi
5.9
55
Definizione 2 (Moda per caratteri quantitativi con valori raggruppati in classi).
nj
fj
ni
fi
Moda(X) = x j :
= max
= max
= xj :
aj
ai
aj
ai
(valore centrale classe di max densità di frequenza)
10
ni ai oppure fi ai
oppure
fi ai
di
3
4
5
8
2
ni ai
ni
6
4
10
8
2
30
0
xi
24
45
57
78
89
0
2
4
6
8
1
Moda(X)=7.5
5.10
(se Moda(X) esiste, cioè unimodale . . . )
Esempio 3. Si consideri la distribuzione degli spettacoli organizzati dalle associazioni
culturali di una regione
tipo spettacolo
teatrale
concerto musica classica
concerto rock
concerto big band
totale
n. eventi
82
125
160
158
525
La distribuzione è quasi bimodale!
La nozione di media espressa dalla moda può avere, a volte, un carattere molto incerto.
5.11
Osservazione
Cadendo la monotonicità la moda è media solo in senso lato
Esempio 4. Distribuzione delle auto di servizio di 15 aziende
X: osservazioni al tempo t,
Y : osservazioni al tempo t + 1 (3 aziende con due auto hanno raddoppiato il parco
macchine)
yi ni
xi ni
1 5
1 5
2 7
2 4
3 2
3 2
4 1
4 4
15
15
tempo t:
tempo t + 1:
1
1
=
1
1
=
1
1
=
1
1
=
1
1
=
2
2
=
Moda(X) = 2
2
2
=
2
2
=
2
2
=
2
3
>
2
3
>
2
4
>
3
4
>
3
4
>
4
4
=
Moda(Y ) = 1
anche se y( j) ≥ x( j) ( j = 1, . . . , 15) abbiamo Moda(Y ) < Moda(X)!!
56
5.12
Esempio 5 (Carattere qualitativo). Si considerano le distribuzioni percentuali del colore
dei capelli di alcune scolaresche
colore
nero
castano
biondo
altro
S1
0.10
0.25
0.60
0.05
1
S2
0.30
0.30
0.30
0.10
1
S3
0.70
0.20
0.05
0.05
1
La moda è una delle modalita !!!
Ha senso solo la moda (modalità comune al maggior numero di unità statistiche)
Non è possibile calcolare mediana o media !
Osservazione
S2 è plurimodale
5.13
Esercizio 6. Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica
(’visitatori esperti’ e ’visitatori occasionali’):
hi−1 hi
fi
5 10
0.40
10 20
0.40
20 25
0.20
1.00
hi−1 hi
fi
5 10
0.76
10 20
0.08
20 25
0.16
1.00
1. Si rappresentino graficamente le funzioni di ripartizione.
2. In base ai grafici precedenti si individui la moda delle due distribuzioni.
5.14
57
4 I Percentili
Si consideri una serie di n valori distinti riferiti a una variabile misurata su scala almeno
ordinale
(ad esempio l’altezza in cm)
5.15
Si cerca il valore x p che divide la distribuzione dei dati ordinati in due parti:
xp
p
1−p
• una quota p dei soggetti ha valore inferiore o uguale a x p
• una quota 1 − p dei soggetti ha valore superiore o uguale a x p
Alcuni percentili notevoli
• x0.25 = Q1 = 1◦ quartile
• x0.50 = Q2 = 2◦ quartile = mediana
• x0.75 = Q3 = 3◦ quartile
5.16
5.17
Esempio 7. Se il percentile di ordine 0.30 della distribuzione delle altezze dei soggetti di
una collettività è pari a x0.30 = 130 cm, ciò significa che:
• il 30% dei soggetti ha un’altezza minore o uguale a 130 cm
• il 70% dei soggetti un un’altezza non inferiore a 130 cm.
Osservazione
Il percentile è individuabile, per qualsiasi valore di p, in maniera univoca solo in situazioni
particolari
(n 100 e variabile statistica continua, che si manifesta con un elevato numero di valori
distinti).
58
5.18
Esempio 8. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 12
unità statistiche
Una volta ordinate dalla più piccola alla più grande
si assegni la posizione (rango) all’interno dei dati ordinati
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
Nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti.
5.19
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
Ogni valore strettamente compreso tra l’altezza x(6) della sesta unità statistica e x(7) ,
altezza della settima unità statistica, divide la distribuzione esattamente in 2 parti:
• la quota di soggetti con altezza non superiore a quel valore è esattamente pari al
50% (6/12).
• la quota di soggetti con altezza non inferiore a quel valore è esattamente pari al
50% (6/12).
5.20
unità statistiche
le si ordina e si assegna la posizione all’interno dei dati ordinati
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione
esattamente in 2 parti
5.21
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
Le altezze della sesta e settima (e ottava) unità statistica coincidono, diciamo sono uguali
a c:
• la quota di soggetti con altezza non superiore a c è superiore al 50% (8/12).
• la quota di soggetti con altezza non inferiore a c è superiore al 50% (7/12).
unità statistiche
59
5.22
le si ordina e si assegna la posizione all’interno dei dati ordinati
(1)(2)(3)(4)(5)
Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione
esattamente in 2 parti
5.23
(1)(2)(3)(4)(5)
Si consideri l’altezza della quinta unità statistica x(5) :
• la quota di soggetti con altezza non superiore a x(5) è superiore al 50% (3/5).
• la quota di soggetti con altezza non inferiore a x(5) è superiore al 50% (3/5).
Occorre, quindi, una definizione più generale di percentile.
Definizione 11 (Percentile). (definizione formale)
5.24
xp =
∑
x:
xi ≤x
fi ≥ p ∩
∑
xi ≥x
fi ≥ (1 − p)
x p = {x : [F(x) ≥ p] ∩ [1 − F(x) + f req(x) ≥ (1 − p)]}
dove con f req(x) si è indicata la frequenza relativa corrispondente al valore x.
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
x p è un valore x non superato da almeno una frazione p delle unità statistiche e contemporaneamente superato da almeno una frazione 1 − p delle unità statistiche
In particolare assumiamo che:
• se p = 0 → x0 = xmin = x(1)
• se p = 1 → x1 = xmax = x(n)
Per determinare il percentile possiamo contemporaneamente fare riferimento:
• alla funzione di ripartizione F(x): quota di unità statistiche con modalità minore o
uguale a x.
• alla funzione di ripartizione retrocumulata R(x).
Definizione 12 (Funzione di ripartizione retrocumulata R(x)). Si definisce funzione di
ripartizione retrocumulata, detta anche funzione di sopravvivenza, la funzione che a ogni
x fa corrispondere la quota di unità statistiche con modalità non inferiore a x.
60
5.25
5.26
5.27
Osservazione
Se il carattere è quantitativo continuo
R(x) = 1 − F(x).
F(x) e R(x) danno la ’stessa’ informazione con riferimento alla determinazione del percentile:
x p = F −1 (p) = R−1 (1 − p)
5.28
In presenza di un carattere qualitativo ordinato e di un carattere quantitativo non rilevato
con classi vale:
Ri = 1 − F(i) + fi .
Per trovare x p dobbiamo cercare l’insieme dei valori che soddisfa le due condizioni
F(x) ≥ p
R(x) ≥ 1 − p
5.29
xi
2
4
5
7
8
ni
4
6
4
1
5
20
fi
0.20
0.30
0.20
0.05
0.25
1
• p = 0.25
Fi
0.20
0.50
0.70
0.75
1.00
Ri
1.00
0.80
0.50
0.30
0.25
x0.25 = 4
F(4) = 0.5 ≥ 0.25 e R(4) = 0.8 ≥ 0.75
• p = 0.50
5.30
x0.5 = 4 ma anche x0.5 = 5
F(4) = 0.5 ≥ 0.5 e R(4) = 0.8 ≥ 0.5
F(5) = 0.7 ≥ 0.5 e R(5) = 0.5 ≥ 0.5
4 ≤ x0.5 ≤ 5
Consideriamo il valore centrale
x0.5 =
4+5
= 4.5.
2
5.31
• p = 0.75
x0.75 = 7 ma anche x0.75 = 8
F(7) = 0.75 ≥ 0.5 e R(7) = 0.3 ≥ 0.25
F(8) = 1 ≥ 0.5 e R(8) = 0.25 ≥ 0.25
7 ≤ x0.5 ≤ 8
x0.75 =
7+8
= 7.5.
2
5.32
61
4.1
Procedura grafica
1.0
Per determinare x p possiamo però anche fare riferimento alla sola funzione di ripartizione.
Se il carattere è qualitativo ordinato oppure siamo in presenza un carattere quantitativo
con valori non raggruppati in classi abbiamo
0.8
●
0.75
●
Fi
0.20
0.50
0.70
0.75
1.00
0.5
●
0.4
Ni
4
10
14
15
20
0.25
0.2
ni
4
6
4
1
5
20
●
0.0
xi
2
4
5
7
8
0.6
●
0
2
4
5
7
8
10
x0.25
x0.25 = F −1 (0.25) = 4
x0.5 = F −1 (0.5) =??
x0.75 = F −1 (0.75) =??
5.33
• p = 0.5
x(10) = 4 ≤ x0.5 < 5 = x(11)
si ricorda che x10 = 4 e x11 = 5 soddisfano la definizione formale di mediana.
x0.5 =
4+5
= 4.5.
2
5.34
• p = 0.75
x(15) = 7 ≤ x0.75 < 8 = x(16)
si ricorda che x15 = 7 e x16 = 8 soddisfano la definizione formale di mediana.
x0.75 =
7+8
= 7.5.
2
5.35
62
1.0
In presenza di classi, se ni 1, abbiamo
0.9
●
0.6
fi
Fi
0.2 0.2
0.1 0.3
0.3 0.6
0.3 0.9
0.1 1
1
p
0.3
F(x)
●
●
0.2
ni
200
100
300
300
100
1000
●
0.0
xi
24
45
57
78
89
●
●
2
4
xp
5
7
8
9
x0.25 = 4.5
1.0
5.36
0.9
●
0.6
0.3
F(x)
●
●
0.2
fi
Fi
0.2 0.2
0.1 0.3
0.3 0.6
0.3 0.9
0.1 1
1
0.0
xi
24
45
57
78
89
●
●
●
2
4
5
7
8
9
x0.3
x0.3 = 5
x0.5 =??
5.37
63
1.0
Per determinare il valore della mediana, percentile di ordine 0.5, determiniamo in primo
luogo la classe di appartenenza, 5 7 (corrispondente alla prima Fi ≥ 0.5)
0.9
●
0.6
0.3
F(x)
●
0.5
●
0.2
fi
Fi
0.2 0.2
0.1 0.3
0.3 0.6
0.3 0.9
0.1 1
1
0.0
xi
24
45
57
78
89
●
●
●
2
4
5
x0.5
7
8
9
x
Osserviamo come il punto 0.5 sull’asse delle ordinate sia a 2/3 del segmento che unisce i
punti 0.3 e 0.6; quindi anche x0.5 sull’asse delle ascisse sarà in posizione 2/3 sul segmento
che unisce i punti 5 e 7, vale a dire x0.5 = 5 + 23 · 2 = 6.3333.
Segue la formula teorica:
x p = hi−1 +
5.38
p − Fi−1
p − Fi−1
ai = hi−1 +
ai
Fi − Fi−1
fi
dove:
•
•
•
•
hi−1 : estremo inferiore della classe (i) di appartenenza del percentile di ordine p,
ai : ampiezza della classe i,
Fi−1 e Fi : valori della funzione di ripartizione in hi−1 e hi ,
fi = Fi−1 − Fi : frequenza relativa della classe i.
64
5.39
4.2
Calcolo ’preciso’
Come si è visto, in molte situazioni, la determinazione del percentile avviene in maniera
’convenzionale’.
Con riferimento alla serie statistica
xi
2
4
5
7
8
ni
4
6
4
1
5
20
fi
0.20
0.30
0.20
0.05
0.25
1
Fi
0.20
0.50
0.70
0.75
1.00
Ri
1.00
0.80
0.50
0.30
0.25
per la mediana, x0.5 , e per il terzo quartile, x0.75 , si sono scelti 4.5 e 7.5, valori intermedi
tra 4 e 5 e tra 7 e 8.
Si osserva come qualsiasi altro valore negli intervalli [4, 5] e [7, 8] avrebbe potuto essere
utilizzato per x0.5 e per x0.75 .
Se il numero delle unità statistiche è ridotto, i valori che soddisfano la definizione formale
di percentile potrebbero anche essere molto dissimili tra loro.
5.40
Esistono in letteratura diverse formule per il calcolo dei percentili, si veda Hyndman,
R. J., Fan, Y. (1996) Sample quantiles in statistical packages, American Statistician, 50,
361-365.
Si riporta una delle definizioni, comunemente utilizzata nei pacchetti statistici di uso
corrente.
5.41
Definizione 13 (Calcolo ’preciso’ x p ).
x p = (1 − γ) · x( j) + γ · x( j+1)
dove x( j) è l’elemento che occupa la posizione j all’interno dei dati ordinati con
j = [np + (1 − p)]
[·] parte intera dell’argomento, e
γ = np + (1 − p) − j.
In particolare, se p = 0.5, si ottiene
j=
n
2
n+1
2
e
γ=
1
2
0
se n è pari
se n è dispari
se n è pari
se n è dispari
5.42
Segue la definizione di mediana, che distingue le situazioni di numerosità pari e dispari:
Definizione 14 (Mediana).
x0.5 =
1
2
x( n ) + x( n +1)
2
2
x( n+1 )
2
65
se n è pari
se n è dispari
Con riferimento all’esempio di n = 20 unità statistiche, la mediana risulta la semisomma
degli elementi di posizione 10 e 11 nella serie dei dati ordinati
x(10) + x(11)
4+5
=
= 4.5.
2
2
Nel caso il carattere sia qualitativo ordinato o quantitativo non rilevato in classi, per la
mediana si ottiene lo stesso risultato che si avrebbe con il metodo grafico della funzione
di ripartizione.
In presenza di una seriazione statistica, se ni non è elevato, abbiamo: (per n pari)
30
●
27
ni Ni
6
6
3
9
9 18
9 27
3 30
30
●
18
N(x)
xi
24
45
57
78
89
5.43
●
16
15
9
●
6
●
xn
0
2
xn
2+1
●
2
4
5
7
8
9
x
7
6
= 6.4444
5+ ·2 + 5+ ·2
2
9
9
n
n
+ 1 − Ni−1
− Ni−1
x( n ) = hi−1 + 2
ai
x( n +1) = hi−1 + 2
ai
2
2
Ni − Ni−1
Ni − Ni−1
x0.5 =
x( n ) + x( n +1)
2
2
=
1
2
5.44
Osservazione
Se x( n ) e x( n +1) appartengono alla stessa classe si ottiene
2
2
n+1 x0.5 = hi−1 +
− Ni−1
ai
Ni − Ni−1
2
Anche in presenza di una seriazione statistica con n dispari abbiamo la stessa formula
n+1 − Ni−1
x0.5 = x( n+1 ) = hi−1 + 2
ai
2
Ni − Ni−1
5.45
Esercizio 15. Si fornisca una rappresentazione grafica e si riassumano opportunamente
gli esiti riportati nel seguente prospetto
vi
scarso
sufficiente
discreto
buono
ni
18
14
12
6
5.46
66
5 Box & Whiskers plot
●
●
●
●
●
35
●
outliers
●
●
32
33
34
75%
●
x0.75
●
●
25%
x0.5
●
31
50%
75%
25%
x0.25
●
●
30
●
5.47
Rappresentazione grafica costituita da:
• box (scatola)
– x0.25 = Q1
– x0.50 = Q2
– x0.75 = Q3
• whiskers (baffi)
– baffo inferiore = max{xmin , Q1 − 1.5(Q3 − Q1)}
– baffo superiore = min{xmax , Q3 + 1.5(Q3 − Q1)}
x0.75 − x0.25 = Q3 − Q1 è chiamata differenza interquartile.
Utilizzo:
• idea sintetica della distribuzione
• confronti
• individuazione dati anomali (oltre i baffi)
67
5.48
5.49
Esempio 16 (Altezza della navata e lunghezza totale delle cattedrali inglesi). Faraway JJ
2002 Practical Regression and Anova using R, July 2002,
(http://stat.ethz.ch/CRAN/doc/contrib/Faraway-PRA.pdf)
• x altezza della navata (m)
y lunghezza totale (m)
Alcune cattedrali sono in stile romanico, altre in stile gotico.
I dati relativi alle cattedrali con entrambi gli stili sono stati duplicati.
Si confrontano i due stili mediante grafici Box & Whiskers plot.
Durham
Canterbury
Gloucester
Hereford
Norwich
Peterborough
St.Albans
Winchester
Ely
York
Bath
Bristol
Chichester
Exeter
GloucesterG
Lichfield
Lincoln
NorwichG
Ripon
Southwark
Wells
St.Asaph
WinchesterG
Old.St.Paul
Salisbury
style
r
r
r
r
r
r
r
r
r
g
g
g
g
g
g
g
g
g
g
g
g
g
g
g
g
x
22.86
24.38
20.73
19.51
25.30
24.38
21.34
23.16
22.56
30.48
22.86
15.85
18.90
20.73
26.21
17.37
24.99
21.95
26.82
16.76
20.42
13.72
31.39
31.39
25.60
y
153.01
159.11
129.54
104.85
124.05
137.46
167.94
161.54
166.73
158.19
68.58
91.44
127.41
124.66
129.54
112.78
154.23
124.05
89.92
83.21
126.49
55.47
161.54
186.23
144.17
5.50
Distribuzione 'lunghezza totale'
60
15
80
20
120
25
160
30
Distribuzione 'altezza della navata'
g
r
g
r
5.51
68
Esercizio 17. Si confrontino mediante grafici Box & Whiskers plot le seguenti serie di
osservazioni
Serie X : 12, 7, 11, 10, 15, 14, 30, 20, 11, 8, 12
Serie Y : 7, 17, 10, 9, 9, 11, 8, 6, 12, 7, 10, 7, 13, 9, 8
5.52
Esercizio 18. Si costruisca il Box & Whiskers plot per la seguente serie statistica
xi
20
27
30
33
ni
44
36
70
50
200
5.53
Esercizio 19. Si costruisca il Box & Whiskers plot per la seguente seriazione statistica
basandosi sulla funzione di ripartizione
hi−1 hi
15 25
25 29
29 31
31 35
fi
0.22
0.18
0.35
0.25
1
5.54
69
50
Esercizio 20. Quale tra i due istogrammi corrisponde al Box & Whiskers plot?
0.05
0.04
40
0.03
0.02
0.01
20
30
0.00
0
10
20
30
40
50
0
10
20
30
40
50
0.05
0.04
10
0.03
0.02
0.01
0.00
5.55
50
Esercizio 21. Quale tra i due istogrammi corrisponde al Box & Whiskers plot?
0.05
0.04
40
0.03
0.02
0.01
20
30
0.00
0
10
20
30
40
50
0
10
20
30
40
50
0.05
0.04
10
0.03
0.02
0.01
0.00
5.56
70
6 Le medie potenziate
Definizione 22. Data una variabile statistica X con modalità xi > 0 (eventualmente valori
centrali) si definisce media potenziata di ordine r
1
r
1 k r
xi ni
=
∑
n i=1
1 1
r
r
k
k
r ni
r
x
=
x
f
i
∑ in
∑ i
i=1
i=1
μ
(r)
=
=
con fi = nni ed r = ±1, ±2, ±3, . . ..
Nel caso di frequenze unitarie (o valori singoli v j , j = 1, . . . , n)
μ
(r)
=
n
1
n
∑
1
r
vrj
j=1
5.57
6.1
La media aritmetica (r = 1)
Definizione 23.
μ (1) = μ = M(X) =
k
1 k
xi ni = ∑ xi fi .
∑
n i=1
i=1
Osservazione
È inessenziale la positività delle xi .
Esempio 24. M(X) è il valore centrale di una successione aritmetica con un numero
dispari di termini, ad esempio
1, 2, 3, 4, 5
si osservi che in questo caso ciascuna modalità figura una sola volta, quindi k = n = 5 e
n1 = n2 = . . . = nk = 1, quindi:
μ = M(X) =
1 k
1
∑ xi ni = 5 (1 + 2 + 3 + 4 + 5) = 3.
n i=1
5.58
71
Esempio 25. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 nella serie statistica
xi
1
2
2.5
10
ni
2
4
3
1
10
(1)
si può procedere al calcolo della media aritmetica
ni
2
4
3
1
10
xi
1
2
2.5
10
μ = M(X) =
xi ni
2
8
7.5
10
27.5
1
1 k
∑ xi ni = 10 27.5 = 2.75.
n i=1
5.59
Osservazione
Nel caso di una seriazione statistica i valori xi sono i valori centrali delle classi
hi−1 hi
0.25 1.75
1.75 2.25
2.25 2.75
2.75 17.25
ni
2
4
3
1
10
xi
1
2
2.5
10
→
ni
2
4
3
1
10
M(X) = 2.75
5.60
Esercizio 26. Si supponga che il valore di ciascuna unità statistica aumenti di 1 unità;
si ricalcoli il valore della media aritmetica; si ripeta l’esercizio nel caso in cui i valori
raddoppino.
5.61
Osservazione
La media potenziata di ordine r può essere riscritta nel seguente modo
μ
(r)
1 k r
=
∑ xi ni
n i=1
1
r
1
= [M(X r )] r
Radice r-esima della media aritmetica dei valori di X elevati a r.
6.2
5.62
La media armonica (r = −1)
Definizione 27.
μ (−1) =
1
1
n
∑ki=1 x1i ni
=
1
M( X1 )
Osservazioni
La presenza di valori xi = 0 toglie significato all’espressione;
Inoltre, valori xi positivi e negativi potrebbero rendere il denominatore nullo.
72
5.63
Esempio 28. μ (−1) è il valore centrale di una successione armonica con un numero dispari
di termini, ad esempio
1 1 1 1
1, , , ,
2 3 4 5
anche in questo caso siamo in presenza di valori singoli e, quindi, ciascuna modalità figura
una sola volta: k = n = 5 e n1 = n2 = . . . = nk = 1
1
μ (−1) =
1
n
∑ki=1 x1i ni
1
=
1
5 (1 + 2 + 3 + 4 + 5)
=
1
3
5.64
Esempio 29. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 in serie statistica è
possibile procedere al calcolo della media armonica
xi
1
2
2.5
10
μ (−1) =
6.3
1
1
n
∑ki=1 x1i ni
ni
xi
ni
2
4
3
1
10
=
2
2
1.2
0.1
5.3
1
1
10 5.3
=
1
= 1.8868
0.53
5.65
La media quadratica (r = 2)
Definizione 30.
k
1
(2)
μ = ∑ xi2 ni = M(X 2 )
n i=1
Osservazione
La positività delle xi è inessenziale.
5.66
Esempio 31. Con riferimento alla precedente serie statistica abbiamo
xi
1
2
2.5
10
ni
2
4
3
1
10
xi2 ni
2
16
18.75
100
136.75
k
1
1
(2)
2
μ =
∑ xi ni = 10 136.75 = 3.698
n i=1
Osservazione
Vale l’ordinamento:
xmin < μ (−1) = 1.8868 < μ (1) = 2.75 < μ (2) = 3.698 < xmax
5.67
73
6.4
Il Teorema fondamentale sulle medie potenziate
Teorema 32. La funzione
μ
(r)
1
k
∑
=
r
(r = ±1, ±2, . . .)
xir fi
i=1
con xi positivi (ordinati) e distinti
1. è monotona in senso stretto
2. asintoti
lim μ (r) = x1
lim μ (r) = xk
r→−∞
r→+∞
3. ogni μ (r) è una media in senso stretto
4. media geometrica (r = 0)
lim μ
(r)
r→0
=
n
k
∏
xini
1
n
k
∏
=
i=1
k
= ∏ xifi = μ (0) .
xini
i=1
i=1
5.68
5
Esempio 33. Si riporta l’andamento della funzione
serie statistica
μ (r)
con riferimento alla seguente
μ(r)
4
xmax
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3
●
μ(2)
μ(1)
2
μ(0)
●
●
●
(−1)●
μ
●
●
1
ni
7
3
3
7
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
xmin
0
xi
1
2
3
4
−20
−10
0
10
20
r
5.69
74
Definizione 34. Si definisce variabile statistica degenere una variabile statistica caratterizzata da modalità tutte eguali fra loro: xi = c, ∀i.
Per tale variabile statistica, in base alla proprietà di Cauchy,
μ (r) = c
per qualsiasi valore dell’ordine r.
Osservazione
Per r = 0 la media non è definita (forma indeterminata 1∞ );
μ (0) è ottenuta con un’operazione di limite
μ (0) = lim μ (r)
r→0
5.70
Esempio 35. Si calcolano media armonica, geometrica, aritmetica e quadratica della
seguente variabile statistica
xi
8.5
10.5
13.5
18.5
classi
7.5 9.5
9.5 11.5
11.5 15.5
15.5 21.5
ni
40
25
120
145
330
μ(−1)
μ(0)
μ(1)
μ(2)
13.8577
14.3826
14.8636
15.2894
media
media
media
media
armonica
geometrica
aritmetica
quadratica
●
●
●
●
5.71
75
La definizione di media aritmetica si estende anche a v.s. generiche (xi sia positivi che
negativi) mantenendo le proprietà di media in senso stretto
1. (Cauchy)
Posto
x(1) = min xi = x1
i
x(k) = max xi = xk
i
abbiamo
x1 ≤ x i ≤ x k
moltiplicando tutti i termini della diseguaglianza per la costante non negativa fi il
verso della diseguaglianza non cambia
x1 f i ≤ x i f i ≤ x k f i
la diseguaglianza vale per tutti i valori di X, possiamo quindi sommare rispetto
all’indice i e il verso della diseguaglianza non cambia
k
k
k
i=1
i=1
i=1
∑ x1 fi ≤ ∑ xi fi ≤ ∑ xk fi
x1 e xk sono delle costanti, non dipendono dall’indice i e possono essere portate
fuori dalle sommatorie
k
k
k
i=1
i=1
i=1
x1 ∑ fi ≤ ∑ xi fi ≤ xk ∑ fi
la somma delle frequenze relative fi vale 1, quindi
k
x1 ≤ ∑ xi fi ≤ xk
i=1
vale a dire
x1 ≤ μ ≤ x k
2. (moltiplicatività)
Si ricorda che
Y = cX ↔ yi = cxi
La media di Y risulta
k
M(Y ) = ∑ yi fi
i=1
sostituendo cxi a yi abbiamo
k
M(Y ) = ∑ cxi fi
i=1
c è una costante moltiplicativa che può essere portata fuori dalla sommatoria, quindi
k
M(Y ) = c ∑ xi fi = cM(X)
i=1
ricordando che ∑ki=1 xi fi = M(X).
76
5.72
3. (monotonicità)
Si ricorda che
Y ≥X
↔
yi = xi + δi
La media di Y risulta
(δi ≥ 0)
k
M(Y ) = ∑ yi fi
i=1
sostituendo xi + δi a yi abbiamo
k
M(Y ) = ∑ (xi + δi ) fi
i=1
possiamo sviluppare il prodotto (xi + δi ) fi
k
M(Y ) = ∑ (xi fi + δi fi )
i=1
e scomporre la sommatoria nella somma di due sommatorie
k
k
k
i=1
i=1
i=1
M(Y ) = ∑ xi fi + ∑ δi fi ≥ ∑ xi fi
La diseguaglianza finale vale in quanto ∑ki=1 δi fi ≥ 0 in base alla proprietà di Cauchy applicata alla variabile statistica {(δi , ni ), i = 1, 2, . . . , k}.
5.73
7 Esercizi
Esercizio 36. Con riferimento alla variabile statistica
xi
1
2
3
4
5
ni
2
4−θ
2
θ
2
10
1. indicare quali valori può assumere il parametro θ
2. si calcolino poi al variare di θ i valori della media armonica, geometrica, aritmetica
e quadratica, della moda e della mediana
3. si commentino i risultati ottenuti con riferimento al Teorema sulle medie potenziate.
5.74
Esercizio 37. Si riportano i redditi di 5 soggetti (valori in migliaia di e)
soggetto 1
reddito 15
2
22
3
25
4
28
5
35
1. Si calcoli la media aritmetica dei redditi.
2. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito raddoppi.
3. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito aumenti di
5000e.
5.75
77
Esercizio 38 (T 221, 08.09.2005, 1). Nel prospetto seguente sono riportate, con riferimento ai redditi di n soggetti (variabile X), le classi di rilevazione e le rispettive densità
di frequenza.
hi−1 hi di
10 15 4
15 20 4
20 39 3
1. Si ricostruiscano le distribuzioni delle frequenze assolute e cumulate della variabile
X e si dia una opportuna rappresentazione grafica di X e della sua funzione di
ripartizione F(x).
2. Si calcoli la media e si identifichino su un grafico i quartili di X.
5.76
Esercizio 39. Si dia una rappresentazione grafica e si calcoli il valore della media armonica della seriazione statistica
hi−1 hi ni
13
1
36
9
6 11 10
11 21 20
5.77
Esercizio 40 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella
seguente tabella risulti μ (−∞) = 10 e μ (1) = 20
xi
x1
30
ni
n1
30
5.78
Esercizio 41. Indicare se le seguenti medie potenziate
μ (0) = 6.3,
μ = 4.3,
μ (2) = 4.3
sono compatibili con la seguente serie statistica
(della quale sono note solo alcune informazioni)
xi
2.5
4
..
.
ni
20
22
..
.
16
10
5.79
Esercizio 42. Indicare se le seguenti medie potenziate
μ (−1) = 5,
μ = 14,
sono compatibili con la seguente serie statistica
(della quale sono note solo alcune informazioni)
xi
11
12
14
..
.
78
ni
2
2
2
..
.
μ (2) = 13
5.80
Esercizio 43 (T 165, 30.09.1998, 3). Sia X una variabile statistica simmetrica rispetto al
valore 85:
xi
10
x2
2x2 − 10
x4
ni
10
n2
n3
10
1. Supponendo n = 100, si ricavi la distribuzione delle frequenze cumulate e se ne dia
rappresentazione grafica.
5.81
μ (39) ,
Esercizio 44 (P 001, 10.03.1995, 2). Dire, motivando la risposta, se
ovvero la
media potenziata di ordine 39, può assumere il valore 39, con riferimento alla seguente
v.s. X
xi 4 12 20 28 36
ni 39 39 39 39 39
Calcolare la media geometrica di X e indicare l’intervallo di valori reali entro il quale può
presentarsi la media armonica.
5.82
8 L’operatore media aritmetica
Definizione 45 (Operatore media aritmetica). Si definisce operatore media aritmetica,
indicato con M(X), la funzione che assegna a ogni variabile statistica X la sua media
aritmetica
k
1 k
μ = ∑ xi ni = ∑ xi fi = M(X).
n i=1
i=1
Nella letteratura anglosassone l’operatore media aritmetica
5.83
M(X)
viene indicato con
E(X)
(expected value).
5.84
79
9 Interpretazione fisica della media aritmetica
’centro di gravità’ o ’punto di equilibrio’ delle frequenze
k
k
k
k
i=1
i=1
i=1
i=1
∑ (xi − μ) fi = ∑ xi fi − ∑ μ fi = μ − μ ∑ fi = μ − μ = 0
f2
f3
f4
f1
x1
x3
x2
x4
μ
xi − μ = braccio
fi = peso o forza
5.85
10 Media aritmetica di una trasformazione lineare
Teorema 46. Se
Y = aX + b
allora
M(Y ) = aM(X) + b
Dimostrazione.
k
M(Y ) = ∑ yi fi
=
i=1
k
k
∑ (axi + b) fi = ∑ (axi fi + b fi )
i=1
i=1
k
k
k
k
i=1
i=1
i=1
i=1
=
∑ axi fi + ∑ b fi = a ∑ xi fi + b ∑ fi
=
aM(X) + b
5.86
80
Osservazione
Il teorema precedente afferma che l’operatore media aritmetica M(X) è un operatore
lineare
M(aX + b) = aM(X) + b
Osservazione
In particolare
M(b) = M(costante) = b
dal momento che X = b è una variabile statistica degenere.
5.87
Definizione 47 (variabile scarto da un centro).
Y = X −c
Proprietà
M(Y ) = M(X − c) = M(X) − M(c) = M(X) − c
Definizione 48 (variabile scarto dalla media). Si ponga nella definizione precedente c = μ
Y = X − μX ,
μX = M(X)
Proprietà
M(Y ) = M(X − μX ) = M(X) − M(X) = 0
5.88
Segue che anche la somma degli scarti dalla media è nulla
k
∑ (xi − μX )ni
=
i=1
=
k
k
i=1
i=1
∑ xi ni − ∑ μX ni =
k
nM(X) − μX ∑ ni = nM(X) − nM(X) = 0
i=1
5.89
Definizione 49 (momenti di ordine s ≥ 1 da un centro).
k
M[(X − c)s ] = ∑ (xi − c)s fi
i=1
Definizione 50 (momenti di ordine s ≥ 1 dalla media).
k
M[(X − μX )s ] = ∑ (xi − μX )s fi
i=1
Utilizzeremo, nel seguito:
• M[(X − μX )2 ] misura della variabilità di una distribuzione
• M[(X − μX )3 ] misura di asimmetria di una distribuzione
• M[(X − μX )4 ] misura di curtosi di una distribuzione
5.90
Definizione 51 (momenti di ordine s ≥ 1 dall’origine, c = 0).
k
M(X s ) = ∑ xis fi
i=1
Abbiamo, in particolare, già visto che
μ (r) = [M(X r )]1/r
5.91
81
Sezione 6
Indici di posizione (2)
6.1
Indice
1
Il problema della scelta della media
83
2
Media obiettivo secondo Chisini
83
3
Alcuni esempi di applicazione del criterio di scelta della media secondo Chisini
84
4
Scelta della media per minimizzazione del danno
87
5
Proprietà associativa della media aritmetica
91
6
Esercizi
94
7
Proprietà mediana e media aritmetica
94
6.2
1 Il problema della scelta della media
α(X) = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(v1 , v2 , . . . , vn )
• funzione dei dati
• ma . . . quale forma funzionale ??
Chisini (1929)
La ricerca della media ha lo scopo di semplificare una data questione, sostituendo a due
o più quantità date una quantità sola, atta a sintetizzarle senza variare la visione del
fenomeno in esame.
Si ricorda che lo studio di un fenomeno comporta, in genere, le seguenti fasi preliminari:
1. individuazione del carattere indicatore (proxy)
2. ricerca di opportuni indici sintetici
vedremo:
• media obiettivo
• minimizzazione danno
6.3
83
2 Media obiettivo secondo Chisini
Definizione 1 (Media Obiettivo secondo Chisini). Si consideri una v.s. X sulla quale è
posto un vincolo globale espresso attraverso una funzione dei dati
φ (X) = φ (x1 , . . . , xk ; n1 , . . . , nk ) = λ
la media α deve soddisfare anch’essa il vincolo globale
φ (α) = φ (α, . . . , α; n1 , . . . , nk ) = λ
media obiettivo o secondo Chisini è, quindi, la soluzione dell’equazione
φ (x1 , . . . , xk ; n1 , . . . , nk ) = φ (α, . . . , α; n1 , . . . , nk )
(non è garantito che α = α(X) sia una media in senso stretto)
6.4
3 Alcuni esempi di applicazione del criterio di scelta
della media secondo Chisini
Esempio 2. La quantità totale di 26 gettoni è stata ripartita tra 10 soggetti nel modo
seguente:
7 soggetti possiedono 2 gettoni
2 soggetti possiedono 3 gettoni
1 soggetto possiede 6 gettoni
Problema determinare la quantità media da assegnare a ciascun soggetto in modo da
realizzare una ripartizione egalitaria del totale
xi
2
3
6
ni xi ni
7 14
2
6
1
6
10 26
Soluzione si può considerare come vincolo globale il totale assegnato λ = T ; la funzione
φ (X) è quindi ∑ki=1 xi ni
3
∑ xi ni = T
3
∑ αni = T
e
i=1
i=1
3
3
i=1
i=1
3
3
i=1
i=1
∑ xi ni = ∑ αni
∑ αni = ∑ xi ni
3
3
i=1
i=1
α ∑ ni = ∑ xi ni
3
αn = ∑ xi ni
i=1
84
6.5
da cui
α=
1 3
∑ xi ni
n i=1
la media α corrisponde alla media aritmetica delle xi .
6.6
Osservazione
la media aritmetica è la quantità che sostituita alle modalità di una variabile statistica ne
lascia invariato il TOTALE.
(criterio adatto alla maggior parte dei fenomeni naturali)
6.7
Esempio 3. Un investitore deposita al tempo 0 un capitale C0 presso un istituto di credito; la durata dell’investimento è pari a 5 anni; i tassi di interesse, definiti in regime di
capitalizzazione composta, concordati nei diversi periodi sono:
1◦ periodo 3%
i1 = 0.03
u1 = 1.03
i2 = 0.05
u2 = 1.05
2◦ periodo 5%
i3 = 0.03
u3 = 1.03
3◦ periodo 3%
4◦ periodo 5%
i4 = 0.05
u4 = 1.05
5◦ periodo 2%
i5 = 0.02
u5 = 1.02
dove u j è il montante unitario riferito al periodo j.
Problema determinare il tasso di interesse medio corrisposto dall’istituto di credito nei 5
anni.
6.8
Soluzione Si deve trovare il tasso di interesse ī = αI (i1 , . . . , i5 ), o equivalentemente
ū = αU (u1 , . . . , u5 ),
che consente, partendo dalla somma iniziale C0 , di riprodurre il capitale finale C5 .
Ricordiamo che per j = 1, 2, . . . , 5 abbiamo C j = C j−1 + I j , dove I j = C j−1 · i j è la somma
corrisposta a titolo d’interesse alla fine del periodo j-esimo.
Alla fine dei periodi:
C1 = C0 + I1 = C0 · u1
C2 = C1 + I2 = C1 · u2 = C0 · u1 · u2
..
.
C5 = C0 · u1 · u2 · u3 · u4 · u5 = C0 ∏5j=1 u j
6.9
C0 · u1 · u2 · u3 · u4 · u5 = C5
In base al criterio di scelta secondo Chisini dobbiamo individuare il montante unitario
medio ū tale che
C0 · ū · ū · ū · ū · ū = C0 ū5 = C5
ovvero
u1 · u2 · u3 · u4 · u5 = ū · ū · ū · ū · ū = ū5
5
5
ū = ∏ uj
j=1
che corrisponde alla media geometrica dei montanti unitari, corrispondenti ai tassi di
interesse i j .
Nel caso in esame
ū = 1.0359
85
da cui
ī = ū − 1 = 1.0359 − 1 = 0.0359 = 3.59%.
6.10
Osservazione
La media geometrica è la quantità che sostituita alle modalità di una variabile statistica ne
lascia invariato il prodotto.
6.11
Esempio 4 (Portafoglio titoli). Un risparmiatore acquista un portafoglio composto da
2000e in BTP, 5000e in azioni e 3000e in obbligazioni e, tempo dopo, t1 dismette il capitale investito, ottenendo i seguenti rendimenti: BTP: 3.8%, azioni: −1%, obbligazioni
3.5%
Ci = quantità
xi = rendimenti
Btp
2000
3.8%
Azioni
5000
-1%
Obbligazioni
3000
3.5%
Problema Determinare il tasso di rendimento medio, α(x1 , x2 , x3 ), espresso in funzione
dei rendimenti parziali xi , considerando come ’quantità invariante’ equivalentemente:
1. il montante complessivo (M)
2. il guadagno complessivo (G)
Soluzione Si indichino con Mi i montanti e con Gi i guadagni, i = 1, 2, 3 dei tre investimenti.
1.
3
3
3
i=1
i=1
i=1
6.12
M = ∑ Mi = ∑ Ci (1 + xi ) = ∑ Ci (1 + α)
2.
3
3
3
i=1
i=1
i=1
G = ∑ Gi = ∑ Ci xi = ∑ Ci α
da cui, risolvendo rispetto ad α, si ottiene:
α=
131
∑3i=1 Ci xi
= 0.0131 = 1.31%.
=
10000
∑3i=1 Ci
La media trovata α corrisponde alla media aritmetica dei tassi di interesse xi ponderati
rispetto ai capitali investiti Ci .
Esempio 5. Un automobilista percorre 100km e rileva le seguenti velocità:
sulla prima tratta di 50km mantiene una velocità costante di 80km/h
sulla seconda tratta di 40km una velocità costante di 120km/h
sulla terza tratta di 10km una velocità costante di 40km/h
Problema determinare la velocità media di percorrenza dei 100km
vi
40
80
120
si
10
50
40
100
86
6.13
Soluzione si può considerare come carattere invariante il tempo totale T impiegato per
compiere l’intero tragitto.
E’ possibile determinare il tempo di percorrenza della singola tratta in funzione della
relazione, V = TS , intercorrente tra velocità, spazio e tempo:
T=
6.14
S
;
V
con riferimento alla singola tratta risulta:
si
vi
ti =
Ne consegue un tempo totale di percorrenza pari a:
s1 s2 s3
+ +
v1 v2 v3
T = t1 + t2 + t3 =
Se si indica con α la velocità media è possibile riscrivere la relazione che ’garantisce’ il
rispetto del tempo totale di percorrenza
T=
s 1 s2 s3
+ + .
α α α
6.15
L’equazione conseguente, che consente di trovare l’espressione per α, è la seguente:
s1 s2 s3
s1 s 2 s3
+ + = + +
v1 v2 v3
α α α
s1 s 2 s 3
s1 s2 s3
+ + = + +
α α α
v1 v2 v3
1
s1 s2 s3
(s1 + s2 + s3 ) = + +
α
v1 v2 v3
s 1 s 2 s3
1
1
=
+ +
α
s1 + s2 + s3 v1 v2 v3
−1 −1
1
1
s1 s2 s 3
=
+ +
α
s1 + s2 + s3 v1 v2 v3
α=
1
s1 +s2 +s3
1
s1
v1
+ vs22 + vs33
6.16
La media trovata corrisponde alla media armonica delle velocità utilizzando ’come frequenze’ le lunghezze si delle diverse tratte
α=
vi
40
80
120
si
10
50
40
100
1
=
1
100 1.2083
ti = vsii
0.2500
0.6250
0.3333
1.2083
1
1
100 1.2083
87
= 82.761
6.17
4 Scelta della media per minimizzazione del danno
Definizione 6. Data la variabile statistica X si cerca l’indice di posizione
α = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(X)
tale da minimizzare la sua distanza complessiva dai dati (perdita di informazione) misurata attraverso gli scarti
zi = x i − α
come
D=
1 k
∑ d(zi )ni
n i=1
dove d(z) è un’opportuna funzione di distanza che quantifica il danno (perdita di informazione) zi = xi − α in corrispondenza della generica unità statistica
6.18
1.5
0.0
0.5
1.0
|z|
2.0
2.5
3.0
Teorema 7 (Funzione di distanza valore assoluto).
z
se z ≥ 0
d(z) = |z| =
−z se z < 0
−3
−2
−1
0
1
2
3
z
D=
1 k
∑ |xi − α|ni
n i=1
D = min ↔ α = x0.5 (mediana)
In questo caso il danno è proporzionale rispetto all’errore.
6.19
Dimostrazione. Con riferimento ai dati v j ordinati, ovvero v( j) , consideriamo v(1) e v(n)
●
●
v(1)
v(n)
α
ogni punto interno al segmento v(1) , v(n) è a distanza minima dagli estremi
(si pensi ai punti esterni)
●
●
v(1)
v(n)
88
lo stesso può dirsi per v(2) , v(n−1)
. . . e così via
Pertanto:
• se n è dispari → α = v( n+1 )
2
• se n è pari → v( n ) ≤ α ≤ v( n +1)
2
2
(va bene ogni punto del segmento)
In particolare:
x0.5 =
v( n ) + v( n +1)
2
2
2
6.20
Dimostrazione. Si considerino 9 punti distinti su una retta
a b
c d e
f
gh i
●
●
●
● ● ●
●
●
●
Dobbiamo cercare il punto che minimizza la media o, equivalentemente, la somma delle
distanze da tutti i 9 punti
Consideriamo un punto compreso tra a e b
La somma delle distanze è data dalla somma dei 9 segmenti in figura
α
a b
c d e
f gh i
●
●
●
●
●
●
● ● ●
Se consideriamo un punto compreso tra b e c la somma delle distanze si riduce:
a e b sono più lontani dal nuovo punto, ma questo è più vicino agli altri 7 punti
α
a b
c d e
f gh i
●
●
●
●
●
●
● ● ●
Possiamo ulteriormente ridurre la somma delle distanze spostando α verso destra
α
a b
c d e
f gh i
●
●
●
●
89
●
●
● ● ●
6.21
La somma delle distanze risulta minima se α coincide con e.
Infatti spostandosi ancora a destra la distanza si ridurrebbe per f , g, h, i, ma aumenterebbe
per a, b, c, d ed e
α
a b
c d e
f gh i
●
●
●
●
●
●
● ● ●
e rappresenta il punto mediano.
6.22
6.23
Teorema 8 (Funzione di distanza quadratica).
6.24
d(z) = z2
6.25
0
2
4
z2
6
8
6.26
−3
−2
−1
0
1
2
3
z
D=
1 k
∑ (xi − α)2 ni
n i=1
D = min ↔ α = μ (media aritmetica)
In questo caso il danno è più che proporzionale rispetto all’errore.
Si riportano due dimostrazioni del risultato
Dimostrazione. Riscriviamo la funzione da minimizzare utilizzando l’operatore media
aritmetica
1 k
D = ∑ (xi − α)2 ni = M (X − α)2 .
n i=1
Sommando e togliendo μ si ottiene
D = M (X − μ + μ − α)2 .
Si sviluppa ora il quadrato del binomio con termini (X − μ) e (μ − α)
D = M [(X − μ) + (μ − α)]2
= M (X − μ)2 + (μ − α)2 + 2(X − μ)(μ − α) .
Tenendo conto che l’operatore media aritmetica è lineare otteniamo
D = M (X − μ)2 + M (μ − α)2 + 2M[(X − μ)(μ − α)].
90
6.27
L’espressione (μ − α) nel terzo addendo è una costante e può essere portata fuori dall’operatore media
D = M (X − μ)2 + M (μ − α)2 + (μ − α)2M[(X − μ)].
Tenendo conto che la variabile scarto dalla media (X − μ) è caratterizzata da media nulla,
M[(X − μ)] = 0, il terzo addendo risulta nullo, quindi
D = M (X − μ)2 + M (μ − α)2 .
L’espressione risulta minima se
α = μ = μ (1) = M(X).
6.28
Dimostrazione. Riscriviamo, anche per questa dimostrazione, la funzione da minimizzare
utilizzando l’operatore media aritmetica
D=
1 k
(xi − α)2 ni = M (X − α)2 .
∑
n i=1
Poniamo uguale a 0 la derivata della funzione obiettivo
d M (X − α)2
= 0.
dα
Dal momento che la media è un operatore lineare possiamo scambiare l’ordine dell’operatore derivata e dell’operatore media
d (X − α)2
= 0.
M
dα
Ricordando la formula della derivata di una funzione composta otteniamo
M [2(X − α)(−1)] = 0.
I termini 2 e (−1) sono costanti moltiplicative e possono essere portati fuori dall’operatore
media
−2M(X − α) = 0.
Ricordando che la media è un operatore lineare otteniamo
M(X) − M(α) = 0
α è una costante, quindi M(α) = α
M(X) − α = 0
In conclusione:
α = μ = μ (1) = M(X).
6.29
Per verificare che effettivamente si tratta di un punto di minimo possiamo controllare il
segno della derivata seconda della funzione da minimizzare in corrispondenza del punto
estremante α = μ
2
d 2 M (X − α)2
d (X − α)2
d [−2(X − α)]
= M(+2) = +2.
=
M
=
M
dα 2
dα 2
dα
La funzione è convessa e il punto estremante è di minimo.
91
6.30
5 Proprietà associativa della media aritmetica
Consente di esprimere la media generale come media delle medie parziali.
Si considerino i dati elementari
v1 , v2 , . . . , vn
riuniti in h sottogruppi
1
2
...
h
n1
n2
...
nh
μ1
μ2
...
μh
(il raggruppamento in tabelle è uno dei possibili)
il singolo valore viene ora indicato con xi j : j-esima osservazione ( j = 1, 2, . . . , ni ) nel
gruppo i (i = 1, 2, . . . , h).
6.31
Definizione 9 (Proprietà associativa della media aritmetica). Sia data una popolazione
suddivisa in h gruppi e sia
1 ni
μi = ∑ xi j
ni j=1
la media del gruppo i-esimo.
La media generale (calcolata su tutte le unità statistiche)
μ=
1 h ni
∑ ∑ xi j
n i=1
j=1
può essere riespressa come
μ
=
=
1 h ni
∑ ni
n i=1
h
1
∑ ni
n i=1
ni
∑ xi j =
j=1
1
ni
ni
∑ xi j
=
j=1
1 h
∑ μi ni
n i=1
6.32
vale a dire
μ=
h
h
1
∑ μi ni = ∑ μi fi .
n i=1
i=1
6.33
Esempio 10. Si consideri la seguente popolazione di unità statistiche raggruppate in 3
gruppi
1
3
2
4
5
4
6
6
6
7
6
8
8
Si calcolano in primo luogo le medie per i tre gruppi
92
•
1
μ1 = (4 + 5 + 6 + 7) = 5.5
4
•
1
μ2 = (4 + 6 + 6 + 8) = 6
4
•
1
μ3 = (6 + 8) = 7
2
6.34
È possibile ricostruire la variabile statistica medie di gruppo
i
1
2
3
μi
5.5
6
7
ni
4
4
2
10
le cui modalità sono le medie di gruppo, con associate come frequenze le rispettive
numerosità di gruppo.
La media di tale variabile statistica risulta
μi
5.5
6
7
μ=
ni
4
4
2
10
μi ni
22
24
14
60
1
1 3
∑ μi ni = 10 60 = 6
n i=1
e coincide con la media generale calcolata su tutte le unità statistiche.
Infatti:
1
μ = (4 + 5 + 6 + 7 + 4 + 6 + 6 + 8 + 6 + 8) = 6
10
ovvero
xi
4
5
6
7
8
ni
2
1
4
1
2
10
xi
4
5
6
7
8
μ=
μ =6
distribuzione
simmetrica
6.35
ni xi ni
2
8
1
5
4 24
1
7
2 16
10 60
1 5
1
∑ xi ni = 10 60 = 6
n i=1
6.36
Esempio 11. Siano
μ1 il voto medio delle n1 femmine
μ2 il voto medio degli n2 maschi
μ=
μ1 n1 + μ2 n2
n1 + n2
93
Esempio 12. Dai dati di produzione media giornaliera alla media mensile o trimestrale
(NB solo se le medie parziali sono aritmetiche!!)
6.37
Osservazione
Si consideri la formula della media aritmetica
μ=
1 h
∑ μi n i .
n i=1
Indicato con
ti = μi ni
il totale parziale; allora
μ=
1 h
T
ti =
∑
n i=1
n
dove T è il totale generale, che associa quindi i totali parziali
6.38
6 Esercizi
Esercizio 13. Definita una partizione degli abitanti di una regione in due gruppi, indicati
nel seguito con 1 e 2, si sono costruiti i seguenti prospetti relativi alla distribuzione dei
redditi in ciascun gruppo.
Gruppo 1
Ri
ni
10 15 1800
15 30 1500
30 50 2700
Ri
10 15
15 30
30 50
Gruppo 2
ni
fi
0.15
0.25
0.60
1. Sapendo che il reddito medio di tutti gli abitanti della regione è 30, si determini, per
il gruppo 2, il numero ni di soggetti appartenenti a ciascuna delle classi di reddito.
6.39
Esercizio 14 (T 216, 04.02.2005, 1). Con riferimento al numero dei componenti delle 50.000 famiglie di una certa regione si sono calcolati i seguenti indici di posizione:
m.geometrica = 2.7; m.quadratica = 3.8.
1. Calcolare approssimativamente il numero di abitanti della regione.
6.40
7 Proprietà mediana e media aritmetica
(se non specificato, per media si intende quella aritmetica)
mediana
• media in senso stretto
• minimizza la somma degli scarti assoluti
media
•
•
•
•
media in senso stretto
operatore lineare
annulla la somma degli scarti relativi
minimizza la somma degli scarti quadratici
94
• lascia invariato il totale
6.41
Osservazione
La mediana, rispetto alla media, risente meno dei valori anomali
X 0 1 2 3 4
●
●
●
●
●
●
●
●
●
Y 0 1 2 3
9
x0.5 = 2 = y0.5
●
M(X) = 2 < M(Y ) = 3
ma
6.42
95
Sezione 7
Variabilità (1)
7.1
Indice
1
Indici di variabilità
97
2
La variabilità per i caratteri qualitativi
98
3
Le situazioni estreme
3.1 La situazione di assenza di eterogeneità . . . . . . . . . . . . . . . . . .
3.2 La situazione di massima eterogeneità . . . . . . . . . . . . . . . . . . .
99
99
99
4
L’indice di eterogeneità di Gini
100
5
Gli indici normalizzati
101
6
Utilizzo congiunto della Moda e dell’indice di Gini
104
7
Libero Mercato, Monopolio e Oligopolio
105
7.2
1 Indici di variabilità
• indice sintetico di posizione è utile per alcuni confronti
• appare tuttavia insufficiente
• sintesi troppo spinta fa perdere informazioni
→ POSIZIONE + VARIABILITÀ
• interessano anche indicatori della molteplicità e della diversità dei valori di un
carattere
v1 , v2 , . . . , vn
?
è più costante l’impegno degli studenti maschi o quello delle femmine
?
c’è più sperequazione economica in Piemonte o in Lombardia
?
7.3
97
è più variabile (disperso) X oppure Y ?
X
●
4
7
10
15
●
●
●
●
● ● ●
● ●
Y 0 234
78
18 20
●
●
7.4
Esempio 1. Si considerino le votazioni riportate da due studenti in 25 esami
xi
18
24
30
ni
12
1
12
25
yi
24
ni
25
25
• Come vengono qualificati i due studenti utilizzando solo una misura di posizione
(media, mediana)?
• Possiamo ritenere che l’impegno dedicato alla preparazione degli esami sia lo stesso
per i due studenti?
Definizione 2 (La variabilità). Si definisce variabilità l’attitudine di un fenomeno a manifestarsi con molteplici valori.
7.5
2 La variabilità per i caratteri qualitativi
Con riferimento ai caratteri qualitativi si parla di mutabilità o eterogeneità
Esempio 3. Si considera il colore dei capelli di alcune scolaresche
(distribuzioni %)
colore
S1
S2
nero
0.10 0.30
castano 0.25 0.30
biondo 0.60 0.30
altro
0.05 0.10
1
1
S3
0.70
0.20
0.05
0.05
1
• in quale scolaresca c’è minore variabilità?
• in quale scolaresca c’è maggiore variabilità?
7.6
98
3 Le situazioni estreme
3.1
La situazione di assenza di eterogeneità
assenza di eterogeneità
• quando tutti hanno lo stesso colore dei capelli
colore
nero
castano
biondo
altro
fi
1
0
0
0
1
fi
0
1
0
0
1
colore
nero
castano
biondo
altro
fi
0
0
1
0
1
colore
nero
castano
biondo
altro
colore
nero
castano
biondo
altro
fi
0
0
0
1
1
• minima eterogeneità:
∃ fi = 1, f j = 0 se j = i
mutabile statistica degenere
7.7
3.2
La situazione di massima eterogeneità
massima eterogeneità
• nel caso avessimo solo 4 soggetti
– se 1 nero, 1 castano, 1 biondo, 1 con altro colore
• e se i soggetti fossero 8?
– se 2 neri, 2 castani, 2 biondi, 2 con altro colore
colore
nero
castano
biondo
altro
ni
2
2
2
2
8
fi
0.25
0.25
0.25
0.25
1
• massima eterogeneità:
f1 = . . . = fk =
1
k
equidistribuzione delle frequenze
7.8
99
situazioni estreme
ritornando all’esempio delle scolaresche
colore
nero
castano
biondo
altro
S1
0.10
0.25
0.60
0.05
1
S2
0.30
0.30
0.30
0.10
1
S3
0.70
0.20
0.05
0.05
1
S4
0
1
0
0
1
S5
0.25
0.25
0.25
0.25
1
• minima variabilità:
∃ fi = 1, f j = 0 se j = i
tutti i valori sono uguali (ad esempio S4)
• massima variabilità:
1
f1 = . . . = fk =
k
equidistribuzione delle frequenze (S5)
7.9
4 L’indice di eterogeneità di Gini
Definizione 4 (Indice di eterogeneità di Gini).
k
G = 1 − ∑ fi2
i=1
Osservazione
L’indice di Gini viene usato anche per lo studio della concentrazione industriale o di
mercato
7.10
Calcolo dell’indice di Gini
Consideriamo la prima scolaresca S1
xi
x1
x2
x3
x4
fi
fi2
0.1
0.01
0.25 0.0625
0.6
0.36
0.05 0.0025
1
0.435
k
G = 1 − ∑ fi2 = 1 − 0.435 = 0.565.
i=1
In base al valore ottenuto possiamo ritenere che sussiste un livello elevato o basso di
eterogeneità?
7.11
100
5 Gli indici normalizzati
Gli indici normalizzati
In genere, quando si costruisce uno strumento per misurare il livello I assunto da un
determinato fenomeno (temperatura, peso, variabilità, tasso di umidità), è opportuno
individuare le due situazioni estreme, corrispondenti a
• Imin : minima presenza o assenza del fenomeno oggetto di studio
• Imax : massima presenza teorica del fenomeno oggetto di studio
la situazione osservata, caso reale, si posiziona in una situazione intermedia, quindi
Imin ≤ I ≤ Imax
Imin
I
Imax
●
●
●
7.12
Risulta più comodo costruire un indice che varia tra estremi prestabiliti
Un indice normalizzato, IN , varia tra 0 e 1
Imin
I
Imax
●
●
●
●
●
●
0
IN
1
• IN = 0 quando I = Imin
• IN = 1 quando I = Imax
7.13
Imin ≤ I ≤ Imax
Imin
I
Imax
●
●
●
0
IN
1
0 ≤ IN ≤ 1
7.14
101
Imin ≤ I ≤ Imax
Imin
I
Imax
●
●
●
0
IN
1
0 ≤ IN =
I − Imin
≤1
Imax − Imin
7.15
Definizione 5 (Indice normalizzato).
IN =
I − Imin
Imax − Imin
IN = 0
↔
I = Imin
IN = 1
↔
I = Imax
Interpretazione
IN
molto basso
0
basso
0.3
medio
0.5
medio
alto
0.7
0.8
alto altissimo
0.9
1
Osservazione
Gli indici normalizzati consentono anche di effettuare dei confronti tra situazioni diverse.
102
7.16
k
G = 1 − ∑ fi2
i=1
assenza mutabilità
Gmin
xi
x1
x2
x3
x4
fi
0
0
1
0
1
fi2
0
0
1
0
1
Gmin = 1 − 1
Gmin = 0
caso reale
G
xi
x1
x2
x3
x4
fi2
0.01
0.0625
0.36
0.0025
0.435
fi
0.1
0.25
0.6
0.05
1
massima mutabilità
Gmax
xi
x1
x2
x3
x4
G = 1 − 0.435
G = 0.565
GN =
fi
0.25
0.25
0.25
0.25
1
fi2
0.0625
0.0625
0.0625
0.0625
0.25
Gmax = 1 − 0.25
Gmax = 0.75
G − Gmin
0.565 − 0
= 0.7533
=
Gmax − Gmin
0.75 − 0
7.17
L’indice di Gini nella situazione di massima eterogeneità
xi
fi
fi2
x1 f1 = 1k k12
x2 f2 = 1k k12
..
..
..
.
.
.
1
xk fk = 1k
k2
1
k k12
k
7.18
7.19
7.20
k
1
1
1
= 1−k 2 = 1−
2
k
k
k
i=1
Gmax = 1 − ∑ fi2 = 1 − ∑
i=1
GN =
G − Gmin
G−0
G
=
=
Gmax − Gmin
1 − 1k − 0 1 − 1k
103
7.21
6 Utilizzo congiunto della Moda e dell’indice di Gini
Utilizzo congiunto della Moda e dell’indice di Gini
Possiamo, quindi, confrontare le 5 scolaresche in base alla Moda e alla mutabilità del
colore dei capelli
colore
nero
castano
biondo
altro
S1
0.10
0.25
0.60
0.05
1
S2
0.30
0.30
0.30
0.10
1
S3
0.70
0.20
0.05
0.05
1
S4
0
1
0
0
1
S5
0.25
0.25
0.25
0.25
1
Moda
biondo
(trimodale)
nero
castano
G
0.565
0.72
0.465
0
0.75
GN
0.7533
0.96
0.62
0
1
• la moda è rappresentativa della distribuzione quando la mutabilità non è elevata
7.22
Esempio 6.
ni
25
35
100
40
200
xi
x1
x2
x3
x4
fi
0.125
0.175
0.5
0.2
1
fi2
0.015625
0.030625
0.25
0.04
0.33625
k
G = 1 − ∑ fi2 = 1 − 0.33625 = 0.66375
i=1
Gmin = 0
1
= 0.75
4
0.66375 − 0
= 0.885
=
0.75 − 0
Gmax = 1 −
GN =
G − Gmin
Gmax − Gmin
• possiamo ritenere che sussiste un livello elevato di eterogeneità
7.23
Esercizio 7. [T 162, 24.06.1998, A] Una delegazione provinciale della F.I.C. (Federazione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati
dai suoi 8 componenti (A, B, . . . , H) durante l’anno.
Si riportano il tipo di sport (S, nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione
del servizio (T , a = autunno, i = inverno, p = primavera, e = estate), la durata del servizio
(D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e).
serv
cron
S
T
D
R
1
B
n
a
120
20
2
B
n
a
120
20
3
H
c
a
360
45
4
G
c
a
60
60
5
F
n
i
180
30
6
A
s
i
360
50
7
E
s
i
360
70
8
E
n
i
120
30
104
9
B
s
i
360
60
10
C
n
p
180
45
11
D
s
p
480
60
12
D
s
p
420
70
13
B
c
p
300
40
14
C
c
p
420
60
15
G
n
p
180
30
1. Si confronti il grado di mutabilità di S e di T .
7.24
Esercizio 8 (T 224, 02.02.2006, 3). Con riferimento alla seguente v.s. X:
xi
a1
a2
a3
ni
30
?
?
1. determinare n2 , n3 ed n in modo che Eterogeneità(X) = max teorico;
2. posto poi n = 120 ed n2 = n3 valutare il grado di eterogeneità presente nei dati.
7.25
7 Libero Mercato, Monopolio e Oligopolio
Libero Mercato, Monopolio e Oligopolio
Sia X una variabile statistica le cui categorie x1 , x2 , . . . , xk sono le denominazioni sociali
delle k imprese operanti su un mercato, mentre f1 , f2 , . . . , fk rappresentano le quote di
mercato delle k imprese
• in una situazione di perfetta concorrenza si potrebbe ipotizzare che le imprese
abbiano tutte la stessa quota di mercato
– equidistribuzione delle frequenze ↔ mutabilità massima
• in una situazione di Monopolio il mercato è concentrato in una sola delle imprese
– mutabile statistica degenere ↔ assenza di mutabilità
• in una situazione di Oligopolio il mercato è concentrato in poche imprese. Che
valore assumerà l’indice di Gini?
– possiamo aspettarci un valore elevato dell’indice di Gini normalizzato
7.26
105
Sezione 8
Variabilità (2)
8.1
Indice
1
La variabilità per caratteri quantitativi
107
2
Una classe di indici di variabilità globale
111
2.1 La differenza semplice media (r = 1) . . . . . . . . . . . . . . . . . . . 112
2.2 La differenza quadratica media (r = 2) . . . . . . . . . . . . . . . . . . . 112
3
Una classe di indici di dispersione
113
3.1 Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 ) . . . . . . 114
3.2 Lo scarto quadratico medio (r = 2, c = μ) . . . . . . . . . . . . . . . . . 115
4
Uso combinato delle misure di posizione e di variabilità
116
5
La varianza
116
6
Varianza di una trasformazione lineare
117
7
Gli indici relativi
118
8
Esercizi
119
1 La variabilità per caratteri quantitativi
Si ricorda che con riferimento ai caratteri quantitativi è possibile definire una distanza d
tra le modalità xi , x j assunte da due generiche unità statistiche, tale che:
1. d(xi , x j ) = |x j − xi | = |xi − x j | ≥ 0
2. d(xi , x j ) = 0 ↔ xi = x j
3. |xi − x j | ≤ |xi − xk | + |x j − xk |
107
8.2
ni
xi
x1
x2
x3
x4
x5
ni
n1
n2
n3
n4
n5
n
x1
x3
x2
x5
x4
xi
8.3
Tipologie di indicatori elementari
• indicatori elementari di variabilità globale
• indicatori elementari di dispersione rispetto a un centro di riferimento c
x2
x4
●
x2
●
x4
●
●
●
c
x1
●
●
x5
x1
●
●
●
●
x3
x3
ogni unità statistica
viene confrontata
con tutte le altre
ogni unità statistica
viene confrontata con
un valore c di riferimento
x5
8.4
108
Definizione 1 (Indicatori elementari di variabilità globale).
x2
x4
●
x1
●
●
●
x5
●
x3
• |xi − x j |,
i = 1, . . . , k,
j = 1, . . . , k
8.5
Indicatori elementari di variabilità globale
• |xi − x j |,
i = 1, . . . , k, j = 1, . . . , k
• quante coppie è possibile formare con elementi di due gruppi, il primo costituito da
ni oggetti e il secondo da n j oggetti?
• ad esempio se n1 = 3 ed n2 = 4
• gruppo 1 (a, a, a) e gruppo 2 (b, b, b, b)
b
b
b
b
a (a,b) (a,b) (a,b) (a,b)
a (a,b) (a,b) (a,b) (a,b)
a (a,b) (a,b) (a,b) (a,b)
(n1 = 3) · (n2 = 4) = 12 coppie
• di indicatori elementari |xi − x j | calcolati con le modalità xi e x j ne esistono, quindi,
ni · n j
• il numero totale degli indicatori elementari di variabilità globale è n2 , avendo considerato anche il confronto di ogni unità statistica con se stessa
8.6
Esempio 2.
1
xi
1
3
5
ni
2
3
2
7
1
1
1
3
3
3
5
5
3
3
3
|xi − x j |
109
5
5
8.7
Definizione 3 (Indicatori elementari di dispersione rispetto a un centro c).
x2
x4
●
●
●
c
x1
●
●
x5
●
x3
• |xi − c|,
i = 1, . . . , k
8.8
Indicatori elementari di dispersione rispetto a un centro c
• |xi − c|,
i = 1, . . . , k
• di indicatori elementari di dispersione del tipo |xi − c|, calcolati con la modalità xi ,
ne esistono ni
• il numero totale degli indicatori elementari di dispersione rispetto a un centro c è n
8.9
Esempio 4.
1
xi
1
3
5
ni
2
3
2
7
1
1
1
3
3
3
5
5
3
3
3
5
5
|xi − x j |
(49 indicatori)
xi
1
3
5
ni
2
3
2
7
1
1
3 3 3
|xi − c|
5
5
(7 indicatori)
110
8.10
Caratterizzazione degli indicatori elementari
indicatori elementari tutti nulli
assenza di variabilità
dati tutti eguali (v.s. degenere)
Misure di variabilità
In corrispondenza delle due tipologie di indicatori elementari è possibile definire delle
misure di
• variabilità globale V (X)
• dispersione da un centro D(X)
Tali misure sono funzione degli indicatori elementari
• sono definite come medie potenziate degli indicatori elementari
8.11
2 Una classe di indici di variabilità globale
Definizione 5 (Differenza media con ripetizione). Si definisce differenza media con ripetizione di ordine r la media potenziata di ordine r (r = 1, 2, . . .) degli indicatori elementari
di variabilità globale |xi − x j |, i = 1, . . . , k, j = 1, . . . , k
1 k k
Δr = 2 ∑ ∑ |xi − x j |r ni n j
n i=1 j=1
1/r
(r = 1, 2, . . .)
Sono dette ’con ripetizione’ perchè vengono conteggiate anche le differenze |xi −xi | =
0.
8.12
Proprietà
Dalle proprietà delle medie potenziate si possono ricavare le seguenti considerazioni
riferite alle misure di variabilità globale
• condizione di Cauchy
– min |xi − x j | = 0 ≤ Δr ≤ max |xi − x j | = xk − x1
quindi:
* Δr ≥ 0 (non negatività)
* Δr = 0 se e solo se xi = c
• condizione di monotonicità
– Δr è funzione monotona crescente rispetto a |xi − x j |
• proprietà moltiplicativa
– Se Y = bX allora Δr (Y ) = bΔr (X)
• limite superiore medie potenziate
– limr→+∞ Δr = max |xi − x j | = xk − x1 = R
dove R = Range o campo di variazione
111
• Inoltre, se Y = X + b allora Δr (Y ) = Δr (X + b) = Δr (X)
(invarianza per traslazione)
8.13
Invarianza per traslazione
Si consideri Y = X + 1, ad esempio:
ni
xi
2
4
7
ni
3
4
3
10
yi
3
5
8
ni
3
4
3
10
2
3
4
5
7
8
le distanze interne tra le modalità sono le stesse per X e Y
8.14
2.1
La differenza semplice media (r = 1)
Definizione 6 (La differenza semplice media (r = 1)).
Δ1 =
1 k k
∑ ∑ |xi − x j |ni n j
n2 i=1
j=1
8.15
2.2
La differenza quadratica media (r = 2)
Definizione 7 (La differenza quadratica media (r = 2)).
1 k k
Δ2 = 2 ∑ ∑ (xi − x j )2 ni n j
n i=1 j=1
1/2
Osservazione
È collegata al più importante indice di dispersione;
si ha, infatti
√
√
Δ2 = 2 · (scarto quadratico medio) = 2 · σ
8.16
112
3 Una classe di indici di dispersione
Definizione 8 (Le differenze medie di ordine r). Si considera la media potenziata di
ordine r (r = 1, 2, . . .) degli indicatori elementari di dispersione dal centro di riferimento
c, |xi − c|, i = 1, . . . , k
1 k
Dr (c) =
∑ |xi − c|r ni
n i=1
1/r
(r = 1, 2, . . .)
solitamente come centro c si può considerare:
• un percentile (x p )
• la mediana (x0.5 )
• la media aritmetica (μ)
8.17
Dr (c) =
1 k
∑ |xi − c|r ni
n i=1
1/r
(r = 1, 2, . . .)
Proprietà
Dalle proprietà delle medie potenziate si possono ricavare le seguenti considerazioni
riferite alle misure di dispersione
• condizione di Cauchy
– min |xi − c| = 0 ≤ Dr (c) ≤ max |xi − c|
quindi:
* Dr (c) ≥ 0 (non negatività)
* Dr (c) = 0 se e solo se xi = c
• condizione di monotonicità
– Dr (c) è funzione monotona crescente rispetto a |xi − c|
• proprietà moltiplicativa
– Se Y = bX allora Dr (bc)Y = bDr (c)X
• Inoltre, se Y = X + b allora Dr (c)Y = Dr (c)(X+b) = Dr (c)X
(invarianza per traslazione)
8.18
113
Invarianza per traslazione
Si consideri Y = X + 1, ad esempio:
ni
xi
2
4
7
ni
3
4
3
10
μX = 4.3
yi
3
5
8
ni
3
4
3
10
μY = 5.3
2
3
4
5
7
8
le distanze tra le modalità e la media sono le stesse per X e Y
8.19
3.1
Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 )
Definizione 9 (Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 )).
D1 (x0.5 ) =
1 k
∑ |xi − x0.5 |ni
n i=1
ovvero
D1 (x0.5 ) = M [|X − x0.5 |]
8.20
Esempio 10. Calcoliamo D1 (x0.5 ) per la serie statistica
xi
2
4
7
ni
3
4
3
10
In primo luogo si deve determinare il valore della mediana
xi
2
4
7
ni
3
4
3
Ni
3
7
10
x0.5 = x(6) = 4
114
Si calcolano poi gli scostamenti assoluti dalla mediana e li si moltiplica per le frequenze
xi
2
4
7
ni
3
4
3
10
Ni |xi − x0.5 | |xi − x0.5 |ni
3
2
6
7
0
0
10
3
9
15
D1 (x0.5 ) =
3.2
1
15 = 1.5
10
8.21
Lo scarto quadratico medio (r = 2, c = μ)
Definizione 11 (Lo scarto quadratico medio (r = 2, c = μ)).
1/2
1 k
2
D2 (μ) =
∑ (xi − μ) ni = σ
n i=1
ovvero
D2 (μ) =
M [(X − μ)2 ] = σ
Osservazione
È collegato alla differenza quadratica media
Δ2 =
√
2·σ
per r = 2 l’indice di variabilità globale è direttamente proporzionale all’indice di dispersione riferito alla media
8.22
Esempio 12. Con riferimento alla serie statistica
xi
2
4
7
ni
3
4
3
10
xi ni
6
16
21
43
la media aritmetica risulta
1
43 = 4.3
10
Si calcolano gli scostamenti al quadrato da μ e li si moltiplica per le frequenze
μ = M(X) =
xi
2
4
7
ni (xi − μ)2
3
5.29
4
0.09
3
7.29
10
(xi − μ)2 ni
15.87
0.36
21.87
38.10
Dividendo il totale ottenuto per la numerosità delle unità statistiche si ottiene il quadrato
dello scarto quadratico medio
1 k
1
σ 2 = M (X − μ)2 = ∑ (xi − μ)2 ni = 38.10 = 3.81
n i=1
10
√
σ = D2 (μ) = M [(X − μ)2 ] = 3.81 = 1.9519
8.23
115
4 Uso combinato delle misure di posizione e di variabilità
Uso combinato delle misure di posizione e di variabilità
x0.5 e
D1 (x0.5 )
μ
e
σ = D2 (μ)
Si ricorda che, in base al criterio di scelta della media per minimizzazione del danno:
D=
1 k
∑ |xi − α|ni = min ↔ α = x0.5
n i=1
D=
1 k
∑ (xi − α)2 ni = min ↔ α = μ
n i=1
valgono, quindi, le seguenti proprietà di minimo
D1 (x0.5 ) = M [|X − x0.5 |] ≤ M [|X − α|] , ∀α ∈ ℜ
σ 2 = M (X − μ)2 ≤ M (X − α)2 , ∀α ∈ ℜ
8.24
5 La varianza
Definizione 13 (Varianza).
[D2 (μ)]2 =
k
1 k
(xi − μ)2 ni = ∑ (xi − μ)2 fi = σ 2 = Var(X) = σX2
∑
n i=1
i=1
σ 2 = Var(X) = M (X − μ)2
Formula operativa
σ 2 = Var(X) = M X 2 − μ 2
8.25
Dimostrazione. Sviluppando il quadrato che figura nella definizione
M[(X − μ)2 ] = M(X 2 − 2μX + μ 2 )
e ricordando che M(·) è un operatore lineare
M(X 2 ) − 2μM(X) + μ 2 = M(X 2 ) − 2μ 2 + μ 2 = M(X 2 ) − μ 2 .
8.26
Esempio 14. Per calcolare la varianza della serie statistica
xi
2
4
7
ni
3
4
3
10
xi ni
6
16
21
43
μ = M(X) =
116
1
43 = 4.3
10
una volta ottenuta la media, è sufficiente calcolare il momento secondo M(X 2 )
xi
2
4
7
ni
3
4
3
10
xi2 ni
12
64
147
223
M(X 2 ) =
1 k 2
1
∑ xi ni = 10 223 = 2.23
n i=1
e applicare la formula operativa
Var(X) = σ 2
= M[(X − μ)2 ] =
= M(X 2 ) − μ 2 =
= momento secondo − media2 =
= 2.23 − 4.32
=
22.3 − 18.49 = 3.81
8.27
6 Varianza di una trasformazione lineare
Teorema 15. Se
Y = aX + b
allora
M(Y ) = aM(X) + b
Var(Y ) = a Var(X)
2
(operatore lineare)
(non è un operatore lineare)
Dimostrazione.
Var(Y ) = M[(Y − μY )2 ] = M{[aX + b − (aμx + b)]2 } =
= M{[aX + b − aμx − b]2 } =
= M{[aX − aμx ]2 } =
= M{[a(X − μx )]2 } =
=
M[a2 (X − μx )2 ] =
= a2 M[(X − μx )2 ] = a2Var(X)
8.28
Esempio 16. Si calcolino media e varianza della seguente serie statistica
xi
2
3
4
5
•
xi
2
3
4
5
ni
10
12
22
6
50
xi ni
20
36
88
30
174
xi2 ni
40
108
352
150
650
ni
10
12
22
6
μ = M(X) =
M(X 2 ) =
117
1
50 174
1
50 650
= 3.48
= 13
• Var(X) = M(X 2 ) − μ 2 = 13 − 3.482 = 13 − 12.1104 = 0.8896
Sapendo che Y = 12 X + 4 si calcolino M(Y ) e Var(Y )
• M(Y ) = 12 M(X) + 4 = 12 3.48 + 4 = 5.74
2
• Var(Y ) = 12 Var(X) = 14 0.8896 = 0.2224
8.29
7 Gli indici relativi
Indici relativi
In generale:
• gli indici, I, dipendono dall’unità di misura e dall’ordine di grandezza del fenomeno
• non è possibile effettuare confronti
Definizione 17 (Indice relativo).
IR =
I
opportuno indice di posizione
(numero puro)
Definizione 18 (Coefficiente di variazione).
CV =
σ
μ
(è un indice relativo: numero puro)
Esempio 19. Si consideri il peso di 4 soggetti misurato alla nascita, variabile X, e all’età
di 30 anni, variabile Y .
1
2
3
4
xi 3 2.5 3.2 5
yi 73 57 69 85
Quale tra le due variabili presenta maggiore variabilità?
Confrontando le medie aritmetiche
1
M(X) =
(3 + 2.5 + 3.2 + 5) = 3.425
4
1
(73 + 57 + 69 + 85) = 71
M(Y ) =
4
come ragionevolmente ci si può aspettare, il livello medio di Y è superiore a quello di X.
Calcoliamo ora le varianze e i coefficienti di variazione
1
M(X 2 ) = = μX = (32 + 2.52 + 3.22 + 52 ) = 12.6225
4
1
2
M(Y ) = = μY = (732 + 572 + 692 + 852 ) = 5141
4
Var(X) = M(X 2 ) − μX2 = 0.8919
Var(Y ) = M(Y 2 ) − μY2 = 100
√
σX
0.8919 0.9444
CV (X) =
=
=
= 0.2757
μX
3.425
3.425
√
σY
100 10
CV (Y ) =
=
= 0.1408
=
μY
71
71
Dal confronto dei coefficienti di variazione si evince che il livello di variabilità di X (peso
da bambini) è superiore a quello di Y (peso da adulti).
118
8.30
8.31
8.32
Esempio 20. Volendo confrontare peso e altezza di n individui possiamo calcolare i
seguenti indicatori
indicatore
media aritmetica
varianza
scarto quadratico medio
coefficiente di variazione
μ
σ2
σ
CV =
σ
μ
unità di misura
peso
altezza
kg
cm
kg2
cm2
kg
cm
kg
cm
=
1
kg
cm = 1
Il confronto degli indici di posizione per variabili con differenti unità di misure non ha
senso.
Il coefficiente di variazione, che non dipende dall’unità di misura, rende possibile il
confronto in termini di variabilità.
8.33
Esempio 21. Volendo sintetizzare i redditi di una famiglia e il prodotto interno lordo
nazionale negli ultimi 10 anni possiamo calcolare i seguenti indicatori
indicatore
media aritmetica
varianza
scarto quadratico medio
coefficiente di variazione
μ
σ2
σ
CV =
σ
μ
ordine di grandezza in e
famiglia
nazione
103
109
6
10
1018
3
10
109
103
109
=1
=1
103
109
Non ha alcun senso confrontare il reddito medio della famiglia con il PIL medio.
Il coefficiente di variazione, che non dipende dall’ordine di grandezza, rende possibile il
confronto in termini di variabilità.
8.34
8 Esercizi
Esercizio 22 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella
seguente tabella:
xi
x1
30
ni
n1
30
1. M(X 2 ) = 900, Var(X) = 500 e X risulti simmetrica.
8.35
Esercizio 23 (T 180, 14.09.2000, 1). Lo spessore X
china è compreso tra 15.2 e 16.5 mm.
Si individuino le ampiezze delle 4 classi (Ii ) in cui è
modo tale che:
I1
I2
I3
fi 0.05 0.09 0.72
di 0.25 0.45 2.40
delle lamine prodotte da una macripartito l’intervallo (15.1; 16.5] in
I4
0.14
0.20
1. Si costruisca l’istogramma della variabile X.
2. Si identifichi il valore della mediana e si calcoli un indice di variabilità di X.
3. Supponendo che dalla produzione vengano scartate le lamine con spessore minore
di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito,
la percentuale di lamine eliminate.
8.36
119
Esercizio 24 (T 248, 29.01.2009, 1). Il seguente prospetto riporta i valori rilevati in corrispondenza a 8 unità statistiche con riferimento a un carattere qualitativo X e a un carattere
quantitativo Y :
X a
b b
c
a a
c
c
Y 30 20 24 50 40 50 40 30
1. Si ricostruisca la mutabile statistica X e se ne dia una rappresentazione grafica.
2. Si riassumano con opportuni indici di posizione e di variabilità le distribuzioni X e
Y , commentando opportunamente i risultati ottenuti.
3. Si indichi l’intervallo dei possibili valori che può assumere la media armonica di Y .
4. Si definiscano le relazioni esistenti rispettivamente tra le medie e le varianze di Y e
di W = 100 − 2Y e si calcolino quindi media e varianza di W .
8.37
Esercizio 25 (P 001, 10.03.1995, 1). Data la variabile statistica X con distribuzione di
frequenze
xj 1 2 4 7
n j 8 10 6 40
calcolare M(X) e Var(X). Calcolare inoltre la media aritmetica e la varianza delle v.s.
Y = 6 + X,
Z = 7X,
W = X 3.
8.38
Esercizio 26 (P 001, 10.03.1995, 4). Date le v.s. X e Y caratterizzate dalle seriazioni (con
classi chiuse a destra)
xi
10 15
15 25
25 50
50 75
ni
21
38
51
20
yi
100 110
110 150
150 200
200 250
ni
30
18
21
21
fornire un’adeguata rappresentazione grafica delle due distribuzioni e confrontarne media
e variabilità.
8.39
120
Sezione 9
Variabilità (3)
9.1
Indice
1
Ulteriori considerazioni su media e varianza di una trasformazione lineare
1.1 X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 X ∗ = X − μX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
μX
1
X∗
X
1.3 Z = X−μ
σX = σX X − σX = σX (variabile statistica standardizzata) . . . .
1.4 U = σXX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 W = 2X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121
121
122
123
123
124
9.2
1 Ulteriori considerazioni su media e varianza di una
trasformazione lineare
Considerazioni
Se
Y = aX + b
allora
M(Y ) = aM(X) + b
Var(Y ) = a2Var(X)
operatore lineare
non è un operatore lineare
9.3
Si considerano, a titolo di esempio, le seguenti trasformazioni lineari di una seriazione
stastica X
1.
X ∗ = X − μX
2.
Z=
X − μX
σX
3.
U=
X
σX
4.
W = 2X
121
9.4
1.1 X
valori centrali
3
6
9
X
24
48
8 10
ni
4
8
8
20
fi
0.2
0.4
0.4
1
ai
2
4
2
di
0.1
0.1
0.2
xi ni
12
48
72
132
xi2 ni
36
288
648
972
0.0
0.1
0.2
0.3
0.4
0.5
M(X) = 6.6 = μ
Var(X) = 48.6 − 6.62 = 5.04
sqm(X) = 2.245
−5
0
5
10
15
20
9.5
1.2 X ∗ = X − μX
valori centrali
-3.6
-0.6
2.4
X
−4.6 −2.6
−2.6 1.4
1.4 3.4
ni
4
8
8
20
M(X ∗ ) = 0 = μ
Var(X ∗ ) = 5.04 − 02 = 5.04
sqm(X ∗ ) = 2.245
o più semplicemente
M(X ∗ ) = M(X) − M(X) = 0
Var(X ∗ ) = 12 ·Var(X) = Var(X)
122
fi
0.2
0.4
0.4
1
ai
2
4
2
di
0.1
0.1
0.2
xi ni
-14.4
-4.8
19.2
0
xi2 ni
51.84
2.88
46.08
100.8
0.5
0.4
0.3
0.2
0.1
0.0
−5
0
5
10
15
20
9.6
∗
μX
1
X
X
1.3 Z = X−μ
σX = σX X − σX = σX (variabile statistica standardizzata)
valori centrali
-1.6036
-0.2673
1.069
X
−2.049 −1.1581
−1.1581 0.6236
0.6236 1.5145
ni
4
8
8
20
fi
0.2
0.4
0.4
1
ai
0.8909
1.7817
0.8909
di
0.2245
0.2245
0.449
xi ni
-6.4143
-2.1381
8.5524
0
xi2 ni
10.2857
0.5714
9.1429
20
0.0
0.1
0.2
0.3
0.4
0.5
M(Z) = 0 = μ
Var(Z) = 1 − 02 = 1
sqm(Z) = 1
M(Z) = M(X)/σ − μ/σ = μ/σ − μ/σ = 0
Var(Z) = Var(X)/σ 2 = σ 2 /σ 2 = 1
−5
0
5
10
15
20
9.7
1.4 U =
X
σX
123
valori centrali
1.3363
2.6726
4.0089
X
0.8909 1.7817
1.7817 3.5635
3.5635 4.4544
ni
4
8
8
20
fi
0.2
0.4
0.4
1
ai
0.8909
1.7817
0.8909
di
0.2245
0.2245
0.449
xi ni
5.3452
21.3809
32.0713
58.7975
xi2 ni
7.1429
57.1429
128.5714
192.8571
0.0
0.1
0.2
0.3
0.4
0.5
M(U) = 2.9399 = μ
Var(U) = 9.6429 − 2.93992 = 1
sqm(U) = 1
M(U) = M(X)/σ
Var(U) = Var(X)/σ 2 = σ 2 /σ 2 = 1
−5
0
5
10
15
20
9.8
1.5 W = 2X
valori centrali
6
12
18
X
48
8 16
16 20
ni
4
8
8
20
fi
0.2
0.4
0.4
1
M(W ) = 13.2 = μ
Var(W ) = 194.4 − 13.22 = 20.16
sqm(W ) = 4.49
M(W )2 · M(X)
Var(W ) = 22Var(X) = 4 ·Var(X)
124
ai
4
8
4
di
0.05
0.05
0.1
xi ni
24
96
144
264
xi2 ni
144
1152
2592
3888
0.5
0.4
0.3
0.2
0.1
0.0
−5
0
5
10
15
20
9.9
Definizione 1 (Variabile statistica standardizzata). Data una variabile statistica X con
media μX e varianza σX2 si definisce variabile statistica standardizzata la seguente variabile
statistica
X − μX
Z=
σX
Applicando le proprietà dell’operatore media e della varianza si dimostra che
M(Z) = 0
e
Var(Z) = 1
La variabile statistica standardizzata
• non ha unità di misura
• non ha ordine di grandezza
• risulta invariante rispetto a eventuali trasformazioni lineari operate su X
Se Y = aX + b abbiamo, infatti:
Y − μY
aX + b − (aμX + b) aX − aμX
a(X − μX ) X − μX
=
=
=
=
σY
aσX
aσX
aσX
σX
9.10
125
Sezione 10
Variabilità (4)
10.1
Indice
1
La varianza di un miscuglio (h gruppi)
2
1.1 σBetween
. . . . . . . . . . . . . . . . . . . . . . . . . . .
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 σWithin
1.3 Applicazioni del risultato di scomposizione della varianza .
1.4 Il Rapporto di Correlazione . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
127
128
128
131
132
2
Esercizi
135
3
La diseguaglianza di Tchebychev
136
10.2
1 La varianza di un miscuglio (h gruppi)
Si considerino i dati elementari
v1 , v2 , . . . , vn
riuniti in h sottogruppi
1
2
...
h
n1
n2
...
nh
μ1
σ12
μ2
σ22
...
...
μh
σh2
(il raggruppamento in tabelle è uno dei possibili).
Il singolo valore viene ora indicato con xi j :
j-esima osservazione ( j = 1, 2, . . . , ni ) nel gruppo i (i = 1, 2, . . . , h)
• media gruppo i-esimo
μi =
• varianza gruppo i-esimo
σi2 =
1
ni
1
ni
ni
∑ xi j
j=1
ni
∑ (xi j − μi )2
j=1
In base alla proprietà associativa della media aritmetica
μ=
10.3
1 k
∑ μi ni
n i=1
la media generale è la media delle medie di gruppo.
127
10.4
Teorema 1 (Scomposizione della varianza). La varianza di tutte le unità statistiche è pari
alla somma di varianza between e varianza within
σ 2 = σB2 + σW2
10.5
2
1.1 σBetween
Idea riguardo alla diversità dei gruppi:
quanto sono diversi i gruppi tra di loro
• quanto sono diverse le medie di gruppo μi
• varianza delle medie di gruppo μi
2
Definizione 2 (σBetween
).
σB2 =
1 h
∑ (μi − μ)2 ni
n i=1
10.6
2
1.2 σWithin
Idea riguardo alla variabilità all’interno dei gruppi:
quanto sono variabili i gruppi al loro interno
• media delle varianze dei gruppi σi2
2
Definizione 3 (σWithin
).
1 h 2
∑ σi ni
n i=1
σW2 =
10.7
Dimostrazione.
σ2
=
1 h ni
1 h ni
(xi j − μ)2 = ∑ ∑ (xi j − μi + μi − μ)2 =
∑
∑
n i=1 j=1
n i=1 j=1
=
1 h ni
∑ ∑ [(xi j − μi ) + (μi − μ)]2 =
n i=1
j=1
=
1 h ni (xi j − μi )2 + (μi − μ)2 + 2(xi j − μi )(μi − μ) =
∑
∑
n i=1 j=1
=
1 h ni
1 h ni
1 h ni
(xi j − μi )2 + ∑ ∑ (μi − μ)2 + ∑ ∑ 2(xi j − μi )(μi − μ) =
∑
∑
n i=1 j=1
n i=1 j=1
n i=1 j=1
=
1 h
1
∑ ni ni
n i=1
=
h
ni
ni
h
1
h
1
ni
∑ (xi j − μi )2 + n ∑ ∑ (μi − μ)2 + n ∑ ∑ 2(xi j − μi )(μi − μ) =
j=1
i=1 j=1
h
1
1
∑ ni σi2 + n ∑ (μi − μ)2
n i=1
i=1
ni
i=1 j=1
h
2
∑ 1 + n ∑ (μi − μ)
j=1
i=1
ni
=
1 h
2 h
1 h
ni σi2 + ∑ (μi − μ)2 ni + ∑ (μi − μ) · 0 =
∑
n i=1
n i=1
n i=1
=
1 h
1 h 2
2
2
σi ni + ∑ (μi − μ)2 ni = σWithin
+ σBetween
∑
n i=1
n i=1
ni
∑ (xi j − μi )
=
j=1
0
10.8
128
Esempio 4. Si consideri la seguente popolazione di unità statistiche raggruppate in 3
gruppi
1
2
3
4 5 4 6 6
6 7 6 8 8
Abbiamo
μ1
=
μ2
=
μ3
=
1
(4 + 5 + 6 + 7) = 5.5
4
1
(4 + 6 + 6 + 8) = 6
4
1
(6 + 8) = 7
2
e con riferimento alla proprietà associativa della media aritmetica:
μ=
1
1 3
∑ μi ni = 10 60 = 6
n i=1
10.9
A partire dalla variabile statistica medie di gruppo
i
1
2
3
μi
5.5
6
7
ni
4
4
2
10
le cui modalità sono le medie di gruppo, con frequenze le numerosità di gruppo, possiamo
calcolare media e varianza
ni μi ni μi2 ni
μi
5.5
4 22
121
6
4 24
144
7
2 14
98
10 60
363
μ
=
1 3
1
1 h
modalità · frequenze = ∑ μi ni = 60 = 6
∑
n i=1
n i=1
10
σB2
=
1 3
1 3
1
(μi − μ)2 ni = ∑ μi2 ni − μ 2 = 363 − 62 = 36.3 − 36 = 0.3
∑
n i=1
n i=1
10
la varianza delle medie di gruppo è la varianza Between.
Calcoliamo ora le varianze nei tre gruppi:
•
1
1
σ12 = (42 + 52 + 62 + 72 ) − 5.52 = 126 − 30.25 = 31.5 − 30.25 = 1.25
4
4
•
•
1
1
σ22 = (42 + 62 + 62 + 82 ) − 62 = 152 − 36 = 38 − 36 = 2
4
4
1
1
σ32 = (62 + 82 ) − 72 = 100 − 49 = 50 − 49 = 1.
2
2
129
10.10
10.11
È possibile ricostruire la variabile statistica varianze di gruppo
σi2
1.25
2
1
i
1
2
3
ni
4
4
2
10
le cui modalità sono le varianze di gruppo, con associate come frequenze le rispettive
numerosità di gruppo.
σi2
1.25
2
1
σW2 =
ni σi2 ni
4
5
4
8
2
2
10
15
1 h
1 3
1
modalità · frequenze = ∑ σi2 ni = 15 = 1.5.
∑
n i=1
n i=1
10
10.12
La varianza generale calcolata su tutte le unità statistiche può essere ottenuta come
σ 2 = σB2 + σW2 = 0.3 + 1.5 = 1.8
Si può, infatti, verificare che
σ2
=
=
1 2
(4 + 52 + 62 + 72 + 42 + 62 + 62 + 82 + 62 + 82 ) − 62
10
1
378 − 36 = 37.8 − 36 = 1.8
10
ovvero
xi
4
5
6
7
8
σ 2 = M(X 2 ) − μ 2 =
ni xi2 ni
2
32
1
25
4 144
1
49
2 128
10 378
1
378 − 62 = 37.8 − 36 = 1.8
10
10.13
130
1.3
Applicazioni del risultato di scomposizione della varianza
Il risultato di scomposizione della varianza
2
2
+ σWithin
σ 2 = σBetween
trova largo impiego nelle analisi di Marketing:
è opportuno effettuare una segmentazione delle unità statistiche in funzione della variabile
di raggruppamento utilizzata nello scomporre la varianza?
Esempi
• Studio del livello di spesa in funzione della fascia di età oppure della regione
geografica.
• Definizione della strategia di comunicazione aziendale: pianificare un’unica campagna o adottare comunicazioni diverse in funzione, ad esempio, dell’età o della
zona di appartenenza?
10.14
Il risultato di scomposizione della varianza consente, infatti, di verificare se il comportamento delle unità statistiche può essere ritenuto sostanzialmente diverso tra i gruppi.
• La varianza Between, varianza delle medie di gruppo, misura quanto sono tra loro
diverse le medie di gruppo μi
e, quindi, quanto diverso è il comportamento tra i soggetti appartenenti a diversi
gruppi.
• La varianza Within, media delle varianze di gruppo, fornisce una sintesi del livello
di variabilità presente in ciascun gruppo: una sintesi di quanto le medie di gruppo
siano rappresentative dei valori all’interno di ciascun gruppo.
10.15
Quando ha senso effettuare una segmentazione delle unità statistiche
Devono essere verificate entrambe le seguenti condizioni:
1. la varianza Between deve assumere valore grande
σ 2 > σB2 0
2. la varianza Within deve essere piccola
0 < σW2 σ 2
• medie di gruppo tra loro diverse
• medie di gruppo rappresentative dei rispettivi gruppi
(omogeneità dei valori all’interno di ciascun gruppo)
10.16
131
1.4
Il Rapporto di Correlazione
Un indice sintetico che consente di stabilire se è opportuno effettuare una segmentazione
delle unità statistiche è il Rapporto di Correlazione
(normalizzazione della varianza Between)
Definizione 5 (Rapporto di correlazione).
η2 =
σB2
σ2
Proprietà
• η 2 = 0 ↔ σB2 = 0
medie di gruppo tutte uguali
• η 2 = 1 ↔ (σB2 = σ 2 e σW2 = 0)
medie di gruppo diverse e fortemente rappresentative delle distribuzioni di gruppo,
che risultano degeneri in quanto le varianze di gruppo sono tutte pari a 0
10.17
Con riferimento all’esempio precedente abbiamo ottenuto
σB2 = 0.3
σW2 = 1.5
σ 2 = 1.8
quindi
0.3
= 0.1667
1.8
il rapporto di correlazione assume un valore molto basso;
non ha, quindi, senso effettuare una segmentazione delle unità statistiche in funzione della
variabile di raggruppamento che è stata presa in considerazione.
Un’analisi grafica preliminare è sempre utile al fine di esaminare la possibilità di effettuare una segmentazione. Possiamo rappresentare i valori assunti dalle unità statistiche
appartenenti ai 3 gruppi
1
2
3
4 5 4 6 6
6 7 6 8 8
η2 =
●
●
●
●
●
Gruppo 1
Gruppo 2
0
1
2
3
7
●
●
●
6
●
5
●
4
8
9
10
10.18
Gruppo 3
10.19
Possiamo aggiungere al grafico precedente le medie di gruppo
132
10
9
8
●
●
●
●
Gruppo 1
Gruppo 2
0
1
2
3
7
●
6
●
●
●
5
●
4
●
Gruppo 3
10.20
●
●
●
●
●
Gruppo 1
Gruppo 2
0
1
2
3
7
●
●
●
6
●
5
●
4
8
9
10
Dall’analisi del grafico si evince un’elevata dispersione dei valori di alcuni gruppi dalle
rispettive medie
Gruppo 3
→ possibile sintomo che le medie non sono rappresentative
133
10.21
Un’efficace analisi grafica può anche essere condotta confrontando i Box & Whiskers
Plot delle distribuzioni di gruppo, qui riferiti a esempi diversi da quello precedentemente
discusso, con una numerosità adeguata delle unità statistiche.
Esempio 6 (Distribuzione dello stipendio rispetto al genere).
40
●
●
●
●
●
●
30
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
10
20
●
●
●
●
●
●
●
●
●
●
●
0
1
10.22
Esempio 7 (Distribuzione dello stipendio rispetto al titolo di studio).
40
●
●
●
●
30
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3
4
10
●
●
●
1
●
2
5
10.23
134
Esempio 8 (Distribuzione dello stipendio rispetto al genere & titolo di studio).
40
●
●
●
●
●
●
30
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
10
●
●
01
●
●
●
02
03
04
05
11
12
13
14
15
10.24
2 Esercizi
Esercizio 9 (T 206, 25.09.2003, 1). La qualità dei prodotti di un’azienda produttrice
di materiali edili, strutturata su due differenti linee produttive (Li ; i = 1, 2), è misurata
attraverso la resistenza a pressione (Y ) rilevata sui provini prodotti dalle due linee.
Nel seguente prospetto sono riportati, per ciascuna delle due linee, la media ed il coefficiente di variazione di Y , calcolati su un certo numero di provini:
linea
L1
L2
n◦ provini μi
50
32
100
29
CVi
0.065
1. Calcolare media e varianza di Y sul totale dei 150 provini.
2. Valutare, tramite un opportuno indice, se possiamo ritenere diversi i livelli medi di
resistenza dei prodotti nelle due linee.
10.25
Esercizio 10 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al
livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’):
hi−1 hi
fi
5 10
0.40
10 20
0.40
20 25
0.20
1.00
hi−1 hi
fi
5 10
0.76
10 20
0.08
20 25
0.16
1.00
1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due
tipologie di visitatori e le si confronti mediante opportuni indici di posizione e di
variabilità;
2. sapendo che la media di Y , riferita a tutte le 80 unità statistiche, è pari a 11.625 e
che il numero di soggetti esperti è pari a 30 si calcoli, applicando il risultato della
scomposizione della varianza, il valore della varianza della variabile Y riferita a
tutte le 80 unità statistiche.
135
10.26
3 La diseguaglianza di Tchebychev
Definizione 11 (Diseguaglianza di Tchebychev). Sia X una variabile statistica con media
μ = M(X) e varianza σ 2 = Var(X).
Assegnato un qualsiasi valore t > 1 si consideri l’intervallo dei valori di X, centrato
rispetto alla media μ e di raggio tσ
(μ − tσ , μ + tσ ).
La frequenza relativa, riferita alle unità statistiche che assumono valore al di fuori di tale
intervallo, è al più eguale a t12
1
∑ fi ≤ t 2
i:|x −μ|≥tσ
i
∑
i:|xi −μ|≥tσ
1
fi ≤ 2
t
10.27
di conseguenza la frequenza relativa, riferita alle unità statistiche che assumono valore
all’interno dell’intervallo, sarà almeno pari a 1 − t12
valori tipici
t
2
3
4
5
1
t2
0.25
0.1111
0.0625
0.04
1 − t12
0.75
0.8889
0.9375
0.96
10.28
136
Esempio 12.
μ
μ − tσ
μ − tσ
• l’area in GRIGIO è al più pari a t12
• l’area in BIANCO è almeno pari a 1 − t12
10.29
0.00
0.05
0.10
0.15
0.20
0.25
Esempio 13.
10
15
20
25
μX = 16.6986 σX = 2.9653 t = 2
• l’area in GRIGIO è al più pari a 212 = 0.25 = 25%
• l’area in BIANCO è almeno pari a 1 − 212 = 0.75 = 75%
137
10.30
Esempio 14.
350
400
450
μX = 375.8302 σX = 23.3231 t = 2.5
• l’area in GRIGIO è al più pari a 2.51 2 = 0.16 = 16%
• l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84%
10.31
Esempio 15.
77.0
77.5
μX = 78.0939
78.0
78.5
σX = 0.3815 t = 2.5
= 0.16 = 16%
• l’area in GRIGIO è al più pari a
• l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84%
1
2.52
138
10.32
Sezione 11
Indici di forma
11.1
Indice
1
Asimmetria
1.1 Simmetria . . . . . . . . . . . . . . . .
1.2 Asimmetria . . . . . . . . . . . . . . .
1.3 Tipologie asimmetria . . . . . . . . . .
1.4 Caratterizzazione indici di posizione (1)
1.5 Caratterizzazione indici di posizione (2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
139
142
143
143
143
2
Misure di asimmetria
144
3
Curtosi
146
3.1 Tipologie curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4
Esercizi
148
11.2
1 Asimmetria
1.1
Simmetria
Definizione 1 (funzione (continua) simmetrica). Una funzione f (x) si definisce simmetrica rispetto a un centro c se ∀k > 0 vale:
f (c − k) = f (c + k)
c
c−k
c
c+k
11.3
139
Esempio 2. Anche la seguente funzione (continua a intervalli) è simmetrica rispetto al
centro c
c−k
c
c+k
11.4
Esempio 3. Anche la seguente funzione (di variabile discreta, ovvero definita su un
insieme di valori discreti) è simmetrica rispetto al centro c
c−k
c
c+k
11.5
Definizione 4 (Variabile statistica simmetrica). Una variabile statistica X si definisce
simmetrica rispetto al centro c se:
• per ogni xi = c − k
• esiste un valore corrispondente x j = c + k (simmetrico)
tale che
f (xi ) = f (x j )
X simmetrica → M(X) = c
Si ricorda che la media aritmetica è il baricentro (punto di equilibrio delle frequenze) di
ogni distribuzione;
140
in presenza di una variabile statistica X con distribuzione simmetrica rispetto a c vale
M(X) = c = baricentro
11.6
X simmetrica → x0.5 = c
Osservando il grafico di una variabile statistica simmetrica
c
c
si evince che (almeno) metà delle unità statistiche hanno valore non superiore a c e (almeno) metà delle unità statistiche hanno valore non inferiore a c; il punto c può, quindi,
essere interpretato come la mediana della distribuzione.
Osservazione
Se si utilizza la formula della mediana x0.5 = x([n·0.5]+1) la precedente proprietà può non
valere se il numero n di unità statistiche è pari.
11.7
X simmetrica → Moda = c
Se la moda esiste, coincide con il centro di simmetria
c
c
X simmetrica → M (X − μ)2r+1 = 0, r = 0, 1, 2, . . .
Esplicitando l’espressione del momento centrale di ordine dispari rispetto alla media
aritmetica abbiamo
r
M (X − μ)2r+1 = ∑ (xi − μ)2r+1 fi = 0, r = 0, 1, 2, . . .
i=1
c
c
141
11.8
Scarti di eguale entità ma con segno opposto sono ponderati con le medesime frequenze,
quindi si compensano.
Si ricordi per r = 0 l’interpretazione della media aritmetica come baricentro di una distribuzione di frequenze, M(X − μ) = 0.
11.9
Riepilogo
•
simmetria
→
M(X) = x0.5 = c
•
M(X) = x0.5 = c
?
→
simmetria
Il fatto che la media aritmetica coincida con la mediana è solo un sintomo del fatto
che la distribuzione possa essere simmetrica.
•
simmetria
•
→
M (X − μ)2r+1 = 0,
M (X − μ)2r+1 = 0,
r = 0, 1, 2, . . .
r = 0, 1, 2, . . .
→
simmetria
Se tutti i momenti centrali rispetto alla media sono nulli allora la distribuzione è
simmetrica.
Il momento centrale di ordine 1 rispetto alla media, M(X − μ), è sempre nullo, a
prescindere dalla forma della distribuzione.
Se verifico che il momento centrale di ordine 3 rispetto alla media, M (X − μ)3 ,
è nullo, ho solo un sintomo del fatto che la distribuzione possa essere simmetrica.
11.10
1.2
Asimmetria
Esempio 5 (funzioni asimmetriche).
asimmetria positiva
asimmetria negativa
11.11
142
1.3
Tipologie asimmetria
Definizione 6. Asimmetria positiva Una distribuzione si definisce asimmetrica positiva
quando è caratterizzata da una coda destra più pesante della sinistra (fat/heavy right tail)
Definizione 7. Asimmetria negativa Una distribuzione si definisce asimmetrica negativa
quando è caratterizzata da una coda sinistra più pesante della destra (fat/heavy left tail)
1.4
11.12
Caratterizzazione indici di posizione (1)
Nel caso di una distribuzione asimmetrica positiva vale il seguente ordinamento:
Moda < x0.5 < μ
Moda
x0.5 μ
11.13
1.5
Caratterizzazione indici di posizione (2)
Nel caso di una distribuzione asimmetrica negativa vale il seguente ordinamento:
μ < x0.5 < Moda
μ x0.5 Moda
143
11.14
2 Misure di asimmetria
Definizione 8 (Confronto tra media e mediana).
μ − x0.5
• se la distribuzione è asimmetrica positiva → μ − x0.5 > 0
• se la distribuzione è asimmetrica negativa → μ − x0.5 < 0
• se la distribuzione è simmetrica → μ = x0.5
11.15
Definizione 9 (Indice di Fisher (skewness)).
M (X − μ)3
X −μ 3
=
M
γ1 =
σ3
σ
• se la distribuzione è asimmetrica positiva → γ1 > 0
• se la distribuzione è asimmetrica negativa → γ1 < 0
• se la distribuzione è simmetrica → γ1 = 0
È l’indice più utilizzato. Si tratta di un indice relativo.
Dalla seconda formulazione dell’indice si evince che γ1 è il momento terzo della variabile
standardizzata.
11.16
Osservazione
Le misure di asimmetria proposte sono solo sintomo di simmetria/asimmetria !!
• se μ − x0.5 > 0 → tendenza alla asimmetria positiva
• se μ − x0.5 = 0 → tendenza alla simmetria
• se μ − x0.5 < 0 → tendenza alla asimmetria negativa
• se γ1 > 0 → tendenza alla asimmetria positiva
• se γ1 = 0 → tendenza alla simmetria
• se γ1 < 0 → tendenza alla asimmetria negativa
11.17
Esempio 10. Si calcolino le misure di asimmetria μ − x0.5 e γ1 con riferimento alla
seguente variabile statistica
xi ni
1
1
2
2
3
4
4
3
10
La mediana risulta:
x0.5 = x([10·0.5]+1) = x(6) = 3
11.18
Calcolo di media e varianza
xi
1
2
3
4
ni xi ni
1
1
2
4
4 12
3 12
10 29
144
xi2 ni
1
8
36
48
93
M(X) = μ = 2.9
M(X 2 ) = 9.3
Var(X) = σ 2 = M(X 2 ) − μ 2 = 9.3 − 2.92 = 9.3 − 8.41 = 0.89
σ = 0.9434
Otteniamo, quindi
μ − x0.5 = 2.9 − 3 = −0.1
sintomo di asimmetria negativa.
Calcolo di
1 k
M (X − μ)3 = ∑ (xi − μ)3 ni
n i=1
xi
1
2
3
4
ni (xi − μ) (xi − μ)3
1
−1.9
−6.859
2
−0.9
−0.729
4
0.1
0.001
3
1.1
1.331
10
11.19
(xi − μ)3 ni
−6.859
−1.458
0.004
3.993
−4.320
1
M (X − μ)3 = (−4.32) = −0.432
10
M (X − μ)3
−0.432
0.432
= −0.5145
γ1 =
=
=−
σ3
0.94343
0.8396
indizio di asimmetria negativa.
11.20
Esempio 11 (Contro-esempio).
classi
xi ni
0 10
5 14
10 20 15
9
20 30 25 12
30 40 35
8
•
•
•
•
•
•
μ=
18.2558
M (X − μ)3 = 193.4221
x0.5 = 18.8889
σ = 11.1482
γ1 = 0.1396
μ − x0.5 = −0.6331
11.21
145
3 Curtosi
0.0
0.1
0.2
0.3
0.4
Il concetto trova particolare utilizzo in finanza, ad esempio con riferimento alle serie dei
prezzi relativi dei titoli o delle valute.
Si confronta la forma della distribuzione con quella del modello Normale, che verrà
presentato nella sezione sul calcolo delle Probabilità.
−4
−2
0
2
4
11.22
3.1
Tipologie curtosi
0.2
0.3
Definizione 12. Distribuzione leptocurtica Una distribuzione si definisce leptocurtica
quando presenta, rispetto alla Normale, una frequenza superiore nei valori sulle code e
nei valori intorno alla media (fat/heavy tails).
0.0
0.1
distribuzione Normale
−5
0
5
●
μ
11.23
146
1.5
Definizione 13. Distribuzione platicurtica Una distribuzione si definisce platicurtica quando presenta, rispetto alla Normale, una frequenza superiore nei valori intermedi tra la
media e le code.
0.0
0.5
1.0
distribuzione Normale
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
●
μ
11.24
Definizione 14 (Indici di curtosi (kurtosis)).
M (X − μ)4
X −μ 4
=M
γ2 =
σ4
σ
β2 =
M (X − μ)4
X −μ 4
−
3
=
M
−3
σ4
σ
• se la distribuzione è leptocurtica ↔ γ2 > 3
• se la distribuzione è platicurtica ↔ γ2 < 3
• se la distribuzione è mesocurtica ↔ γ2 = 3
• se la distribuzione è leptocurtica ↔ β2 > 0
• se la distribuzione è platicurtica ↔ β2 < 0
• se la distribuzione è mesocurtica ↔ β2 = 0
11.25
Osservazioni
La seconda formulazione degli indici fa riferimento al momento quarto della variabile
standardizzata.
Una distribuzione si definisce mesocurtica se ha lo stesso indice di curtosi della Normale
γ2 = 3 ovvero β2 = 0.
147
11.26
4 Esercizi
Esercizio 15 (T 206, 25.09.2003, 3). Data la seguente distribuzione di frequenze relative
della variabile statistica X:
xi
fi
10
0.1
35
f2
A
f4
50
0.3
B
f5
1. Si determinino i valori di A, B, f2 , f4 e f5 in modo che X risulti simmetrica rispetto
alla mediana pari a 50.
2. Calcolare il valore dei
seguenti momenti centrali: μ̄ 5 = M (X − μ)5 , μ̄ 7 = M (X − μ)7
e μ̄ 9 = M (X − μ)9 .
3. Si calcolino la varianza e l’indice di asimmetria delle variabili statistiche:
Y = X −2
Z = 3X.
e
11.27
Esercizio 16. Sia γ1 (X) l’indice di asimmetria di una variabile statistica X
Si ricavi l’espressione dell’indice di asimmetria della variabile statistica
Y = a+b·X
in funzione di γ1 (X).
11.28
Esercizio 17 (T 231, 11.01.2007, 3). Si vuole studiare il numero di prodotti venduti in
funzione del loro prezzo Y e del modo X in cui sono stati pubblicizzati (c1 = a mezzo stampa o c2 = a mezzo televisione). Nella seguente tabella vengono riportate le distribuzioni
di frequenze relative condizionate riguardanti le v.s. Y |X = ci (i = 1, 2):
Y |X = ci
c1
c2
0 10
0.5
0.1
10 20
0
0.8
20 30
0.5
0.1
1
1
1. Sapendo che le frequenze marginali assolute di X sono pari a 150 e 250, si ricostruisca la distribuzione delle frequenze congiunte.
2. Calcolare la moda ed un opportuno indice di mutabilità normalizzato per la v.s. X.
3. Dopo aver rappresentato graficamente la distribuzione di frequenza della v.s. Y , se
ne calcoli la mediana, la media, la varianza e l’indice di asimmetria.
4. Sia W = 2 + 3Y ; utilizzando le opportune proprietà si calcolino M(W ), Var(W ) e
l’indice di asimmetria di W .
11.29
Esercizio 18 (T 250, 04.06.2009, 1). È data la seguente seriazione X:
i hi−1 hi
1 10 16
2 16 30
3 30 h3
ni
10
20
10
1. Si calcoli il valore da attribuire ad h3 , sapendo che la densità di frequenza (assoluta)
della terza classe risulta pari a 1.31579 e si dia una rappresentazione grafica della
distribuzione X.
2. Si calcolino media aritmetica, varianza e coefficiente di variazione di X.
3. Si indichi, almeno approssimativamente, il valore assunto dalla media potenziata di
X di ordine −1000.
4. Si indichi, senza effettuare calcoli e giustificando la risposta, se la distribuzione di
X è simmetrica.
5. Si calcoli il valore da attribuire ad h3 nell’ipotesi che M(X) = 23.
148
11.30
Sezione 12
Rapporti statistici
12.1
Indice
1
Introduzione
149
2
Rapporti Statistici
151
3
Rapporti di densità
151
4
Rapporti di composizione
152
5
Indici inter-popolazione
153
6
Indici inter-temporali
6.1 Numeri indici a base fissa e a base mobile
6.2 Cambiamento di base (NIBF) . . . . . . .
6.3 Trasformazione NIBF in NIBM . . . . .
6.4 Variazione relativa media . . . . . . . . .
6.5 Passaggio da NIBM a NIBF . . . . . . .
6.6 Numeri Indici composti . . . . . . . . . .
6.7 Numeri Indici dei prezzi . . . . . . . . .
6.8 I Numeri Indici di borsa . . . . . . . . . .
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Esercizi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
154
154
156
156
157
158
158
159
161
161
1 Introduzione
Nelle scienze economiche e sociali vengono trattate misure di:
•
•
•
•
conteggio (N)
quantità (Q)
prezzo/valore unitario
valore globale
dove:
• valore globale = N· prezzo unitario
• valore globale = Q· prezzo unitario
In molte circostanze è più opportuno ricorrere a misure relative (ad esempio ’pro-capite’).
Si ricorda come le misure relative possano essere definite solo per caratteri misurati su
scala per rapporti.
149
12.2
Consideriamo, quindi, le manifestazioni di una generica grandezza G, definita su scala
per rapporti, riferita alla popolazione P al tempo t:
G(P,t)
12.3
Definizione 1 (Cross section). Le manifestazioni di
G(P,t) = G(P)
per un t prefissato, al variare di P costituiscono una cross section.
Esempio 2. Il Prodotto Interno Lordo delle nazioni dell’area Euro nel 2013.
12.4
Definizione 3 (Serie storica). Le manifestazioni di
G(P,t) = G(t) = xt
per P prefissato, al variare di t costituiscono una serie storica.
Riferimento temporale
• istante t → serie storica di stock
x0 , x1 , x2 , . . . , xT
(esempio: prezzo, popolazione residente, . . .)
• intervallo (t − 1,t) → serie storica di flusso
x1 , x 2 , . . . , x T
(esempio: produzione, vendite, nascite, . . .)
12.5
Rapporti tra due grandezze
(per i confronti)
•
R1 =
abitanti
Nt
=
chilometri quadrati km2
•
R2 = consumo per abitante =
Qt
Nt
R3 = produzione per ettaro =
Qt
ha
R4 = fatturato per addetto =
Vt
Nt
•
•
•
R5 = ROI, Return On Investment =
..
.
150
Rt
It
12.6
Osservazione
Nei precedenti rapporti:
• a numeratore figura una grandezza di flusso,
• mentre a denominatore figura una grandezza di stock;
Occorre prestare particolare attenzione a tali situazioni e domandarsi, in particolare, a
quale istante temporale è attribuita la grandezza a denominatore ed, eventualmente, come
renderla il più possibile rappresentativa di tutto l’intervallo temporale a cui è riferito il
numeratore.
Ad esempio, una vendita di titoli con elevata rischiosità potrebbe avere una forte influenza
sulla valutazione ROI.
12.7
2 Rapporti Statistici
•
•
•
•
rapporti di composizione
indici inter-popolazione
indici inter-temporali
rapporti di densità (assoluti)
..
.
• rapporti di durata (giacenza media magazzino)
• rapporti di ripetizione (rotazione stock)
..
.
• indici di penetrazione (rapporti di rapporti)
Esempio 4. Gli indici di penetrazione possono essere, ad esempio, calcolati
• fra % di composizione
• fra quote di mercato
• fra consumi pro-capite
12.8
3 Rapporti di densità
Definizione 5. Data una popolazione P, e due grandezze G, H, con H misura di ’dimensione’ di P si definisce Rapporto di densità il rapporto
G(P,t)
H(P,t)
12.9
151
4 Rapporti di composizione
Definizione 6. Data una popolazione P, i sottoinsiemi P1 , P2 , . . . , Ph , Pi ⊂ P, i = 1, 2, . . . , h,
costituiscono una partizione di P se:
1. hi=1 Pi = P
2. Pi ∩ Pj = ∅
12.10
quoziente =
PARTE
TUTTO
Definizione 7. Data una popolazione P, una partizione di P e una grandezza G misurata
1. sugli elementi di P
2. in uno stesso istante/intervallo temporale t
si definisce rapporto di composizione il rapporto
Ri =
G(Pi ,t)
G(P,t)
quindi
h
∑ Ri = 1
(oppure 100)
i=1
Le frequenze relative fi sono un esempio di rapporti di composizione.
Esempio 8. Consumi giornalieri di birra popolazione 15-65 anni
zona
NO
NE
Centro
SI
totale
(a)
(b)
popol · 1000
n
%
10261
26.4
7259
18.7
7412
19.1
13916
35.8
38848 100.0
↑
(c)
(d)
litri · 1000
n
%
279.1
28.5
204.7
20.9
240.1
24.5
256.1
26.1
980.0
100.0
↑
Fonte: Indagini campionarie INRAN
152
(e)
cc
pro-capite
27.2
28.2
32.4
18.4
25.2
↑
rapporti
di densità
(f)
indice
penetrazione
1.08
1.12
1.28
0.73
1.00
12.11
Osservazioni
• totale(e) e totale( f ) sono medie ponderate
• (e) =
(c)
(a)
(f) =
(d)
(b)
=
(c)
totale(c)
(a)
totale(a)
=
(c)
(a)
totale(c)
totale(a)
=
(e)
totale(e)
12.12
Esempio 9. Ricettività alberghiera Italia (1998)
Esercizi
Totale
Alberghi
Camere
N.
%
N.
%
90
0.3%
8390
0.9%
2450
7.2% 175753
18.3%
12401
36.7% 450908
46.9%
10094
29.9% 210893
21.9%
8767
25.9% 115001
12.0%
33802
100.0% 960945 100.0%
↑
↑
N. medio N. medio
camere
letti
93
177
72
135
36
74
21
39
13
24
28
55
↑
↑
rapporti di densità
Fonte: Federalberghi, Primo rapporto sul sistema alberghiero in Italia, 1998
Osservazione
Il numero medio di camere è un rapporto di densità:
G(P,t)
H(P,t)
• G(P,t): numero totale di camere della popolazione P
• H(P,t): numero totale di alberghi della popolazione P
12.13
5 Indici inter-popolazione
Definizione 10. Data una grandezza G espressa su scala per rapporti
• riferita a due popolazioni P ed S
• rilevata nello stesso (istante/periodo) t
si definisce indice interpopolazione relativo alla popolazione S con riferimento a P
P IS
=
G(S;t)
G(P;t)
(poco usati: non utili per i confronti!!)
12.14
Esempio 11.
consumo di vino in Francia
consumo di vino in Italia
(nell’anno t)
Se, ad esempio, nell’anno 2003 fosse risultato
consumo di vino in Francia V (F, 2003)
=
= 1.05
consumo di vino in Italia
V (I, 2003)
si sarebbe concluso che per ogni litro di vino consumato in Italia si erano consumati 1.05
litri di vino in Francia
12.15
Esempio 12.
consumo di vino pro/capite in Francia
consumo di vino pro/capite in Italia
(più informativo)
12.16
153
6 Indici inter-temporali
Definizione 13. Con riferimento a una serie storica, relativa a una grandezza G espressa
su scala per rapporti, e riferita a un’unica popolazione P, si definisce numero indice al
tempo t (istante o periodo) con riferimento a t0
t0 It
=
G(P;t)
xt
=
G(P;t0 ) xt0
(t0 è detto base)
tipologie
• base fissa (t0 )
montante unitario (grandezza relativa) rispetto a t0
• base mobile (t0 = t − 1)
montante unitario (grandezza relativa) rispetto a t − 1
12.17
6.1
Numeri indici a base fissa e a base mobile
Definizione 14 (Numeri indici a base fissa).
xt
G(P;t)
= t0 It ,
=
G(P;t0 ) xt0
(t = 0, 1, . . . , T )
dove t0 è un prefissato istante o periodo di riferimento
Definizione 15 (Numeri indici a base mobile).
G(P;t)
xt
=
=
G(P;t − 1) xt−1
t−1 It ,
(t = 1, 2, . . . , T )
dove t − 1 è l’istante o periodo precedente a t
12.18
Osservazione
Sono collegati alle variazioni relative rispetto alla base:
• base fissa
xt − xt0
xt
=
− 1,
xt0
xt0
• base mobile
(t = 0, 1, . . . , T )
xt
xt − xt−1
=
− 1,
xt−1
xt−1
(t = 1, 2, . . . , T )
(eventualmente esprimibili anche come percentuale)
12.19
Esempio 16. Ricettività alberghiera mondiale
anno
1994
1995
1996
1997
1998
n.camere · 1000
Europa America
5492
5653
5942
6030
6130
4494
4540
4598
4670
4700
(base 1994 = 100)
NIBF
NIBF
Europa America
100.00
100.00
102.93
101.02
108.19
102.31
109.80
103.92
111.62
104.58
Fonte: OMT; Horwath International, Arthur Andersen; 1998, stime
154
base mobile
NIBM
NIBM
Europa America
−
−
102.93
101.02
105.11
101.28
101.48
101.57
101.66
100.64
Osservazione
base = periodo di stabilità
12.20
Ricostruzione dei numeri indici per l’Europa con base fissa riferita all’anno 1994
(t0 = 1994)
G(t)
t0 =1994 It =
G(1994)
ad esempio:
t0 =1994 I1997
=
6030
= 1.0980
5492
ovvero
x1997 : x1994 =
1994 I1997
:1
Il numero indice per l’anno 1997 riferito all’anno base 1994 risulta pari a 1.0980: la
grandezza relativa è 1.0980.
Quindi tra il 1994 e il 1997 si è osservato un incremento complessivo pari al 9.80% =
(1.0980 − 1) · 100%
anno = t
1994
1995
1996
1997
1998
xt
5492
5653
5942
6030
6130
t0 =1994 It
5492
5492 = 1
5653
t0 =1994 I1995 = 5492
5942
I
=
t0 =1994 1996
5492
6030
t0 =1994 I1997 = 5492
6130
t0 =1994 I1998 = 5492
interpretazione
= 1.0293
= 1.0819
= 1.0980
= 1.1162
dal
dal
dal
dal
1994
1994
1994
1994
al
al
al
al
1995
1996
1997
1998
+ 2.93%
+ 8.19%
+ 9.80%
+ 11.62%
12.21
su scala centesimale
numeri indici con base 1994 = 100
anno = t
1994
1995
1996
1997
1998
xt
5492
5653
5942
6030
6130
numeri indici
con base 1994 = 1
t0 =1994 It
5492
5492 = 1
5653
t0 =1994 I1995 = 5492 = 1.0293
5942
I
=
t0 =1994 1996
5492 = 1.0819
6030
t0 =1994 I1997 = 5492 = 1.0980
6130
t0 =1994 I1998 = 5492 = 1.1162
numeri indici
con base 1994 = 100
t0 =1994 It · 100
100
102.93
108.19
109.80
111.62
12.22
Ricostruzione numeri indici a base mobile (t0 = t − 1) per l’Europa
G(t)
t0 =t−1 It =
G(t − 1)
ad esempio, da:
1996 I1997
=
G(1997) 6030
=
= 1.0148
G(1996) 5942
si può concludere che tra il 1996 e il 1997 si è registrato un incremento pari a 1.48%.
anno = t
1994
1995
1996
1997
1998
xt
5492
5653
5942
6030
6130
t−1 It
=
1995 I1996 =
1996 I1997 =
1997 I1998 =
1994 I1995
−
5653
5492
5942
5653
6030
5942
6130
6030
· 100
−
102.93
105.11
101.48
101.66
t−1 It
= 1.0293
= 1.0511
= 1.0148
= 1.0166
interpretazione
dal
dal
dal
dal
1994
1995
1996
1997
al
al
al
al
1995
1996
1997
1998
+ 2.93%
+ 5.11%
+ 1.48%
+ 1.66%
12.23
155
6.2
Cambiamento di base (NIBF)
Cambio di base da t0 a t1
• avendo i dati originari, posso ricalcolare
G(t)
= t1 It
G(t1 )
• partendo, invece, dagli indici con base fissa t0 abbiamo
G(t)
G(t)/G(t0 )
G(t)
G(t0 )
t It
=
=
= 0
t1 It =
G(t
)
G(t1 ) G(t1 )/G(t0 )
1
t0 It1
G(t0 )
12.24
Cambiamento di base per i numeri indici Europa con base fissa riferita all’anno 1994
(t0 = 1994), nuova base 1995 (t1 = 1995)
anno = t
xt
t0 =1994 It
t1 =1995 It
5492
1
1994
5492 1
t1 =1995 I1994 = 5653 = 1.0293 = 0.9715
5653
1.0293
1995
5653 1.0293 t1 =1995 I1995 = 5653 = 1.0293 = 1
1.0819
1996
5942 1.0819 t1 =1995 I1996 = 5942
5653 = 1.0293 = 1.0511
6030
1997
6030 1.0980 t1 =1995 I1997 = 5653 = 1.0980
1.0293 = 1.0667
1.1162
1998
6130 1.1162 t1 =1995 I1998 = 6130
5653 = 1.0293 = 1.0844
12.25
6.3
Trasformazione NIBF in NIBM
È possibile ricostruire la serie dei numeri indici a base mobile anche disponendo solo dei
numeri indici con base fissa t0 ; infatti, a partire dai dati originari abbiamo:
G(t)
G(t)/G(t0 )
G(t)
G(t0 )
t It
=
=
= 0
t−1 It =
G(t − 1)
G(t − 1) G(t − 1)/G(t0 )
t0 It−1
G(t0 )
se disponiamo della serie dei numeri indici a base fissa t0
(rapporto di NIBF contigui)
anno = t
xt
1994
5492
t0 =1994 It
t−1 It
t0 I1994
1
1995
5653
1.0293
1996
5942
1.0819
1997
6030
1.0980
1998
6130
1.1162
t0 I1995
t0 I1994
t0 I1996
t0 I1995
t0 I1997
t0 I1996
t0 I1998
t0 I1997
t0 I1993
=
=
=
=
t−1 It
=−
1.0293
1
1.0819
1.0293
1.0980
1.0819
1.1162
1.0980
−
= 1.0293
1994 I1995
=
= 1.0511
1995 I1996
=
= 1.0149
1996 I1997
=
= 1.0166
1997 I1998
=
5653
5492
5942
5653
6030
5942
6130
6030
= 1.0293
= 1.0511
= 1.0148
= 1.0166
12.26
156
6.4
Variazione relativa media
Si consideri, ad esempio, 1994 I1998 , numero indice al tempo 1998 con base 1994 (grandezza relativa al tempo 1998 rispetto alla base 1994). 1994 I1998 può essere espresso in
funzione dei numeri indici a base mobile t−1 It , t = 1995, . . . , 1998 (grandezze relative al
tempo t rispetto a t − 1)
1994 I1998
G(1998)
G(1994)
=
1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998
=
G(1995) G(1996) G(1997) G(1998)
·
·
·
G(1994) G(1995) G(1996) G(1997)
Si desidera ottenere la media α dei numeri indici a base mobile (grandezza relativa media
riferita a una unità temporale)
In base al criterio di scelta della media secondo Chisini abbiamo
1994 I1998
=
1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998
= α · α · α · α = α4
Risolvendo rispetto ad α si ottiene
α=
1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998 .
4
La grandezza relativa media risulta la media geometrica dei numeri indici a base mobile.
12.27
Osservazione
α
=
4
=
4
G(1995) G(1996) G(1997) G(1998)
·
·
·
G(1994) G(1995) G(1996) G(1997)
G(1998)
=
G(1994)
4
1994 I1998
Esempio 17. Con riferimento all’esempio dei numeri indici per l’Europa si ottiene
√
4
4 6130
4
I
=
= 1.1162 = 1.11620.25 = 1.0279
1994 1998
5492
si può, quindi, concludere che tra il 1994 e il 1998 si è registrato un incremento medio
annuale (variazione relativa media) del numero delle camere pari al 2.79%.
12.28
Definizione 18 (Grandezza relativa media e variazione relativa media). Si consideri la
serie storica delle k + 1 osservazioni Xt , . . . , Xt+k e i corrispondenti numeri indici a base
mobile t It+1 , . . . , t+k−1 It+k ; si definisce grandezza relativa media la media geometrica dei
k numeri indici a base mobile
α=
k
k
∏ t+i−1 It+i−1 =
k
t It+1 · . . . · t+k−1 It+k
=
k
t It+k
1
corrispondente alla radice di ordine k del numero indice a base fissa t It+k .
La variazione relativa media risulta:
α −1
e, in termini percentuali,
100 · (α − 1)
12.29
157
6.5
Passaggio da NIBM a NIBF
Si ricordi che
G(t)
t It
= 0
=
G(t − 1) t0 It−1
t−1 It
(NIBM)
da cui
t0 It
= t0 It−1 · t−1 It
ma
t0 It−1
= t0 It−2 · t−2 It−1
quindi
t0 It
= t0 It−2 · t−2 It−1 · t−1 It
e, continuando ricorsivamente fino a t0 It0 = 1, si ottiene . . .
12.30
• per t > t0
t0 It
= t0 It0 +1 · t0 +1 It0 +2 ·
prodotto
· I · I · I
NIBM fino a t−3 t−2 t−2 t−1 t−1 t
vale a dire
(NIBF)
t0 It
=
t
∏
j=t0 +1
• per t = t0
t0 It0
• per t < t0 , dalla
t0 It
t0 It−1
(NIBM)
=1
=
ricavo
t0 It−1
j−1 I j
=
t−1 It
t0 It
t−1 It
per cui, noto t0 It , ottengo, a ritroso, gli indici a base fissa da quelli a base mobile
12.31
Osservazione
Le precedenti trasformazioni valgono solo per indici rapporto (grandezze relative)
Nel caso i numeri indici siano espressi in scala centesimale occorre passare ai rapporti
(grandezze relative)
6.6
12.32
Numeri Indici composti
I numeri indici che sono stati considerati finora sono detti numeri indici semplici in quanto
sono riferiti a un’unica serie storica.
Spesso si ha a che fare con più serie storiche
(ad esempio le serie storiche dei prezzi di un paniere di prodotti o di un portafoglio di
azioni);
a partire da ciascuna serie storica è possibile ottenere una serie di numeri indici semplici.
Un numero indice composto è una sintesi di numeri indici semplici
Esempio 19. A partire dalle variazioni dei prezzi di più prodotti si desidera ottenere una
misura della variazione del livello generale dei prezzi.
Si osserva come la variazione nel livello generale dei prezzi venga, talvolta, utilizzata
come misura dell’inflazione, che però rappresenta la perdita del potere di acquisto.
158
12.33
6.7
Numeri Indici dei prezzi
• media ponderata dei prezzi relativi degli h prodotti scelti come rappresentativi dei
consumi di una collettività
i pt
i p0
• come coefficienti di ponderazione si possono utilizzare i valori delle merci scambiate:
– nel periodo 0 (base):
i v0
– nel periodo t (corrente):
= i p0 · i q0
i v0
= i pt · i qt
Si può, quindi, considerare una serie statistica avente una delle seguenti strutture
xi
..
.
i pt
i p0
..
.
ni
..
.
i v0 = i p0 · i q0
..
.
v0
xi
..
.
i pt
i p0
..
.
ni
..
.
i vt = i pt · i qt
..
.
vt
12.34
pane
0
t
prezzi
relativi
valori (0)
valori (1)
pane pt
latte
latte p0
latte pt
burro
burro p0
burro pt
pane p1
pane p0
latte p1
latte p0
burro p1
burro p0
pane p0 · pane q0
latte p0 · latte q0
burro p0 · burro q0
pane p0
pane p1 · pane q1
latte p1 · latte q1
burro p1 · burro q1
Si vuole calcolare una media delle modalità prezzi relativi
xi =
i pt
i p0
utilizzando quali coefficienti di ponderazione (frequenze) i valori riferiti all’anno base
oppure all’anno corrente
ni = i v0 = i p0 · i q0
oppure
ni = i vt = i pt · i qt
12.35
Definizione 20. Si definisce indice dei prezzi di Laspeyres (1884), la media aritmetica
delle variazioni dei prezzi dei singoli prodotti
xi =
i pt
i p0
calcolata utilizzando come frequenze i valori scambiati al tempo 0 (base)
ni = i v0 = i p0 · i q0
p L
0 It
=
h
1 h
1
∑hi=1 i pt i q0
i pt
xi ni = h
i p0 i q0 = h
∑
∑
n i=1
∑i=1 i p0 i q0 i=1 i p0
∑i=1 i p0 i q0
Si osserva come il valore del paniere dei beni venga aggiornato solo in occasione di un
eventuale cambiamento di base.
159
12.36
Definizione 21. Si definisce indice dei prezzi di Paasche (1874), la media armonica delle
variazioni dei prezzi dei singoli prodotti
xi =
i pt
i p0
calcolata utilizzando come frequenze i valori scambiati al tempo t (corrente)
ni = i vt = i pt · i qt
p P
0 It
=
=
1 h −1
∑ xi ni
n i=1
−1
=
1
∑hi=1 i pt i qt
h
∑
i p0
i=1 i pt
−1
i pt i qt
∑hi=1 i pt i qt
∑hi=1 i p0 i qt
Si osserva come il valore del paniere dei beni debba essere aggiornato a ogni periodo di
rilevazione
Si osserva come, con riferimento ai prodotti usualmente consumati, sussista un legame
negativo tra le variazioni dei prezzi e le variazioni delle quantità (la funzione di domanda
dei prodotti è convessa).
In tali situazioni l’indice dei prezzi di Laspeyres sovrastima la reale variazione dei prezzi,
mentre l’indice di Paasche la sottostima.
Fisher ha proposto la seguente misura ’ideale’ ottenuta come media geometrica dei precedenti indici.
12.37
Definizione 22. Indice dei prezzi di Fisher (1922)
p F
p L p P
0 It =
0 It · 0 It
Osservazione
La procedura per il cambiamento di base si complica nel caso di numeri indici composti.
Ad esempio, sul sito dell’Istat sono pubblicati opportuni coefficienti di conversione.
12.38
Esempio 23. Si considerino i dati riferiti a 4 prodotti
i
p0
pt
q0
qt
1
2
3
4
10
15
8
14
12
20
9
18
1000 2000 1500 500
800 2100 1200 900
Si calcolino gli indici sintetici dei prezzi di Laspeyres, Paasche e Fisher
Indice dei prezzi di Laspeyres
ni = i p0 · i q0
xi ni
xi = ii pp0t
12
=
1.2
10
·
1000
=
10000
12000
10
20
15 = 1.3333 15 · 2000 = 30000 40000
9
8 · 1500 = 12000 13500
8 = 1.125
18
=
1.2857
14 · 500 = 7000
9000
14
59000 74500
p L
0 It
= M(X) =
1
74500 = 1.2627
59000
160
12.39
la variazione relativa nel livello generale dei prezzi, secondo l’Indice di Laspeyres, è del
+26.27%.
Si osserva come tale valore sia compreso tra la minima e massima variazione registrata
nel prezzo dei singoli prodotti [12.50%, 33.33%].
12.40
Indice dei prezzi di Paasche
ni
ni = i pt · i qt
xi = ii pp0t
xi
12
12 · 800 = 9600
8000
10 = 1.2
20
15 = 1.3333 20 · 2100 = 42000 31500
9
9 · 1200 = 10800
9600
8 = 1.125
18
18 · 900 = 16200 12600
14 = 1.2857
78600 61700
p P
0 It
−1
= M X −1
=
Indice dei prezzi di Fisher
IFisher =
1
1
n
∑ki=1 x1i ni
p L p P
0 It · 0 It
=
=
1
1
78600 61700
√
=
78600
= 1.2739
61700
1.6086 = 1.2682
12.41
6.8
I Numeri Indici di borsa
Si considera un paniere di azioni e si calcola l’evoluzione dei prezzi al termine di ogni
minuto di contrattazione.
La struttura dell’indice Mibtel è simile a quella dell’indice di Laspeyres
p
0 It =
∑hi=1 i pi 0 ti c i p0 i c i q0
∑hi=1 i p0 i c i q0
=
∑hi=1 i pt i q0
∑hi=1 i p0 i c i q0
dove i c è un fattore correttivo delle quotazioni che tiene conto delle operazioni sul capitale
sociale
(ad esempio aumenti di capitale sociale con eventuali opzioni di sottoscrizione da effettuare nell’intervallo temporale (0,t))
12.42
7 Esercizi
Esercizio 24 (T 239, 10.01.2008, 2). Sapendo che per un aggregato macroeconomico il
numero indice riferito al tempo 2006 con base 2005 è pari a 2005 I2006 = 0.95 e che tra
il 2006 e il 2007 l’aggregato ha subito una variazione percentuale del +5% si determini
2005 I2007 , numero indice riferito all’istante temporale 2007 con base 2005.
12.43
Esercizio 25 (T 241, 14.02.2008, 2). Sapendo che il valore di un aggregato macroeconomico nel 2006 è 80, che il numero indice riferito al tempo 2006 con base 2005 è pari
a 2005 I2006 = 1.2 e che tra il 2006 e il 2007 l’aggregato ha subito una variazione assoluta
di −20 si determini 2005 I2007 , numero indice riferito all’istante temporale 2007 con base
2005.
12.44
161
Esercizio 26 (T 249, 12.02.2009, 2). Si riporta l’evoluzione temporale dei prezzi e delle
quantità scambiate di 2 prodotti a e b, tra il 2000 il 2002.
a
a pt
2000 330
2001 345
2002 390
b
a qt
b pt
b qt
10
a q2001
10
80
80
85
b q2001
10
10
1. Si calcoli l’indice dei prezzi di Laspeyres al tempo 2002 con base 2000.
p
F , al tempo 2001 con base
2. Supponendo che l’indice dei prezzi di Fisher, 2000
I2001
2000, sia risultato pari a 1.033, valore inferiore a quello dell’indice di Laspeyres, si
indichi l’intervallo dei possibili valori dell’indice di Paasche.
12.45
Esercizio 27 (T 252, 02.07.2009, 4). Con riferimento alla seguente serie storica si costruisca la serie dei numeri indici a base mobile e si calcoli 2 I4 interpretando il valore
ottenuto.
t
1
2
3
4
5
Xt 2.3 2.7 2.3 1.8 2.4
12.46
Esercizio 28 (T 255, 14.01.2010, 2). Sapendo che per un aggregato macroeconomico il numero indice riferito al tempo 2003 con base 2000 è pari a 2000 I2003 = 1.49 e
che il numero indice riferito al tempo 2003 con base 2002 è pari a 2002 I2003 = 1.21 si
determinino:
1. la variazione relativa subita dall’aggregato tra il 2000 e il 2002;
2. il tasso medio annuo di variazione tra il 2000 e il 2003.
12.47
Esercizio 29 (T 257, 11.02.2010, 2). Il consumo pro-capite di gelato in Italia ha presentato, negli ultimi 5 anni, le seguenti variazioni % annuali
2004
+1.2%
2005
+8%
2006 2007
+8% +2%
2008
−8%
1. Scelto come base il 2003 (= 100) ricostruire la serie dei numeri indici a base fissa.
2. Sapendo che nel 2003 si è manifestato un consumo pro-capite di 33kg, indicare il
consumo del 2008.
3. Indicare l’aumento % complessivo registratosi tra il 2006 e il 2008.
12.48
Esercizio 30 (T 265_1, 22.09.2011, 2). Il prospetto seguente riporta la serie dei numeri
indice a base mobile per una determinata grandezza macroeconomica X:
t
t−1 It
2002 2003
2004
−
0.8545 0.7173
2005
0.7585
2006
0.9441
2007
0.6775
1. Sapendo che il valore della grandezza X nel 2002 era 77 si ricostruiscano i valori
della serie storica.
2. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006.
3. Si indichi il valore mediano delle variazioni relative subite dalla grandezza X negli
anni considerati.
Esercizio 31 (T 264_2, 23.06.2011, 2). È data la serie storica dei numeri indici con base
mobile (su scala centesimale) del prezzo di un kg di pane:
anno
t−1 It
2006
−
2007
106
2008
104
162
2009
102
2010
101
12.49
1. Si ricostruisca la serie storica dei prezzi sapendo che nel 2006 il pane costava 0.75
euro.
2. Si ricostruisca la serie storica dei numeri indici a base fissa (2006 = 100).
3. Si determini il tasso medio di variazione del prezzo del pane tra il 2006 e il 2010.
12.50
Esercizio 32 (T 264_3, 07.07.2011, 2). Si consideri la serie storica dei prezzi del prodotto
A nel periodo 2001–2005.
anno
pA
2001 2002
20
25
2003
20
2004
30
2005
40
1. Si ricostruisca la serie dei numeri indici a base fissa (2003=100).
2. Si calcolino, interpretandone il significato, i seguenti numeri indici:
2003 I2005 .
2002 I2001
e
12.51
Esercizio 33 (T 258-1, 03.06.2010, 2). Sapendo che per un aggregato macroeconomico il numero indice riferito al tempo 2003 con base 2000 è pari a 2000 I2003 = 1.49 e
che il numero indice riferito al tempo 2005 con base 2003 è pari a 2003 I2005 = 1.22 si
determinino:
1. il numero indice riferito al tempo 2005 con base 2000;
2. il tasso medio di variazione subito dall’aggregato tra il 2000 e il 2005.
12.52
Esercizio 34 (T 258-3, 15.07.2010, 2). Con riferimento alla seguente serie dei prezzi
di un prodotto tra il 1998 il 2002 si costruiscano le serie dei numeri indici a base fissa
(2000 = 100) e a base mobile e sulla base di quest’ultima si calcoli il tasso medio di
variazione del prezzo di tale prodotto tra il 1999 e il 2001.
t
pt
1998
130
1999
135
2000
140
2001
145
2002
150
12.53
Esercizio 35 (T 262, 03.02.2011, 2). Con riferimento ai prezzi di un prodotto nel periodo 2004–2008 sono disponibili alcuni elementi della serie dei numeri indici a base fissa
2004 = 100 e della serie dei numeri indici a base fissa 2006 = 100.
Anni NIBF(2004 = 100) NIBF(2006 = 100)
2004
100
2005
102.5
2006
106
100
2007
109.18
103
2008
109
NIBM
1. Si ricostruiscano le due serie complete dei NIBF dei prezzi e si costruisca la serie
dei NI a base mobile.
2. Si calcoli il tasso d’incremento medio dei prezzi tra il 2004 e il 2007.
12.54
Esercizio 36 (T 263, 17.02.2011, 2). Si consideri la serie dei numeri indici a base mobile
dei prezzi del prodotto A nel periodo 2004–2007.
anno
NIBMA
2004
−
2005
105
2006
105
2007
105
1. Si ricostruisca la serie dei numeri indici a base fissa (2004 = 100).
163
2. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto B,
sapendo che nel periodo considerato i prezzi di B sono costantemente risultati il
doppio dei prezzi di A.
12.55
Esercizio 37 (T 264_1, 09.06.2011, 3). Il seguente prospetto riporta i prezzi e le quantità
scambiate per i prodotti A e B negli anni 1990, 2000 e 2010.
anno A pt
1990 100
2000 150
2010 260
A qt
111
142
123
B pt
200
600
B qt
101
92
83
1. Si indichi quale valore deve assumere il prezzo del prodotto B nel 2000 affinché l’indice dei prezzi di Laspeyres al tempo 2000 con base 1990 risulti pari a
p
L
1990 I2000 = 1.5.
2. Si calcoli l’indice dei prezzi di Paasche al tempo 2010 con base 1990, commentando
il risultato ottenuto.
12.56
Esercizio 38 (T 265, 08.09.2011, 2). Il prospetto seguente riporta la produzione di energia
elettrica in TWh per le fonti energetiche rinnovabili nel periodo 2002–2007:
t
rinnovabili
2002
49.0
2003
48.0
2004
55.7
2005
49.9
2006
52.2
2007
49.4
1. Si ricostruisca la serie dei numeri indici a base mobile.
2. Si calcoli il tasso medio di crescita nel periodo considerato.
12.57
Esercizio 39 (T 266, 12.01.2012, 3). Si riporta l’evoluzione temporale del prezzo di un
prodotto tra il 2001 il 2005.
t
pt
2001
330
2002
342
2003
390
2004
405
2005
420
1. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto.
2. Si interpreti il valore assunto dal numero indice 2002 I2003
3. Si calcoli il tasso medio di variazione dei prezzi tra il 2002 e il 2005.
12.58
Esercizio 40 (T 267, 26.01.2012, 3). Con riferimento alla seguente serie storica Wt
anno
Wt
1.
2.
3.
4.
2008
800
2009
850
2010
900
2011
1000
Si costruisca la serie dei numeri indici a base fissa, con base 2008 = 100.
Si interpreti l’ultimo valore della serie sopra calcolata.
Si costruisca la serie dei numeri indici a base mobile.
Si calcoli quale dovrebbe essere il valore W2012 in modo che il tasso medio di
crescita nel periodo 2008–2012 risulti pari al 6%.
12.59
Esercizio 41 (T 268, 09.02.2012, 2). Si consideri la seguente serie dei numeri indice a
base fissa riguardante l’andamento della serie Zt .
anno
NIBF
2008
1
2009
1.1
164
2010
0.9
2011
1.2
1. Si costruisca la serie dei numeri indici a base mobile.
2. Si interpreti l’ultimo valore della serie sopra calcolata.
3. Si calcoli il valore Z2011 sapendo che Z2009 = 47.
12.60
Esercizio 42 (T 269_1, 07.06.2012, 2). Si consideri la seguente serie dei numeri indice a
base fissa (2008) riguardante l’andamento della serie Zt .
anno
NIBF(2008)
1.
2.
3.
4.
2008
1
2009
1.1
2010
0.9
2011
1.2
Si costruisca la serie dei numeri indici con base fissa 2010.
Si interpreti il primo valore della serie sopra calcolata.
Si calcoli il tasso medio di variazione tra il 2008 e il 2011.
Si calcoli il valore Z2007 sapendo che Z2008 = 47.
12.61
Esercizio 43 (T 269_2, 28.06.2012, 2). Si consideri la serie storica delle quotazioni di un
generico titolo Qt .
anno
1
2
3
4
5
Qt
114 86 101 113 86
1. Si costruisca la serie dei numeri indici con base mobile.
2. Si calcoli e interpreti il valore del numero indice al tempo 5 con base 1.
3. Si calcoli il tasso medio di variazione per l’intero periodo considerato.
12.62
Esercizio 44 (T 269_3, 12.07.2012, 2). Il prospetto seguente riporta la serie dei numeri
indice a base mobile, NIBM, per una determinata grandezza macroeconomica X (serie
storica di flusso)
t
t−1 It
2002 2003
2004
−
0.8545 0.7173
2005
0.7585
2006
0.9441
2007
0.6775
1. Sapendo che il valore della grandezza X nel 2007 era 22.90 si ricostruiscano i valori
della serie storica.
2. Si rappresenti graficamente la serie storica X.
3. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006.
4. Si indichi la peggiore variazione relativa subita dalla grandezza X negli anni considerati.
12.63
Esercizio 45 (T 270, 06.09.2012, 1). Si consideri la variabile Xt = numerosità della
popolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001.
Anno
Xt
1861
22
1881 1901
28
33
1921
39
1941
43
1961
51
1981
56
2001
58
1. Si costruisca la serie dei numeri indici con base mobile.
2. Si interpreti il valore dell’ultimo degli indici sopra calcolati.
3. Si calcoli il tasso di crescita medio della popolazione italiana tra il 1901 e il 2001.
12.64
Esercizio 46 (T 270-1, 20.09.2012, 1). Si consideri la variabile Xt = numerosità della
popolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001.
Anno
Xt
1861
22
1881 1901
28
33
1921
39
165
1941
43
1961
51
1981
56
2001
58
1. Si costruisca la serie dei numeri indici con base fissa 1861.
2. Si interpreti il valore del numero indice al tempo 1881 con base 1861.
3. Si calcoli il tasso di crescita medio annuo della popolazione italiana tra il 1861 e il
1881.
12.65
Esercizio 47 (T 271, 10.01.2013, 2). Si consideri la seguente serie storica delle vendite
di un’azienda tra il 2006 e il 2010.
t
xt
2006 2007
205 290
2008
315
2009
340
2010
225
1. Si costruisca la corrispondente serie dei numeri indici a base mobile.
2. Si calcoli il tasso medio di variazione tra il 2008 e il 2010, commentando il risultato
ottenuto.
12.66
Esercizio 48 (T 272, 24.01.2013, 2). Della serie storica Xt delle vendite di un’azienda tra
il 2006 e il 2010 abbiamo le seguenti informazioni:
t
2006
2007
2008
2009
2010
NIBM
NIBF
100
113
116
106
131
1. Si riempiano le caselle vuote della tabella e sapendo che x2010 =650 si calcoli x2006 .
2. Si calcoli il tasso medio di variazione tra il 2007 e il 2010, commentando il risultato
ottenuto.
12.67
Esercizio 49 (T 273, 07.02.2013, 2). Dati i seguenti NIBM delle vendite di un’azienda
tra il 2001 e il 2005:
t
NIBM
2001 2002
0.94
2003
1.12
2004
1.06
2005
1.11
1. Si calcolino i numeri indice a base fissa (base 2001).
2. Si calcoli il tasso medio di variazione tra il 2001 e il 2005 esprimendolo in valore
percentuale.
3. Per ottenere un tasso medio di variazione tra il 2001 e il 2006 del 7% che valore
dovrebbe avere 2001 I2006 ?
12.68
Esercizio 50 (T 274-1, 06.06.2013, 2). Dati i seguenti NIBF (base 2001) delle vendite di
un’azienda tra il 2001 e il 2005:
t
NIBF
2001
1.00
2002
0.94
2003
1.12
2004
1.06
2005
1.11
1. Si calcolino i numeri indice a base mobile.
percentuale.
3. Sapendo che tra il 2005 e il 2006 vi è stato un calo delle vendite del 10% si
determinino 2005 I2006 e il valore delle vendite nel 2006.
12.69
166
Esercizio 51 (T 274, 27.06.2013, 2). Si consideri la serie NIBF (base 2006) relativa alla
spesa delle Amministrazioni Pubbliche rilevata tra il 2005 e il 2009:
t
NIBF
2005
0.9705
2006
1.0000
2007
1.0164
2008
0.7607
2009
1.0951
1. Si calcolino i numeri indice a base mobile.
percentuale.
3. Si calcoli il Numero Indice del 2006 con base l’anno 2009 interpretando il valore
ottenuto.
12.70
Esercizio 52 (T 274-2, 11.07.2013, 2). Si consideri la serie NIBM relativa alla spesa delle
Amministrazioni Pubbliche rilevata tra il 2005 e il 2009:
t
NIBM
2005
2006
1.0304
2007
1.0164
2008
0.7484
2009
1.4397
1. Sapendo che x2009 = 334 si calcoli il valore di x2005 .
12.71
167
Sezione 13
Analisi statistica bivariata
13.1
Indice
1
Introduzione
169
1.1 Problemi asimmetrici e problemi simmetrici . . . . . . . . . . . . . . . . 169
2
Studio di un caso
169
2.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
2.2 Distribuzioni condizionate Y |X . . . . . . . . . . . . . . . . . . . . . . . 171
2.3 Distribuzioni condizionate X|Y . . . . . . . . . . . . . . . . . . . . . . . 171
3
Formalizzazione simbolica v.s. doppia
4
Indipendenza stocastica
173
4.1 Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . 173
4.2 Definizione di indipendenza stocastica . . . . . . . . . . . . . . . . . . . 174
4.3 Quadro riassuntivo indipendenza stocastica . . . . . . . . . . . . . . . . 174
5
Dipendenza funzionale
175
6
Studio della dipendenza
177
171
13.2
1 Introduzione
Studio congiunto di due caratteri per accertare la presenza di relazioni di dipendenza tra
di essi.
• ripartizione quote mercato prima e dopo campagna pubblicitaria
• studio customer satisfaction: analisi questionari per area geografica
• impresa con diverse dipendenze con produzione simile: analisi di produttività
Nell’ambito della statistica inferenziale si studiano dei metodi che consentono l’attribuzione di un significato al valore degli indicatori (cfr. χ 2 ) che attengono a una data
situazione.
1.1
Problemi asimmetrici e problemi simmetrici
Definizione 1 (Problema asimmetrico). Un problema ha carattere asimmetrico quando
solo una variabile può essere considerata dipendente dall’altra
Y dipende da X
oppure
X dipende da Y.
Si osserva come vale solo una delle due precedenti proposizioni.
169
13.3
Definizione 2 (Problema simmetrico). Un problema ha carattere simmetrico quando il
rapporto di dipendenza è bi-direzionale
X ↔ Y.
In questo caso le due variabili si dicono concomitanti.
13.4
2 Studio di un caso
Con riferimento alle variabili X = ’provenienza del cliente’ e Y = ’secondo piatto’ si rileva
la distribuzione congiunta dei 250 secondi serviti la scorsa domenica in un ristorante di
una località turistica
X \Y
Europa
America
Asia
n• j
y1 y2 y3 y4 y5
30 20 15 15 20
5 40 10 15 30
5 10 20 10 5
40 70 45 40 55
ni•
100
100
50
250
y1 = carne arrosto
y2 = carne alla griglia
y3 = pesce crudo
y4 = pesce alla griglia
y5 = selvaggina
È possibile ottenere la variabile statistica doppia con le frequenze congiunte relative
fi j =
X \Y
Europa
America
Asia
f• j
y1
0.12
0.02
0.02
0.16
y2
0.08
0.16
0.04
0.28
13.5
ni j
n
y3
0.06
0.04
0.08
0.18
y4
0.06
0.06
0.04
0.16
y5
0.08
0.12
0.02
0.22
fi•
0.40
0.40
0.20
1
13.6
2.1
Distribuzioni marginali
X \Y
Europa
America
Asia
n• j
y1
30
5
5
40
y2
20
40
10
70
y3
15
10
20
45
X
ni•
fi•
Europa 100 0.40
America 100 0.40
Asia
50 0.20
n
250
1
y4
15
15
10
40
y5
20
30
5
55
Y
y1
y2
y3
y4
y5
n
ni•
100
100
50
250
n• j
40
70
45
40
55
250
f• j
0.16
0.28
0.18
0.16
0.22
1
13.7
170
2.2
Distribuzioni condizionate Y |X
X \Y
Europa
America
Asia
n• j
Y |X=x1
y1
y2
y3
y4
y5
n1•
y1
30
5
5
40
f .cond.r. =
0.30
0.20
0.15
0.15
0.20
1
n1 j
30
20
15
15
20
100
y3
15
10
20
45
n1 j
n1•
Y |X=x3
y1
y2
y3
y4
y5
n3•
2.3
y2
20
40
10
70
y4
15
15
10
40
y5
20
30
5
55
ni•
100
100
50
250
Y |X=x2
y1
y2
y3
y4
y5
n2•
n3 j
5
10
20
10
5
50
n2 j
5
40
10
15
30
100
f .cond.r. =
0.10
0.20
0.40
0.20
0.10
1
f .cond.r. =
0.05
0.40
0.10
0.15
0.30
1
n2 j
n2•
n3 j
n3•
13.8
Distribuzioni condizionate X|Y
X \Y
Europa
America
Asia
n• j
y1
30
5
5
40
y2
20
40
10
70
y3
15
10
20
45
y4
15
15
10
40
y5
20
30
5
55
ni•
100
100
50
250
X|Y =y1
Europa
America
Asia
n•1
ni1
30
5
5
40
f .cond.r. =
0.75
0.125
0.125
1
ni1
n•1
X|Y =y2
Europa
America
Asia
n•2
ni2
20
40
10
70
f .cond.r. =
0.29
0.57
0.14
1
ni2
n•2
X|Y =y3
Europa
America
Asia
n•3
ni3
15
10
20
45
f .cond.r. =
0.33
0.22
0.44
1
ni3
n•3
X|Y =y4
Europa
America
Asia
n•4
ni4
15
15
10
40
f .cond.r. =
0.375
0.375
0.25
1
ni4
n•4
X|Y =y5
Europa
America
Asia
n•5
ni5
20
30
5
55
f .cond.r. =
0.364
0.545
0.09
1
ni5
n•5
13.9
3 Formalizzazione simbolica v.s. doppia
X\Y
x1
..
.
y1
n11
..
.
... yj
. . . n1 j
..
.
. . . yk
. . . n1k
..
.
ni•
n1•
..
.
xi
..
.
ni1
..
.
...
...
nik
..
.
ni•
..
.
xh
n• j
nh1
n•1
. . . nh j
. . . n• j
. . . nhk
. . . n•k
nh•
n
ni j
..
.
171
da questa derivano:
• 2 variabili statistiche marginali
• 2 famiglie di variabili statistiche condizionate
X
x1
..
.
n1•
..
.
Y
y1
..
.
n•1
..
.
X|y j
x1
..
.
n1 j
..
.
Y |xi
y1
..
.
ni1
..
.
xi
..
.
ni•
..
.
yj
..
.
n• j
..
.
xi
..
.
ni j
..
.
yj
..
.
ni j
..
.
xh
nh•
n
yk
n•k
n
xh
nh j
n• j
yk
nik
ni•
13.10
in corrispondenza
v.s. doppia relativa
fi j =
ni j
n
v.s. marginali relative
X
xi
x1
..
.
xi
..
.
xh
n1•
n
ni•
n
nh•
n
fi•
= f1•
..
.
Y
yj
y1
..
.
= fi•
..
.
yj
..
.
= fh•
1
yk
( j = 1, 2, . . . , k)
n•1
n
n• j
n
n•k
n
f• j
= f•1
..
.
= f• j
..
.
= f•k
1
(i = 1, 2, . . . , h)
13.11
v.s. condizionate relative
X|y j
xi f .cond.rel.
f1 j
n1 j
x1
n• j = f • j
..
..
.
.
fi j
ni j
xi
n• j = f • j
...
...
fh j
nh j
xh
n• j = f • j
1
Y |xi
y j f .cond.rel.
fi1
ni1
y1
ni• = fi•
..
..
.
.
fi j
ni j
yj
ni• = fi•
..
..
.
.
nik
fik
yk
=
ni•
fi•
1
13.12
172
4 Indipendenza stocastica
Si consideri un campione di 100 famiglie, estratte tra quelle che hanno figli adulti, per le
quali sono state rilevate le variabili:
X = professione paterna
X\Y
operaio
impiegato
dirigente
n• j
Y = scolarità dei figli
elementari diploma
3
2
9
6
18
12
30
20
laurea
5
15
30
50
ni•
10
30
60
100
distribuzioni marginali
X
O
I
D
ni•
10
30
60
100
Y
E
D
L
fi•
0.1
0.3
0.6
1
n• j
30
20
50
100
f• j
0.3
0.2
0.5
1
13.13
4.1
Distribuzioni condizionate
X\Y
operaio
impiegato
dirigente
n• j
f• j
elementari
3
9
18
30
0.3
diploma
2
6
12
20
0.2
laurea
5
15
30
50
0.5
ni•
10
30
60
100
fi•
0.1
0.3
0.6
Y |x1
E
D
L
n1•
n1 j
3
2
5
10
f .cond.r.
0.3
0.2
0.5
1
Y |x2
E
D
L
n2•
n2 j
9
6
15
30
f .cond.r.
0.3
0.2
0.5
1
Y |x3
E
D
L
n3•
n3 j
18
12
30
60
f .cond.r.
0.3
0.2
0.5
1
X|y1
O
I
D
n•1
ni1
3
9
18
30
f .cond.r.
0.1
0.3
0.6
1
X|y2
O
I
D
n•2
ni2
2
6
12
20
f .cond.r.
0.1
0.3
0.6
1
X|y3
O
I
D
n•3
ni3
5
15
30
50
f .cond.r.
0.1
0.3
0.6
1
Le distribuzioni condizionate relative non dipendono dalla condizione.
Le distribuzioni condizionate assolute (righe/colonne) sono proporzionali.
I caratteri si dicono statisticamente (stocasticamente) indipendenti
Con riferimento al precedente esempio le distribuzioni delle frequenze condizionate relative sono fra loro identiche.
13.14
Quindi, sulla base dei dati disponibili
• non sussiste dipendenza della professione paterna dal livello di scolarità dei figli
• non sussiste dipendenza del livello di scolarità dei figli rispetto alla professione
paterna
13.15
173
4.2
Definizione di indipendenza stocastica
Definizione 3 (Indipendenza stocastica). Data la v.s. (m.s.) doppia (X,Y ) le componenti
X e Y sono stocasticamente indipendenti se:
1. tutte le condizionate X|y j ( j = 1, 2, . . . , k) hanno la stessa distribuzione percentuale
2. tutte le condizionate Y |xi (i = 1, 2, . . . , h) hanno la stessa distribuzione percentuale
3. sono somiglianti alle rispettive marginali
ni j
ni•
=
= fi• , ∀i ( j = 1, . . . , k)
n• j
n
n• j
ni j
=
= f• j , ∀ j (i = 1, . . . , h)
ni•
n
13.16
4.3
Quadro riassuntivo indipendenza stocastica
X|y j
somigliante a
∼
X, ∀ j
ni j
ni•
=
←→
n• j
n
somigliante a
Y |xi
∼
n• j
ni j
=
←→
ni•
n
Y, ∀i
ni• · n• j
, ∀i, j
ni j =
n
(condizione di fattorizzazione)
13.17
Esempio 4. (colore dei capelli)|(zona geografica)
colore
nero
castano
biondo
altro
Z1
0.10
0.25
0.60
0.05
1
Z2
0.30
0.30
0.30
0.10
1
Z3
0.70
0.20
0.05
0.05
1
condizionate relative diverse → non indipendenza
Osservazione
qui le marginali non possono essere ricostruite, perché?
In definitiva i caratteri X e Y sono indipendenti se
ni• · n• j
= n̂i j ,
ni j =
n
∀i, j
Si osservi come
ni j
ni• n• j
=
= fi• · f• j
n
n n
quindi, condizione di indipendenza è anche
ni• n• j
fi j =
= fi• · f• j = fî j , ∀i, j
n n
Definizione 5 (Notazione frequenze teoriche indipendenza stocastica).
ni j
n̂i j
=
frequenze osservate
=
frequenze teoriche nella situazione
di indipendenza stocastica
174
13.18
13.19
Osservazione
L’indipendenza stocastica è una condizione simmetrica
(X indip Y
↔
Y indip X)
Osservazione
Nella situazione di indipendenza stocastica, le frequenze congiunte n̂i j non assumono
necessariamente valori interi.
Osservazione
La presenza di frequenze congiunte nulle implica la non-indipendenza.
13.20
Nel seguito si considereranno solo tabelle ammissibili
Definizione 6 (Tabelle ammissibili).
X\Y
yj
xi
ni j
ni•
n• j
n
ni• > 0, ∀i
n• j > 0, ∀ j
Non figurano righe/colonne con elementi tutti nulli.
13.21
5 Dipendenza funzionale
A ogni modalità della variabile esplicativa corrisponde una sola modalità della variabile
dipendente
Definizione 7 (Dipendenza funzionale di Y da X). Sussiste dipendenza funzionale di Y
da X, y = g(x), se le distribuzioni condizionate Y |xi sono degeneri
1. k ≤ h
2. a ogni xi corrisponde un solo y j
Esempio 8.
Europa
America
Asia
A f rica
X\Y
x1
x2
x3
x4
y1
n11
0
n31
0
y2
0
n22
0
0
y3
0
0
0
n43
13.22
Definizione 9 (Dipendenza funzionale di X da Y ). Sussiste dipendenza funzionale di X
da Y , x = f (y), se le distribuzioni condizionate X|y j sono degeneri
1. h ≤ k
2. a ogni y j corrisponde un solo xi
Esempio 10.
Europa
America
Asia
X\Y
x1
x2
x3
y1
n11
0
0
y2
0
n22
0
y3
0
0
n33
y4
0
n24
0
13.23
175
Definizione 11 (Dipendenza funzionale biettiva). Sussiste dipendenza funzionale biettiva
se
1. le distribuzioni Y |xi sono degeneri
2. le distribuzioni X|y j sono degeneri
in tale situazione la tabella è quadrata e si ha una frequenza non nulla per riga/colonna
Esempio 12.
Europa
America
Asia
X\Y
x1
x2
x3
y1
0
n21
0
y2
n12
0
0
y3
0
0
n33
13.24
Esempio 13 (Tabelle relative a situazioni di dipendenza funzionale).
X \Y
Europa
America
Asia
n• j
y1
30
0
0
30
y2 y3 y4 y5
70 0
0
0
0
0 45 55
0 50 0
0
70 50 45 55
ni•
100
100
50
250
• sussiste dipendenza funzionale di X da Y
• ma non sussiste dipendenza funzionale di Y da X
X \Y
Europa
America
Asia
n• j
y1 y2 y3
30 0
0
0 70 0
0
0 50
30 70 50
ni•
30
70
50
150
• sussiste dipendenza funzionale di Y da X
e contemporaneamente
• sussiste dipendenza funzionale di X da Y
13.25
Esercizio 14. Determinare le frequenze congiunte ni j in modo da realizzare la situazione
di dipendenza funzionale di Y da X
Soluzione
X \Y
x1
x2
x3
n• j
y1
n11
n21
n31
10
y2
n12
n22
n32
20
ni•
10
5
15
30
X \Y
x1
x2
x3
n• j
y1 y2
10 0
0 5
0 15
10 20
ni•
10
5
15
30
a ogni modalità di X deve corrispondere una e una sola modalità della Y
13.26
176
Controllo delle distribuzioni condizionate
n1 j
Y |X=x1 n1 j f .cond.r. = n1•
y1
10
1
0
0
y2
n1•
10
1
Y |X=x3
y1
y2
n3•
n3 j
0
15
15
Y |X=x2
y1
y2
n2•
n2 j
0
5
5
f .cond.r. =
0
1
1
n3 j
n3•
f .cond.r. =
0
1
1
n2 j
n2•
tutte le distribuzioni condizionate Y |xi sono degeneri:
sussiste una relazione di dipendenza funzionale di Y (variabile dipendente) rispetto a X
(variabile esplicativa)
13.27
6 Studio della dipendenza
attraverso:
• connessione
principalmente per caratteri qualitativi
• modelli di regressione
(se la variabile dipendente è quantitativa)
per descrivere al meglio un carattere in funzione dell’altro
considereremo pertanto:
• indici di connessione
distanza dall’indipendenza stocastica
• indici di dipendenza
accostamento dei modelli teorici ai dati
13.28
Esercizio 15 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30
alberghi.
Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimento, S,
rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti.
Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera, con riferimento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, rilevate nel 1999, della
permanenza media in giorni, G, del soggiorno, condizionate rispetto alla categoria alberghiera, A.
G|A
A \ S non sodd. indi f f . sodd.
1.5 0.50 0.70 0.60
18
6
36
3.0 0.30 0.15 0.25
12
43
45
7.5 0.20 0.15 0.15
8
12
20
1.00 1.00 1.00
1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza effettuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A e G.
2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni G|A = e
G|A = .
13.29
177
Sezione 14
Connessione (1)
14.1
Indice
1
La connessione e le sue misure
179
2
Indici di connessione
179
3
Distanze elementari: le contingenze
180
4
Indice χ 2 di Pearson
181
4.1 L’indice χ 2 come funzione delle contingenze relative . . . . . . . . . . . 181
4.2 Formula operativa dell’indice χ 2 . . . . . . . . . . . . . . . . . . . . . . 181
4.3 Normalizzazione dell’indice χ 2 . . . . . . . . . . . . . . . . . . . . . . . 182
5 Calcolo indice χ 2
5.1 Calcolo indice χ 2 con le contingenze assolute . . . . . . . . . . . . . . .
5.2 Calcolo indice χ 2 con le contingenze relative . . . . . . . . . . . . . . .
5.3 Calcolo indice χ 2 con la formula operativa . . . . . . . . . . . . . . . . .
183
183
183
184
6
Interpretazione delle contingenze relative
186
7
Esercizi
188
14.2
1 La connessione e le sue misure
Definizione 1 (Connessione). Si ha connessione tra due caratteri X e Y se X e Y non sono
stocasticamente indipendenti
connessione = non indipendenza stocastica
ovvero la mutabile (variabile) statistica doppia (X,Y ) è caratterizzata da distribuzioni
condizionate non somiglianti
perché
distribuzioni condizionate somiglianti = indipendenza
Y |x1 ∼ Y |x2 ∼ . . . ∼ Y |xh ∼ Y
X|y1 ∼ X|y2 ∼ . . . ∼ X|yk ∼ X
14.3
179
2 Indici di connessione
Misura della variabilità fra le distribuzioni condizionate
ma anche
Distanza dalla situazione di indipendenza stocastica
Si confrontano
ni j
ni•
n̂i j
n• j
n
tabella osservata
ni•
n• j
n
tabella teorica
Osservazione
La tabella teorica di indipendenza è unica!!
Le due tabelle hanno in comune le distribuzioni marginali
ni• n• j
n̂i j =
n
14.4
3 Distanze elementari: le contingenze
Definizione 2 (Contingenze assolute).
ci j = ni j − n̂i j
proprietà
h
k
i=1
j=1
h
k
∑ ci j = 0, ∑ ci j = 0, ∑ ∑ ci j = 0
i=1 j=1
Definizione 3 (Contingenze relative).
ni j
n̂i j
Se sussiste indipendenza stocastica
ci j = ni j − n̂i j = 0
e
ni j
= 1,
n̂i j
∀i, j
14.5
Esempio 4.
3
4
7
14
8 1
1 2
5 1
14 4
12
7
13
32
5.2500 5.2500 1.5000
3.0625 3.0625 0.8750
5.6875 5.6875 1.6250
14
14
4
−2.2500
0.9375
1.3125
0
contingenze
ci j
assolute
2.7500 −0.5000
−2.0625
1.1250
−0.6875 −0.6250
0
0
0
0
0
0
180
ni j
12
7
13
32
n̂i j
contingenze
relative
0.5714 1.5238 0.6667
1.3061 0.3265 2.2857
1.2308 0.8791 0.6154
14.6
Esempio 5.
X\Y
x1
x2
x3
X\Y
x1
x2
x3
x1
x2
x3
y1
3
1
6
10
y2
3
2
0
5
y3
3
3
9
15
y1 y2
3 1.5
2
1
5 2.5
10 5
contingenze
ci j
assolute
y1
y2
y3
0
1.5 −1.5
−1
1
0
1 −2.5 1.5
0
0
0
9
6
15
30
y3
4.5
3
7.5
15
ni j
9
6
15
30
n̂i j
contingenze
relative
y1
y2
x1 1
2
2
x2 0.5
0
x3 1.2
0
0
0
0
y3
0.6667
1
1.2
14.7
4 Indice χ 2 di Pearson
Definizione 6.
h
k
χ2 = ∑ ∑
c2i j
i=1 j=1 n̂i j
(ni j − n̂i j )2
n̂i j
i=1 j=1
k
h
=∑∑
dove
• ni j sono le frequenze congiunte osservate
• n̂i j sono le frequenze teoriche nella situazione di indipendenza stocastica
4.1
14.8
L’indice χ 2 come funzione delle contingenze relative
χ2
=
=
(ni j − n̂i j )2
n̂i j
i=1 j=1
h
k
h
k
∑∑
∑∑
i=1 j=1
=
h
k
∑∑
i=1 j=1
=
h
k
n2i j + n̂2i j − 2ni j n̂i j
n̂i j
n2i j
2ni j n̂i j
+
−
n̂i j n̂i j
n̂i j
n2i j
h
h
k
χ
n̂2i j
k
h
ni j n̂i j
i=1 j=1 n̂i j
i=1 j=1
ni j
h
k
h
k
∑ ∑ ni j n̂i j + ∑ ∑ n̂i j −2 ∑ ∑ ni j
i=1 j=1
2
k
∑ ∑ n̂i j + ∑ ∑ n̂i j − 2 ∑ ∑
i=1 j=1
=
n̂2i j
h
i=1 j=1
+n
k
ni j
= ∑ ∑ ni j
−n = n
n̂i j
i=1 j=1
i=1 j=1
−2n
h
k
ni j
∑ ∑ fi j n̂i j − 1
i=1 j=1
14.9
181
4.2
Formula operativa dell’indice χ 2
χ2
=
k
h
ni j
∑ ∑ ni j n̂i j − n
i=1 j=1
=
=
n2i j
ni• n• j − n
i=1 j=1 n
h k
n2i j
k
h
∑∑
n∑ ∑
i=1 j=1 ni• n• j
χ
2
= n
h
k
∑∑
−n
n2i j
i=1 j=1 ni• n• j
−1
14.10
4.3
Normalizzazione dell’indice χ 2
Se sussiste indipendenza stocastica ni j = n̂i j e, quindi, χ 2 = 0:
2
=0
χmin
Si dimostra che nella situazione di dipendenza funzionale
χ 2 = n · min(h − 1, k − 1)
dove h e k sono rispettivamente il numero di modalità delle variabili X e Y (numero di
righe e colonne nella tabella a doppia entrata).
In conclusione, l’indice normalizzato risulta
χN2 =
2
χ 2 − χmin
χ2
χ2
= 2 =
2
2
χmax
n · min(h − 1, k − 1)
χmax − χmin
14.11
182
5 Calcolo indice χ 2
5.1
Calcolo indice χ 2 con le contingenze assolute
X\Y
x1
x2
x3
y1 y2 y3
3 3 3
9
1 2 3
6
ni j
6 0 9 15
10 5 15 30
X\Y y1 y2 y3
x1
3 1.5 4.5 9
x2
2
1
3
6
n̂i j
5 2.5 7.5 15
x3
10 5
15 30
y1
y2
y3
x1 0
1.5 −1.5 0
1
0
0
x2 −1
ci j = ni j − n̂i j
x3 1 −2.5 1.5 0
0
0
0
0
y1 y2 y3
x1 0 1.5 0.5 2
(ni j −n̂i j )2
n̂i j
x2 0.5 1
0 1.5
x1 0.2 2.5 0.3 3
(ni j − n̂i j )2
= 6.5
n̂i j
i=1 j=1
h
k
χ2 = ∑ ∑
14.12
5.2
Calcolo indice χ 2 con le contingenze relative
X\Y
x1
x2
x3
y1 y2 y3
3 3 3
9
1 2 3
6
ni j
6 0 9 15
10 5 15 30
X\Y y1 y2 y3
x1
3 1.5 4.5 9
2
1
3
6
x2
n̂i j
x3
5 2.5 7.5 15
10 5
15 30
y1 y2
y3
x1 1
2 0.6667
ni j
n̂i j
1
x2 0.5 2
1.2
x3 1.2 0
y1 y2
y3
n
x1 3
6
2
11
ni j n̂ii jj
3
7.5
x2 0.5 4
x3 7.2 0 10.8 18
h
k
χ 2 = ∑ ∑ ni j
i=1 j=1
ni j
− n = 36.5 − 30 = 6.5
n̂i j
14.13
183
5.3
X\Y
x1
x2
x3
x1
x2
x3
Calcolo indice χ 2 con la formula operativa
y1 y2 y3
3 3 3
1 2 3
6 0 9
10 5 15
y1
y2
0.1000 0.2000
0.0167 0.1333
0.2400 0.0000
9
6
15
30
ni j
y3
0.0667
0.1000
0.3600
0.3667
0.2500
0.6000
h
k
n2i j
ni• n• j
∑∑
χ =n
2
n2i j
i=1 j=1 ni• n• j
−1
= 6.5
14.14
Esempio 7. Si riprenda l’analisi del caso con cui si è aperta la Sezione precedente (X =
’provenienza’, Y = ’secondo’)
X \Y
y1
Europa 30
America 5
Asia
5
40
n• j
y2 y3 y4 y5 ni•
20 15 15 20 100
40 10 15 30 100
10 20 10 5
50
70 45 40 55 250
La situazione teorica di indipendenza stocastica n̂i j =
ni• · n• j
risulta
n
X \Y
y1 y2 y3 y4 y5 ni•
Europa 16 28 18 16 22 100
America 16 28 18 16 22 100
Asia
8 14 9
8 11 50
n• j
40 70 45 40 55 250
14.15
Le contingenze assolute ci j = ni j − n̂i j risultano
X \Y
Europa
America
Asia
Le contingenze relative
ni j
n̂i j
y2
y1
14 −8
−11 12
−3 −4
y3 y4
−3 −1
−8 −1
11
2
y5
−2
8
−6
risultano
X \Y
y1
y2
y3
y4
y5
Europa 1.8750 0.7143 0.8333 0.9375 0.9091
America 0.3125 1.4286 0.5556 0.9375 1.3636
Asia
0.6250 0.7143 2.2222 1.2500 0.4545
14.16
Utilizzando la definizione dell’indice χ 2 si calcolano c2i j = (ni j − n̂i j )2
X \Y
Europa
America
Asia
y1
196
121
9
y2
y3 y4
64
9
1
144 64 1
16 121 4
184
y5
4
64
36
e
(ni j − n̂i j )2
n̂i j
X \Y
Europa
America
Asia
y1
y2
12.25 2.2857
7.5625 5.1428
1.125 1.1429
y3
y4
y5
0.5
0.0625 0.1818
3.5556 0.0625 2.9091
13.4444
0.5
3.2727
53.9977
14.17
(ni j − n̂i j )2
= 53.9977
n̂i j
i=1 j=1
k
h
χ2 = ∑ ∑
Con riferimento all’esempio in esame: h = 3, k = 5 :
2
= n · min(h − 1, k − 1) = 250 · min(3 − 1, 5 − 1)
χmax
= 250 · min(2, 4) = 250 · 2 = 500
χN2 =
χ2
53.9977
= 0.108.
=
2
χmax
500
Utilizzando la formula operativa si calcolano
X \Y
Europa
America
Asia
y1
0.2250
0.0063
0.0125
14.18
n2i j
ni• n• j
y2
y3
0.0571 0.0500
0.2286 0.0222
0.0286 0.1778
y4
0.0563
0.0563
0.0500
y5
0.0727
0.1636
0.0091
1.216
χ2 = n
h
k
n2i j
∑ ∑ ni• n• j − 1
= 250 · (1.216 − 1) = 53.9976
i=1 j=1
14.19
185
6 Interpretazione delle contingenze relative
Si riprende l’esempio sulla distribuzione dei 250 ’secondi’ serviti a clienti di diversa
origine geografica.
X \Y
Europa
America
Asia
n• j
y1 y2 y3 y4 y5
30 20 15 15 20
5 40 10 15 30
5 10 20 10 5
40 70 45 40 55
ni•
100
100
50
250
Si considerino le distribuzioni condizionate
Y |X
y1
y2
y3
y4
y5
Europa
0.30 0.20 0.15 0.15 0.20
America
0.05 0.40 0.10 0.15 0.30
Asia
0.10 0.20 0.40 0.20 0.10
f req.marg.rel. 0.16 0.28 0.18 0.16 0.22
X|Y
Europa
America
Asia
y1
0.750
0.125
0.125
1
y2
2/7
4/7
1/7
1
y3
15/45
10/45
20/45
1
y4
0.375
0.375
0.25
1
y5
20/55
30/55
5/55
1
1
1
1
1
f req.marg.rel.
.4
.4
.2
1
14.20
Contingenze relative:
ni j
ni j
= ni• n• j =
n̂i j
n
ni j
ni•
n• j
n
=
f (y j |xi )
=
f (y j )
ni j
n• j
ni•
n
=
f (xi |y j )
f (xi )
• Confrontando le frequenze osservate con le frequenze teoriche nella situazione di
indipendenza stocastica abbiamo una misura relativa della frequenza congiunta osservata rispetto a quella che si avrebbe nella situazione di indipendenza stocastica.
= 1.875: il consumo di ’carni arrosto’ da parte di clienti euAd esempio n̂n11
11
ropei è superiore dell’87.5% rispetto a quello che si avrebbe nella situazione di
indipendenza stocastica.
14.21
• Se rapportiamo le frequenze condizionate relative f (y j |xi ) alle frequenze marginali
relative f (y j ) (prima tabella di distribuzioni condizionate) confrontiamo il comportamento di Y nella distribuzione condizionata xi rispetto al comportamento ’medio’
di Y (cfr. infra).
Ad esempio
f (y1 |x1 ) 0.30
=
= 1.875
f (y1 )
0.16
nella composizione dei secondi consumati dai clienti europei il consumo di ’carni
arrosto’ è superiore dell’87.5% rispetto a quello che si ha nella composizione dei
secondi di tutti i clienti (media di riferimento).
14.22
• Se rapportiamo le frequenze condizionate relative f (xi |y j ) alle frequenze marginali relative f (xi ) (seconda tabella di distribuzioni condizionate) confrontiamo il
comportamento di X nella distribuzione condizionata y j rispetto al comportamento
’medio’ di X (cfr. infra).
186
Ad esempio
f (x1 |y1 ) 0.75
=
= 1.875
f (x1 )
0.4
nella composizione geografica dei clienti che hanno consumato ’carni arrosto’ la
frazione di clienti europei è superiore dell’87.5% rispetto alla composizione geografica di tutti i clienti (media di riferimento).
14.23
Le frequenze marginali di Y possono essere ottenute come media ponderata delle frequenze condizionate Y |xi .
n• j
=
n• j
=
n• j
=
n1 j + n2 j + . . . + nk j
n1•
n2•
nk•
n1 j
+ n2 j
+ . . . + nk j
n1•
n2•
nk•
nk j
n1 j
n2 j
n1• +
n2• + . . . +
nk•
n1•
n2•
nk•
e dividendo per n abbiamo
n• j
n
=
f• j
=
nk j nk•
n1 j n1• n2 j n2•
+
+...+
n1• n
n2• n
nk• n
nk j
n1 j
n2 j
f1• +
f2• + . . . +
fk•
n1•
n2•
nk•
Ad esempio,
1
(0.30 · 100 + 0.05 · 100 + 0.10 · 50)
250
0.16 = 0.30 · 0.4 + 0.05 · 0.4 + 0.10 · 0.2
0.16 =
14.24
Una considerazione analoga vale per le frequenze marginali di X, che possono essere
ottenute come media ponderata delle frequenze condizionate X|y j .
ni•
=
ni•
=
ni•
=
ni1 + ni2 + . . . + nih
n•1
n•2
n•h
ni1
+ ni2
+ . . . + nih
n•1
n•2
n•h
ni1
ni2
nih
n•1 +
n•2 + . . . +
n•h
n•1
n•2
n•h
e dividendo per n abbiamo
ni•
n
=
fi•
=
ni1 n•1 ni2 n•2
nih n•h
+
+...+
n•1 n
n•2 n
n•h n
ni1
ni2
nih
f•1 +
f•2 + . . . +
f•h
n•1
n•2
n•h
Ad esempio,
0.4 =
2
15
20
1
0.75 · 40 + · 70 +
· 45 + 0.375 · 40 +
· 55
250
7
45
55
0.4 = 0.75 · 0.16 +
15
20
2
· 0.28 +
· 0.18 + 0.375 · 0.16 +
· 0.22
7
45
55
14.25
187
7 Esercizi
Esercizio 8 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti alcuni
dati in una tabella a doppia entrata:
Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo tale che
χ 2 = 0.
X \Y
x1
x2
n• j
y1
21
X \Y
x1
x2
n• j
y1
20
10
y2
X \Y
x1
x2
n• j
y2
2
y3
ni•
14
37
ni•
3
y3
30
15
y1
y2
y3
ni•
21
0
15
14.26
Esercizio 9 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiunte
del carattere quantitativo X e del carattere qualitativo ordinato Y
X \Y
1
x2
y1
2
n21
n•1
y2
n12
n22
n•2
y3
n13
n23
n•3
ni•
n1•
n2•
14
2 e che per la variabile
1. Si completi la tabella (modalità e frequenze) in modo tale che χ 2 = χmax
Y si verifichi la condizione n•1 = n•3 .
14.27
Esercizio 10 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddisfatte, se possibile, le condizioni indicate:
X \Y
x1
x2
x3
1.
2.
y1
19
y2
y3
8
3
χN2
χN2
=1e
=0e
2
χmax
2
χmax
= 90
= 180
14.28
188
Sezione 15
Connessione (2)
15.1
Indice
1
Analisi grafica: costruzione di un Mosaic Plot
189
2
Student Admissions at UC Berkeley
192
2.1 Odd e Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
3
Analisi di dati multidimensionali: the Titanic data
197
4
Studio della connessione per problemi asimmetrici
198
5
Analisi delle distribuzioni condizionate
198
6
L’indice τ di Goodman Kruskal
199
7
Esercizi
199
15.2
1 Analisi grafica: costruzione di un Mosaic Plot
X \Y
umanistica
scienti f ica
tecnica
Economia Giurisprudenza
20
40
35
35
25
15
80
90
Ingegneria
15
30
35
80
75
100
75
250
Se si vuole rappresentare la Facoltà scelta, Y , come dipendente dalla tipologia di diploma
superiore X, occorre considerare
1. la distribuzione delle frequenze marginali relative di X
2. le distribuzioni delle frequenze condizionate relative Y |xi , i = 1, 2, 3
X
u
s
t
fi•
0.30
0.40
0.30
1.00
Y |x=u
E
G
I
ni1
n•1
0.2667
0.5333
0.2000
1.0000
Y |x=s
E
G
I
ni2
n•2
0.35
0.35
0.30
1.0000
Y |x=t
E
G
I
ni3
n•3
0.3333
0.2000
0.4667
1.0000
15.3
189
X
u
s
t
fi•
0.30
0.40
0.30
1.00
Fi•
0.30
0.70
1.00
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
15.4
X
u
s
t
fi•
0.30
0.40
0.30
1.00
Fi•
0.30
0.70
1.00
1
t
0.7
s
0.3
u
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
15.5
190
Y |x=u
E
G
I
ni1
n•1
0.27
0.53
0.20
1.00
f .c.r.
cum.
0.27
0.80
1.00
Y |x=s
E
G
I
E
ni2
n•2
0.35
0.35
0.30
1.00
f .c.r.
cum.
0.35
0.70
1.00
G
Y |x=t
E
G
I
I
ni3
n•3
0.33
0.20
0.47
1.00
f .c.r.
cum.
0.33
0.53
1.00
1
t
0.7
s
0.3
u
15.6
Y |x=u
E
G
I
ni1
n•1
0.27
0.53
0.20
1.00
f .c.r.
cum.
0.27
0.80
1.00
Y |x=s
E
G
I
E
ni2
n•2
0.35
0.35
0.30
1.00
G
f .c.r.
cum.
0.35
0.70
1.00
Y |x=t
E
G
I
I
ni3
n•3
0.33
0.20
0.47
1.00
f .c.r.
cum.
0.33
0.53
1.00
1
t
0.7
s
0.3
u
15.7
Esercizio 1. Costruire il mosaic plot per le distribuzioni condizionate X|Y j ’tipologia di
provenienza’ per ciascuna Facoltà.
In questo caso la rappresentazione delle distribuzioni condizionate segue una struttura
verticale e non orizzontale.
191
15.8
2 Student Admissions at UC Berkeley
(from the R help system)
This data set is frequently used for illustrating Simpson’s paradox, see Bickel et al. (1975).
At issue is whether the data show evidence of sex bias in admission practices.
There were 2691 male applicants, of whom 1198 (44.5%) were admitted, compared with
1835 female applicants of whom 557 (30.4%) were admitted.
This gives a sample odds ratio of 1.83, indicating that males were almost twice as likely
to be admitted.
In fact, graphical methods ... show that the apparent association between admission and
sex stems from differences in the tendency of males and females to apply to the individual
departments (females used to apply more to departments with higher rejection rates).
See the home page of Michael Friendly (http://www.math.yorku.ca/SCS/friendly.html)
for further information.
Bickel, P. J., Hammel, E. A., and O’Connell, J. W. (1975) Sex bias in graduate admissions:
Data from Berkeley. Science, 187, 398-403.
15.9
Distribuzione congiunta:
Admitted Rejected
Male
1198
1493
Female
557
1278
Distribuzioni marginali:
freq
Male 2691
Admitted
Female 1835
Rejected
freq
1755
2771
Distribuzione congiunta (frequenze relative fi j ):
Admitted Rejected
Male
0.2647
0.3299
Female
0.1231
0.2824
Distribuzioni marginali (frequenze relative fi• , f• j ):
freq
freq
Male 0.5946
Admitted 0.3878
Female 0.4054
Rejected 0.6122
2.1
15.10
Odd e Odds Ratio
Definizione 2 (Odd). Con riferimento a una variabile statistica Y dicotomica, (con due
sole modalità y1 e y2 ) si definisce odd il rapporto tra le frequenze assunte da y1 e y2 .
Esempio 3. Considerando il risultato del test di ammissione abbiamo
557
= 0.4358 per le femmine.
maschi e 1278
1198
1493
= 0.8024 per i
15.11
Definizione 4 (Odds ratio). Con riferimento a una variabile statistica doppia (X,Y ) con
Y dicotomica si definisce odds ratio il rapporto tra due odds definiti sulle distribuzioni
condizionate Y |X.
Esempio 5. Considerando i risultati dei test di ammissione abbiamo
1198
1493
557
1278
=
0.8024
= 1.8412
0.4358
15.12
192
Distribuzioni condizionate
Admit|Gender:
Male
Female
Gender|Admit: Admitted
Rejected
Admitted
0.4452
0.3035
Male
0.6826
0.5388
Rejected
0.5548
0.6965
Female
0.3174
0.4612
Rejected
Rejected
Admitted
Female
Female
Male
Male
Admitted
Admit
Admit
15.13
Distribuzioni (congiunte) di Gender e Admit, condizionatamente ai diversi livelli
della variabile Dept
Department A
Male
Female
Admitted
512
89
Rejected
313
19
Department B
Male
Female
Admitted
353
17
Rejected
207
8
Department C
Male
Female
Admitted
120
202
Rejected
205
391
Department D
Male
Female
Admitted
138
131
Rejected
279
244
Department E
Male
Female
Admitted
53
94
Rejected
138
299
Department F
Male
Female
Admitted
22
24
Rejected
351
317
Dalle precedenti tabelle è possibile ricavare le informazioni relative:
• al diverso grado di selettività esercitato dai 6 dipartimenti,
• alla preferenza nella scelta del dipartimento.
193
15.14
15.15
Grado di selettività
Department A
Department B
Department C
Department D
Department E
Department F
freq
Admitted
0.6442
Rejected
0.3558
freq
Admitted
0.6325
Rejected
0.3675
freq
Admitted
0.3508
Rejected
0.6492
freq
Admitted
0.3396
Rejected
0.6604
freq
Admitted
0.2517
Rejected
0.7483
freq
Admitted
0.0644
Rejected
0.9356
I dipartimenti sono già ordinati rispetto alla rigidità nella selezione
15.16
Scelta dipartimento
Department A
Department B
Department C
Department D
Department E
Department F
freq
Male
0.8842
Female
0.1158
freq
Male
0.9573
Female
0.0427
freq
Male
0.3540
Female
0.6460
freq
Male
0.5265
Female
0.4735
freq
Male
0.3271
Female
0.6729
freq
Male
0.5224
Female
0.4776
La preferenza data dalle femmine ai diversi dipartimenti è secondo l’ordine
ECFDAB
15.17
194
Distribuzioni condizionate di Admit|Gender per i diversi dipartimenti
Department A
Male
Female
Admitted
512
89
Rejected
313
19
Male
Female
Admitted
0.6206
0.8241
Rejected
0.3794
0.1759
Department B
Male
Female
Admitted
353
17
Rejected
207
8
Male
Female
Admitted
0.6304
0.6800
Rejected
0.3696
0.3200
Department C
Male
Female
Admitted
120
202
Rejected
205
391
Male
Female
Admitted
0.3692
0.3406
Rejected
0.6308
0.6594
Department D
Male
Female
Admitted
138
131
Rejected
279
244
Male
Female
Admitted
0.3309
0.3493
Rejected
0.6691
0.6507
Department E
Male
Female
Admitted
53
94
Rejected
138
299
Male
Female
Admitted
0.2775
0.2392
Rejected
0.7225
0.7608
Department F
Male
Female
Admitted
22
24
Rejected
351
317
Male
Female
Admitted
0.0590
0.0704
Rejected
0.9410
0.9296
15.18
Student admissions at UC Berkeley
Department A
Department B
Rejected
Department C
Rejected
Admitted
Admitted
Rejected
Sex
Female
Female
Female
Male
Sex
Male
Sex
Male
Admitted
Admit
Admit
Department D
Department E
Rejected
Admitted
Department F
Rejected
Admitted
Rejected
Sex
Sex
Admit
Female
Female
Female
Sex
Male
Male
Male
Admitted
Admit
Admit
Admit
15.19
195
Distribuzioni condizionate di Gender|Admit per i diversi dipartimenti
Department A
Male
Female
Admitted
512
89
Rejected
313
19
Admitted
Rejected
Male
0.8519
0.9428
Female
0.1481
0.0572
Department B
Male
Female
Admitted
353
17
Rejected
207
8
Admitted
Rejected
Male
0.9541
0.9628
Female
0.0459
0.0372
Department C
Male
Female
Admitted
120
202
Rejected
205
391
Admitted
Rejected
Male
0.3727
0.3440
Female
0.6273
0.6560
Department D
Male
Female
Admitted
138
131
Rejected
279
244
Admitted
Rejected
Male
0.5130
0.5335
Female
0.4870
0.4665
Department E
Male
Female
Admitted
53
94
Rejected
138
299
Admitted
Rejected
Male
0.3605
0.3158
Female
0.6395
0.6842
Department F
Male
Female
Admitted
22
24
Rejected
351
317
Admitted
Rejected
Male
0.4783
0.5254
Female
0.5217
0.4746
15.20
Student admissions at UC Berkeley
Department A
Department B
Rejected
Department C
Rejected
Admitted
Admitted
Rejected
Sex
Female
Female
Female
Male
Sex
Male
Sex
Male
Admitted
Admit
Admit
Department D
Department E
Rejected
Admitted
Department F
Rejected
Admitted
Sex
Female
Female
Sex
Male
Sex
Female
Admit
Rejected
Male
Male
Admitted
Admit
Admit
Admit
15.21
Osservazioni
• Solo nei dipartimenti C ed E si ha una percentuale di successo per le femmine
lievemente inferiore rispetto a quella ottenuta dai maschi.
• In tali dipartimenti si osserva anche che la quota di femmine tra gli ammessi risulta
inferiore alla quota di femmine tra coloro che non sono stati ammessi.
• L’elevato numero di femmine che hanno fatto domanda in tali dipartimenti, unitamente al basso numero di domande presentate nei dipartimenti a bassa selettività,
ha una grande influenza nella determinazione della percentuale di successo a livello ’marginale’, dando l’impressione di una discriminazione nei confronti delle
candidature delle femmine.
196
15.22
3 Analisi di dati multidimensionali: the Titanic data
(from the R help system)
The sinking of the Titanic is a famous event. Many well-known facts – from the proportions of
first-class passengers to the ’women and children first’ policy, and the fact that that policy was not
entirely successful in saving the women and children in the third class – are reflected in the survival
rates for various classes of passenger.
The dataset Titanic consists of a 4-dimensional array resulting from cross-tabulating 2201 observations on 4 variables. The variables and their levels are as follows:
No
1
2
3
4
Name
Class
Sex
Age
Survived
Levels
1st, 2nd, 3rd, Crew
Male, Female
Child, Adult
No, Yes
These data were originally collected by the British Board of Trade in their investigation of the
sinking.
Note that there is not complete agreement among primary sources as to the exact numbers on board,
rescued, or lost.
> mosaicplot(Titanic)
15.23
Titanic
1st
Adult
2nd
Child Adult
Child
3rd
Adult
Child
Crew
Adult
Female
Yes
No
Sex
Male
Yes
No
Child
Class
15.24
197
4 Studio della connessione per problemi asimmetrici
Si consideri la seguente tabella a doppia entrata che riassume la distribuzione delle variabili X, provenienza scolastica, e Y , Facoltà scelta.
umanistica
scientifica
commerciale
ECONOMIA
9
30
41
LETTERE
36
30
4
È ragionevole1 ritenere che la scelta della Facoltà Y possa logicamente dipendere dalla
tipologia di formazione superiore conseguita X.
L’indice χ 2 , che, si ricorda, ha carattere simmetrico, risulta 46.1607, con valore normalizzato χN2 = 0.3077, confermando la presenza di connessione tra le variabili in gioco.
15.25
5 Analisi delle distribuzioni condizionate
Studio delle distribuzioni condizionate Y |X. Si riportano le frequenze condizionate
relative Y |xi , i = 1, 2, 3.
umanistica
scientifica
commerciale
ECONOMIA
0.2000
0.5000
0.9111
LETTERE
0.8000
0.5000
0.0889
Con riferimento ai 250 casi considerati:
• gli studenti provenienti da una scuola umanistica prediligono la Facoltà di Lettere;
• quelli provenienti da un istituto commerciale la Facoltà di Economia;
• gli studenti con maturità scientifica sono, invece, equidistribuiti tra le due Facoltà.
La situazione è evidente se si considerano i valori della Moda per le distribuzioni condizionate.
Per ’avvalorare’ il valore della moda si può calcolare una misura di eterogeneità.
Si osserva come anche l’indice di Gini non normalizzato, G, consenta di effettuare un
confronto tra i livelli di eterogeneità delle distribuzioni condizionate, essendo queste
caratterizzate tutte dallo stesso numero di categorie.
Con riferimento alla marginale Y : G(Y ) = 0.4978:
k
k ni j 2
2
G(Y |xi ) = 1 − ∑
, i = 1, . . . , h
G(Y ) = 1 − ∑ f• j
j=1
j=1 ni•
xi
umanistica
scientifica
commerciale
Moda(Y |xi )
LETTERE
ECONOMIA
15.26
G(Y |xi )
0.32
0.5
0.162
15.27
1 Nella
presente sezione si assume che X ’variabile sulle righe della tabella’ possa interpretarsi come variabile ’indipendente’, mentre Y ’variabile sulle colonne della tabella’ come variabile ’dipendente’, valga cioè la
seguente relazione di causalità
X →Y
198
Lo studio delle cosiddette ’differenze di eterogeneità’
G(Y ) − G(Y |xi ),
i = 1, . . . , h,
consente di stabilire per quali livelli della variabile X si ha una propensione della variabile
Y a concentrarsi su ’poche’ categorie, o addirittura su un valore modale, dando in questo
caso un contributo significativo alla connessione
Moda(Y |xi )
LETTERE
ECONOMIA
xi
umanistica
scientifica
commerciale
G(Y |xi )
0.32
0.5
0.162
G(Y ) − G(Y |xi )
0.4978 − 0.32 = 0.1778
0.4978 − 0.5 = −0.0022
0.4978 − 0.162 = 0.3358
Per Y |x1 e per Y |x3 abbiamo G(Y ) − G(Y |xi ) > 0.
6
15.28
L’indice τ di Goodman Kruskal
L’indice di Goodman Kruskal consiste in una sintesi (media aritmetica) delle differenze
di eterogeneità, che vengono ponderate con le frequenze della variabile condizionante X:
GK(Y |X) = τY |X =
MX {G(Y ) − G(Y |X)}
G(Y )
Si osserva che l’indice è normalizzato.
xi
umanistica
scientifica
commerciale
G(Y ) − G(Y |xi )
0.1778
−0.0022
0.3358
GK(Y |X) = τY |X =
n(xi )
45
60
45
150
22.9778
150
0.4978
mod × freq
8
-0.1333
15.1111
22.9778
= 0.3077.
15.29
Se la variabile ’dipendente’, Y , è caratterizzata da due sole categorie l’indice χN2 e l’indice di Goodman Kruskal, GK(Y |X), forniscono lo stesso valore (normalmente ciò non
avviene).
Solo per esercizio:
GK(X|Y ) = 0.1402
questo risultato ha la sola valenza numerica e nessun senso logico in quanto basato
sull’assunzione che sia la tipologia di diploma a dipendere dalla scelta della Facoltà.
7 Esercizi
Esercizio 6 ( ). Nella seguente tabella è riportata la distribuzione delle frequenze congiunte delle variabili X = ’Tipologia diploma scuola superiore’ e Y = ’Facoltà universitaria’ rilevate in corrispondenza di un campione di 250 matricole.
X \Y
umanistica
scienti f ica
tecnica
Economia Giurisprudenza
20
40
35
35
25
15
80
90
199
Ingegneria
15
30
35
80
75
100
75
250
15.30
1. È possibile ritenere che la scelta della facoltà dipende dal tipo di diploma?
2. Sotto quali condizioni tale conclusione è estensibile a tutta la popolazione delle
matricole universitarie?
15.31
Esercizio 7 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30
alberghi.
Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimento, S,
rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti.
Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera, con riferimento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, rilevate nel 1999, della
permanenza media in giorni, G, del soggiorno, condizionate rispetto alla categoria alberghiera, A.
G|A
A \ S non sodd. indi f f . sodd.
1.5 0.50 0.70 0.60
18
6
36
3.0 0.30 0.15 0.25
12
43
45
7.5 0.20 0.15 0.15
8
12
20
1.00 1.00 1.00
1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza effettuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A e G.
2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni G|A = e
G|A = .
3. Si calcoli una misura della connessione tra il livello di soddisfazione e la categoria alberghiera (S|A).
15.32
Esercizio 8 (T 239, 10.01.2008, 3). Completare la tabella, esplicitando anche i valori
possibili per x2 e y2 , in modo tale che l’indice χ 2 normalizzato sia pari a zero:
X \Y
5
x2 =
1
y2 =
3
2
15.33
Esercizio 9 (T 240, 31.01.2008, 2,3). Completare la tabella (inserendo frequenze congiunte e marginali) in modo che:
a) χ 2 = 21;
b) ci sia dipendenza funzionale di Y da X.
X \Y
x1
x2
y1 y2
14
y3
21
15.34
Esercizio 10 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti
alcuni dati in una tabella a doppia entrata:
Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo
tale che χ 2 = 0.
X \Y
x1
x2
n• j
y1
29
X \Y
x1
x2
n• j
y1
20
10
y2
10
y3
ni•
6
45
y2
11
y3
30
15
ni•
200
X \Y
x1
x2
n• j
y1
y2
y3
29
0
15
ni•
15.35
201
Sezione 16
Studio della dipendenza se la
variabile dipendente è di tipo
quantitativo
16.1
Indice
1
Introduzione
203
2
Studio di un caso
203
3
Collegamento tra scomposizione della varianza e analisi bivariata
204
4
Calcolo del rapporto di correlazione ηY2|X
205
5
Considerazioni di riepilogo
207
6
Raccordo notazione
207
7
Analisi del Rapporto di Correlazione
207
8
Relazione tra indipendenza stocastica e indipendenza in media
210
9
Esercizi
212
16.2
1 Introduzione
Nella presente sezione si descrive come analizzare il comportamento congiunto di due
variabili in relazione a un problema di tipo asimmetrico con:
• X carattere qualitativo o quantitativo (variabile esplicativa)
• Y carattere quantitativo (variabile dipendente)
Si vuole studiare Y come funzione di X.
Si ricorda come lo studio della dipendenza passi sempre attraverso lo studio delle distribuzioni condizionate Y |X.
Dal momento che la variabile dipendente (variabile risposta/outcome) Y è di tipo quantitativo, è possibile descrivere le distribuzioni condizionate mediante appropriati indici di
posizione.
Utilizzeremo le medie delle distribuzioni condizionate M(Y |xi ). La scelta della media
come indice sintetico verrà giustificata nelle sezioni successive, quando verrà presentato
il criterio dei minimi quadrati.
203
16.3
2 Studio di un caso
Un albergatore è interessato a stabilire se la struttura dei consumi per food & beverage
è diversa per le due categorie di clienti che viaggiano per turismo (T ) o per lavoro (L),
categorie della variabile Motivazione (X).
A tal fine effettua, presso un campione di 10 soggetti, una rilevazione dei caratteri X e Y
ottenendo le seguenti informazioni
X
T
T
L
L
T
T
L
T
L
L
Y
23.1
43.1
21.5
7
21.8
34.6
26.6
30.2
18
10.5
16.4
3 Collegamento tra scomposizione della varianza e analisi bivariata
Sebbene risulti più semplice analizzare i dati in questione considerando la struttura per
gruppi1
Turismo
Lavoro
23.1 43.1 21.8
34.6
21.5
30.2
26.6
7
18
10.5
riclassifichiamo i dati in una tabella a doppia entrata SOLO per mostrare come la variabile
di ragruppamento possa essere interpretata come variabile esplicativa o condizionante.
X \Y
T
L
n• j
7
0
1
1
Y |Xi
T
L
7
0
0.2
10.5
0
1
1
10.5
0
0.2
18
0
1
1
18
0
0.2
21.5
0
1
1
21.5
0
0.2
21.8
1
0
1
23.1
1
0
1
21.8
0.2
0
23.1
0.2
0
26.6
0
1
1
26.6
0
0.2
30.2
1
0
1
30.2
0.2
0
34.6
1
0
1
34.6
0.2
0
43.1
1
0
1
43.1
0.2
0
ni•
5
5
10
1
1
16.5
Si ricorda come sia possibile studiare il comportamento congiunto a partire da un’analisi
grafica che rappresenti le coppie di valori e le medie di gruppo (medie condizionate)
Possiamo rappresentare i valori assunti dalle unità statistiche appartenenti alle 2 categorie
1 cfr. calcolo delle medie potenziate in corrispondenza di valori singoli e il risultato di scomposizione della
varianza
204
50
●
40
●
30
●
●
●
●
●
20
●
●
10
●
0
Turismo
Lavoro
Y |X = turismo
Y |X = lavoro
M(Y |X = turismo) = 30.56
M(Y |X = lavoro) = 16.72
Var(Y |X = turismo) = 61.2184 Var(Y |X = lavoro) = 51.0536
16.6
Infatti:
•
M(Y |X = turismo) =
Var(Y |X = turismo) =
=
1
1
(23.1 + 43.1 + 21.8 + 34.6 + 30.2) = 152.8 = 30.56
5
5
1
(23.12 + 43.12 + 21.82 + 34.62 + 30.22 ) − 30.562 =
5
1
4975.66 − 933.9136 = 995.132 − 933.9136 = 61.2184
5
•
M(Y |X = lavoro) =
Var(Y |X = lavoro) =
=
1
1
(23.1 + 43.1 + 21.8 + 34.6 + 30.2) = 83.6 = 16.72
5
5
1
(21.52 + 72 + 26.62 + 182 + 10.52 ) − 16.722 =
5
1
1653.06 − 279.5584 = 330.612 − 279.5584 = 51.0536
5
Stiamo quindi interpretando i dati mediante la funzione medie condizionate.
16.7
Dal momento che le medie condizionate sono fra loro diverse è possibile concludere
che sussiste una forte dipendenza della variabile Y dalla variabile X =motivazione del
soggiorno?
Per rispondere al quesito occorre considerare il risultato di scomposizione della varianza
e calcolare il rapporto di correlazione ηY2|X
Notazione
Nel presente contesto (analisi bivariata) la varianza Between e la varianza Within sono
anche denominate varianza spiegata e varianza residua.
16.8
205
4 Calcolo del rapporto di correlazione ηY2|X
In primo luogo calcoliamo media e varianza della variabile statistica medie condizionate
M(Y |X)
xi M(Y |xi ) ni
T
30.56 5
L
16.72 5
le cui modalità sono le medie condizionate (medie di gruppo), con frequenze le numerosità delle categorie della variabile condizionante (numerosità di gruppo)
M(Y |xi )
30.56
16.72
ni M(Y |xi ) · ni {M(Y |xi )}2 · ni
5
152.8
4669.568
5
83.6
1397.792
10
236.4
6067.36
MX {M(Y |X)}
=
1 h
1
∑ modalità · frequenze = 10 236.4 = 23.64 = M(Y )
n i=1
VarX {M(Y |X)}
=
σB2 =
=
1
6067.36 − 23.642 = 606.736 − 558.8496 = 47.8864
10
varianza
momento
=
− media2 =
spiegata
secondo
16.9
È possibile ricostruire la variabile statistica varianze condizionate Var(Y |X)
xi Var(Y |xi )
T
61.2184
L
51.0536
ni
5
5
10
le cui modalità sono le varianze condizionate (varianze di gruppo), con associate come frequenze le numerosità delle categorie della variabile condizionante (numerosità di
gruppo).
Var(Y |xi )
61.2184
51.0536
MX {Var(Y |X)}
ni Var(Y |xi )ni
5
306.092
5
255.268
10
561.36
1 h
varianza
= ∑ modalità · frequenze =
residua
n i=1
=
σW2 =
=
1
561.36 = 56.136
10
16.10
La varianza della variabile statistica marginale Y (varianza generale calcolata su tutte le
unità statistiche) può essere ottenuta come
σY2
=
varianza spiegata + varianza residua = σB2 + σW2
=
47.8864 + 56.136 = 104.0224
206
Si può, infatti, verificare che
Var(Y )
=
=
1
(23.12 + 43.12 + 21.52 + 72 + 21.82 + 34.62 + 26.62 + 30.22 + 182 + 10.52 ) − 23.642
10
1
(6628.72) − 558.8496 = 662.872 − 558.8496 = 104.0224
10
16.11
Abbiamo, quindi
VarX {M(Y |X)} = σB2 = 47.8864
MX {Var(Y |X)} = σW2 = 56.136
e σ 2 = 104.0224
quindi
47.8864
= 0.4603
104.0224
il rapporto di correlazione assume un valore moderato.
Non sussiste, quindi, un livello di dipendenza così forte tra la spesa per food & beverage
e la motivazione del soggiorno.
η2 =
5 Considerazioni di riepilogo
Considerazioni di riepilogo
• È possibile concludere che sussiste dipendenza della variabile Y = spesa per food
& beverage dalla variabile X = motivazione del viaggio in quanto le medie condizionate sono fra loro diverse (Varianza delle medie condizionate)
• Tale considerazione non garantisce un livello elevato di dipendenza in quanto le
medie condizionate devono essere ’rappresentative’ delle rispettive distribuzioni
condizionate
• Si deve, quindi, anche considerare la variabilità delle rispettive distribuzioni condizionate
• Affinché le medie condizionate siano rappresentative è necessario che le varianze
condizionate assumano valore piccolo (Media delle varianze condizionate)
16.12
6 Raccordo notazione
Proprietà Associativa della media aritmetica
media generale = media delle medie di gruppo
M(Y ) = MX {M(Y |X)}
Scomposizione varianza
σB2
=
+
σW2
=
=
2
=
σ(globale)
varianza spiegata
= VarX {M(Y |X)}
+
+
varianza residua
= MX {Var(Y |X)}
=
=
varianza dipendente =
Var(Y )
16.13
207
7 Analisi del Rapporto di Correlazione
Osservazione
• medie condizionate tra loro molto diverse → varianza spiegata ↑
• varianze condizionate piccole → varianza residua ↓
Precedentemente si era utilizzato il Rapporto di Correlazione per stabilire se è opportuno
effettuare una segmentazione delle unità statistiche; l’indice consente di sintetizzare le
due considerazioni riportate nella precedente Osservazione.
ηY2|X
=
=
var.spiegata VarX {M(Y |X)}
=
Var(Y )
Var(Y )
var.residua
MX {Var(Y |X)}
1−
= 1−
Var(Y )
Var(Y )
16.14
Interpretazione
• è interpretabile anche come rapporto di composizione in quanto
var. spiegata + var. residua = var. totale dipendente
0 ≤ η2 ≤ 1
• quota di variabilità spiegata dalla funzione medie condizionate
Si analizzano ora le situazioni a cui corrispondono i valori estremi di η 2
ηY2|X
16.15
=0
ηY2|X =
VarX {M(Y |X)}
Var(Y )
quindi
ηY2|X = 0
↔
VarX {M(Y |X)} = 0
la variabile statistica ’medie condizionate’ M(Y |X) ha varianza nulla (è degenere)
M(Y |x1 ) = M(Y |x2 ) = . . . = M(Y |xh ) = M(Y )
situazione di indipendenza in media
y
●
●
●
●
●
●
●
●
●
●
●
x1 x2
...
xh
16.16
ηY2|X
=1
ηY2|X = 1 −
MX {Var(Y |X)}
Var(Y )
quindi
ηY2|X = 1
↔
MX {Var(Y |X)} = 0
208
la variabile statistica ’varianze condizionate’ Var(Y |X) ha media nulla
ma
Var(Y |x1 ) ≥ 0,Var(Y |x2 ) ≥ 0, . . . ,Var(Y |xh ) ≥ 0
quindi
MX {Var(Y |X)} = 0 ↔ Var(Y |x1 ) = . . . = Var(Y |xh ) = 0
le distribuzioni condizionate Y |xi sono degeneri, situazione di dipendenza funzionale.
y
●
●
●
x1 x2
...
xh
16.17
Osservazione
In tutte le precedenti considerazioni la variabile X ha svolto il ruolo di carattere condizionante, come mera variabile di raggruppamento; potrebbe, quindi, essere di tipo
• qualitativo
(genere, regione geografica, tipo di cliente, classe di età o di reddito)
• o quantitativo
(numero componenti famiglia, età)
In entrambi i casi, da un punto di vista operativo, non dovrebbe essere caratterizzata da
un numero troppo elevato di categorie/modalità
(eventuale ricodifica in un numero ridotto di categorie/classi).
Esercizio 2. Con riferimento a 20 unità statistiche sono state rilevate le variabili X1, X2,
Y, Z e W.
i x1i
1
1
2
1
3
1
4
1
5
1
6
2
7
2
8
2
9
2
10 3
11 3
12 3
13 4
14 4
15 4
16 4
17 4
18 4
19 4
20 4
x2i
1
1
2
2
3
2
3
4
4
3
4
4
1
1
3
2
2
3
3
4
yi
38
39
40
41
42
47
43
46
44
42
41
43
47
49
49
43
48
43
45
44
209
zi
wi
36 32.75
38 34.75
40 36.2
42 38.2
44
40
49 50.2
41
42
47 48.4
43 44.4
42
40
40 38.4
44 42.4
48 50.75
52 54.75
52
54
40 42.2
50 52.2
40
42
44
46
42 44.4
16.18
Si vuole studiare la dipendenza:
A di Y in funzione di X1
C di Y in funzione di X2
B di Z in funzione di X1
D di W in funzione di X2
medie condizionate diverse - bassa variabilità distribuzioni condizionate
A
X1 X1
X1
1 2
M(Y|X1) 40 45
Var(Y|X1) 2 2.5
n(Y|X1)
5 4
X1
3
42
X1
4
46
0.6667 5.75
3
8
60
55
55
50
50
45
45
40
40
35
1
2
3
4
5
medie condizionate diverse - elevata variabilità distribuzioni condizionate
X1 X1
X1
1 2
M(Z|X1) 40 45
Var(Z|X1) 8 10
n(Z|X1)
5 4
X1
3
42
2.6667
3
X1
4
46
23
8
X2
3
4
44 43.6
6 2.64
60
55
50
50
45
45
40
40
35
35
30
30
1
2
M(Y)=MX1[M(Y|X1)]
3
4
2
3
4
6
5
5
D
X2 X2
X2
1
2
M(W|X2) 43.3 43.8
Var(W|X2) 92.75 40.64
n(W|X2)
4
5
0
1
2
M(Y)=MX2[M(Y|X2)]
43.7
2
M(Z)=MX1[M(Z|X1)]
5
1
medie condizionate simili - elevata variabilità distribuzioni condizionate
55
3
4
43.7
2
MX1[M(Y |X1)]
1916
varianza spiegata VarX1[M(Y|X1)]
6.31
varianza residua MX1[Var(Y|X1)]
3.4
Var(Y)=var.spieg.+var.res.
9.71
rapporto di correlazione 0.649846
B
0
60
0
A
X2
30
0
B
C
X2 X2
X2
1
2
M(Y|X2)
43.3 43.8
Var(Y|X2) 23.1875 10.16
n(Y|X2)
4
5
35
30
16.19
medie condizionate simili - bassa variabilità distribuzioni condizionate
60
24 10.56
6
5
5
C
MX2[M(Y |X2)]
1909.763
VarX2[M(Y|X2)]
0.0725 varianza spiegata
MX2[Var(Y|X2)]
9.6375 varianza residua
Var(Y)=var.spieg.+var.res.
9.71
M(W)=MX2[M(W|X2)]
43.7
MX1[M(Z2|X1)]
43.7
2
MX2[M(W |X2)]
1916
varianza spiegata VarX1[M(Z|X1)]
6.31
varianza residua MX1[Var(Z|X1)]
13.6
Var(Z)=var.spieg.+var.res.
19.91
D
1909.763
VarX2[M(W|X2)]
0.0725 varianza spiegata
MX2[Var(W|X2)]
38.55 varianza residua
Var(W)=var.spieg.+var.res.
38.6225
A 1a situazione di riferimento
(medie condizionate diverse e rappresentative)
C 2a situazione di riferimento
(medie condizionate simili e poco rappresentative)
B aumento variabilità distribuzioni condizionate
D aumento variabilità distribuzioni condizionate
8 Relazione tra indipendenza stocastica e indipendenza in media
Relazione tra indipendenza stocastica e indipendenza in media
indipendenza stocastica
Y |xi ∼ Y
X2
X2
3
4
44 43.6
↔
X|y j ∼ X
↓ ↑\/
↓ ↑\/
M(Y |xi ) = M(Y )
i = 1, 2, . . . , h
ηY2|X = 0
M(X|y j ) = M(X)
j = 1, 2, . . . , k
2 =0
ηX|Y
indipendenza in media
Nella parte in basso a destra della precedente relazione si è assunto che anche X sia di
tipo quantitativo.
210
16.20
Osservazione
2 possono anche essere molto differenti
ηY2|X e ηX|Y
16.21
Indipendenza in media (biettiva) ma non indipendenza stocastica
y2 − b y2
0
20
10
30
0
20
X \Y
x2 − c
x2
x2 + c
y2 + b
0
10
0
abbiamo
y
x
●
●
●
●
●
●
●
●
●
●
y
x
μY (x1 ) = μY (x2 ) = μY (x3 ) = y2
μX (y1 ) = μX (y2 ) = μX (y3 ) = x2
e
ηY2|X = 0
2 =0
ηX|Y
16.22
Indipendenza in media in una direzione (di X da Y ) e non indipendenza in media nell’altra
X \Y
x2 − c
x2
x2 + c
y1
0
10
0
y2
20
30
20
y3
10
0
10
abbiamo
y
x
●
●
●
●
●
●
●
●
●
●
●
y
x
μY (x1 ) = μY (x3 ) > μY (x2 )
●
e
μX (y1 ) = μX (y2 ) = μX (y3 ) = x2
ηY2|X > 0
2 =0
ηX|Y
16.23
211
9 Esercizi
Esercizio 3. Si completino, se possibile, le seguenti tabelle a doppia entrata con le opportune
frequenze congiunte relative in modo tale che:
a) le variabili X e Y siano stocasticamente indipendenti
X \ Y y1
y2
y3
x1
0.4
x2
0.6
0.2 0.6 0.2
1
b) sussiste dipendenza funzionale di Y da X
X \ Y y1
y2
y3
x1
0.4
x2
0.6
0.2 0.6 0.2
1
c) sussiste dipendenza funzionale di X da Y
X \ Y y1
y2
y3
x1
0.4
x2
0.6
0.2 0.6 0.2
1
16.24
Esercizio 4 (continuazione). Si completino, se possibile, le seguenti tabelle a doppia entrata con
le opportune frequenze congiunte relative in modo tale che:
d) sussistono contemporaneamente:
dipendenza funzionale di X da Y
indipendenza in media di Y da X
X \Y
x1
x2
y1
0.2
y2
0.6
y3
0.2
0.4
0.6
1
e) si realizzino contemporaneamente le seguenti condizioni:
⎧
⎨ indipendenza in media di Y da X
non ci sia dipendenza funzionale di X da Y
⎩
X e Y non siano stocasticamente indipendenti
X \Y
x1
x2
y1
0.2
y2
0.6
y3
0.2
0.4
0.6
1
16.25
Esercizio 5 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiunte
del carattere quantitativo X e del carattere qualitativo ordinato Y
X \Y
1
x2
y1
2
n21
n•1
y2
n12
n22
n•2
y3
n13
n23
n•3
ni•
n1•
n2•
14
1. Si completi la tabella (modalità e frequenze) in modo che contemporaneamente ci sia indipendenza in media di X da Y e la moda di Y sia y2 .
16.26
212
Esercizio 6 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddisfatte, se possibile, le condizioni indicate:
X \Y
x1
x2
x3
1.
y1
19
y2
y3
8
3
2
ηX|Y
=0e
ηY2|X
= 0
16.27
Esercizio 7 (T 256, 28.01.2010, 5). Si indichi, senza effettuare calcoli e motivando le risposte,
2 e χ2 .
il valore (o l’intervallo di valori) assunto dagli indici ηY2|X , ηX|Y
N
X \Y
4
6
1
9
0
2
0
8
3
0
6
16.28
Esercizio 8 (T 264-3, 07.07.2011, 4). Si completi se possibile la seguente tabella, riportando
modalità e frequenze e motivando teoricamente la risposta, in modo tale che:
X \Y 1 2 3
2
2 5
5
2 0 2
8
2 <1
1. ηY2|X < ηX|Y
2
2. ηY2|X = ηX|Y
16.29
Esercizio 9 (T 267, 26.01.2012, 5). Se possibile e giustificando teoricamente le risposte, si
completi la seguente tabella in modo da soddisfare le condizioni sotto indicate.
X \ Y 10
30
5
1
6
10
5
2 = 1, η 2 = 0
1. ηX|Y
Y |X
2 = 0, χ 2 = 0
2. ηX|Y
2 = 1, η 2 = 1
3. ηX|Y
Y |X
16.30
Esercizio 10 (T 269-2, 28.06.2012, 4). Dati due caratteri Z e W , indicare che valore assume
2
l’indice ηZ|W
nelle seguenti ipotesi:
1. l’indice di connessione χ 2 assume valore zero;
2. la media delle varianze condizionate è pari a 3 volte la varianza delle medie condizionate;
3. la distribuzione delle medie condizionate e delle varianze condizionate è la seguente
w1 w2 w3
M(Z|W )
2
4
6
2
7
7
7
σZ|W
frequenze marginali di W 20 10 20
16.31
Esercizio 11 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le risposte, si
X \Y 3
9
2
2
2
6
2
1. ηY2|X = ηX|Y
16.32
213
Sezione 17
Studio della dipendenza se
entrambe le variabili sono di tipo
quantitativo (1)
17.1
Indice
1
Introduzione
215
2
Funzioni delle componenti di una variabile statistica doppia
215
3
Media di una funzione di una variabile statistica doppia
216
4
La Covarianza
218
5
Interpretazione della Covarianza
218
6
Media di una combinazione lineare
224
7
Varianza di una combinazione lineare
225
8
Covarianza tra trasformazioni lineari
226
17.2
1 Introduzione
Si premettono alcuni complementi sulla variabile statistica doppia
•
•
•
•
funzioni delle componenti di una variabile statistica doppia
media di una funzione delle componenti di una variabile statistica doppia
covarianza
media di una combinazione lineare delle componenti di una variabile statistica
doppia
• varianza di una combinazione lineare delle componenti di una variabile statistica
doppia
• covarianza tra trasformazioni lineari
2 Funzioni delle componenti di una variabile statistica
doppia
W = f (X,Y ) = X +Y
215
17.3
• reddito coniugi → reddito familiare
• peso veicolo + peso carico = peso lordo
y1 = 5 y2 = 15 y3 = 25
X \Y
x1 = 15
3
9
18
2
6
12
x2 = 25
5
15
30
x3 = 35
n• j
10
30
60
wk
20
30
40
50
60
nk =
nk
3
2+9
5 + 6 + 18
15 + 12
30
100
∑
ni•
30
20
50
100
f −1 (30) = {(25, 5), (15, 15)}
ni j =
{(xi ,y j ): f (xi ,y j )=wk }
∑
ni j =
∑
ni j
{(xi ,y j )= f −1 (wk )}
{(xi ,y j ):xi +y j =wk }
17.4
3 Media di una funzione di una variabile statistica doppia
Definizione 1 (Media di una funzione di una variabile statistica doppia). L’operatore
media aritmetica assume la seguente struttura
•
1 h k
M(W ) = M{ f (X,Y )} = ∑ ∑ f (xi , y j )ni j
n i=1 j=1
in presenza di una variabile statistica doppia (tabella a doppia entrata)
•
M(W ) = M{ f (X,Y )} =
1 n
∑ f (xi , yi )
n i=1
quando si considerano le coppie di valori
(ciascuna coppia figura una sola volta)
17.5
Esempio 2 (W = X + Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo calcolare la media sulla variabile W (dopo averla ricostruita)
wk
20
30
40
50
60
nk wk nk
3
60
11
330
29 1160
27 1350
30 1800
100 4700
k
M(W ) = ∑ wk nk = 47
i=1
oppure applicare la formula dell’operatore media alla serie statistica doppia (X,Y )
(xi + y j )ni j
x1 = 15
x2 = 25
x3 = 35
y1 = 5
(15 + 5) · 3 = 60
(25 + 5) · 2 = 60
(35 + 5) · 5 = 200
y2 = 15
(15 + 15) · 9 = 270
(25 + 15) · 6 = 240
(35 + 15) · 15 = 750
y3 = 25
(15 + 25) · 18 = 720
(25 + 25) · 12 = 600
(35 + 25) · 30 = 1800
4700
216
M(X +Y ) =
1 h k
1
(xi + y j )ni j =
4700 = 47 = M(X) + M(Y ) = 27 + 20
∑
∑
n i=1 j=1
100
17.6
Esempio 3 (W = X +Y , coppie valori). Si considerino le seguenti coppie di informazioni
relative alle variabili X e Y
xi 3 2 1 4 2
yi 6 4 4 6 5
l’applicazione della formula dell’operatore media consiste nel calcolare la media della
variabile somma
yi wi = xi + yi
xi
3
6
9
2
4
6
1
4
5
4
6
10
2
5
7
12
25
37
∑
M = ∑ /n
2.4
5
7.4
M(X) M(Y )
M(X +Y )
Oppure, ricordando che l’operatore media è lineare
M(X +Y ) = 7.4 = M(X) + M(Y ) = 2.4 + 5
17.7
Esempio 4 (W = X ·Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo calcolare la media sulla variabile W (dopo averla ricostruita)
wk
75
125
175
225
375
525
375
625
875
nk
wk nk
3
225
2
250
5
875
9
2025
6
2250
15
7875
18
6750
12
7500
30 26250
100 54000
k
M(W ) = ∑ wk nk = 540
i=1
oppure possiamo applicare direttamente la formula dell’operatore media alla serie statistica doppia (X,Y )
xi y j ni j
x1 = 15
x2 = 25
x3 = 35
y1 = 5
15 · 5 · 3 = 225
25 · 5 · 2 = 250
35 · 5 · 5 = 875
y2 = 15
15 · 15 · 9 = 2025
25 · 15 · 6 = 2250
35 · 15 · 15 = 7875
y3 = 25
15 · 25 · 18 = 6750
25 · 25 · 12 = 7500
35 · 25 · 30 = 26250
54000
M(X ·Y ) =
1
1 h k
∑ ∑ (xi · y j )ni j = 100 54000 = 540
n i=1
j=1
17.8
Esempio 5 (W = X ·Y , coppie valori). Si considerino le seguenti coppie di informazioni
relative alle variabili X e Y
xi 3 2 1 4 2
yi 6 4 4 6 5
217
∑
M = ∑ /n
xi
yi
xi yi
3
6
18
2
4
8
1
4
4
4
6
24
2
5
10
12
25
64
2.4
5
12.8
M(X) M(Y ) M(XY )
Si osserva come
M(XY ) = 12.8 = M(X)M(Y ) = 2.4 · 5 = 12
17.9
4 La Covarianza
Definizione 6 (Covarianza).
Cov(X,Y ) = M[(X − μX )(Y − μY )]
con
μX = M(X)
μY = M(Y )
Applicando la proprietà dell’operatore media aritmetica come operatore lineare
Cov(X,Y ) = M[(X − μX )(Y − μY )] =
= M(XY − X μY − μX Y + μX μY ) =
=
M(XY ) − μY M(X) − μX M(Y ) + μX μY =
=
M(XY ) − μX μY − μX μY + μX μY =
M(XY ) − μX μY
=
si ottiene la seguente formula operativa
Cov(X,Y ) = M(XY ) − M(X)M(Y )
17.10
Con riferimento ai due esempi precedenti:
• tabella a doppia entrata
Cov(X,Y ) = M(XY ) − μX μY = 540 − 27 · 20 = 540 − 540 = 0
• coppie valori
Cov(X,Y ) = M(XY ) − μX μY = 12.8 − 2.4 · 5 = 12.8 − 12 = 0.8
5 Interpretazione della Covarianza
Si riprende la definizione di covarianza
Cov(X,Y ) = M[(X − μX )(Y − μY )]
la cui scrittura estesa, nel caso di coppie di osservazioni, risulta
Cov(X,Y ) =
1 n
∑ (xi − μX )(yi − μY )
n i=1
Implica, quindi, il calcolo
218
17.11
1. delle medie (marginali) μX e μY di X e Y
2. degli scarti dalle medie (xi − μX ) e (yi − μY )
3. della media del prodotto di tali scarti
Il segno della covarianza dipende dal segno degli addendi (xi − μX )(yi − μY ) che figurano
nella sommatoria
Si consideri la rappresentazione grafica delle seguenti coppie di osservazioni (xi , yi )
xi
3.5
3
1
4
2
3
3
2
2
1
17.12
yi
6
4
3.5
6
5.5
5
7
3
6
2
17.13
7
●
6
●
●
●
●
5
●
4
●
●
3
●
0
1
2
●
0
1
2
3
possiamo identificare sul grafico le medie di X e Y :
μX = 2.45, μY = 4.8
219
4
5
17.14
7
●
6
●
●
●
●
●
5
μY
4
●
●
3
●
0
1
2
●
0
1
2
μX
3
4
5
tracciare le 2 rette perpendicolari in corrispondenza di μX = 2.45 e μY = 4.8
17.15
7
●
6
●
●
●
●
●
5
μY
4
●
●
3
●
0
1
2
●
0
1
2
μX
3
4
5
e qualificare il contributo alla covarianza dato dai punti nei quattro quadranti
220
17.16
7
●
(+) (+) = (+)
6
●
●
●
●
●
5
μY
4
●
●
3
●
0
1
2
●
0
1
2
μX
3
4
5
i punti nel quadrante in alto a destra hanno coordinate
xi > μX e yi > μY → danno contributo positivo
17.17
7
●
(+) (+) = (+)
6
●
●
●
●
●
5
μY
4
●
●
3
●
(+) (−) = (−)
0
1
2
●
0
1
2
μX
3
i punti nel quadrante in basso a destra hanno coordinate
xi > μX e yi < μY → danno contributo negativo
221
4
5
17.18
7
●
(+) (+) = (+)
6
●
●
●
●
●
5
μY
4
●
●
3
●
2
(−) (−) = (+)
0
1
(+) (−) = (−)
●
0
1
2
μX
3
4
5
i punti nel quadrante in basso a sinistra hanno coordinate
xi < μX e yi < μY → danno contributo positivo
17.19
7
●
(−) (+) = (−)
(+) (+) = (+)
6
●
●
●
●
●
5
μY
4
●
●
3
●
2
(−) (−) = (+)
0
1
(+) (−) = (−)
●
0
1
2
μX
3
i punti nel quadrante in alto a sinistra hanno coordinate
xi < μX e yi > μY → danno contributo negativo
222
4
5
17.20
7
conclusione (1)
●
●
●
●
●
●
●
●
6
●●
●
●
●
●
●
●
●
●
5
●
●
4
●
●
3
●●
2
Cov(X, Y) > 0
●
●
1
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
● ●
●
●
●●
●
●
●
●
●
●
● ●
●
●
● ●
●
●●
●
●
●
μY
●
●
●
●
●
●
●
●
● ●
●
●
●
0
●●
0
●
●
1
μX
2
●
3
4
5
se sono più frequenti i punti nelle regioni in alto a destra e in basso a sinistra potremo
aspettarci un valore positivo della covarianza
17.21
conclusione (2)
●
7
●
●
●
6
●●
●
●
●
●
●
●
●
●
●
●
5
Cov(X, Y) < 0
●
●
●
●
●
●
●●
4
●
●●
●
●
●
●
●
●
●
●
●
μY
3
●●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
● ●
● ●
●
2
●
●
●
●
1
●
●
●
●
● ●
●
●
●
0
●
●
0
1
2
μX
3
4
●
●
●
5
●
se sono più frequenti i punti nelle regioni in basso a destra e in alto a sinistra potremo
aspettarci un valore negativo della covarianza
Interpretazione della Covarianza
La covarianza fornisce, quindi, informazioni sulla tipologia di relazione esistente tra le
due variabili
• se sussiste una dipendenza di tipo diretto
Cov(X,Y ) > 0
a valori elevati della X corrispondono valori elevati della Y
a valori piccoli della X corrispondono valori piccoli della Y
223
17.22
• se sussiste una dipendenza di tipo inverso
Cov(X,Y ) < 0
a valori elevati della X corrispondono valori piccoli della Y
a valori piccoli della X corrispondono valori elevati della Y
Esempio 7. Dalle nozioni di Economia Politica
• relazione tra X = prezzo e Y = domanda: Cov(X,Y ) < 0
• relazione tra X = prezzo e Y = offerta: Cov(X,Y ) > 0
17.23
Esempio 8. Con riferimento ai dati seguenti
∑
∑ /n
xi
3.5
3
1
4
2
3
3
2
2
1
24.5
2.45
M(X)
yi
6
4
3.5
6
5.5
5
7
3
6
2
48
4.8
M(Y )
xi · yi
21
12
3.5
24
11
15
21
6
12
2
127.5
12.75
M(XY )
Cov(X,Y ) = M(XY ) − μX μY
=
12.75 − 2.45 · 4.8 = 12.75 − 11.76 = 0.99
17.24
6 Media di una combinazione lineare
Teorema 9 (Media di una combinazione lineare). Siano X e Y due variabili statistiche
con medie μX e μY e sia
W = a + bX + cY.
Allora
M(W ) = a + bM(X) + cM(Y ).
Dimostrazione.
M(W ) = M(a + bX + cY ) = a + bM(X) + cM(Y ).
ricordando che la media è un operatore lineare.
17.25
224
Dimostrazione. La dimostrazione può anche essere svolta considerando la definizione
dell’operatore media aritmetica per una variabile statistica doppia
M(a + bX + cY ) =
=
1 h k
∑ ∑ (a + bxi + cy j )ni j
n i=1
j=1
k
h
∑ ∑ (a + bxi + cy j ) fi j
i=1 j=1
=
k
h
i=1 j=1
=
k
h
k
h
∑ ∑ a fi j + ∑ ∑ bxi fi j + ∑ ∑ cy j fi j
h
i=1 j=1
i=1 j=1
h
k
k
h
i=1
j=1
j=1
i=1
k
a ∑ ∑ fi j + b ∑ xi ∑ fi j + c ∑ y j ∑ fi j
i=1 j=1
h
k
i=1
j=1
=
a · 1 + b ∑ xi fi• + c ∑ y j f• j =
=
a + bμX + cμY .
17.26
7 Varianza di una combinazione lineare
Teorema 10 (Varianza di una combinazione lineare). Siano X e Y due variabili statistiche
con medie μX , μY , varianze σX2 , σY2 e covarianza Cov(X,Y ) = σXY .
Si definisca
W = a + bX + cY.
Allora
Var(W ) = b2Var(X) + c2Var(Y ) + 2bcCov(X,Y ).
Esempio 11.
μX = 5, μY = 10, σX2 = 4, σY2 = 5, σXY = 4.5
Se
W = 10 − 5X + 2Y
allora
a = 10, b = −5, c = +2
Var(W ) = (−5)2 · 4 + 22 · 5 + 2 · (−5) · 2 · 4.5 = 100 + 20 − 90 = 30
225
17.27
Dimostrazione.
!
"
Var(W ) = M [W − M(W )]2
"
!
= M [a + bX + cY − M(a + bX + cY )]2
"
!
= M [a + bX + cY − a − bμX − cμY )]2
!
"
= M [bX + cY − bμX − cμY )]2
= M [b(X − μX ) + c(Y − μY )]2
= M b2 (X − μX )2 + c2 (Y − μY )2 +
+2bc(X − μX )(Y − μY )]
2 2
2
= b M (X − μX ) + c M (Y − μY )2 +
+2bc M [(X − μX )(Y − μY )]
=
=
b2Var(X) + c2Var(Y ) + 2bcCov(X,Y )
b2 σX2 + c2 σY2 + 2bc σXY
17.28
8 Covarianza tra trasformazioni lineari
Teorema 12 (Covarianza tra trasformazioni lineari). Siano X e Y due variabili statistiche
con medie μX , μY , varianze σX2 , σY2 e covarianza Cov(X,Y ).
Si definiscano
W = a + bX
e
T = c + dY.
Allora
Cov(W, T ) = bd Cov(X,Y ).
17.29
Dimostrazione.
Cov(W, T ) = M {[W − M(W )][T − M(T )]}
= M {[a + bX − M(a + bX)][c + dY − M(c + dY )]}
= M {[a + bX − a − bμX )][c + dY − c − dμY )]}
= M {[bX − bμX )][dY − dμY )]}
= M {bd[X − μX )][Y − μY )]}
=
bd M {[X − μX )][Y − μY )]}
=
bd Cov(X,Y )
17.30
226
Sezione 18
Studio della dipendenza se
entrambe le variabili sono di tipo
quantitativo (2)
18.1
Indice
1
La dipendenza e le sue misure
227
2
I modelli di regressione
228
3
Il criterio dei minimi quadrati
230
4
Soluzione del problema: La funzione di Regressione
231
5
Origine del termine regressione
232
6
Adattamento e dipendenza
235
7
I polinomi di regressione
236
18.2
1 La dipendenza e le sue misure
Come si è visto nelle sezioni precedenti lo studio della dipendenza passa attraverso lo
studio delle distribuzioni condizionate:
studio condizionate → studio connessione
• condizionate somiglianti = indipendenza
• condizionate diverse = dipendenza
• condizionate degeneri = dipendenza funzionale
In più, data una v.s. doppia (X,Y ), quando la variabile dipendente (Y ) è quantitativa ci si
propone di descrivere al meglio l’andamento (la dinamica) del livello di Y al variare di X.
18.3
227
Esempio 1 (la scaltra commessa del negozio di scarpe). Per prevedere la lunghezza del
piede del cliente considera le informazioni relative a un campione di soggetti
yj
nj
37
3
lunghezza piede di 90 maschi adulti
38 39 40 41 42 43 44 45
5
8 12 16 21 13 8
3
M(Y ) = 41.3667,
46
1
90
Var(Y ) = 3.81
Ipotizzando che il campione estratto sia rappresentativo dei clienti del negozio, preso a
caso un maschio adulto possiamo affermare che la lunghezza del suo piede è in media tra
41 e 42.
Più correttamente applicando la diseguaglianza di Tchebychev
• con t = 2 una frazione degli
√ individui almeno pari al 75% avrà lunghezza del piede
nell’intervallo 41.4 ± 2 · 3.8 = [37.5, 45.3]
• con t = 3 una frazione degli
√ individui almeno pari al 89% avrà lunghezza del piede
nell’intervallo 41.4 ± 3 · 3.8 = [35.5, 47.2]
18.4
La commessa osserva, però, anche l’altezza del cliente prima di suggerire un articolo;
con riferimento al campione abbiamo (X = altezza in cm)
Y \X
37
38
39
40
41
42
43
44
45
46
medie
varianze
160
2
3
3
4
3
2
170
1
2
4
6
7
9
6
2
180
17
37
39.5294
2.3668
41.0811
2.8853
190
29
1
1
2
2
1
7
3
5
8
12
16
21
13
8
3
1
90
42.1379
1.843
44.1429
1.551
41.3667
3.81
1
2
6
9
6
4
1
Considerato un individuo di altezza 160 possiamo dire che Y è in media tra 39 e 40 (con
maggior precisione!)
Var(Y |X = 160) = 2.3668 < Var(Y ) = 3.81
I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 2 risultano
X
limin f
limsup
160
36.5
42.6
170
37.7
44.5
180
39.4
44.9
190
41.7
46.6
18.5
37.5
45.3
I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 3 risultano
X
limin f
limsup
160
34.9
44.1
170
36
46.2
180
38.1
46.2
190
40.4
47.9
35.5
47.2
18.6
228
2 I modelli di regressione
Definizione 2 (I modelli di regressione). Sono funzioni che descrivono il legame tra Y e
X
(studio della dipendenza)
vengono così definiti dei modelli teorici che possono essere utilizzati per approssimare le
osservazioni
(interpolazione)
Y ∗ = g(X)
Y = g(X) + E
ovvero
yi = g(xi ) + ei
y j = g(xi ) + ei j
dove E è la componente di errore, che riassume gli scostamenti di Y da Y ∗ dovuti
• alla misurazione
• al modello (altre esplicative non disponibili o non considerate).
18.7
Nella seguente tabella sono riassunte le informazioni relative alle variabili X e Y per 10
unità statistiche
X\Y 37 43 50 ni•
1
1
1
0
2
2
0
1
1
2
1
1
0
2
3
0
2
2
4
4
n• j
2
5
3 10
50
●
●
45
yi
37
43
50
43
37
43
43
50
50
43
●
●
●
●
40
xi
1
1
2
2
3
3
4
4
4
4
●
●
35
i
1
2
3
4
5
6
7
8
9
10
55
Si riportano, nel seguente prospetto, le medesime informazioni con riferimento alle coppie
di valori (xi , yi ) rilevati in corrispondenza di ciascuna delle 10 unità statistiche
0
1
2
3
4
5
18.8
Si supponga di interpretare la ⎧
variabile Y secondo una generica funzione della variabile
⎨ 41 se x = 1
45 se x = 2
X, ad esempio: Y ∗ = g1 (X) =
⎩ 42 se x = 3
ei = yi − g1 (xi )
37 − 41 = −4
43 − 41 = 2
50 − 45 = 5
43 − 45 = −2
37 − 42 = −5
43 − 42 = 1
43 − 47 = −4
50 − 47 = 3
50 − 47 = 3
43 − 47 = −4
229
●
50
g1 (xi )
41
41
45
45
42
42
47
47
47
47
●
45
yi
37
43
50
43
37
43
43
50
50
43
●
●
●
●
40
xi
1
1
2
2
3
3
4
4
4
4
●
●
35
i
1
2
3
4
5
6
7
8
9
10
55
47 se x = 4
0
1
2
3
4
5
vale
Y = Y ∗ + E = g1 (X) + E
dove le componenti della variabile E (errore) sono gli scarti tra i valori di Y e i valori
assegnati dal modello Y ∗ = g1 (X)
• ei = yi − g1 (xi ) in presenza di coppie dei valori (xi , yi )
• ei j = y j − g1 (xi ) in presenza di valori riclassificati in tabella
18.9
Al fine di definire un criterio per scegliere la funzione g mediante la quale interpretare
la variabile Y in funzione della variabile X occorre introdurre - come si è visto anche nel
contesto del ’criterio di scelta della media per minimizzazione del danno’ - una opportuna
penalizzazione degli scarti.
Si può considerare a tal fine la funzione di perdita quadratica1
e2i = [yi − g1 (xi )]2
e2i
16
4
25
4
25
1
16
9
9
16
55
ei
−4
2
5
−2
−5
1
−4
3
3
−4
●
50
g1 (xi )
41
41
45
45
42
42
47
47
47
47
●
45
yi
37
43
50
43
37
43
43
50
50
43
●
●
●
●
40
xi
1
1
2
2
3
3
4
4
4
4
●
●
35
i
1
2
3
4
5
6
7
8
9
10
e2i j = [y j − g1 (xi )]2
0
1
2
3
4
5
18.10
3 Il criterio dei minimi quadrati
Definizione 3 (Il criterio dei minimi quadrati). Si cerca la funzione g(x) ∈ G , insieme
delle funzioni che assumono valore reale, che rende minima la seguente funzione criterio
(che riassume il danno globale):
•
M(E 2 ) =
"
!
1 n 2 1 n
∑ ei = n ∑ [yi − g(xi )]2 = M [Y − g(X)]2
n i=1
i=1
in presenza di coppie di valori, oppure
•
M(E 2 ) =
"
!
1 h k 2
1 h k
ei j ni j = ∑ ∑ [y j − g(xi )]2 ni j = M [Y − g(X)]2
∑
∑
n i=1 j=1
n i=1 j=1
in presenza di dati raccolti in una tabella a doppia entrata
18.11
M(E 2 )
Definizione 4 (Errore quadratico medio).
si definisce Errore Quadratico Medio
(EQM), o in inglese Mean Squared Error (MSE).
Osservazione
Se la variabile errore ha media nulla allora M(E 2 ) = Var(E)
infatti
Var(E) = M (E − μE )2 = M (E − 0)2 = M(E 2 )
18.12
1 Come
si è visto nella Sezione 6 esistono anche altre funzioni di perdita, ad esempio |ei | = |yi − g1 (xi )|
230
⎧
41 se x = 1
⎪
⎪
⎨
45 se x = 2
∗
Y = g1 (X) =
⎪ 42 se x = 3
⎪
⎩
47 se x = 4
i
1
2
3
4
5
6
7
8
9
10
xi
1
1
2
2
3
3
4
4
4
4
yi
37
43
50
43
37
43
43
50
50
43
g1 (xi )
41
41
45
45
42
42
47
47
47
47
Somma
Media
ei
−4
2
5
−2
−5
1
−4
3
3
−4
−5
−0.5
e2i
16
4
25
4
25
1
16
9
9
16
125
12.5
In corrispondenza della funzione g1 (x) l’errore quadratico medio risulta M(E 2 ) = 12.5.
A ogni funzione g(x) è associato un diverso valore dell’errore quadratico medio.
Nel seguente caso g2 (x) è preferibile a g1 (x).
⎧
41 se x = 1
⎪
⎪
⎨
45 se x = 2
∗
Y = g1 (X) =
⎪ 42 se x = 3
⎪
⎩
47 se x = 4
i
1
2
3
4
5
6
7
8
9
10
xi
1
1
2
2
3
3
4
4
4
4
yi
37
43
50
43
37
43
43
50
50
43
g1 (xi )
41
41
45
45
42
42
47
47
47
47
Somma
Media
ei
−4
2
5
−2
−5
1
−4
3
3
−4
−5
−0.5
18.13
⎧
38.5 se x = 1
⎪
⎪
⎨
46 se x = 2
∗
Y = g2 (X) =
⎪ 41 se x = 3
⎪
⎩
47 se x = 4
e2i
16
4
25
4
25
1
16
9
9
16
125
12.5
i
1
2
3
4
5
6
7
8
9
10
xi
1
1
2
2
3
3
4
4
4
4
yi
37
43
50
43
37
43
43
50
50
43
g2 (xi )
38.5
38.5
46
46
41
41
47
47
47
47
Somma
Media
ei
−1.5
4.5
4
−3
−4
2
−4
3
3
−4
0
0
e2i
2.25
20.25
16
9
16
4
16
9
9
16
117.5
11.75
g2 (x) è anche caratterizzata dal fatto che M(E) = 0, di conseguenza non genera errori
sistematici.
M(E) = 0 rappresenta una caratteristica auspicabile per un modello di regressione.
18.14
4 Soluzione del problema: La funzione di Regressione
Teorema 5. In presenza di una variabile statistica doppia (X,Y )
M(E 2 ) =
"
!
1 h k 2
1 h k
ei j ni j = ∑ ∑ [y j − g(xi )]2 ni j = M [Y − g(X)]2
∑
∑
n i=1 j=1
n i=1 j=1
con g ∈ G , insieme delle funzioni che assumono valore reale, risulta minima se
g(x) = M(Y |X).
18.15
231
Dimostrazione.
" 1 h k
!
M(E 2 ) = M [Y − g(X)]2 = ∑ ∑ [y j − g(xi )]2 ni j =
n i=1 j=1
1 h ni•
∑ ni•
n i=1
=
h
1
∑ ni•
n i=1
=
k
h
k
i=1
j=1
1
ni j
∑ [y j − g(xi )]2 ni j = n ∑ ni• ∑ [y j − g(xi )]2 ni• =
j=1
k
ni j
∑ [y j − g(xi )]2 ni•
j=1
Si osserva come ciascuna espressione in parentesi graffe è non negativa ed è riferita alla
distribuzione condizionata Y |xi .
Minimizzando tutte queste espressioni si otterrà il minimo globale.
Si è riformulato in un insieme di h problemi di minimo.
Con riferimento a ciascuna delle distribuzioni condizionate Y |xi occorre determinare il
valore α = g(xi ) che rende minima
k
ni j
∑ [y j − α]2 ni•
ovvero
M (Y − α)2 |X = xi .
j=1
In base al criterio di scelta della media per minimizzazione del danno la soluzione risulta
α = g(xi ) = M(Y |xi ) = μY (xi ).
18.16
Definizione 6 (Funzione di Regressione). Si definisce Funzione di Regressione una qualsiasi funzione che associa a ogni xi la media di Y condizionata a xi
M(E 2 ) risulta, quindi, minimo in corrispondenza della funzione di regressione.
55
⎧
40 se x = 1
⎪
⎪
⎨
46.5 se x = 2
Y ∗ = M(Y |X) =
40 se x = 3
⎪
⎪
⎩
46.5 se x = 4
ei
−3
3
3.5
−3.5
−3
3
−3.5
3.5
3.5
−3.5
0
0
e2i
9
9
12.25
12.25
9
9
12.25
12.25
12.25
12.25
109.5
10.95
232
●
50
M(Y |xi )
40
40
46.5
46.5
40
40
46.5
46.5
46.5
46.5
Somma
Media
●
45
yi
37
43
50
43
37
43
43
50
50
43
●
●
●
●
40
xi
1
1
2
2
3
3
4
4
4
4
●
●
35
i
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
18.17
∑
M
Y
yi
y2i
37
1369
43
1849
50
2500
43
1849
37
1369
43
1849
43
1849
50
2500
50
2500
43
1849
439
19483
43.9 1948.3
xi
1
2
3
4
v.s. medie condizionate
M(Y |xi ) ni• M(Y |xi ) · ni•
40
2
80
46.5
2
93
40
2
80
46.5
4
186
10
439
xi
1
2
3
4
[M(Y |xi )]2 · ni•
3200.0
4324.5
3200.0
8649.0
19373.5
v.s. varianze condizionate
Var(Y |xi ) ni• Var(Y |xi ) · ni•
9
2
18
12.25
2
24.5
9
2
18
12.25
4
49
10
109.5
M(Y ) = MX [M(Y |X)]
=
43.9
M(Y 2 )
=
1948.3
Var(Y )
=
1948.3 − 43.92 = 21.09
varianza spiegata = VarX [M(Y |X)]
=
1937.35 − 43.92 = 10.14
varianza residua = MX [Var(Y |X)]
=
10.95
Var(Y )
=
var. sp. + var. res. = 10.14 + 10.95 = 21.09
rapporto di correlazione ηY2|X
=
VarX [M(Y |X)]
= 0.4808
Var(Y )
18.18
5 Origine del termine regressione
Galton F.R.S., Regression towards Mediocrity in Hereditary Stature, Journal of the Anthropological
Institute, 15, 246-263 (1886)
Plants data:
’It appeared from these experiments that the offspring did not tend to resemble their parent
seeds in size, but to be always more mediocre than they—to be smaller than the parents,
if the parents were large; to be larger than the parents, if the parents were very small.’
Humans data:
’The child inherits partly from his parents, partly from his ancestry. ... Their mean stature
will then be the same as that of the race; in other words, it will be mediocre. Or, to put
the same fact into another form, the most probable value of the mid-ancestral deviates in
any remote generation is zero.’
’The average regression of the offspring to a constant fraction of their respective midparental deviations, which was first observed in the diameters of seeds, and then confirmed
by observations on human stature, is now shown to be a perfectly reasonable law which
might have been deductively foreseen.’
233
18.19
Righe: Heights of the Midparents in inches
Colonne: Heights of the Adult Children in inches
61.7
0
0
0
1
0
1
0
0
1
1
1
62.2
0
0
0
0
0
0
3
3
0
1
0
63.2
0
0
0
1
1
7
5
3
9
4
2
64.2
0
0
0
0
16
11
14
5
5
4
4
65.2
0
0
1
1
4
16
15
2
7
1
1
66.2
0
0
3
1
17
25
36
17
11
5
2
67.2
0
0
4
3
27
31
38
17
11
5
2
68.2
0
1
3
12
20
34
28
14
7
0
1
70
●
●
64
66
68
●
70.2
0
1
10
14
25
21
19
4
5
0
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
64
●
71.2
0
2
4
7
20
18
11
0
2
0
0
●
●
●
62
69.2
0
2
5
18
33
48
38
13
7
2
1
●
●
62
Heights of the Adult Children in inches
72
74
73
72.5
71.5
70.5
69.5
68.5
67.5
66.5
65.5
64.5
64
●
68
73.2
3
2
2
3
4
3
0
0
0
0
0
73.7
0
4
2
3
5
0
0
0
0
0
0
18.20
●
●
66
72.2
1
7
9
4
11
4
4
0
1
0
0
●
70
72
74
Heights of the Midparents in inches
18.21
18.22
18.23
234
6 Adattamento e dipendenza
La funzione di regressione consente di descrivere il legame in media, quindi si ha:
• adattamento buono se:
– punti sperimentali vicini alla funzione di regressione g(x) = M(Y |X)
– bassa variabilità attorno alle medie condizionate
• dipendenza nulla se:
– medie condizionate tutte eguali
• dipendenza massima se:
– medie condizionate differenti
– variabilità nulla attorno alle medie condizionate
Indicata, allora, la varianza della variabile statistica medie condizionate con
σ̄Y2|X = VarX {M(Y |X)}
essa costituisce un indice di dipendenza (assoluto).
Con riferimento al modello funzione di regressione la quantità
M(E 2 ) =
M(E 2 ) =
18.24
!
"
1 n 2 1 n
∑ ei = n ∑ [yi − M(Y |xi )]2 = M [Y − M(Y |X)]2
n i=1
i=1
"
!
1 h k 2
1 h k
ei j ni j = ∑ ∑ [y j − M(Y |xi)]2 ni j = M [Y − M(Y |X)]2
∑
∑
n i=1 j=1
n i=1 j=1
in presenza di coppie di valori o di tabella a doppia entrata, coincidono con la varianza
residua.
Infatti, con riferimento a dati classificati in una tabella a doppia entrata, M(E 2 ) puo essere
riscritto come:
M(E 2 ) = M (E − 0)2
k
ni j
1 h
ni• ∑ [y j − M(Y |xi )]2
=
∑
n i=1 j=1
ni•
!
"
= MX M [Y − M(Y |X)]2 |X
=
MX [Var(Y |X)] = σY2∗|X
=
18.25
Definizione 7 (Scomposizione della varianza in corrispondenza del modello funzione di
regressione).
σY2
=
σ̄Y2|X + σY2∗|X
Var(Y ) = VarX [M(Y |X)] + MX [Var(Y |X)]
= varianza spiegata + varianza residua
La bontà del modello può essere identificata con la quota di varianza spiegata
ηY2|X =
VarX [M(Y |X)]
Var(Y )
18.26
235
7 I polinomi di regressione
Si è introdotta la funzione di regressione come una qualsiasi funzione passante per le h
medie condizionate.
Tra le infinite funzioni che soddisfano tale definizione figura anche il polinomio di grado
(h − 1)
y∗ = a0 + a1 x + a2 x2 + . . . + ah−1 xh−1
che unisce le medie senza soluzione di continuità.
Per determinare i coefficienti a0 , a1 , a2 , . . . , ah−1 di tale polinomio, occorre risolvere il
seguente sistema di h equazioni lineari
⎧
h−1
2
⎪
⎨ M(Y |x1 ) = a0 + a1 x1 + a2 x1 + . . . + ah−1 x1
..
.
⎪
⎩
M(Y |xh ) = a0 + a1 xh + a2 xh2 + . . . + ah−1 xhh−1
18.27
Si osserva però come il modello descritto dal polinomio di grado (h − 1) sia troppo
complesso nelle applicazioni pratiche.
Si pensi ad esempio al polinomio interpolante una serie storica di lunghezza h.
Comunemente si fa, quindi, ricorso a modelli più semplici:
polinomi di grado inferiore a (h − 1)
Si considerano dei modelli polinomiali completi di grado r
18.28
0 ≤ r ≤ h−1
spazio funzioni
G = che assumono
valore reale
ĝ
L0
L1
...
Lh−1
L0 ⊂ L1 ⊂ . . . ⊂ Lh−1 ⊂ G
Y = Y ∗ + E = λ (x) = a0 + a1 X + a2 X 2 + . . . + ar X r + E
si tratta di modelli lineari nei parametri.
I parametri ai (i = 0, 1, . . . , r) possono essere determinati applicando ai dati il criterio dei
minimi quadrati, che va a ricercare la soluzione che rende minimo l’errore quadratico
medio
"
!
M(E 2 ) = M [Y − λ (X)]2
= M (Y − a0 − a1 X − a2 X 2 − . . . − ar X r )2
Osservazione
Si dimostra, infatti, che, in base al criterio dei minimi quadrati, il modello che meglio
approssima i dati è lo stesso che meglio approssima la funzione di regressione.
Definizione 9 (Varianza residua). Se M(E) = 0, allora
M(E 2 ) = Var(E)
è denominato varianza residua.
236
18.29
18.30
Osservazione
La relazione M(E) = 0 risulta verificata se il parametro a0 (denominato costante o intercetta) non è vincolato.
La denominazione varianza residua, deriva dalla letteratura anglosassone nella quale le
determinazioni della variabile errore E sono indicate con il termine residual.
18.31
Definizione 10 (Scomposizione della varianza). Si dimostra che se in un modello polinomiale il parametro a0 (denominato costante o intercetta) non è vincolato, allora vale la
seguente scomposizione della varianza di Y .
Var(Y ) = varianza spiegatamodello + varianza residuamodello
=
varianza spiegatamodello + M(E 2 )
Definizione 11 (Indice di adattamento). Se M(E) = 0, allora, è possibile definire la
seguente misura normalizzata
R2 = 1 −
Var(E)
M(E 2 )
= 1−
Var(Y )
Var(Y )
detta indice di adattamento.
Osservazione
L’indice di adattamento R2 può essere interpretato come la quota di varianza spiegata dal
modello.
237
18.32
Sezione 19
Modelli polinomiali
19.1
Indice
1
Il modello costante Y = a0 + E
239
1.1 Errore Quadratico Medio e Indice di adattamento . . . . . . . . . . . . . 239
2 Il modello retta Y = a + bX + E
2.1 Scomposizione della varianza totale . . . . . . . . . . . . . . . . . . . .
2.2 Indice adattamento retta . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Errore Quadratico Medio retta di regressione . . . . . . . . . . . . . . .
2.4 Una ulteriore scomposizione della varianza residua del modello retta . . .
2.5 Retta di regressione e covarianza . . . . . . . . . . . . . . . . . . . . . .
2.6 Relazione tra indipendenza stocastica, indipendenza in media e indipendenza lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Il coefficiente di correlazione lineare . . . . . . . . . . . . . . . . . . . .
2.8 Confronto tra η 2 e ρ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
240
241
242
242
242
243
244
245
247
Esercizi
249
3.1 Esercizi sul confronto tra ρ 2 e η 2 . . . . . . . . . . . . . . . . . . . . . . 249
3.2 Esercizi di carattere teorico . . . . . . . . . . . . . . . . . . . . . . . . . 254
19.2
1 Il modello costante Y = a0 + E
Si tratta del polinomio di grado r = 0.
La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈ L0
â0 = arg min M[E 2 ] = arg min M (Y − a0 )2 = M(Y ) = μY
a0 ∈ℜ
a0 ∈ℜ
5
(per le proprietà della media aritmetica: cfr. scelta per minimizzazione del danno)
●
●
4
●
3
●
μY
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
2
●
●
0
●
0
1
2
3
4
5
19.3
239
1.1
Errore Quadratico Medio e Indice di adattamento
L’errore quadratico medio risulta:
M(E 2 ) = M (Y − μY )2 = Var(Y )
Dal momento che M(E) = M(Y − μY ) = 0 l’errore quadratico medio coincide con la
varianza residua.
L’indice di adattamento R2 (quota di varianza spiegata) assume valore nullo:
1−
M(E 2 )
Var(Y )
= 1−
= 0.
Var(Y )
Var(Y )
Osservazioni
• Non passa necessariamente per le medie condizionate
• È il modello più semplice, però è decisamente scarso:
anche se i dati presentano trend non ne tiene conto!
19.4
2 Il modello retta Y = a + bX + E
Esprime la dinamica in modo solo proporzionale.
La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈ L1
(â, b̂) = arg min M[E 2 ] = arg min M (Y − a − bX)2
a,b
Si ottiene:
Cov(X,Y )
Var(X)
â = M(Y ) − b̂ M(X)
5
b̂ =
a,b
●
●
4
●
3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
2
●
●
0
●
0
1
2
3
4
5
19.5
Dimostrazione. Occorre risolvere il seguente sistema di equazioni lineari (denominate
equazioni normali)
⎧
⎨ ∂ M[(Y −a−bX)2 ]
=0
∂a
⎩ ∂ M[(Y −a−bX)2 ] = 0
∂b
M [2(Y − a − bX)(−1)] = 0
M [2(Y − a − bX)(−X)] = 0
−2M(Y − a − bX) = 0
−2M [(Y − a − bX)X] = 0
M(Y − a − bX) = 0
M [(Y − a − bX)X] = 0
240
Si osserva come, in corrispondenza dei valori (a, b) soluzione del sistema, dalla prima
equazione segue che M(E) = 0.
Dalla seconda equazione, sempre in corrispondenza dei valori (a, b) soluzione del sistema, abbiamo M(EX) = 0. La seconda equazione impone, quindi, l’ortogonalità tra E e
X, da cui la denominazione di sistema delle equazioni normali.
Dal momento che M è un operatore lineare, dalla prima equazione si ottiene
M(Y ) − a − bM(X) = 0
â = M(Y ) − bM(X) = μY − bμX
che può essere sostituito nella seconda equazione del sistema
M {[Y − (μY − bμX ) − bX]X} = 0
M XY − μY X + bμX X − bX 2 = 0
M(XY ) − μY M(X) + bμX M(X) − b M X 2 = 0
M(XY ) − μX μY + b (μX )2 − bM X 2 = 0
$ %
[M(XY ) − μX μY ] − b M X 2 − (μX )2 = 0
b̂ =
M(XY ) − μX μY
M (X 2 ) − (μX )2
=
Cov(X,Y )
.
Var(X)
19.6
In definitiva:
b̂ =
Cov(X,Y )
Var(X)
â = M(Y ) − b̂ M(X)
Osservazione
Si dimostra che la retta interpolante tutti i dati osservati è equivalente alla retta approssimante le medie condizionate.
2.1
Scomposizione della varianza totale
Definizione 1 (Scomposizione della varianza totale). Data la retta di regressione
Y = â + b̂X + E = Y ∗ + E
dove â e b̂ sono i valori dei coefficienti a e b del modello retta Y = a + bX + E, ottenuti
secondo il criterio dei minimi quadrati, vale la seguente scomposizione
Var(Y ) = varianza spiegataretta + varianza residuaretta
= Var(Y ∗ ) +Var(E)
= Var(Y ∗ ) + M(E 2 )
con
varianza spiegataretta
varianza residuaretta
= Var(Y ∗ ) = Var(â + b̂X) = b̂2Var(X) =
[Cov(X,Y )]2
Cov(X,Y ) 2
Var(X) =
=
Var(X)
Var(X)
$
%
= M(E 2 ) = M (Y −Y ∗ )2 .
L’errore quadratico medio coincide con Var(E), varianza dell’errore, (M(E) = 0).
241
19.7
19.8
Dimostrazione. Dalla prima equazione del sistema delle equazioni normali, cfr. dimostrazione che ha portato alle formule dei coefficienti â e b̂, si è ottenuto
M(E) = M(Y −Y ∗ ) = 0
quindi
M(Y ∗ ) = M(Y ) = μY .
Si considera ora la varianza di Y
$
%
$
%
Var(Y ) = M (Y − μY )2 = M (Y −Y ∗ +Y ∗ − μY )2
= M [(Y −Y ∗ ) + (Y ∗ − μY )]2
%
$
%
$
= M (Y −Y ∗ )2 + M (Y ∗ − μY )2 + M [2 (Y −Y ∗ ) (Y ∗ − μY )]
$
%
= M E 2 + M (Y ∗ − μY )2 + 2M [(Y −Y ∗ ) (Y ∗ − μY )]
• L’errore quadratico medio al primo addendo coincide con la varianza della variabile
errore (residual), dal momento che M(E) = 0.
• Il secondo addendo misura la variabilità dei valori teorici del modello (punti sulla
retta) rispetto alla media di Y e rappresenta la parte della variabilità di Y che il
modello retta è in grado di spiegare.
• Il terzo addendo, 2 volte la covarianza tra E = (Y −Y ∗ ) e (Y ∗ − μY ), risulta nullo:
M [E (Y ∗ − μY )] = M E â + b̂X − â − b̂μX = M E b̂X − b̂μX = M b̂EX − b̂μX E
= b̂M (EX) − b̂μX M (E) = b̂ · 0 − b̂μX · 0 = 0
essendo M (EX) = M [(Y −Y ∗ ) X] = 0 in base alla seconda equazione del sistema
delle equazioni normali.
Quindi
Var(Y ) = Var(E) +Var(Y ∗ ) = varianza residuaretta + varianza spiegataretta .
19.9
2.2
Indice adattamento retta
Definizione 2 (Indice di adattamento della retta di regressione). Dal momento che vale la
scomposizione
Var(Y ) = varianza spiegataretta + varianza residuaretta
possiamo definire, analogamente al modello funzione di regressione, un indice di adattamento come
R2
=
=
varianza residuaretta
M(E 2 )
varianza spiegataretta
= 1−
= 1−
Var(Y )
Var(Y )
Var(Y )
[Cov(X,Y )]2
Var(X)
Var(Y )
=
[Cov(X,Y )]2
= ρ 2.
Var(X)Var(Y )
19.10
242
2.3
Errore Quadratico Medio retta di regressione
Osservazione
È possibile ricavare l’errore quadratico medio, o varianza residua, del modello retta come
M(E 2 ) = varianza residuaretta = 1 − ρ 2 Var(Y )
•
•
•
2
la quota di varianza spiegata dal modello retta
ρ rappresenta
1 − ρ 2 rappresenta la quota di varianza non spiegata (residua)
varianza residuaretta è l’ammontare di varianza non spiegata
19.11
2.4
Una ulteriore scomposizione della varianza residua del modello retta
La retta (secondo i minimi quadrati) e la funzione di regressione sono state ottenute come
le funzioni che rendono minimo l’errore quadratico medio rispettivamente nelle classi:
• L1 , delle rette,
• G , delle funzioni che assumono valore reale.
Dal momento che L1 ⊂ G vale la seguente relazione tra gli errori quadratici medi (varianze residue) dei due modelli
2 2
M Efunzione
di regressione ≤ M Eretta .
L’indice di adattamento della retta assumerà, di conseguenza, un valore inferiore a quello
della funzione di regressione:
ρ 2 ≤ ηY2|X .
19.12
Segue l’ulteriore scomposizione della varianza residua del modello retta
varianza residuaretta = σY2∗|X + σY2∗∗
|X
dove
• σY2∗|X = VarX [M(Y |X)] = var. residuafunzione di regressione
∗
• σY2∗∗
|X = Var [Y − M(Y |X)] = Var â + b̂X − M(Y |X) varianza degli scostamenti
tra i valori teorici secondo il modello retta e le medie condizionate (valori teorici
secondo la funzione di regressione)
La varianza residua della funzione di regressione viene anche detta varianza irriducibile,
in quanto coincide con il valore minimo che può assumere l’errore quadratico medio di
un modello scelto con il criterio dei minimi quadrati.
2.5
Retta di regressione e covarianza
Si è visto come la formula del coefficiente angolare della retta di regressione secondo i
minimi quadrati e l’indice di adattamento del modello retta dipendono dalla covarianza
Cov(X,Y )2
Cov(X,Y )
2
b̂ =
, ρ =
.
Var(X)
Var(X)Var(Y )
È, quindi, possibile identificare la covarianza come indicatore fondamentale della dipendenza lineare.
243
19.13
Definizione 3 (indipendenza lineare). Si ha indipendenza lineare se
Cov(X,Y ) = Cov(Y, X) = 0 ↔ b = 0 ↔ ρ 2 = 0.
Definizione 4 (perfetta dipendenza lineare). Si ha perfetta dipendenza lineare se
ρ 2 = 1.
2 = 1.
In questa situazione vale ηY2|X = ηX|Y
19.14
2.6
Relazione tra indipendenza stocastica, indipendenza in media
e indipendenza lineare
indipendenza stocastica
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
'
(
Y |xi ∼ Y
↔
X|y j ∼ X
⏐
⏐
⏐
⏐
↓ ↑\/
↓ ↑\/
⏐
⏐
⏐
⏐ M(Y |x ) = M(Y )
↔
\/
M(X|y j ) = M(X)
i
⏐
⏐ i = 1, 2, . . . , h
j = 1, 2, . . . , k
⏐
⏐
⏐
\/
⏐
2 =0
ηY2|X = 0
indipendenza
ηX|Y
⏐
⏐
in media
⏐
⏐
↓ ↑\/
↓ ↑\/
⏐
⏐
⏐
⏐
Cov(X,Y ) = Cov(Y, X) = 0
⏐
⏐
indipendenza lineare
⏐
se le medie condizionate sono tra loro eguali
la retta che le interpola ha coefficiente angolare nullo
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
'
(
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
\/
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
⏐
19.15
Osservazione
Possono sussistere contemporaneamente le situazioni di indipendenza lineare e dipendenza funzionale; si consideri, al riguardo, il seguente esempio
X \Y
1
2
5
n• j
8
0
k
0
k
23
0
0
k
k
29
k
0
0
k
ni•
k
k
k
n = 3k
Le distribuzioni condizionate Y |xi e X|y j sono degeneri; sussiste, quindi, dipendenza
funzionale bijettiva, ma Cov(X,Y ) = 0.
M(XY ) =
μX =
1
1
160k 160
(1 · 29k + 2 · 8k + 5 · 23k) = (29k + 16k + 115k) =
=
3k
3k
3k
3
1
8k 8
(1k + 2k + 5k) =
=
3k
3k 3
1
60k
(8k + 23k + 29k) =
= 20
3k
3k
160 160
160 8
− 20 =
−
=0
Cov(X,Y ) = M(XY ) − μX μY =
3
3
3
3
μY =
244
35
30
25
●
10
15
20
●
0
5
●
0
1
2
3
4
5
19.16
2.7
Il coefficiente di correlazione lineare
Definizione 5 (Il coefficiente di correlazione lineare). Si definisce coefficiente di correlazione lineare tra X e Y , ρXY , anche indicato con il simbolo ρ, la covarianza tra le
corrispondenti variabili standardizzate
X − μX Y − μY
Cov(X,Y )
,
ρ = Cov
=
σX
σY
σX σY
dove μX , μY , σX , σY sono rispettivamente le medie e gli scarti quadratici medi.
Teorema 6.
−1 ≤ ρ ≤ 1
19.17
Dimostrazione. Il quadrato del coefficiente di correlazione lineare
ρ=
Cov(X,Y )
σX σY
coincide con l’indice di adattamento del modello retta, ρ 2 , quota di varianza spiegata dal
modello retta,
0 ≤ ρ2 ≤ 1
da cui segue la tesi.
19.18
Dimostrazione. Si ricorda che una variabile standardizzata Z è caratterizzata da media
nulla e varianza unitaria, quindi:
X
Y
X
Y
= M Y −μ
= 0 Var X−μ
= Var Y −μ
=1
M X−μ
σX
σY
σX
σY
Si considerano le varianze delle variabili somma e differenza delle variabili X e Y standardizzate. Entrambe le varianze risultano non negative.
⎧
⎨ Var X−μX + Y −μY ≥ 0
σ
σ
Y X
⎩ Var X−μX − Y −μY ≥ 0
σX
σY
⎧
⎨ Var X−μX +Var Y −μY + 2Cov X−μX , Y −μY ≥ 0
σ
σ
σ
σ
X
Y
X
Y
⎩ Var X−μX +Var Y −μY − 2Cov X−μX , Y −μY ≥ 0
σX
σY
σX
σY
1 + 1 + 2ρ ≥ 0
1 + 1 − 2ρ ≥ 0
245
2 + 2ρ ≥ 0
2 − 2ρ ≥ 0
1+ρ ≥ 0
1−ρ ≥ 0
da cui segue la tesi −1 < ρ < 1.
19.19
ρ ed equazione retta di regressione
Cov(X,Y )
Cov(X,Y )
σY
b̂ =
ρ=
→ b̂ = ρ
2
σ
σ
σ
σX
X Y
X
da cui
Y ∗ = â + b̂X = μY − b̂μX + b̂X = μY + b̂(X − μX ) = μY + ρ
σY
(X − μX )
σX
5
5
5
retta di regressione al variare di ρ
●
●
● ●●
●
●
●
●
●
●
● ● ● ●
●
●
●
●
●
●●
●●
●
3
●
●
●
● ●
μY
●
2
2
●
●
●●
●
●
●
●
●
●
●
●
1
2
μX
3
4
5
−1 < ρ < 0
●
●
●
●
●
●
●
●
0
1
●
1
●
● ●
●
●
●
●
● ●
●
● ●
●
●
●
●
●●
●●
● ●
●
●
● ●
●
● ●
●
●
●
●●
●
0
0
1
●
●
0
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●
●●
● ●
●● ●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
3
●●
●●
●
μY
●
2
μY
●●
●●
●
3
● ●
●
●
4
4
4
●
●
●
0
1
2
μX
3
4
5
0
1
2
ρ 0
μX
3
4
5
0 < ρ < +1
19.20
5
●
4
4
5
●
μY
3
●●
●●●
●
●●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
μY
●
3
●
●
●●
●●●
●
●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
2
1
0
0
1
2
●
0
1
2
μX
3
4
5
0
ρ = −1
1
2
μX
3
4
5
ρ = +1
19.21
246
2.8
Confronto tra η 2 e ρ 2
Si ipotizza di studiare la dipendenza di Y da X
0 ≤ ρ 2 ≤ ηY2|X ≤ 1
5
ηY2|X = 1
5
0 < ηY2|X < 1
5
ηY2|X = 0
●
●
●
4
●
4
4
●
●
●
●
●
●
●
●
●
●
●
●
3
●
3
3
●
●
●
●
●
●
●
●
●
●
●
2
2
●
1
●
●
2
ρ2 = 0
●
●
4
6
8
0
2
4
6
8
0
2
4
6
8
5
2
5
0
0
0
●
0
1
●
1
●
●
4
●
4
●
●
●
●
●
●
●
3
3
●
2
●
●
●
no
●
●
●
2
0 < ρ2 < 1
●
●
1
0
0
1
●
2
4
6
8
0
2
4
6
8
5
0
4
●
●
3
●
no
●
2
no
0
1
ρ2 = 1
0
2
4
6
8
19.22
5
η2 = 0
Se η 2 = 0 anche ρ 2 = 0 in quanto le medie condizionate M(Y |xi ) sono uguali a M(Y ).
4
●
●
●
3
●
●
●
●
●
●
●
●
2
●
●
●
●
0
1
●
0
2
4
6
8
19.23
247
η2 = 1
Se η 2 = 1 sussiste dipendenza funzionale di Y da X in quanto le distribuzioni condizionate
(Y |xi ) sono degeneri.
5
ηY2|X = 1
4
i dati hanno una configurazione tale che
la retta interpolante risulta piatta
●
3
●
●
2
●
0
1
ρ2 = 0
2
4
6
8
5
0
4
●
3
●
●
2
●
0
1
0 < ρ2 < 1
2
4
6
8
ρ 2 = ηY2|X = 1
sussiste perfetta dipendenza lineare
5
0
4
●
●
3
●
2
●
0
1
ρ2 = 1
0
2
4
6
8
19.24
0 < η2 < 1
Come la situazione precedente, ma è presente la nuvola dei punti in quanto le distribuzioni
condizionate (Y |xi ) non sono tutte degeneri.
19.25
0 < ρ2 = η2 < 1
Se ρ 2 = η 2 il modello funzione di regressione e il modello retta coincidono (hanno lo
stesso errore quadratico medio); di conseguenza le medie condizionate sono allineate.
5
5
●
●
●
4
4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3
3
●
●
●
●
●
●
2
●
1
●
0
2
●
0
1
●
●
0
2
4
6
8
0
ρ <0
2
4
6
8
ρ >0
19.26
248
3 Esercizi
I seguenti esercizi sono articolati in 2 gruppi
• esercizi sul confronto tra ρ 2 e η 2 ,
• esercizi di carattere teorico.
La presente sezione ha carattere integrativo rispetto agli esercizi che presuppongono uno
sviluppo numerico.
3.1
19.27
Esercizi sul confronto tra ρ 2 e η 2
Esercizio 7 (T 246, 18.09.2008, 4). Si indichi, per ognuna delle seguenti tabelle a doppia
entrata, il valore assunto dagli indici sotto indicati, motivando le risposte.
1.
X \Y
1
2
3
4
10
0
0
5
0
8
0
6
0
0
6
2 , η2 , ρ2
ηX|Y
Y |X
2.
X \Y
1
2
3
4
10
0
10
5
0
8
0
2 , η2 , χ2
ηX|Y
Y |X
19.28
Esercizio 8 (T 243, 19.06.2008, 2). Completare la seguente tabella, motivando le risposte, in
modo tale che:
1. ηY2|X = 0 e ρ 2 = 1;
2. ρ 2 = 0 e χN2 = 1;
3. ηY2|X = χN2 .
X \Y
3
5
10
3
15
20
6
3
8
4
12
19.29
Esercizio 9 (T 239, 10.01.2008, 4). Completare la tabella, esplicitando anche i valori possibili
2 = 1:
per x2 e y2 , in modo tale ρ 2 = 0 e ηX|Y
X \Y
5
x2
1
y2
3
1
19.30
Esercizio 10 (T 251, 18.06.2009, 2). Data la seguente tabella a doppia entrata si determinino i
valori delle frequenze n21 ed n22 in modo tale che risulti:
1. ηY2|X = ρ 2 = 1
2. 0 < ηY2|X = ρ 2 < 1
3. ηY2|X = ρ 2
249
X \Y
10
11
12
1
2
2
0
0
0
3
0
1
2
19.31
Esercizio 11 (T 255, 14.01.2010, 5). Si completino ove possibile le seguenti tabelle, motivando
la risposta, in modo tale che:
1.
X \Y
1
2
5
2
0
0
4
0
8
0
0
0
4
ρ 2 = ηY2|X = 1
2.
X \Y
1
3
2
4
0
0
6
0
5
2 >0
ηY2|X = 0 e contemporaneamente ηX|Y
19.32
Esercizio 12 (T 257, 11.02.2010, 5). Se possibile e giustificando teoricamente le risposte,
completare le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.
X \Y
3 4 ?
4
0 8 ?
7
12 0 ?
1. χN2 = 1 ρ = 0
2 =1
2. ηY2|X = ηX|Y
2 =0
3. ρ 2 = ηY2|X = ηX|Y
19.33
Esercizio 13 (T 261, 13.01.2011, 4). Si completi ove possibile la seguente tabella, motivando
la risposta, in modo tale che:
X \Y 1 5
10
0
20
0
95
1. 0 < ρ 2 = ηY2|X < 1
2. χ 2 = 95
3. ρ 2 = 0
19.34
Esercizio 14 (T 262, 03.02.2011, 4). Si completi se possibile la seguente tabella, motivando la
risposta, in modo tale che:
X \Y 1 2 3
1
1
3
1
6
1. ηY2|X = 0 e ρ 2 = 1
2. ρ 2 = 0
19.35
250
Esercizio 15 (T 266, 12.01.2012, 4). La tabella seguente riporta le osservazioni della variabile
Y in corrispondenza di 5 valori della X:
xi 8 8 10 12 12
yi 4 6 y3 8 10
2 = 1.
Si indichi un valore da assegnare a y3 affinché ρ 2 < ηY2|X e ηX|Y
19.36
Esercizio 16 (T 263, 17.02.2011, 4). Si completino se possibile le seguenti tabelle, riportando
modalità e frequenze e motivando teoricamente la risposta, in modo tale che:
1.
X \Y
9
10
11
2
y2
2 =0eρ >0
ηY2|X = 1, ηX|Y
2.
X \Y
9
10
11
12
2
y2
4
0
0
7
ηY2|X = 1 e ρ < 0
19.37
Esercizio 17 (T 264-1, 09.06.2011, 5). Si completino se possibile le seguenti tabelle, riportando modalità e frequenze e motivando teoricamente la risposta, in modo tale che:
1.
X \Y
x1
x2
2
2
5
4
4
8
2
4
2 >0
ηY2|X = 0, ηX|Y
2.
X \Y
x1
x2
y1
2
y2
4
4
y3
2
4
ρ2 = 0
19.38
Esercizio 18 (T 265, 08.09.2011, 4). Si completino se possibile le seguenti tabelle, motivando
teoricamente la risposta, in modo tale che:
1.
X \Y
1
2
10
0
20
11
0
30
20
11
9
30
0
ηY2|X = ρ 2 = 0
2.
X \Y
1
2
10
0
ηY2|X = ρ 2 = 0
19.39
Esercizio 19 (T 265-1, 22.09.2011, 4). Si completino se possibile le seguenti tabelle, motivando teoricamente la risposta, in modo tale che:
1.
X \Y
1
2
4
2
ηX|Y
10
0
= ρ2
20
12
0
30
0
=0
251
2.
X \Y
1
2
3
10
20
12
9
12
0
30
0
ηY2|X = ρ 2 = 0
19.40
Esercizio 20 (T 268, 09.02.2012, 4). Se possibile e giustificando teoricamente le risposte, si
completino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.
1.
X \Y
2
3
3
9
3
6
2 <1
0 < ρ 2 = ηX|Y
2.
X \Y
10
20
3
20
40
1
χ 2 = 30 e ηY2|X = 1
19.41
completino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.
1.
X \Y
2
3
3
9
3
6
2 <1
0 < ρ 2 < ηX|Y
2.
X \Y
10
20
3
20
40
1
ρ = −30 e ηY2|X = 0
19.42
X \Y 3
9
2
8
8
2
1. ρ 2 = ηX|Y
2. ρ 2 = ηY2|X
19.43
Esercizio 23 (T 240, 31.01.2008, 4). Con riferimento ai dati della seguente tabella:
X \Y
1
12
10
4
1
5
20
1
4
5
5
5
10
1. Rappresentare, mediante un grafico bubble diagram, le coppie di dati e la funzione di regressione per lo studio di Y |X.
2. Si stimino, attraverso il criterio dei minimi quadrati, i parametri del modello Y ∗ = a + bX
3. Calcolare ρ 2 .
252
2 .
4. Calcolare i valori di ηY2|X ed ηX|Y
19.44
Esercizio 24 (T 207, 15.01.2004, 4). Con riferimento a n = 50 unità statistiche si sono raccolti
alcuni dati, relativi alle variabili (X,Y ) nella seguente tabella:
Y \X
10
20
30
1
8
8
0
2
1
4
1
3
0
a
b
1. Determinare i valori (interi) da assegnare alle costanti a e b affinché ηY2|X = ρ 2 .
2. Calcolare il valore del coefficiente di correlazione lineare.
19.45
X \ Y 20
40
10
2
x2
1. ρ = 1 e χ 2 = 0
19.46
Esercizio 26 (T 271, 10.01.2013, 4). Si completino, giustificando opportunamente la risposta,
le seguenti tabelle in modo tale che:
y1 = 2
x1 = 2
x2 = 4
1.
ρ2
=1e
y3 = 12
5
2
ηX|Y
5
=0
y1 = 2
x1 = 2
x2 = 4
2.
y2 =
3
y2 =
3
y3 = 12
5
5
2 =1
ρ 2 = ηY2|X = 0 e ηX|Y
19.47
Esercizio 27 (T 272, 24.01.2012, 4). Si completi la tabella, giustificando opportunamente la
risposta, in modo che ρ 2 < ηY2|X .
y1 = 2
x1 = 2
x2 = 4
y2 =
3
y3 = 12
5
5
19.48
Esercizio 28 (T 273, 07.02.2013, 4). Si completino le seguenti tabelle, giustificando opportunamente la risposta, in modo tale che:
1.
x1 = 1
x2 = 2
x3 = 3
y1 = 2
7
0
0
y2 = 4
y3 = 6
0
n = 31
χ 2 = 62 e M(X) = 2
2.
x1 = 1
x2 = 2
x3 = 3
y1 = 2
7
y2 = 4
y3 = 6
n=
χ 2 = 0 e M(Y ) = 4
253
19.49
Esercizio 29 (T 274-1, 06.06.2013, 4). Si completi la seguente tabella, giustificando opportunamente la risposta, in modo che χ 2 = ρ 2 = ηY2|X .
x1 = 1
x2 = 2
x3 = 3
y1 = 2
7
y2 = 4
y3 = 6
n = 120
19.50
Esercizio 30 (T 274-2, 11.07.2013, 4). Si completino le seguenti tabelle, giustificando opportunamente la risposta, in modo tale che:
1.
x1 = 1
x2 = 2
y1 = 2
7
y2 = 4
y3 = 6
n = 120
ρ 2 = 1 e ηY2|X = 0
2.
x1 = 1
x2 = 2
y1 = 2
7
y2 = 4
y3 = 6
n = 120
2 = 1 e η2 = 0
ηX|Y
Y |X
19.51
3.2
Esercizi di carattere teorico
Esercizio 31 (T 212, 15.07.2004, 1). Con riferimento alla seguente tabella a doppia entrata
riferita a una rilevazione campionaria su 200 unità statistiche, posto che il rapporto di correlazione
ηY2|X assume valore nullo e che la media marginale di Y è pari a 25:
X \Y
x1
x2
15
25
n21
25
50
80
35
n13
10
1. si determinino i valori delle frequenze assolute n13 e n21 e si rappresenti graficamente la
distribuzione cumulata Y |X = x1 ;
2. si riassumano con opportuni indici di posizione e di variabilità le distribuzioni condizionate
Y |X = xi , i = 1, 2;
3. sulla base di un opportuno indice verificare se si può ritenere che esista connessione tra le
variabili X e Y ;
4. confrontare le due distribuzioni condizionate Y |X = xi , i = 1, 2, con un opportuno indice di
asimmetria;
5. supponendo che x1 = 1 e x2 = 2x1 si calcoli il valore del coefficiente di correlazione lineare
tra X e Y .
19.52
Esercizio 32 (T 212, 15.07.2004, 2). Dato il seguente grafico della serie storica Y del fatturato
(in milioni di e) di un’azienda negli ultimi 7 mesi (t = 1, 2, . . . , 7),
●
●
●
●
●
●
●
0
2
4
254
6
8
1. sapendo che M(Y ) = 4, Var(Y ) = 9, e che ρ 2 = 0.64 calcolare i parametri della retta di
regressione Y ∗ = a + bt;
2. indicare i valori assunti dalle varianze spiegate dei modelli I) Y ∗ = a + bt e II) funzione di
regressione M(Y |t).
19.53
Esercizio 33 (T 227, 29.06.2006, 3). Date due v.s. X e Y , la funzione di regressione di Y |X è
M(Y |X) = 2 + 3X 2 . Sapendo che la distribuzione marginale di X è la seguente:
xi
fi
1
0.2
2
0.3
3
0.4
4
0.1
e sapendo che ηY2|X = 0.5, determinare il valore della varianza residua di Y .
19.54
Esercizio 34 (T 157, 30.09.1999, 3). Data la seguente distribuzione del carattere W :
wi
ni
2
3
7
4
12
3
sapendo che i parametri del seguente modello di regressione: T ∗ = a + bW assumono i valori
seguenti: a = −4 e b = 2, e che l’indice di adattamento di tale modello è pari al rapporto di
correlazione, ossia ρ 2 = ηT2 |W , calcolare:
1. le medie condizionate M(T |W ) del carattere T ;
2. il valore di ηT2 |W sapendo che la varianza di T è pari a 100;
3. il valore della covarianza tra W e T .
19.55
Esercizio 35 (T 179, 20.07.2000, 5). A un insieme di dati si è adattato un modello di regressione
lineare Y ∗ = a + bX e si sono conservati soltanto i seguenti valori: b̂ = 0.7; σX2 = 5 e M(Y 2 ) = 2.2.
Si vogliono determinare le seguenti quantità:
1. ρ 2 : indice di adattamento;
2. σXY (covarianza);
3. la varianza residua;
4. la varianza spiegata;
5. l’intercetta a.
Si calcolino, ove possibile, i valori numerici delle quantità sopra indicate e, in caso di impossibilità,
si indichino quali ulteriori informazioni sarebbero necessarie.
19.56
Esercizio 36 (T 189, 27.09.2001, 5). Siano date le due variabili statistiche X e Y . Sapendo
che il coefficiente angolare (b) della retta di regressione Y = a + bX è pari a 1.5 e il coefficiente di
correlazione lineare tra X e Y è pari a 0.7, si determini il valore:
1. del coefficiente angolare della seconda retta di regressione X = γ + δY ;
2. l’indice di adattamento ρ 2 .
Sapendo inoltre che σX2 = 56 si calcoli il valore:
1. della varianza spiegata della prima retta di regressione Y = a + bX;
2. della covarianza.
19.57
Esercizio 37 (T 191, 31.01.2002, 4). In una classe di 20 studenti di un liceo scientifico si sono
rilevati il voto di matematica (X) ed il voto di fisica (Y ). Il coefficiente di correlazione lineare è
risultato essere pari a 0.8. Per descrivere l’eventuale legame esistente fra le due variabili sono stati
usati i seguenti modelli lineari: Y = a + bX ed X = c + dY , i cui parametri sono stati determinati
col metodo dei minimi quadrati.
Dire, motivando la risposta, se le seguenti affermazioni sono vere.
255
1. b = −0.6 e d = −1.0667;
2. l’80% della variabilità di Y è spiegata attraverso il legame lineare con X;
3. esiste perfetta relazione lineare tra X e Y .
19.58
Esercizio 38 (T 203, 26.06.2003, 3). Siano M(Y |x1 ) = 2, M(Y |x2 ) = 4 e M(Y |x3 ) = 6 le medie
condizionate di una variabile Y alle tre modalità di una variabile X così distribuita:
X
a
b
c
ni
10
20
10
1. Sapendo che la media delle varianze condizionate di Y a X è 20, calcolare la varianza di Y .
2. Si determini il valore di ηY2|X .
3. Posto a = 1, b = 2 e c = 3, si determini il segno del coefficiente di correlazione lineare tra X
e Y.
19.59
Esercizio 39 (T 211, 01.07.2004, 3). Siano X e Y due variabili statistiche. Sapendo che il
coefficiente b della retta di regressione X = a + bY è pari a 0.7 e il coefficiente di correlazione
lineare tra X e Y è pari a 0.5, determinare:
1. il coefficiente angolare della retta di regressione Y = c + dX
2. le varianze residua e spiegata della retta di regressione X = a + bY sapendo che σY2 = 7
3. il valore della covarianza tra X e Y .
19.60
Esercizio 40 (T 228, 13.07.2006, 2). Con riferimento alla seguente tabella a doppia entrata si
dica, motivando teoricamente la risposta, che valore assume
Y \X
8
10
12
1
0
0
b
2
a
1
a
3
c
0
0
1. ηY2|X sapendo che ρ = −0.85 e che a, b, c sono valori interi strettamente positivi;
2. ηY2|X e ρ nell’ipotesi in cui a = 0. Si definisca, per questo caso, l’espressione analitica della
funzione di regressione.
19.61
Esercizio 41 (T 238, 20.09.2007, 3). Siano X e Y due caratteri quantitativi tali che la funzione
√
di regressione di Y su X sia M(Y |X) = 2 + 4 xi . Sapendo che la distribuzione del carattere X è la
seguente:
xi
4
9
16
25
36
fi 0.2 0.15 0.3 0.15 0.2
e che la varianza del carattere Y è pari a 45.6
1. si calcoli la media della variabile Y .
2. Si calcoli il valore dell’indice ηY2|X .
3. Si indichi l’intervallo dei valori che può assumere il coefficiente di correlazione lineare ρ tra
le variabili X e Y .
19.62
Esercizio 42 (T 152, .., 5). Siano X1 , X2 e X3 tre variabili statistiche tra loro non correlate, con
medie aritmetiche μi e varianze σi2 ; sia Z un’altra variabile definita come Z = X1 + X2 . Trovare
l’espressione analitica dei parametri e della varianza residua del modello di regressione lineare di Z
con X3 .
19.63
256
Sezione 20
Modelli riconducibili al modello
retta
20.1
Indice
1
Linearizzazioni
257
2
Errore quadratico medio di un modello polinomiale
258
3
Modelli incompleti
259
4
Modello Y ∗ = bX
260
5 Interpretazione del coefficiente b per alcuni modelli di regressione
5.1 Relazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Trasformata logaritmica della variabile esplicativa . . . . . . . . . . . . .
5.3 Trasformata logaritmica della variabile dipendente . . . . . . . . . . . .
5.4 Trasformata logaritmica della variabile dipendente e variabile esplicativa
di tipo dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Trasformata logaritmica sia della variabile dipendente che della variabile
esplicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
261
261
261
262
6 Estensione del modello lineare bivariato
263
262
262
20.2
1 Linearizzazioni
Sebbene qualsiasi funzione continua può essere approssimata, mediante uno sviluppo in
serie di Taylor, da una funzione polinomiale di grado opportuno, a volte per interpretare al
meglio il legame esistente tra la variabile Y e la variabile X risulta opportuno fare ricorso
a una relazione di tipo non lineare. Alcune di queste sono riconducibili al modello retta
(linearizzazione) tramite una opportuna trasformazione.
1
2
3
4
5
6
forma non lineare
Y ∗ = aebX
Y ∗ = aX b
Y ∗ = abX
Y ∗ = a + Xb
1
Y ∗ = a+bX
X
∗
Y = a+bX
4) iperbole 5) reciproco retta
forma linearizzata
(lnY ∗ ) = (ln a) + bX
(lnY ∗ ) = (ln a) + b(ln X)
(lnY ∗ ) = (ln a) + (ln b)X
Y ∗ = a + b X1
1
Y ∗ = a + bX
1
1
Y∗ = b + aX
6) reciproco iperbole
257
20.3
Il precedente prospetto contiene dei particolari modelli che nelle variabili trasformate
divengono lineari di 1◦ grado e risulta, quindi, possibile fare ricorso alle usuali formule
del modello retta per ottenere le stime dei parametri
dipendente = intercetta + pendenza · esplicativa
pendenza
=
intercetta
=
Cov(dipendente, esplicativa)
Var(esplicativa)
M(dipendente) − pendenza · M(esplicativa)
Le stime ottenute coincidono con quelle che si otterrebbero risolvendo il problema di
minimo in base al criterio dei minimi quadrati applicato ai residui della forma non lineare.
Ad esempio, con riferimento ai coefficienti â e b̂ del primo modello:
2 (â, b̂) = arg min M Y − aebX
(a,b)
Per scegliere tra diversi modelli alternativi si confrontano i valori assunti dagli errori
quadratici medi M(E 2 ) associati a tali modelli. Il modello migliore sarà quello con errore
quadratico medio minimo.
L’indice di adattamento non risulta, in genere, definito in quanto la variabile E può non
avere media nulla, cfr. §3.
20.4
2 Errore quadratico medio di un modello polinomiale
Si supponga di avere ottenuto, in base al criterio dei minimi quadrati, le stime dei coefficienti β̂0 , β̂1 , . . . , β̂k del seguente modello polinomiale:
Y = β0 + β1 X + . . . + βk X k + E
L’Errore Quadratico Medio
M(E 2 ) = M
2 Y − β̂0 − β̂1 X − . . . − β̂k X k
può essere ottenuto applicando la seguente formula operativa
M(E 2 ) = M {Y (Y − modello polinomiale)}
= M Y Y − β̂0 − β̂1 X − . . . − β̂k X k
=
M(Y 2 ) − β̂0 M(Y ) − β̂1 M (Y X) − . . . − β̂k M Y X k
L’espressione vale anche se alcuni coefficienti sono nulli e, quindi, anche se manca l’intercetta o qualche potenza della variabile X.
258
20.5
3 Modelli incompleti
Con riferimento ai modelli completi (modelli polinomiali nei quali figura l’intercetta
come parametro libero) si è visto che la media dell’errore è nulla
M(E) = 0
quindi, l’errore quadratico medio coincide con la varianza residua del modello
M(E 2 ) = Var(E)
e vale la scomposizione della varianza come
2
2
+ σresidua
σY2 = σspiegata
dove
2
= varianza dei punti di regressione
• σspiegata
2
• σresidua
= attorno ai punti di regressione
Nei modelli incompleti e in quelli non lineari, se per ricondursi alla forma linearizzata
si opera una trasformazione della variabile dipendente, non vale la scomposizione della
varianza e può, anche, accadere che
20.6
M(E 2 ) > σY2 .
Di conseguenza dovendo scegliere quale, tra diversi modelli, quale è più opportuno utilizzare per interpretare la variabile Y si dovranno confrontare gli errori quadratici medi
quando:
• in qualcuno dei modelli in gioco manca l’intercetta,
• l’intercetta è vincolata,
• il modello è non lineare e si è operata una trasformazione che coinvolge la variabile
dipendente per ricondursi alla forma linearizzata.
20.7
Esempio 1 (vincolo: retta passante in (0, a0 )).
Y ∗ = a0 + bX
6
8
10
(a ≡ a0 = 10)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
4
●
●
●
0
●
0
2
4
6
8
20.8
Esempio 2 (vincolo: modello Y = a+bX 2 ). È possibile ricondursi al modello retta, considerando X 2 come variabile esplicativa. Nella prima delle seguenti rappresentazioni grafiche si stima il modello quadratico in X; nella seconda il modello lineare in X 2 ; si osserva
come la struttura di variabilità della Y rimane immutata. I residui del primo modello
sono identici a quelli del secondo, avendo operato una trasformazione solo della variabile esplicativa. Quindi l’errore quadratico medio assume lo stesso valore in entrambe le
situazioni.
259
10
10
4
●
●
●
●
●
●
●
●
8
●
●
●
6
6
●
●
●
4
8
●
●
●
●
●
●
●
●
●
●
●
●
2
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
0
●
0
2
4
6
8
0
10
20
30
40
50
20.9
Esempio 3 (vincolo: modello Y = aX b ). È possibile ricondursi al modello retta, operando
la linearizzazione
ln(Y ) = ln a + b ln(X)
5
100
Nella prima delle seguenti rappresentazioni grafiche si stima il modello non lineare in
X; nella seconda il modello linearizzato in ln X e lnY ; si osserva come in questo caso la
struttura di variabilità della Y cambia. Non si può quindi utilizzare i residui e, tantomeno,
l’indice di adattamento del secondo modello per valutare la bontà del primo. Occorre
calcolare l’errore quadratico medio basandosi sui residui della prima figura.
●
●
●
●
●
●
4
80
●
●
●
●
●
●
●
●
●
●
●
●
●
3
60
●
●
●
40
●
●
●
●
2
●
●
●
●
●
●
●
1
20
●
●
●
●
●
●
●
0
0
●
0
2
4
6
8
●
0.0
0.5
1.0
1.5
2.0
2.5
20.10
4 Modello Y ∗ = bX
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b
%
$
b̂ = arg min M (Y − bX)2
$
b
dM (Y − bX)2
M
db
%
=0
d (Y − bX)2
=0
db
M [2 (Y − bX) (−X)] = 0
M −XY + bX 2 = 0
−M (XY ) + b M X 2 = 0
da cui segue
b̂ =
M (XY )
M (X 2 )
20.11
L’errore quadratico medio risulta
$
2 %
= M Y − b̂X
= M Y − b̂X Y − b̂X
M E2
= M Y − b̂X Y − b̂M Y − b̂X X
260
ma, nella dimostrazione precedente si è visto che, per b = b̂, si ha M Y − b̂X X = 0
per cui:
M E 2 = M Y − b̂X Y
La formula coincide con quella generale relativa ai polinomi
M E 2 = M Y Y − b̂X = M Y 2 − b̂M (XY )
Si osserva come, mancando l’intercetta (è stata vincolata a 0), non vale il risultato di
scomposizione della varianza e non è quindi possibile calcolare l’indice di adattamento
(normalizzato).
20.12
5 Interpretazione del coefficiente b per alcuni modelli
di regressione
I risultati seguenti valgono anche con riferimento ai modelli di regressione multipla (che
verranno presentati in una Sezione successiva), ceteris paribus, ossia supponendo che
rimanga immutato il livello di tutte le altre variabili eventualmente presenti nel modello e
che vi sia assenza di correlazione tra la componente di errore e i regressori.
Si considerano le seguenti tipologie di relazioni lineari:
• relazione lineare con trasformata logaritmica della variabile esplicativa
• relazione lineare con trasformata logaritmica della variabile dipendente
• relazione lineare con trasformata logaritmica della variabile dipendente e variabile
esplicativa di tipo dummy
• relazione lineare con trasformata logaritmica sia della variabile dipendente che
della variabile esplicativa
5.1
20.13
Relazione lineare
Y ∗ = a + bX
se x0 → x0 + Δx consegue che y∗0 = a + bx0 → a + bx0 + bΔx = y∗0 + bΔx,
quindi
Δy
= b.
e
Δy = y∗0 + bΔx − y∗0 = bΔx
Δx
20.14
5.2
Trasformata logaritmica della variabile esplicativa
Y ∗ = a + b ln(X)
se x0 → x1 = x0 + Δx = x0 + cx0 = (1 + c)x0 consegue che y0 =→ a + b ln[(1 + c)x0 ] =
a + b ln(x0 ) + b ln(1 + c) = y0 + b ln(1 + c),
quindi
Δy = b ln(1 + c).
Si osserva che il rapporto tra il nuovo valore di x, x1 = (1 + c)x0 e il valore iniziale x0 può
essere interpretato come un valore relativo e risulta pari a 1 + c:
x1
= (1 + c)
x0
da cui consegue una variazione relativa di x pari a c.
261
Si consideri lo sviluppo in serie di Taylor di ln(1 + c), vale:
ln(1 + c) c.
Per valori ’piccoli’ di c si può interpretare b ln(1 + c) bc come la variazione di y che
consegue a una variazione relativa di x pari a 100c%.
5.3
20.15
Trasformata logaritmica della variabile dipendente
ln(Y ∗ ) = a + bX
se x0 → x1 = x0 + Δx consegue che ln(y∗0 ) → a + bx0 + bΔx = ln(y∗0 ) + bΔx.
Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + bΔx} e il
valore iniziale y∗0 :
!
"
exp{ln(y∗0 ) + bΔx} exp ln(y∗0 ) + ln ebΔx
y∗1
=
=
=
y∗0
exp{ln(y∗0 )}
y∗0
! ∗ bΔx "
exp ln y0 · e
y∗ · ebΔx
=
= 0 ∗ = ebΔx .
∗
y0
y0
Considerando lo sviluppo in serie di Taylor di ebΔx , abbiamo che ebΔx (1 + bΔx).
Quindi, per valori piccoli di b e di Δx si può interpretare bΔx come la variazione relativa
di y che consegue a una variazione assoluta Δx di x.
5.4
20.16
Trasformata logaritmica della variabile dipendente e variabile
esplicativa di tipo dummy
Si particolarizza il caso precedente tenendo presente che x può assumere solo i valori 0 e
1, rispettivamente nelle situazioni di assenza e presenza del carattere di cui è indicatrice.
ln(Y ∗ ) = a + bX
se x0 = 0 → x1 = 1 consegue che ln(y∗0 ) = a → ln(y∗1 ) = a + b = ln(y∗0 ) + b,
Il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b} e il valore iniziale y∗0
risulta:
"
"
! !
exp ln y∗0 eb
exp{ln(y∗0 ) + b} exp ln(y∗0 ) + ln eb
y∗ eb
y∗1
=
=
= 0 ∗ = eb .
=
∗
∗
∗
∗
y0
exp{ln(y0 )}
y0
y0
y0
Quindi, dal momento che eb (1 + b) per valori piccoli di b, il coefficiente b può essere
interpretato come la variazione relativa di y che consegue al passaggio della variabile
indicatrice x dallo stato 0 allo stato 1.
Ad esempio l’incremento percentuale, ceteris paribus, del salario di un soggetto di genere
maschile, x = 1, rispetto allo stipendio di un soggetto di genere femminile, x = 0.
5.5
Trasformata logaritmica sia della variabile dipendente che della variabile esplicativa
ln(Y ∗ ) = a + b ln(X)
se x0 → x1 = x0 +Δx = x0 +cx0 = (1+c)x0 consegue che ln(y∗0 ) = a+b ln(x0 ) → ln(y∗1 ) =
a + b ln[(1 + c)x0 ] = a + b ln(x0 ) + b ln(1 + c) = ln(y∗0 ) + b ln(1 + c).
262
20.17
Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b ln(1 + c)}
e il valore iniziale y∗0 :
y∗1
y∗0
=
exp{ln(y∗0 ) + b ln(1 + c)} exp{ln(y∗0 ) + ln(1 + c)b }
=
=
exp{ln(y∗0 )}
y∗0
=
exp{ln[y∗0 (1 + c)b ]} y∗0 (1 + c)b
=
= (1 + c)b .
y∗0
y∗0
Si osservi come (1+c)b (1+bc), per valori piccoli di b e c; infatti (1+c)b = exp[ln(1+
c)b ] = exp[b ln(1 + c)]; inoltre ln(1 + c) c e, infine, exp(bc) (1 + bc).
A una variazione relativa di x, pari a c (si ricordi che x1 /x0 = 1 + c) consegue, quindi, una
variazione relativa di y∗ pari a circa bc (infatti, y∗1 /y∗0 1 + bc).
Dal momento che si considerano valori ’sufficientemente piccoli’ di b e c le variazioni
relative di x e y∗ possono rispettivamente indicarsi (nel continuo) con dx/x e dy∗ /y∗ , da
cui il rapporto
dy∗
y∗
dx
x
20.18
bc
=b
c
noto anche come elasticità di y∗ rispetto a x.
Si osserva che la presente relazione corrisponde alla versione ’linearizzata’ di Y = αX b E.
20.19
6 Estensione del modello lineare bivariato
• se ρ 2 ηY2|X → il modello è migliorabile
(ad esempio aumentando il grado del polinomio)
• se ρ 2 ηY2|X → il modello non è migliorabile
20.20
Esempio 4. Si riprenda l’esempio relativo alla lunghezza piede (Y ) e all’altezza (X)
xi
fi•
μY (xi)
σY2 (xi)
160
.189
39.43
2.37
170
.411
41.04
2.83
180
.322
42.14
1.84
190
.078
44.14
1.55
M(X) = 172.89
Var(X) = 73.88
M(Y ) = 41.37
Var(Y ) = 3.81
Cov(X,Y ) = M(XY ) − μX μY = 10.56
avendo espresso M(XY ) come segue
M(XY ) =
h
k
i=1 j=1
=
h
k
i=1
j=1
fi j
∑ ∑ xi y j fi j = ∑ fi• ∑ xi y j fi•
h
k
i=1
j=1
h
h
i=1
i=1
fi j
∑ fi• xi ∑ y j fi• = ∑ fi• xi (Y |xi ) = ∑ xi μY (xi ) fi•
media varianze condizionate = 2.32
varianza medie condizionate = 1.54
ηY2 = 0.399
ρ 2 = 0.391
263
20.21
Soluzione
aggiungere variabili esplicative → analisi multivariata
ad esempio:
lunghezza piede = f (altezza, peso)
20.22
264
Sezione 21
Esempio stima modelli in
presenza di tabella a doppia
entrata
21.1
Indice
1
Funzione di regressione
266
1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 267
2
Modello Y ∗ = a + bX
267
3 Modello Y ∗ = a + bX 2
268
4
Modello Y ∗ = aX b
268
5
Modello Y ∗ = aebX
269
6
Modello Y ∗ = bX 2
270
7
Modello Y ∗ = 5 + bX
271
8 Modello Y ∗ = 5 + bX 2
272
9
273
Schema riassuntivo
10 Indice di miglioramento
Con riferimento ai dati raccolti nella tabella a doppia entrata
X \Y
1
2
3
5
0
0
9
9
15
0
8
1
9
26
4
3
0
7
4
11
10
25
si stimano i parametri e l’errore quadratico medio dei seguenti modelli
•
•
•
•
•
•
funzione di regressione
Y ∗ = a + bX
Y ∗ = a + bX 2
Y ∗ = aX b
Y ∗ = aebX
Y ∗ = bX 2
265
273
21.2
• Y ∗ = 5 + bX
• Y ∗ = 5 + bX 2
21.3
Si considerano le distribuzioni condizionate Y |X per il calcolo di medie e varianze condizionate
Y |x = 1 n1 j
5
0
M(Y |x = 1) = 26
15
0
Var(Y |x = 1) = 0
26
4
4
Y |x = 2 n2 j Y |x = 2 · n2 j
5
0
0
15
8
120
26
3
78
11
198
M(Y |x = 2) = 18
Var(Y |x = 2) = 24
Y |x = 3 n3 j Y |x = 3 · n3 j
5
9
45
15
1
15
26
0
0
10
60
M(Y |x = 3) = 6
Var(Y |x = 3) = 9
21.4
1 Funzione di regressione
30
Rappresentazione grafica mediante bubble diagram con aggiunta delle medie condizionate M(Y |X)
●
20
25
●
●
10
15
●
0
5
●
0
1
2
3
4
21.5
Variabile statistica medie condizionate M(Y |X)
xi
1
2
3
M(Y |xi )
26
18
6
Somma
modalità
ni M(Y |X)ni M(Y |X)2 ni
4
104
2704
11
198
3564
10
60
360
25
362
6628
frequenze
calcolo
calcolo
media
momento
secondo
266
media delle medie condizionate
MX {M(Y |X)} =
362
= 14.48
25
varianza delle medie condizionate
VarX {M(Y |X)} =
6628
− 14.482 = 55.4496 (varianza spiegata)
25
21.6
Variabile statistica varianze condizionate Var(Y |X)
ni Var(Y |xi )ni
xi Var(Y |xi )
1
0
4
0
2
24
11
264
3
9
10
90
Somma
25
354
modalità frequenze
calcolo
media
media varianze condizionate
MX {Var(Y |X)} =
354
= 14.16
25
(varianza residua)
calcolo media e varianza di Y
yj
5
15
26
nj
9
9
7
25
y j n j y2j n j
45
225
135 2025
182 4732
362 6982
M(Y ) = 362/25 = 14.48
M(Y 2 ) = 6982/25 = 279.28
Var(Y ) = 279.28 − 14.482 = 69.6096
21.7
1.1
Rapporto di correlazione
Dai calcoli effettuati nelle pagine precedenti si ha che
M(Y ) = MX {M(Y |X)} = 14.48
Var(Y )
Var(Y )
69.6096
=
VarX {M(Y |X)}
= (varianza spiegata)
=
55.4496
ηY2|X
=
ηY2|X
=
+ MX {Var(Y |X)}
+ (varianza residua)
+
14.16
varianza spiegata funzione regressione
Var(Y )
VarX {M(Y |X)} 55.4496
=
= 0.7967
Var(Y )
69.6096
21.8
267
2 Modello Y ∗ = a + bX
Cov(X,Y ) M(X,Y ) − M(X)M(Y )
=
Var(X)
M(X 2 ) − [M(X)]2
27.2 − 2.24 · 14.48 −5.2352
=
=
= −10.4204
5.52 − 5.0176
0.5024
â = M(Y ) − b̂ M(X) = 14.48 + 10.4204 · 2.24 = 37.8217
b̂
=
ρ2
=
ρ
=
27.4073
[Cov(X,Y )]2
=
= 0.7837
Var(X)Var(Y ) 0.5024 · 69.6096
−0.8853
M(E 2 ) = Var(E) = varianza residua = 15.0568 = σY2 (1 − ρ 2 )
21.9
Osservazione
•
dipendente = a + b · esplicative
b̂ =
Cov(esplicative, dipendente)
Var(esplicative)
â =
M(dipendente) − b̂ M(esplicative)
• Nel caso in esame la variabile errore E = Y − Y ∗ è caratterizzata da media nulla, quindi M(E 2 ) = Var(E), vale a dire l’errore quadratico medio coincide con la
varianza degli errori (residui).
21.10
È possibile ricondursi al modello retta
b̂
â
Cov(X 2 ,Y ) M(X 2 ,Y ) − M(X 2 )M(Y )
=
Var(X 2 )
M(X 4 ) − [M(X 2 )]2
57.44 − 5.52 · 14.48 −22.4896
= −2.4634
=
=
39.6 − 5.522
9.1296
= M(Y ) − b̂ M(X) = 14.48 + 2.4634 · 5.52 = 28.078
=
ρ2
=
ρ
=
505.7821
[Cov(X,Y )]2
=
= 0.7958
Var(X)Var(Y ) 9.1296 · 69.6096
−0.8921
Anche nel caso in esame
M(E) = 0
quindi
M(E 2 ) = Var(E).
21.11
268
4 Modello Y ∗ = aX b
È possibile linearizzare il modello precedente
lnY ∗ = ln a + b ln X
e ricondursi al modello retta
dipendente = ln a + b · esplicative
dove dipendente = lnY e esplicative = ln X.
Per calcolare i parametri conviene riferirsi alle variabili trasformate
ln X \ lnY
0
0.6931
1.0986
1.6094
0
0
9
9
2.7081
0
8
1
9
3.2581
4
3
0
7
4
11
10
25
M(ln X) = 0.744
M(lnY ) = 2.4666
M[(ln X)2 ] = 0.6942 M[(lnY )2 ] = 1.6272
Var(ln X) = 0.14
Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X)M(lnY ) =
= 1.6272 − 0.744 · 2.4666 = −0.2090
b̂
=
Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY ) −0.2090
=
=
= −1.4929
Var(ln X)
M[(ln X)2 ] − [M(ln X)]2
0.14
ln (â) = M(lnY ) − b̂ M(ln X) = 3.578
→
â = e3.578 = 35.8019.
21.12
Per il calcolo dell’errore quadratico medio occorre, in primo luogo, determinare i valori
assunti dal modello Y ∗ = 35.8019X 1.4929 con x = 1, 2, 3.
Y ∗ (1) = 35.80,
Y ∗ (2) = 12.72,
Y ∗ (3) = 6.94
quindi, applicando la definizione di errore quadratico medio
M(E 2 ) = M
2 1 h k 2
Y − 35.8019X 1.4929
= ∑ ∑ y j − 35.8019xi1.4929 ni j
n i=1 j=1
e calcolando la corrispondente media di una funzione di una variabile statistica doppia
y j − 35.8019xi1.4929
x1 = 1
x2 = 2
x3 = 3
2
ni j
y1 = 5
(5 − 35.80)2 · 0
(5 − 12.72)2 · 0
(5 − 6.94)2 · 9
y2 = 15
(15 − 35.80)2 · 0
(15 − 12.72)2 · 8
(15 − 6.94)2 · 1
y3 = 26
(26 − 35.80)2 · 4
(26 − 12.72)2 · 3
(26 − 6.94)2 · 0
1053.75
da cui
M(E 2 ) =
1053.75
= 42.15.
25
21.13
269
5 Modello Y ∗ = aebX
lnY ∗ = ln a + bX
dove dipendente = lnY e esplicative = X.
X \ lnY
1
2
3
1.6094 2.7081 3.2581
0
0
4
0
8
3
9
1
0
9
9
7
4
11
10
25
M(X) = 2.24
M(lnY ) = 2.4666
M[X 2 ] = 5.52
M(X lnY ) = 5.0995
Var(X) = 0.5024 Cov(X, lnY ) = 5.0995 − 2.24 · 2.4666 = −0.4256
b̂
=
Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) −0.4256
=
= −0.8471
=
Var(X)
M[(X)2 ] − [M(X)]2
0.5024
ln (â) = M(lnY ) − b̂ M(X) = 4.3641
→
â = e4.3641 = 78.5786.
21.14
Per il calcolo dell’errore quadratico medio occorre, in primo luogo, determinare i valori
assunti dal modello Y ∗ = 78.5786e−0.8471X con x = 1, 2, 3.
Y ∗ (1) = 33.68,
Y ∗ (2) = 14.44,
Y ∗ (3) = 6.19
quindi, applicando la definizione di errore quadratico medio
M(E 2 ) = M
2 1 h k 2
= ∑ ∑ y j − 78.5786e−0.8471xi ni j
Y − 78.5786e−0.8471X
n i=1 j=1
e calcolando la corrispondente media di una funzione di una variabile statistica doppia
y j − 78.5786e−0.8471xi
x1 = 1
x2 = 2
x3 = 3
2
ni j
y1 = 5
(5 − 33.68)2 · 0
(5 − 14.44)2 · 0
(5 − 6.19)2 · 9
y2 = 15
(15 − 33.68)2 · 0
(15 − 14.44)2 · 8
(15 − 6.19)2 · 1
y3 = 26
(26 − 33.68)2 · 4
(26 − 14.44)2 · 3
(26 − 6.19)2 · 0
729.75
da cui
M(E 2 ) =
729.75
= 29.19.
25
21.15
270
6 Modello Y ∗ = bX 2
$
2 %
b̂ = arg min M Y − bX 2
b
$
2 %
dM Y − bX 2
=0
db
2
d Y − bX 2
=0
M
db
M 2 Y − bX 2 −X 2 = 0
M −X 2Y + bX 4 = 0
−M X 2Y + b M X 4 = 0
da cui segue
b̂ =
M X 2Y
57.44
=
= 1.4505.
M (X 4 )
39.6
21.16
Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi
M(E 2 ) = M Y Y − b̂X 2 = M(Y 2 ) − b̂M(X 2Y ) = 279.28 − 1.4505 · 57.44 = 195.9633
Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della varianza: il valore dell’errore quadratico medio è superiore a quello di Var(Y ).
271
21.17
7 Modello Y ∗ = 5 + bX
%
$
b̂ = arg min M (Y − 5 − bX)2
b
$
dM (Y − 5 − bX)2
M
db
%
=0
d (Y − 5 − bX)2
=0
db
M [2 (Y − 5 − bX) (−X)] = 0
(è utile considerare Y − 5 come termine unico)
M −X (Y − 5) + bX 2 = 0
−M [X (Y − 5)] + b M X 2 = 0
da cui segue
b̂ =
X \ Y −5
1
2
3
0
0
0
9
9
M [X (Y − 5)]
16
=
= 2.8986.
M (X 2 )
5.52
10
0
8
1
9
21
4
3
0
7
4
11
10
25
M[X 2 ] = 5.52
M[X(Y − 5)] = 16
M[(Y − 5)2 ] = 159.48
21.18
Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi considerando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è
alterata la struttura di variabilità della Y ).
M(E 2 ) = M (Y − 5) Y − 5 − b̂X
= M (Y − 5)2 − b̂ M[X(Y − 5)] = 159.48 − 2.8986 · 16 = 113.1024.
272
21.19
8 Modello Y ∗ = 5 + bX 2
$
2 %
b̂ = arg min M Y − 5 − bX 2
b
$
2 %
dM Y − 5 − bX 2
db
=0
2 d Y − 5 − bX 2
=0
db
M 2 Y − 5 − bX 2 −X 2 = 0
M
(è utile considerare Y − 5 come termine unico)
M −X 2 (Y − 5) + bX 4 = 0
−M X 2 (Y − 5) + b M X 4 = 0
da cui segue
b̂ =
X \ Y −5
1
2
3
0
0
0
9
9
M X 2 (Y − 5)
29.84
=
= 0.7535.
M (X 4 )
39.6
10
0
8
1
9
21
4
3
0
7
4
11
10
25
M[X 4 ] = 39.6
M[X 2 (Y − 5)] = 29.84
M[(Y − 5)2 ] = 159.48
21.20
Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi considerando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è
alterata la struttura di variabilità della Y ).
M(E 2 ) = M (Y − 5) Y − 5 − b̂X 2
= M (Y − 5)2 − b̂ M[X 2 (Y − 5)] = 159.48 − 0.7535 · 29.84 = 136.9956.
273
21.21
9 Schema riassuntivo
modello
Y∗ =
M(E 2 )
indice
adatt.
I
f .regress.
14.16
0.7967
II
III
a + bX a + bX 2
15.0568 14.2113
0.7837
0.7958
IV
V
VI
V II
V III
aX b
aebX
bX 2
5 + bX 5 + cX 2
42.15 29.19 195.96 113.10 136.996
non vale il teorema di scomposizione
della varianza in quanto M(E) = 0
21.22
Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato l’errore quadratico medio (Mean Squared Error) più piccolo e come ’peggiore’ quello che ha
associato l’errore quadratico medio più grande.
Nel caso M(E) = 0 è possibile calcolare anche l’indice di adattamento e il modello
’migliore’ sarà quello che ha associato l’indice di adattamento più grande.
Definizione 1. Si definisce indice di miglioramento la riduzione relativa dell’errore quadratico medio che si ottiene passando dal modello peggiore al modello migliore.
pegg,migl ρ
2
=
MSE pegg − MSEmigl
MSE pegg
Il seguente prospetto riporta gli indici di miglioramento per gli 8 modelli considerati
2
riga,colonna ρ
∗
Y =
I
II
III
IV
V
VI
V II
V III
I
f .regress.
0.0596
0.0036
0.6641
0.5149
0.9277
0.8748
0.8966
II
a + bX
III
a + bX 2
IV
aX b
V
aebX
VI
bX 2
V II
5 + bX
V III
5 + cX 2
0.4228
0.3009
21.23
0.0562
0.6428
0.4842
0.9232
0.8669
0.8901
0.6628
0.5131
0.9275
0.8743
0.8963
0.3075
0.7849
0.6273
0.6923
0.8510
0.7419
0.7869
0.1744
21.24
274
Sezione 22
Esempio stima modelli in
presenza di coppie di dati
22.1
Indice
1
Funzione di regressione
275
1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 277
2
Modello Y ∗ = a + bX
278
279
4
Modello Y ∗ = aX b
280
5
Modello Y ∗ = abX
281
6
Modello Y ∗ = bX
282
283
Con riferimento alle coppie di dati
283
xi
yi
3
6
2
4
1
4
4
6
22.2
2
5
si stimano i parametri e l’errore quadratico medio dei seguenti modelli
•
•
•
•
•
•
funzione di regressione
Y ∗ = a + bX
Y ∗ = a + bX 2
Y ∗ = aX b
Y ∗ = abX
Y ∗ = bX
22.3
275
1 Funzione di regressione
i
xi
1
3
2
2
3
1
4
4
5
2
Somma 12
Media 2.4
yi
6
4
4
6
5
25
5
6
7
Rappresentazione grafica punti e medie condizionate M(Y |X)
●
●
3
4
●
●
1
2
0
1
2
3
4
5
●
0
5
22.4
Variabile statistica medie condizionate M(Y |X)
xi
1
2
3
4
ni M(Y |X)ni M(Y |X)2 ni
1
4
16
2
9
40.5
1
6
36
1
6
36
5
25
128.5
frequenze
calcolo
calcolo
media
momento
secondo
M(Y |xi )
4
4.5
6
6
Somma
modalità
media delle medie condizionate
MX {M(Y |X)} =
25
=5
5
varianza delle medie condizionate
VarX {M(Y |X)} =
128.5
− 52 = 0.7 (varianza spiegata)
5
22.5
276
Variabile statistica varianze condizionate Var(Y |X)
ni Var(Y |xi )ni
xi Var(Y |xi )
1
0
1
0
2
0.25
2
0.5
3
0
1
0
4
0
1
0
Somma
5
0.5
modalità frequenze
calcolo
media
media varianze condizionate
MX {Var(Y |X)} =
0.5
= 0.1
5
(varianza residua)
22.6
1.1
Rapporto di correlazione
Dai calcoli effettuati nelle pagine precedenti si ha che
M(Y ) = 5 = MX {M(Y |X)}
Var(Y ) =
VarX {M(Y |X)}
Var(Y ) = (varianza spiegata)
0.8
=
0.7
ηY2|X
=
ηY2|X
=
+ MX {Var(Y |X)}
+ (varianza residua)
+
0.1
varianza spiegata funzione regressione
Var(Y )
VarX {M(Y |X)} 0.7
=
= 0.875
Var(Y )
0.8
22.7
277
2 Modello Y ∗ = a + bX
b̂
=
Cov(X,Y )
0.8
=
= 0.7692
Var(X)
1.04
â
=
M(Y ) − b̂ M(X) = 3.1538
ρ2
=
[Cov(X,Y )]2
0.64
=
= 0.7692
Var(X)Var(Y ) 1.04 · 0.8
i
xi yi xi yi xi2
y2i
1
3 6
18
9
36
2
2 4
8
4
16
3
1 4
4
1
16
4
4 6
24 16
36
5
2 5
10
4
25
Somma 12 25
64 34 129
Media 2.4
5 12.8 6.8 25.8
M(X) = 2.4
M(X 2 ) = 6.8
Var(X) = M(X 2 ) − [M(X)]2 = 1.04
M(XY ) = 12.8
M(Y ) = 5
M(Y 2 ) = 25.8
Var(Y ) = M(Y 2 ) − [M(Y )]2 = 0.8
Cov(X,Y ) = M(XY ) − M(X)M(Y ) = 0.8
22.8
Osservazione
•
b̂ =
Cov(esplicative, dipendente)
Var(esplicative)
â =
M(dipendente) − b̂ M(esplicative)
• Nel caso in esame la variabile errore E = Y − Y ∗ è caratterizzata da media nulla, quindi M(E 2 ) = Var(E), vale a dire l’errore quadratico medio coincide con la
varianza degli errori (residui).
22.9
278
È possibile ricondursi al modello retta
b̂
=
â =
ρ2
=
Cov(X 2 ,Y ) M(X 2Y ) − M(X 2 )M(Y )
4
=
= 0.1441
=
2
4
2
2
Var(X )
M(X ) − [M(X )]
27.76
M(Y ) − b̂ M(X 2 ) = 4.0202
[Cov(X 2 ,Y )]2
= 0.7205
Var(X 2 )Var(Y )
M(E 2 ) = Var(E) = varianza residua = σY2 (1 − ρ 2 ) = 0.2236
Anche nel caso in esame
M(E) = 0
quindi
M(E 2 ) = Var(E).
i
xi yi xi2
1
3 6
9
2
2 4
4
3
1 4
1
4
4 6 16
5
2 5
4
Somma 12 25 34
Media 2.4
5 6.8
M(X 2 ) = 6.8
M(X 4 ) = 74
Var(X 2 ) = M(X 4 ) − [M(X 2 )]2 = 27.76
M(X 2Y ) = 38
xi2 yi
xi4
y2i
54
81
36
16
16
16
4
1
16
96 256
36
20
16
25
190 370 129
38
74 25.8
M(Y ) = 5
M(Y 2 ) = 25.8
Var(Y ) = M(Y 2 ) − [M(Y )]2 = 0.8
Cov(X 2 ,Y ) = M(X 2Y ) − M(X 2 )M(Y ) = 4
22.10
279
4 Modello Y ∗ = aX b
lnY ∗ = ln a + b ln X
b̂
=
ln â =
Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY )
= 0.3310
=
Var(ln X)
M[(ln X)2 ] − [M(ln X)]2
M(lnY ) − b̂ M(ln X) = 1.3368
→
i
xi yi
ln xi
ln yi
1
3
6 1.0986 1.7918
2
2
4 0.6931 1.3863
3
1
4 0.0000 1.3863
4
4
6 1.3863 1.7918
5
2
5 0.6931 1.6094
Somma 12 25 3.8712 7.9655
Media 2.4
5 0.7742 1.5931
â = eln â = e1.3368 = 3.8070
ln xi ln yi [ln xi ]2
1.9684 1.2069
0.9609 0.4805
0.0000 0.0000
2.4839 1.9218
1.1156 0.4805
6.5288 4.0897
1.3058 0.8179
M(ln X) = 0.7742
M(lnY ) = 1.5931
M[(ln X)2 ] = 0.8179
Var(ln X) = M[(ln X)2 ] − [M(ln X)]2 = 0.2185
M(ln X lnY ) = 1.3058
Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X) M(lnY ) = 0.0723
22.11
Per calcolare l’errore quadratico medio
M(E 2 ) = M
$
2 % 1 n
= ∑ (yi − ŷi )2
Y − Ŷ
n i=1
occorre determinare i valori assunti dal modello ŷi = 3.8070 · xi0.3310
i xi
1 3
2 2
3 1
4 4
5 2
yi
6
4
4
6
5
ŷi
5.4766
4.7887
3.8070
6.0237
4.7887
Somma
Errore Quadratico Medio = Media
(yi − ŷi )2
0.2740
0.6221
0.0373
0.0006
0.0446
0.9786
0.1957
22.12
280
5 Modello Y ∗ = abX
lnY ∗ = ln a + ln b X
ln b̂
=
Cov(X, lnY ) M(X lnY ) − M(X)M(lnY )
=
= 0.1544
Var(X)
M[X 2 ] − [M(X)]2
b̂
=
eln b̂ = e0.1544 = 1.1669
ln â
=
M(lnY ) − ln b̂ M(X) = 1.2226
â
=
eln â = e1.2226 = 3.3960
i
xi
1
3
2
2
3
1
4
4
5
2
Somma 12
Media 2.4
yi
6
4
4
6
5
25
5
ln yi
1.7918
1.3863
1.3863
1.7918
1.6094
7.9655
1.5931
xi ln yi xi2
5.3753
9
2.7726
4
1.3863
1
7.1670 16
3.2189
4
19.9201 34
3.9840 6.8
M(X) = 2.4
M(lnY ) = 1.5931
M(X 2 ) = 6.8
Var(X) = M(X 2 − [M(X)]2 = 1.04
M(X lnY ) = 3.9840
Cov(X, lnY ) = M(X lnY ) − M(X) M(lnY ) = 0.1606
22.13
Per calcolare l’errore quadratico medio
M(E 2 ) = M
$
2 % 1 n
Y − Ŷ
= ∑ (yi − ŷi )2
n i=1
occorre determinare i valori assunti dal modello ŷi = 3.3960 · 1.1669xi
i xi
1 3
2 2
3 1
4 4
5 2
yi
6
4
4
6
5
ŷi
5.3964
4.6245
3.9629
6.2973
4.6245
Somma
Errore Quadratico Medio = Media
(yi − ŷi )2
0.3643
0.3899
0.0014
0.0884
0.1410
0.9850
0.1970
22.14
281
6 Modello Y ∗ = bX
%
$
b̂ = arg min M (Y − bX)2
$
b
dM (Y − bX)2
M
db
%
=0
d (Y − bX)2
=0
db
M [2 (Y − bX) (−X)] = 0
M −XY + bX 2 = 0
−M (XY ) + b M X 2 = 0
da cui segue
b̂ =
M(XY )
M(X 2 )
22.15
b̂ =
M(XY ) 12.8
=
= 1.8824
M(X 2 )
6.8
Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi
M(E 2 ) = M[Y (Y − b̂X)] = M(Y 2 ) − b̂ M(XY ) = 25.8 − 1.8824 · 12.8 = 1.7059
i
xi yi xi yi xi2
y2i
1
3 6
18
9
36
2
2 4
8
4
16
3
1 4
4
1
16
4
4 6
24 16
36
5
2 5
10
4
25
Somma 12 25
64 34 129
Media 2.4
5 12.8 6.8 25.8
M(X 2 ) = 6.8
M(XY ) = 12.8
M(Y 2 ) = 25.8
22.16
282
modello
Y∗ =
M(E 2 )
indice
adatt.
I
II
f .regress. a + bX
0.1
0.1846
0.875
0.7692
III
a + bX 2
0.2236
0.7205
IV
V
VI
aX b
abX
bX
0.1957 0.1606
1.7059
non vale il teorema di scomposizione
della varianza in quanto M(E) = 0
22.17
Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato l’errore quadratico medio (Mean Squared Error) più piccolo e come ’peggiore’ quello che ha
associato l’errore quadratico medio più grande.
Nel caso M(E) = 0 è possibile calcolare anche l’indice di adattamento e il modello
’migliore’ sarà quello che ha associato l’indice di adattamento più grande.
Definizione 1. Si definisce indice di miglioramento la riduzione relativa dell’errore quadratico medio che si ottiene passando dal modello peggiore al modello migliore.
pegg,migl ρ
2
=
MSE pegg − MSEmigl
MSE pegg
Il seguente prospetto riporta gli indici di miglioramento per i 6 modelli considerati
2
riga,colonna ρ
∗
Y =
I
II
III
IV
V
VI
I
f .regress.
II
a + bX
0.4583
0.5528
0.4890
0.4924
0.9414
0.1744
0.0567
0.0629
0.8918
III
a + bX 2
0.8689
IV
aX b
V
abX
0.1248
0.1190
22.18
VI
bX
0.0066 0.0000
0.8853 0.8845
22.19
283
Sezione 23
Regressione lineare multipla
23.1
Indice
1
Modello lineare multivariato
285
2
Modello di riferimento
286
3
Ricerca di â con il metodo dei minimi quadrati
286
4
Esempio
287
5
Interpretazione dei coefficienti
288
6
Coefficienti standardizzati
288
7
Ulteriori ipotesi sul modello lineare
289
8
Modelli di regressione lineare multipla con presenza di variabili indicatrici 289
9
Esempio
289
1 Modello lineare multivariato
Y = a0 + a1 X1 + a2 X2 + . . . + ak Xk + E
lineare nei parametri a j ( j = 0, 1, . . . , k)
Esempio:
X1
X2
=
X
=
X2
X3
..
.
=
X3
285
23.2
oppure:
Y
=
prezzo di mercato
X1
=
=
=
costo di produzione
quantità prodotte
quantità a magazzino
=
grado sfruttamento impianti
=
..
.
prezzo periodo precedente
X2
X3
X4
X5
23.3
Matrice delle osservazioni
i
1
2
..
.
Y
y1
y2
..
.
X1
x11
x21
..
.
X2
x12
x22
..
.
. . . Xk
. . . x1k
. . . x2k
..
.
i
..
.
yi
..
.
xi1
..
.
x12
..
.
...
n
yn
xn1
xn2
. . . xnk
xik
..
.
23.4
2 Modello di riferimento
Posto, per definizione
X0 ≡ 1
Definizione 1 (Modello di regressione multipla lineare).
Y = a0 X0 + a1 X1 + . . . + ak Xk + E
Definizione 2 (Notazione matriciale modello di regressione multipla lineare).
⎡
⎤
⎤
⎡
⎡
⎡
⎤
e1
1 x11 . . . x1k
y1
a0
⎢ y2 ⎥
⎢ e2
⎢ 1 x21 . . . x2k ⎥
⎢
⎥
⎢
⎥
⎢
⎥
⎢
Y = ⎢ . ⎥ a = ⎣ ... ⎦ X = ⎢ .
..
.. ⎥ E = ⎢ ..
⎣ .. ⎦
⎣ .
⎣ ..
.
. ⎦
ak
yn
1 xn1 . . . xnk
en
⎤
⎥
⎥
⎥
⎦
Y = Xa + E
dove gli ei = yi − y∗i rappresentano gli scostamenti delle osservazioni dal modello teorico
23.5
3 Ricerca di â con il metodo dei minimi quadrati
Ricerca di â con il metodo
⎫
⎧ dei minimi quadrati
2
⎬
⎨
k
= min
â = a ∈ ℜk+1 : M Y − ∑ a j X j
⎭
⎩
j=0
Con ovvie estensioni formali delle proprietà dell’operatore media al caso multivariato.
286
23.6
4 Esempio
Esempio 3 (Consumi settimanali pro-capite di gelato).
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Y
X1
X2
consumo kg prezzo/hg temp max ◦ F
0.386
0.230
41
0.374
0.240
56
0.393
0.235
63
0.425
0.238
68
0.406
0.231
69
0.344
0.262
65
0.327
0.275
61
0.288
0.307
47
0.269
0.305
32
0.256
0.319
24
0.286
0.324
28
0.298
0.311
26
0.329
0.272
32
0.318
0.287
40
0.381
0.249
55
0.381
0.258
63
0.470
0.252
72
0.443
0.249
72
0.386
0.277
67
0.342
0.277
60
0.319
0.292
44
0.307
0.287
40
0.284
0.332
32
0.326
0.285
27
0.309
0.282
28
0.359
0.265
33
0.376
0.265
41
0.416
0.225
52
0.437
0.228
64
0.548
0.221
71
media
sqm
0.359
0.065
0.269
0.031
49.10
16.146
23.7
elaborazione con EXCEL
Y = a0 + a1 X1 + a2 X2 + E
287
OUTPUT RIEPILOGO
Statistica della regressione
R multiplo
0.8929
R2
0.7972
R2 corretto
0.7822
Errore std
0.0307
Osservazioni
30
ANALISI VARIANZA
gdl
Regressione
2
Residuo
27
Totale
29
Intercetta
prezzo
temp
Coefficienti
0.6435
−1.2999
0.0013
SQ
0.1001
0.0255
0.1255
MQ
0.0500
0.0009
Errore std
Stat t
0.0874
7.3612
0.2547 −5.1035
0.0005
2.7472
F Significatività F
53.0725
4.41599E-10
Signif
0.0000
0.0000
0.0106
Inf 95% Sup 95%
0.4641
0.8228
−1.8225 −0.7773
0.0003
0.0023
23.8
5 Interpretazione dei coefficienti
Y = a0 + a1 X1 + a2 X2 + · · · + ak Xk + E
il coefficiente ai , i = 1, 2, . . . , k rappresenta la variazione (media) attesa nella variabile
risposta Y conseguente a un incremento unitario della corrispondente variabile Xi , ceteris
paribus, ossia supponendo che rimanga immutato il livello di tutte le altre variabili X j , j =
i, e che vi sia assenza di correlazione lineare tra l’errore E e i regressori Xi , i = 1, 2, . . . , k.
23.9
Con riferimento all’esempio sul consumo di gelato il parametro a1 = −1.2999 nel modello:
Y ∗ = 0.6435 − 1.2999 · X1 + 0.0013 · X2
dove:
• Y ∗ = consumo teorico di gelato
• X1 = prezzo/hg
• X2 = temperatura
indica che, supponendo che non si modifichi il livello della temperatura (X2), una variazione positiva di una unità del prezzo implica un calo nei consumi individuali di 1.2999.
23.10
6 Coefficienti standardizzati
Per confrontare i coefficienti (se il modello è completo):
Coeff std = βi = ai
σi
σY
dove
σi = sqm(Xi )
mentre β0 = 0
288
Y std = β1 X1std + β2 X2std + E std
Intercetta
prezzo
temp
Coeff std
0
−0.6238
0.3358
Il coefficiente standardizzato βi corrisponde alla variazione di Y dovuta a una variazione
di Xi pari a σi , mentre il coefficiente ai corrisponde alla variazione di Y dovuta a una
variazione unitaria di Xi .
23.11
7 Ulteriori ipotesi sul modello lineare
Le ipotesi, generalmente imposte al modello lineare, sono piuttosto forti. Presuppongono,
infatti, anche che:
• la correlazione tra Xi e tutte le altre X j sia trascurabile
• il contributo dato dalle componenti non considerate esplicitamente nel modello, in
quanto riassunte dalla componente di errore E, sia in media nullo.
• altre considerazioni sulla variabile di errore ai fini inferenziali, cfr. Statistica
inferenziale.
23.12
8 Modelli di regressione lineare multipla con presenza
di variabili indicatrici
È possibile tenere conto in un modello di regressione (lineare) anche della presenza di
eventuali variabili esplicative di tipo qualitativo?
Ad esempio formulare un modello per interpretare la variabile dipendente Y = ’salario’ in
funzione della variabile esplicativa G = ’genere’, o in funzione della variabile L = ’livello
di istruzione’?
La risposta immediata è di ricorrere alla costruzione della funzione di regressione considerando la variabile G o la variabile L (ed eventualmente l’interazione tra le stesse) come
variabile di raggruppamento.
Esistono però anche delle soluzioni alternative.
9 Esempio
Esempio 4. Il presente esempio numerico considera 1472 osservazioni dall’indagine sul
comportamento delle famiglie condotta dall’Unione Europea (anno 1994, Belgio). (Verbeek M, 2008, A Guide to Modern Econometrics John Wiley)
Variabili presenti nel database:
•
•
•
•
wage: salario lordo orario in Euro
educ: livello di istruzione da 1 [basso] a 5 [alto]
exper: anni di esperienza
male: dummy, 1 se maschio
289
23.13
Si desidera studiare la variabile wage in funzione delle altre variabili
23.14
Genere
Si definisca una nuova variabile M a partire da G, ponendo in corrispondenza della ima
unità statistica:
1 se gi = maschio
mi =
0 se gi = femmina
Si consideri il seguente modello di regressione lineare per interpretare la variabile Y in
funzione della variabile indicatrice (chiamata variabile dummy) M:
Y ∗ = a + bM
23.15
Interpretazione dei coefficienti
b è la differenza tra lo stipendio medio dei maschi (variabile indicatrice che figura nel
modello) e lo stipendio medio delle femmine, riassunto dalla costante a.
I seguenti prospetti danno, quindi, informazioni coerenti.
Funzione di regressione M(Y |gi )
indwages$MALE: 0
[1] 10.26154
--------------------------------------------indwages$MALE: 1
[1] 11.56223
Modello lineare
Call:
lm(formula = WAGE ~ MALE, data = indwages)
Residuals:
Min
1Q Median
-8.095 -2.864 -0.999
3Q
Max
1.818 36.013
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.2615
0.1831 56.036 < 2e-16 ***
MALE
1.3007
0.2351
5.532 3.74e-08 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.406 on 1470 degrees of freedom
Multiple R-squared: 0.0204,
Adjusted R-squared: 0.01973
F-statistic: 30.61 on 1 and 1470 DF, p-value: 3.737e-08
Nella presente situazione dal momento che la variabile esplicative nel modello lineare
(M = MALE) è una variabile indicatrice consegue che:
Multiple R-squared = ηY2|M
23.16
290
Livello di istruzione
La variabile L è stata codificata con i valori interi da 1 a 5.
Si può, in primo luogo, osservare come non sia opportuno considerare il seguente modello
di regressione lineare:
Y ∗ = a + bL
Call:
lm(formula = WAGE ~ EDUC, data = indwages)
Residuals:
Min
1Q
-10.569 -2.731
Median
-0.615
3Q
1.907
Max
34.190
Coefficients:
(Intercept) 6.18513
0.31830
19.43
<2e-16 ***
EDUC
1.44018
0.08875
16.23
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 263.3 on 1 and 1470 DF, p-value: < 2.2e-16
23.17
Il coefficiente b dovrebbe essere interpretato, ceteris paribus, come la variazione nella
variabile risposta (stima di Y ) conseguente a variazioni unitarie della variabile esplicative
L (passaggi da un livello di istruzione al successivo).
Non è verosimile che l’incremento sia costante!
È opportuno costruire alcune (4) nuove variabili indicatrici LL2 , LL3 , LL4 , LL5 con la
seguente struttura per la generica unità statistica:
1 se li = 2
1 se li = 5
...
ll5i =
ll2i =
0 se li = 2
0 se li = 5
Si osservi come il numero di variabili indicatrici che sono state costruite e che verranno
utilizzate nelle analisi successive è inferiore di una unità al numero di modalità distinte
della variabile che si è ricodificata.
Ciascuna variabile indicatrice dà informazioni sulla presenza, o meno, della generica modalità della variabile ricodificata: se, ad esempio, ll3i = 1 la iesima unità statistica possiede
il terzo livello di istruzione; conseguentemente, in corrispondenza a tale unità statistica,
si avrà che ll2i = ll4i = ll5i = 0.
23.18
Si considera quindi il seguente modello di regressione lineare per interpretare la variabile
Y in funzione del livello di istruzione:
Y ∗ = a + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5
23.19
Interpretazione del generico coefficiente bi
Variazione media nello stipendio che si ottiene passando dal livello di istruzione, che non
è stato considerato nella costruzione delle variabili indicatrici (nel caso presente L = 1),
al livello di istruzione ricodificato mediante la variabile LLi .
291
Si osserva che la costante a nel modello di regressione riassume la media della variabile
risposta per le unità statistiche con livello di istruzione L = 1.
I seguenti prospetti danno, quindi, informazioni equivalenti.
23.20
Funzione di Regressione M(Y |li )
indwages$EDUC: 1
[1] 8.429049
--------------------------------------------indwages$EDUC: 2
[1] 9.21519
--------------------------------------------indwages$EDUC: 3
[1] 10.2032
--------------------------------------------indwages$EDUC: 4
[1] 11.43112
--------------------------------------------indwages$EDUC: 5
[1] 13.96139
Modello Lineare
Call:
lm(formula = WAGE ~ -1 + L, data = indwages)
Residuals:
Min
1Q
-11.144 -2.547
Median
-0.572
3Q
1.769
Max
33.614
Coefficients:
L(Intercept)
8.4290
0.4099 20.566 < 2e-16 ***
LL2
0.7861
0.4804
1.637 0.101933
LL3
1.7742
0.4556
3.894 0.000103 ***
LL4
3.0021
0.4634
6.479 1.26e-10 ***
LL5
5.5323
0.4670 11.847 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
F-statistic: 2219 on 5 and 1467 DF, p-value: < 2.2e-16
Anche in questo caso le variabili esplicative nel modello lineare (LLi , i = 2, . . . , 5) sono
solo variabili indicatrici; consegue che:
23.21
Multiple R-squared = ηY2|L
23.22
292
Box & Whiskers Plots
10 20 30 40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
1
10 20 30 40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3
4
●
●
●
1
2
5
10 20 30 40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
01
●
●
●
●
●
●
●
●
●
●
●
●
●
●
02
03
●
04
05
11
12
13
14
15
Dall’alto:
• salario in funzione del genere (G);
• salario in funzione del livello di istruzione (L);
• salario in funzione delle interazioni tra genere e livello di istruzione (G : L).
Genere e Livello di istruzione
Funzione di Regressione M(Y |gi , l j )
paste(indwages$MALE, indwages$EDUC): 0 1
[1] 6.60001
--------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 2
[1] 8.152744
[1] 9.34604
[1] 10.71929
[1] 12.47561
[1] 8.982574
293
23.23
[1] 9.596581
[1] 10.74142
[1] 12.26449
[1] 14.942
23.24
Modello Lineare
Call:
lm(formula = indwages$WAGE ~ -1 + i)
Residuals:
Min
1Q
-10.059 -2.405
Median
-0.532
3Q
1.820
Max
32.634
Coefficients:
i(Intercept) 6.60001
0.83243
7.929 4.36e-15 ***
iMALE
2.38256
0.95008
2.508 0.01226 *
iL2
1.55273
0.95949
1.618 0.10582
iL3
2.74603
0.88956
3.087 0.00206 **
iL4
4.11928
0.88088
4.676 3.19e-06 ***
iL5
5.87560
0.90204
6.514 1.01e-10 ***
iMALE:L2
-0.93873
1.10093 -0.853 0.39398
iMALE:L3
-0.98718
1.03092 -0.958 0.33844
iMALE:L4
-0.83736
1.04059 -0.805 0.42113
iMALE:L5
0.08384
1.05027
0.080 0.93639
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
23.25
Y∗
=
a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + c12 M · LL2 + c13 M · LL3 +
+c14 M · LL4 + c15 M · LL5
Anche in questo caso dal momento che le variabili esplicative nel modello lineare (LLi , i =
2, . . . , 5) sono variabili indicatrici o variabili ottenute dal prodotto di variabili indicatrici
consegue che:
Multiple R-squared = ηY2|M∗L
23.26
294
Genere e Livello di istruzione e anni di esperienza
Y∗
=
a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 +
+c12 M · LL2 + c13 M · LL3 + c14 M · LL4 + c15 M · LL5 + dExper
Modello Lineare
Call:
lm(formula = WAGE ~ -1 + i + EXPER, data = indwages)
Residuals:
Min
1Q
-13.9128 -1.8688
Median
-0.3153
3Q
1.5982
Max
30.3096
Coefficients:
i(Intercept) 2.094466
0.773842
2.707 0.00688 **
iMALE
1.808870
0.844576
2.142 0.03238 *
iL2
1.958518
0.852688
2.297 0.02177 *
iL3
4.377753
0.794609
5.509 4.25e-08 ***
iL4
5.974984
0.788205
7.580 6.09e-14 ***
iL5
7.970928
0.808374
9.860 < 2e-16 ***
iMALE:L2
-0.169567
0.978878 -0.173 0.86250
iMALE:L3
-1.034530
0.915907 -1.130 0.25887
iMALE:L4
-0.709085
0.924519 -0.767 0.44322
iMALE:L5
0.038260
0.933099
0.041 0.96730
EXPER
0.191195
0.009666 19.780 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
23.27
Si osservi che nella presente situazione la variabile
Exper = numero di anni di esperienza
figura come variabile quantitativa e non è conveniente costruire la funzione di regressione
dal momento che Exper assume parecchi valori distinti.
Multiple R-squared esprime la quota di varianza di Y spiegata dal modello di
regressione lineare riportato all’inizio della pagina.
Non è inoltre ragionevole assumere che l’effetto dell’esperienza sul salario sia direttamente proporzionale al numero di anni (significato del coefficiente d).
Si potrebbe ovviare a tale inconveniente ricodificando anche la variabile esperienza con
opportune variabili indicatrici che identifichino livelli bassi, medi e alti di esperienza.
Una soluzione alternativa è quella di effettuare una trasformazione non lineare della
variabile Exper.
295
23.28
Y∗
=
a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 +
+c12 M · LL2 + c13 M · LL3 + c14 M · LL4 + c15 M · LL5 + d ln(Exper)
Call:
lm(formula = WAGE ~ -1 + i + LNEXPER, data = indwages)
Residuals:
Min
1Q
-12.8419 -1.9742
Median
-0.2711
3Q
1.4507
Max
30.5102
Coefficients:
i(Intercept) -1.73580
0.83950 -2.068
0.0388 *
iMALE
1.90487
0.83817
2.273
0.0232 *
iL2
1.79639
0.84623
2.123
0.0339 *
iL3
4.15723
0.78750
5.279 1.49e-07 ***
iL4
5.72400
0.78077
7.331 3.76e-13 ***
iL5
7.86340
0.80139
9.812 < 2e-16 ***
iMALE:L2
-0.20095
0.97155 -0.207
0.8362
iMALE:L3
-1.10739
0.90916 -1.218
0.2234
iMALE:L4
-0.78301
0.91767 -0.853
0.3937
iMALE:L5
-0.08071
0.92624 -0.087
0.9306
LNEXPER
2.70650
0.13223 20.468 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
23.29
La presente formulazione, considerando la trasformata logaritmica del numero di anni
di esperienza, può consentire di tenere conto di un effetto non lineare dell’esperienza
(si presuppone che gli effetti sulla variabile risposta siano legati in maniera meno che
proporzionale al crescere del numero di anni di esperienza). Infatti:
> 1:7
[1] 1 2 3 4 5 6 7
> diff(1:7)
[1] 1 1 1 1 1 1
> round(log(1:7), 4)
[1] 0.0000 0.6931 1.0986 1.3863 1.6094 1.7918 1.9459
> round(diff(log(1:7)), 4)
[1] 0.6931 0.4055 0.2877 0.2231 0.1823 0.1542
Per ulteriori approfondimenti si veda Verbeek M (2008) A Guide to Modern Econometrics
John Wiley, testo da cui sono stati reperiti i dati relativi all’esempio considerato.
296
23.30
Sezione 24
Calcolo delle probabilità (1)
24.1
Indice
1
La probabilità
297
2
Oggetto della probabilità
298
3
Relazioni tra eventi
299
4
Operazioni elementari
301
5
Funzione di probabilità
302
6
Impostazione assiomatica
303
7
Teoremi calcolo probabilità
303
8
Approccio classico
305
9
Elicitazione e interpretazione di P(A)
307
9.1 L’approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . 307
9.2 Lo schema della scommessa . . . . . . . . . . . . . . . . . . . . . . . . 308
10 Gioco equo
309
1 La probabilità
Abbiamo visto
serie e seriazioni
campionarie/teoriche
modelli teorici per universo/popolazione
xi
x1
x2
..
.
ϕi
ϕ1
ϕ2
..
.
xh
ϕh
ϕi = frequenze relative teoriche
In corrispondenza:
297
24.2
• mutabili/variabili statistiche
• mutabili/variabili casuali
frequenze → probabilità
Come definire la probabilità?
24.3
Definizione 1 (Esperimento deterministico). Si definisce deterministico un esperimento
il cui risultato non è affetto da variabilità accidentale, è prevedibile con certezza.
Definizione 2 (Esperimento aleatorio). Si definisce aleatorio un esperimento il cui risultato è casuale, non è prevedibile con certezza.
Un esperimento aleatorio può, quindi, dare luogo a 2 o più risultati.
Per descrivere le manifestazioni di un esperimento parleremo di eventi.
Definizione 3 (Probabilità). È la misura del presentarsi di un evento; una valutazione sul
fatto che un esperimento aleatorio dia luogo a un certo evento.
Obiettivo
Costruire modelli teorici che permettano di calcolare la probabilità di tutti gli eventi
sperimentabili
24.4
0
→
→
→
→
1-12
13-24
25-36
00
1
4
7
10
13
16
19
22
25
28
31
34
↑
2
5
8
11
14
17
20
23
26
29
32
35
↑
1-18
19-36
3
6
9
12
15
18
21
24
27
30
33
36
↑
←
←
←
←
←
←
←
←
←
←
←
←
rosso
nero
24.5
298
2 Oggetto della probabilità
Definizione 4 (Eventi elementari).
e 1 , e2 , . . . , e i , . . .
Risultati (manifestazioni) possibili del fenomeno aleatorio
Ad esempio:
1, 2, 3, . . . , 36, 0, 00
24.6
Definizione 5 (Eventi generici).
A1 , A2 , . . . , Ai , . . .
• Insiemi di eventi elementari
• Insiemi di possibili modalità del fenomeno di specifico interesse
Ad esempio:
• nel gioco della roulette
– pari = 2 ∪ 4 ∪ . . . ∪ 34 ∪ 36 = {2, 4, . . . , 34, 36},
– dispari, rosso, nero, 1-12, 13-24, 25-36, . . .
– si puntano un gettone sul pari e un gettone sul rosso
{2, 4, . . . , 34, 36} ∪ {1, 3, . . . , 34, 36}
– si puntano un gettone su 1-12 e un gettone su dispari
– i numeri 8, 10, 11 si possono ottenere come intersezione degli insiemi: 7-12
e nero
{7, 8, 9, 10, 11, 12} ∩ {2, 4, 6, 8, 10, 11, 13, 15, . . . , 31, 33, 35}
• nel lancio di un dado
– risultato pari = {2, 4, 6},
– risultato dispari = {1, 3, 5},
24.7
Definizione 6 (Classi o famiglie di eventi). Collezioni di insiemi definite attraverso una
regola di appartenenza Ad esempio:
• tutti gli eventi su cui è possibile puntare alla roulette
Ad esempio:
24.8
Definizione 7 (Eventi particolari).
• Insieme vuoto ∅ (evento impossibile)
• Spazio degli eventi elementari Ω (evento certo) o spazio campionario dei possibili
risultati
Ad esempio:
• scommessa sul numero 52 = ∅
• Ω = {1, 2, 3, . . . , 36, 0, 00}
24.9
299
3 Relazioni tra eventi
Definizione 8 (Eguaglianza).
A=B
A e B hanno gli stessi elementi
Ω
Ω
●
B
●
A
B
A
●
●
●
●
●
●
24.10
Definizione 9 (Appartenenza).
A⊂B
gli elementi di A sono anche elementi di B
(ma non necessariamente viceversa)
Ω
A
B
24.11
Definizione 10 (Inclusione o contenimento).
A⊃B
300
Ω
B
A
24.12
Definizione 11 (Disgiunzione o Incompatibilità).
A∩B = ∅
A e B non hanno elementi in comune
Ω
B
A
24.13
4 Operazioni elementari
Definizione 12 (Insieme Unione).
A∪B
i cui elementi appartengono ad A oppure a B
Ω
A
B
301
24.14
Definizione 13 (Insieme Intersezione).
A ∩ B = AB
i cui elementi appartengono sia ad A che a B
Ω
A
B
24.15
Definizione 14 (Insieme Differenza).
A−B
i cui elementi appartengono ad A ma non a B
Ω
A
B
A−B= area bianca nell'insieme A
24.16
Definizione 15 (Insieme Complementare). Ā = Ω − A i cui elementi non appartengono
ad A
Ω
A
A
302
24.17
Esempio 16 (Lancio del dado).
p p pp pp pp
Ω = { p , p, pp, p p, ppp, p p}
A = {dispari} = {1, 3, 5}
Ā = {2, 4, 6}
A ∩ Ā = ∅
24.18
5 Funzione di probabilità
È una funzione di insieme, una legge che permette di calcolare P(A) per ogni evento
A ⊂ Ω.
Ipotesi di lavoro
Indicata con S (Ω) la classe di tutti i sottoinsiemi di Ω
(compresi ∅ e Ω)
assiomi del calcolo delle probabilità
+
probabilità eventi elementari
↓
calcolo di P(A) ∀A ⊂ S (Ω)
P : S (Ω) → ℜ
(tratteremo solo il caso di Ω finito)
24.19
6 Impostazione assiomatica
Definizione 17 (Impostazione assiomatica di Kolmogorov). Siano Ω = lo spazio degli
eventi elementari ed S (Ω) la classe di tutti i sottoinsiemi di Ω.
Una funzione P(·) definita su S (Ω) si definisce funzione di probabilità se soddisfa i
seguenti assiomi:
1. P(A) ≥ 0, ∀A ⊂ S (Ω)
2. P(Ω) = 1
3. Data una sequenza di eventi {A1 , A2 , . . . , An } a coppie disgiunti (Ai ∩ A j = ∅)
P
n
2
n
Ai
i=1
i=1
Osservazione
1) e 2) vincoli alla funzione misura
= ∑ P(Ai )
3) condizione operativa
Osservazione
Definita una legge
P = P(ei ) (∀ei ⊂ Ω)
che soddisfa gli assiomi possiamo calcolare
P(A) (∀A ⊂ Ω)
Infatti, ogni evento A è interpretabile come unione di un certo numero di eventi elementari
(disgiunti)
A=
k
2
i=1
303
ei
24.20
per cui
k
P(A) = ∑ P(ei )
i=1
Altre volte risulta più agevole non ricorrere alle P(ei ) ma usare dei teoremi che derivano
dai postulati
24.21
7 Teoremi calcolo probabilità
Teorema 18.
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Ω
A
B
P(A ∩ B) = 0 solo se A e B sono disgiunti
24.22
Teorema 19.
P(A − B) = P(A) − P(A ∩ B)
Ω
A
B
A−B= area bianca nell'insieme A
P(A ∩ B) = P(B) solo se B ⊂ A
24.23
Teorema 20.
P(Ā) = 1 − P(A)
304
Ω
A
A
24.24
Dimostrazione. P(Ā) = 1 − P(A)
A ∪ Ā = Ω
P(A + Ā) = P(Ω)
per il secondo assioma P(Ω) = 1
A e Ā sono disgiunti
per il terzo assioma P(A ∪ Ā) = P(A) + P(Ā)
24.25
Teorema 21.
P(∅) = 0
Teorema 22. Se A ⊂ B allora P(A) ≤ P(B) (monotonicità)
24.26
Osservazione
Se gli eventi A e B sono incompatibili
P(A ∪ B) = P(A) + P(B).
È il cosiddetto principio delle probabilità totali, postulato base dell’impostazione classica
della probabilità.
Osservazione
Dall’ultimo teorema segue che P(A) ≤ 1 essendo A ⊂ Ω
24.27
Esercizio 23 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si
verifichi l’evento B è pari a 0.12.
La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi
l’evento A.
La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68.
1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi
l’evento B.
2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificato
l’evento B.
24.28
305
8 Approccio classico
Definizione 24 (Formula classica di Laplace/Pascal). Se lo spazio probabilistico Ω
• è costituito da un numero finito n di eventi elementari
e
• gli eventi elementari sono ’simmetrici’ (equiprobabili)
la probabilità del generico evento A ⊂ Ω può essere definita come
P(A) =
# casi favorevoli ad A # eventi elementari ∈ A
=
# casi possibili
n
Possibili applicazioni:
• giochi d’azzardo
• lotto e tombola
24.29
Dimostrazione.
Ω = {e1 , e2 . . . , en }
Se gli eventi ei sono simmetrici (equiprobabili) vale
P({ei }) = costante = p =?
Per il secondo e terzo postulato
P(Ω) = P
n
2
n
n
i=1
i=1
= ∑ P(ei ) = ∑ p = np = 1
ei
i=1
quindi
p=
e
P(A) =
1
n
1 nA
= .
n
i:ei ∈A n
∑
24.30
Esempio 25. Calcolare la probabilità che estraendo una carta da un mazzo di 52 carte si
ottenga una carta di fiori.
Siamo interessati all’evento
F = {carta di fiori}
Con riferimento allo spazio probabilistico Ω formato dalle 52 carte
A♥
A♦
A♣
A♠
2♥
2♦
2♣
2♠
3♥
3♦
3♣
3♠
4♥
4♦
4♣
4♠
5♥
5♦
5♣
5♠
6♥
6♦
6♣
6♠
7♥
7♦
7♣
7♠
8♥
8♦
8♣
8♠
9♥
9♦
9♣
9♠
10♥
10♦
10♣
10♠
J♥
J♦
J♣
J♠
Q♥
Q♦
Q♣
Q♠
K♥
K♦
K♣
K♠
13
= 0.25
52
Con riferimento allo spazio probabilistico Ω formato dai 4 semi (simmetrici, essendo
ciascuno costituito da 13 carte)
P(F) =
♥
♦
♣
♠
P(F) =
306
1
= 0.25
4
24.31
Esempio 26. Calcolare la probabilità che la somma dei punteggi ottenuti nel lancio di 2
dadi (equilibrati) sia almeno pari a 11.
●
●
●
4
●
●
●
●
●
●
3
●
●
●
●
●
●
2
7
●
●
●
●
●
●
●
●
●
●
●
●
●
1
2
3
4
5
6
0
6
●
●
●
●
●
●
5
5
●
●
●
●
●
●
●
●
4
●
●
●
●
●
●
●
3
●
●
●
●
●
●
●
2
●
●
●
●
●
●
●
1
●
●
●
●
●
●
●
1
2
3
4
5
6
0
6
●
0
●
1
7
Siano D1 e D2 i punteggi ottenuti con i due dadi ed S = D1 + D2 la loro somma.
Lo spazio probabilistico Ω è costituito da tutte le possibili coppie di risultati
7
0
7
3
= 0.0833.
36
L’assegnazione della funzione di probabilità in base all’approccio classico può essere
utilizzata se sono verificate le seguenti due assunzioni
P(S ≥ 11) = P(D1 + D2 ≥ 11) =
24.32
• lo spazio probabilistico Ω consta di un numero finito di eventi
• simmetria degli eventi elementari
Come è possibile operare se le precedenti ipotesi non sono verificate?
Si pensi, ad esempio, alla probabilizzazione dei seguenti eventi:
• evento testa nel caso di una moneta non equilibrata
• in una partita di calcio disputata tra le squadre a e b vinca la squadra a
24.33
9 Elicitazione e interpretazione di P(A)
• approccio frequentista (oggettivo)
P(A) = limite del rapporto di frequenze
(legge empirica del caso)
• schema della scommessa (soggettivo)
P(A) = quanto sono disposto a puntare per vincere 1
(De Finetti)
24.34
9.1
L’approccio frequentista
Definizione 27 (Esperimento aleatorio ripetibile). Si definisce ripetibile un esperimento
aleatorio che può essere ripetuto nelle stesse condizioni sperimentali.
307
Definizione 28 (Legge empirica del caso). In presenza di un esperimento aleatorio ripetibile ∀A ⊂ S (Ω) esiste un valore oggettivo P(A)
lim
N→∞
NA
= P(A)
N
Osservazione
Il limite della frequenza relativa di successo soddisfa gli assiomi
0.7
24.35
0.6
Limite in senso matematico
0.5
limN→∞ f (N) = p
0.4
∀ε > 0, ∃N0 (ε) : se N > N0 allora
0.3
| f (N) − p| < ε
0
200
400
600
800
1000
0.7
0.65
0.6
0.55
Limite in senso probabilistico
0.5
0.45
0.4
limN→∞ f (N) = c
0.35
0.3
∀ε > 0, ∃N0 (ε, s) : se N > N0 allora
| f (N) − p| < ε
0
200
400
600
800
1000
0
200
400
600
800
1000
0.7
0.65
0.6
0.55
N0 dipende anche dalla successione
s di esperimenti.
0.5
0.45
0.4
0.35
0.3
24.36
9.2
Lo schema della scommessa
• esperimenti non necessariamente ripetibili
• opinioni soggettive differenti
∀A ⊂ S (Ω) P(A) = p
posta p che il soggetto è disposto a pagare (ricevere) per riscuotere (pagare)
• 1 se A si verifica
• 0 se A non si verifica
La scommessa deve essere coerente: non deve dar luogo a guadagni (perdite) certi.
Per garantire la coerenza la valutazione non deve cambiare se l’individuo passa da scommettitore a banco.
Una valutazione coerente soddisfa gli assiomi.
308
24.37
10 Gioco equo
Il concetto di Gioco equo è strettamente legato a quello di scommessa coerente.
Definizione 29 (Gioco equo). Un gioco si definisce equo se non dà luogo a guadagni o
perdite certi, ovvero se il guadagno ’medio’ del giocatore è nullo.
Osservazione
Una scommessa su un evento A, per il quale P(A) = p, corrisponde a un gioco equo se
puntando 1 vinco 1/p.
24.38
Esempio 30 (Lancio di una moneta equilibrata). I risultati possibili sono: T = testa e C =
croce:
• in base all’impostazione classica si tratta di eventi elementari simmetrici:
P(T ) = P(C) = 0.5;
• in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere,
ad esempio, sull’evento T 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è
di 1 a 2, ovvero punto 1 per ricevere 2);
0 se risultato = T̄
quindi: posta = 1 vincita =
2 se risultato = T
risultato
T̄
T
xi
−1
1
P(X = xi ) xi · P(X = xi )
0.5
−0.5
0.5
0.5
1
0
dove xi = guadagno = vincita − posta
M(X) = E(X) = 0
Il gioco è equo: non dà, infatti, luogo a guadagni o perdite certi.
24.39
• andamento della convergenza della frequenza di T = testa in una successione di
1000 lanci (grafici A)
• corrispondente evoluzione della situazione patrimoniale di un ipotetico giocatore
che scommette su T (grafici B)
A
B
A
35
0.7
0.65
25
0.6
15
0.55
0.5
10
0.5
5
0
0.4
-5 0
200
400
600
800
1000
-10
0.35
0
200
400
600
800
1000
10
0
0.45
-10
0.4
-20
0.35
-15
0.3
20
0.6
20
0.55
0.45
B
30
0.7
30
0.65
200
400
600
800
1000
70
0.7
60
0.65
0
50
0.6
-10
0.55
40
0.55
-20
0.5
-30
30
0.35
600
800
1000
-10
200
400
600
800
1000
-60
0
400
0
-50
0.35
200
1000
-40
0.4
10
0
800
10
0.45
20
0.3
600
-40
0.6
0.4
400
-30
0
0.7
0.5
200
0.3
-20
0.65
0.45
0
0
200
400
600
800
1000
-70
0.3
0
309
200
400
600
800
1000
-80
24.40
Esempio 31 (Gioco della roulette). I risultati possibili sono i simboli 0, 00, 1, 2, 3, . . . , 36:
• in base all’impostazione classica:
P(0) = P(00) = P(1) = . . . = P(36) =
1
;
38
• in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere
1
unità per ricevere 1 (il rapporto tra posta razionale e vincita
sul generico simbolo 38
è di 1 a 38);
In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene
però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35:
xi = vincita − posta
−1
35
P(X = xi )
37
38
1
38
1
xi · P(X = xi )
− 37
38
2
− 38
35
38
= −0.05263
M(X) = E(X) < 0
Il gioco non è equo: ci si attende ’in media’ una perdita certa.
310
24.41
Sezione 25
25.1
Indice
1
La probabilità condizionata P(A|B)
311
2
La probabilità composta
313
3
Indipendenza stocastica
313
3.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
4
La probabilità composta (caso generale)
4.1 Esercizi . . . . . . . . . . . . . . .
4.2 Le permutazioni . . . . . . . . . . .
4.3 Le combinazioni . . . . . . . . . .
4.4 Il coefficiente binomiale . . . . . .
4.5 Il coefficiente multinomiale . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
314
315
315
316
317
318
5
Legge delle probabilità totali
319
5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6
Formula di Bayes
321
6.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
1 La probabilità condizionata P(A|B)
In presenza di due eventi A e B
Ω
A
B
311
25.2
siamo interessati a calcolare la probabilità dell’evento condizionato A|B, ossia la probabilità che si verifichi l’evento A a condizione che B si sia verificato.
L’evento B deve potersi verificare: P(B) > 0.
Si opera una restrizione dello spazio probabilistico Ω al solo evento B, che diventa lo
spazio di riferimento (Ω∗ = B) su cui definire una nuova legge P∗ (A) = P(A|B).
25.3
È possibile utilizzare la legge P definita su Ω per costruire P∗ ?
Ω
A
B
L’evento A si verifica ora nella sola intersezione con B, quindi
P(A|B) =
P(A ∩ B)
P(B)
Si osserva come con riferimento allo spazio Ω vale
P(A ∩ Ω) P(A)
=
P(Ω)
1
P(A) =
25.4
Definizione 1 (Probabilità condizionata).
P(A|B) =
P(A ∩ B)
,
P(B)
P(B) = 0
Esempio 2. Si estragga una carta da un mazzo di 52 carte. Si calcoli la probabilità che sia
un asso, condizionatamente al fatto che la carta estratta abbia il seme ’cuori’.
• ottenere un asso all’interno delle cuori (A ∩ B)
• considerando solo le uscite di cuori (B)
A♥
A♦
A♣
A♠
2♥
2♦
2♣
2♠
3♥
3♦
3♣
3♠
4♥
4♦
4♣
4♠
5♥
5♦
5♣
5♠
6♥
6♦
6♣
6♠
P(A|B) =
7♥
7♦
7♣
7♠
8♥
8♦
8♣
8♠
P(A ∩ B)
=
P(B)
9♥
9♦
9♣
9♠
1
52
13
52
=
10♥
10♦
10♣
10♠
P(A ∩ B)
=
P(B)
312
1
52
13
52
=
Q♥
Q♦
Q♣
Q♠
K♥
K♦
K♣
K♠
1
13
Si osserva come l’ultimo passaggio nella precedente espressione
P(A|B) =
J♥
J♦
J♣
J♠
1
13
25.5
non sia una semplice semplificazione della formula.
Il condizionamento rappresenta, infatti, una restrizione all’insieme condizionante (B).
Risulta, quindi, definita una nuova misura di probabilità P∗ riferita allo spazio probabilistico Ω∗ = B = carte di cuori.
P(A ∩ B)
=
P(B)
1
52
13
52
=
#AC in Ω
#casi poss. in Ω
#C in Ω
#casi poss. in Ω
=
1
#AC in B
=
= P! (A)
13 #casi poss. in B
25.6
Osservazione
Con riferimento a particolari sequenze di eventi {A1 , A2 , . . . , An } il terzo postulato dell’impostazione assiomatica potrebbe applicarsi per P∗ definita su B e non per P definita
su Ω.
Ω
A1
B
A2
A3
A4
A1 ∩ A2 = ∅, A3 ∩ A4 = ∅,
(A1 |B) ∩ (A2 |B) = (A3 |B) ∩ (A4 |B) = ∅
25.7
2 La probabilità composta
Da
P(B|A) =
P(B ∩ A)
,
P(A)
P(A) = 0
P(A|B) =
P(A ∩ B)
,
P(B)
P(B) = 0
segue la definizione di probabilità composta.
Definizione 3 (Probabilità composta).
P(A ∩ B) = P(A) · P(B|A) = P(B) · P(A|B)
25.8
313
3 Indipendenza stocastica
Definizione 4 (Indipendenza stocastica). Due eventi A e B si dicono stocasticamente
indipendenti se
P(A ∩ B) = P(A) · P(B)
Se A e B sono stocasticamente indipendenti, dalla formula della probabilità condizionata
segue che:
•
P(A ∩ B) P(A) · P(B)
P(A|B) =
=
= P(A)
P(B)
P(B)
l’evento B non ha alcuna influenza sulla manifestazione dell’evento A.
•
P(B ∩ A) P(B) · P(A)
=
= P(B)
P(B|A) =
P(A)
P(A)
l’evento A non ha alcuna influenza sulla manifestazione dell’evento B.
3.1
25.9
Esercizi
Esercizio 5. Due eventi disgiunti sono indipendenti?
Esercizio 6 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si
verifichi l’evento B è pari a 0.12.
La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi
l’evento A.
La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68.
1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi
l’evento B.
2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificato
l’evento B.
3. Indicare, giustificando la risposta, se A e il complementare di B sono tra loro
stocasticamente indipendenti.
4. Dimostrare che A e B sono tra loro stocasticamente indipendenti.
Esercizio 7 (T 156, 13.09.1997, 4). Dati due eventi tali che P(A) = 0.3, P(B) = 0.4;
calcolare P(A ∪ B) nelle seguenti ipotesi:
1. A e B sono stocasticamente indipendenti;
2. A e B sono disgiunti;
3. P(A|B) = 0.8.
Esercizio 8 (T 173, 13.09.1997, 4). Sapendo che la probabilità che si verifichi l’evento A
è pari a 0.4 e che la probabilità che si verifichi l’evento B è pari a 0.9, dire, giustificando
la risposta data, se:
1. A e B sono due eventi incompatibili (o disgiunti);
2. A e B sono due eventi tra loro stocasticamente indipendenti, sapendo che P(A∪B) =
0.9.
Esercizio 9 (T 231, 11.01.2007, 4). Sapendo che A, B e C sono tre eventi che costituiscono una partizione dello spazio probabilistico Ω e che P(A) = 0.2 e P(B) è 2 volte
P(C).
1. Calcolare P(B ∪C); P(A ∩C); P(A − B); P(A|B).
2. Dire se A e C sono stocasticamente indipendenti.
314
25.10
25.11
25.12
25.13
25.14
4 La probabilità composta (caso generale)
Definizione 10 (Probabilità composta). Si considerino gli eventi A1 , A2 , . . . , An . Allora
P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ A2 ∩ . . . ∩ An−1 )
con P(A1 ∩ A2 ∩ . . . ∩ An ) = 0.
Teorema 11. Si considerino gli eventi A1 , A2 , . . . , An con P(A1 ∩ A2 ∩ . . . ∩ An ) = 0. Allora
0 < P(A1 ∩ . . . ∩ An ) ≤ P(A1 ∩ . . . ∩ An−1 ) ≤ . . . ≤ P(A1 )
Dimostrazione. Dal momento che
(A1 ∩ . . . ∩ An ) ⊂ (A1 ∩ . . . ∩ An−1 ) ⊂ . . . ⊂ (A1 ∩ A2 ) ⊂ A1 ,
la tesi segue applicando il Teorema della monotonicità.
25.15
4.1
Esercizi
Esercizio 12 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna
recante impressa una lettera dell’alfabeto italiano.
Calcolare la probabilità che estraendo contemporaneamente 5 palline escano:
1. 5 consonanti;
2. le 5 lettere che compongono il sostantivo ombra;
(suggerimento: calcolare le seguenti probabilità: P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ), P(a1 ∩
m2 ∩ b3 ∩ r4 ∩ o5 ); conteggiare poi il numero di sequenze che possono essere costruite con le lettere o, m, b, r, a, cfr. il paragrafo successivo ’le permutazioni’).
25.16
315
4.2
Le permutazioni
Esempio 13. Quante sequenze si possono costruire con le quattro lettere (elementi distinti) r, o, m, a
r
r
r
r
r
r
o
o
o
o
o
o
m
m
m
m
m
m
a
a
a
a
a
a
o
o
m
m
a
a
r
r
m
m
a
a
r
r
o
o
a
a
r
r
o
o
m
m
m
a
o
a
o
m
m
a
r
a
r
m
o
a
r
a
r
o
o
m
r
m
r
o
a
m
a
o
m
o
a
m
a
r
m
r
a
o
a
r
o
r
m
o
m
r
o
r
4
3
2
1
4 · 3 · 2 · 1 = 4! = 24
In totale 24 sequenze, ottenibili mediante il prodotto
4 · 3 · 2 · 1 = 4! = 24
25.17
Definizione 14 (Permutazioni). Numero di sequenze che possono essere costruite con n
elementi distinti:
n · (n − 1) · . . . · 2 · 1
Definizione 15 (Fattoriale). Si definisce fattoriale di un numero n il prodotto dei numeri
da 1 a n
n! = n · (n − 1) · . . . · 2 · 1
Per definizione vale
0! = 1
Esercizio 16 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna
recante impressa una lettera dell’alfabeto italiano.
Calcolare la probabilità che estraendo contemporaneamente 5 palline escano:
3. le 5 lettere che compongono il sostantivo sasso.
4. 3 vocali e 2 consonanti;
(suggerimento: calcolare le seguenti probabilità: P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ), P(c1 ∩
c2 ∩ v3 ∩ v4 ∩ v5 ); conteggiare poi il numero di sequenze che possono essere costruite con 3 vocali e 2 consonanti, cfr. il paragrafo successivo ’le combinazioni’).
Esercizio 17 (T 121, 26.06.1993, 5). Papà, mamma con i due figli vanno in gelateria e
si siedono a un tavolo quadrato a 4 posti; determinare la probabilità che i due figli siano
seduti uno di fronte all’altro, ritenendo equiprobabile ogni configurazione.
316
25.18
25.19
25.20
4.3
Le combinazioni
Esempio 18. Si considerino 5 elementi dei quali 3 di un tipo e 2 di un secondo tipo (ad
esempio 3 lettere f e 2 lettere g).
Quante sequenze si possono costruire con i 5 elementi?
Ipotizziamo in primo luogo che i 5 elementi siano distinti:
a, b, c, d, e
Il numero delle possibili sequenze è 5! = 5 · 4 · 3 · 2 · 1 = 120
abcde
abced
abdce
abdec
abecd
abedc
acbde
acbed
acdbe
acdeb
acebd
acedb
adbce
adbec
adcbe
adceb
adebc
adecb
aebcd
aebdc
aecbd
aecdb
aedbc
aedcb
bacde
baced
badce
badec
baecd
baedc
bcade
bcaed
bcdae
bcdea
bcead
bceda
bdace
bdaec
bdcae
bdcea
bdeac
bdeca
beacd
beadc
becad
becda
bedac
bedca
cabde
cabed
cadbe
cadeb
caebd
caedb
cbade
cbaed
cbdae
cbdea
cbead
cbeda
cdabe
cdaeb
cdbae
cdbea
cdeab
cdeba
ceabd
ceadb
cebad
cebda
cedab
cedba
dabce
dabec
dacbe
daceb
daebc
daecb
dbace
dbaec
dbcae
dbcea
dbeac
dbeca
dcabe
dcaeb
dcbae
dcbea
dceab
dceba
deabc
deacb
debac
debca
decab
decba
eabcd
eabdc
eacbd
eacdb
eadbc
eadcb
ebacd
ebadc
ebcad
ebcda
ebdac
ebdca
ecabd
ecadb
ecbad
ecbda
ecdab
ecdba
edabc
edacb
edbac
edbca
edcab
edcba
25.21
Si sostituisca alle lettere a, b, c la lettera f
Tutte le sequenze che contengono la coppia (d, e) in posizione prefissata, ad esempio in
4a e 5a posizione divengono indistinguibili
abcde
bacde
cabde
→ f f f de
acbde
bcade
cbade
Il numero di sequenze distinte (per l’ordine) risulta allora ridotto a
120 5!
=
= 20,
6
3!
essendo 3!, permutazione delle 3 lettere a, b, c, il numero di elementi ’indistinguibili’ con
d ed e in posizione prefissata e a, b, c sostituite con f
f f f de
f f f ed
f fd fe
f fefd
f f de f
f f ed f
fd f fe
fef fd
fd fef
fefd f
f de f f
f ed f f
317
d f f fe
ef f fd
d f fef
ef fd f
d fef f
efd f f
de f f f
ed f f f
Sostituendo alle lettere d, e la lettera g, il numero di sequenze distinte (per l’ordine)
risulta
120
5!
=
= 10,
3! · 2! 6 · 2
dove 2!, permutazione delle lettere d, e, è il numero di elementi ’indistinguibili’ con a, b, c
(o f f f ) in posizione prefissata e d, e sostituite con g
f f f gg
f fgfg
f f gg f
fgf fg
fgfgf
f gg f f
gf f fg
gf fgf
gfgf f
gg f f f
25.22
In conclusione, disponendo di 5 elementi di cui 3 di un primo tipo e 2 di un secondo tipo,
è possibile costruire
120
5!
=
= 10
3! · 2! 6 · 2
ordinamenti (sequenze) distinte.
Definizione 19 (Combinazioni). Il numero di sequenze che possono essere costruite con
n elementi dei quali k di un primo tipo e n − k di un secondo tipo
· · · ◦6
•3 •45
· · · •6 ◦3 ◦45
k
n−k
è pari a:
n!
k! · (n − k)!
4.4
25.23
Il coefficiente binomiale
Definizione 20 (Coefficiente binomiale).
n
n!
=
k! · (n − k)!
k
Per il calcolo del coefficiente binomiale risulta utile la seguente proprietà
n
n!
n
n!
=
=
=
n−k
k! · (n − k)! (n − k)! · k!
k
Inoltre
n
n!
=
k
k! · (n − k)!
=
=
=
n(n − 1) · . . . · (n − k + 1)(n − k)!
k! · (n − k)!
n(n − 1) · . . . · (n − k + 1)
k(k − 1) · . . . · 1
k fattori
k fattori
70 70
Esempio 21. Si calcolino 80
78 , 3 , 66
80
80
80 · 79
=
=
= 3160
78
2
2·1
70
70 · 69 · 68
= 54740
=
3·2·1
3
70
70
70 · 69 · 68 · 67
= 916895
=
=
4·3·2·1
66
4
318
25.24
25.25
Esercizio 22 (T 158, 24.01.1998, 5). Sia dato un gruppo di n = 12 individui.
1. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, due persone si
trovino vicine.
2. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, tre persone si trovino
vicine.
25.26
4.5
Il coefficiente multinomiale
Esempio 23 (Applicazione del coefficiente multinomiale). Si considerino 7 elementi dei
quali 1 di un primo tipo, 3 di un secondo tipo, 2 di un terzo tipo e 1 di un quarto tipo (ad
esempio ahhhllg). Quante sequenze si possono costruire?
Ipotizziamo in primo luogo che i 7 elementi siano distinti:
a, b, c, d, e, f , g
Il numero delle possibili sequenze è 7! = 5040.
Si sostituisca alle lettere b, c, d la lettera h e alle lettere e, f la l
Molte sequenze divengono indistinguibili, ad esempio
abcde f g
abdce f g
acbde f g
acdbe f g
adbce f g
adcbe f g
→ ahhhllg
abcd f eg
abdc f eg
acbd f eg
acdb f eg
adbc f eg
adcb f eg
Il numero totale di sequenze distinte (per l’ordine) risulta
7!
= 420
1! · 3! · 2! · 1!
25.27
5 Legge delle probabilità totali
Si consideri una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak
Ω
A1
A2
...
319
Ak
k
Ai ∩ A j = ∅ (∀i = j)
i=1 Ai = Ω,
Si consideri ora un generico insieme B
25.28
Ω
A1
A2
...
Ak
B
Si ha:
B = Ω ∩ B = (A1 ∪ . . . ∪ Ak ) ∩ B = (A1 ∩ B) ∪ . . . ∪ (Ak ∩ B)
pertanto
P(B) = P(A1 ∩ B) + . . . + P(Ak ∩ B)
e anche
P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak )
25.29
Teorema 24 (Legge delle probabilità totali). Si consideri un insieme B e una partizione
di Ω costituita dagli eventi A1 , A2 , . . . , Ak , vale
P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak )
25.30
5.1
Esercizi
Esercizio 25 (T 152, 22.02.1997, 4). Tre scatole contengono rispettivamente:
• due palline bianche e una nera;
• due palline nere e una bianca;
• tre palline bianche.
Estraendo in modo indipendente una pallina da ciascuna scatola, calcolare la probabilità
di estrarre due palline bianche e una nera.
25.31
Esercizio 26 (T 154, 28.06.1997, 5). Siano date due urne così composte:
• la prima contiene 18 palline bianche, 17 palline rosse e 5 palline verdi,
• la seconda contiene 10 palline bianche, 16 palline rosse e 24 palline verdi.
Si proceda allo svolgimento del seguente esperimento casuale: si lanci un dado regolare.
Se si ottiene un numero multiplo di 3 si estrae una pallina dalla prima urna contrariamente
si estrae una pallina dalla seconda urna.
Determinare la probabilità che la pallina estratta sia bianca.
25.32
320
6 Formula di Bayes
Teorema 27 (Formula di Bayes). Si considerino
• una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak
• un insieme B.
Si supponga di conoscere
• P(A1 ), P(A2 ), . . . , P(Ak )
• P(B|A1 ), P(B|A2 ), . . . , P(B|Ak )
Allora
P(Ai |B) =
P(Ai )P(B|Ai )
,
P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak )
Dimostrazione.
P(Ai |B) =
i = 1, . . . , k
P(Ai )P(B|Ai )
P(Ai ∩ B)
= k
P(B)
∑i=1 P(Ai )P(B|Ai )
ricordando la formula della probabilità composta e la legge delle probabilità totali.
25.33
Interpretazione della Formula di Bayes
Ai = cause, B = effetto
Consente di effettuare uno scambio tra le cause e l’effetto.
Nota la probabilità di ciascuna causa e la probabilità dell’effetto data ciascuna causa,
consente di determinare la probabilità della causa dato l’effetto.
Esempio 28. k tiratori verso 1 obiettivo
B = centro
Ai |B = è stato i a centrare l’obiettivo
note (a priori) le capacità tecniche di ogni tiratore espresse come probabilità di fare centro
P(B|Ai)
Utilizzazione
Approccio soggettivo all’induzione sperimentale
B = dati sperimentali
P(Ai ) = distribuzione a priori
6.1
25.34
Esercizi
Esercizio 29 (T 214, 23.09.2004, 3). Un manager ha nel proprio ufficio tre linee telefoniche (A, B e C) che risultano libere con probabilità rispettivamente pari a 0.70, 0.20 e
0.40.
1. Scegliendo a caso una delle linee, si determini la probabilità che la linea scelta
risulti essere libera.
2. Ipotizzando che la linea scelta sia libera, qual è la probabilità che sia la linea C?
25.35
321
Sezione 26
26.1
Indice
1
La variabile casuale
323
2
Esempi di variabili casuali discrete
324
2.1 La variabile casuale di Bernoulli . . . . . . . . . . . . . . . . . . . . . . 325
3
La variabile casuale binomiale
327
4
La variabile casuale ipergeometrica
328
5
La variabile casuale uniforme
330
5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
6
La Funzione di Ripartizione
332
26.2
1 La variabile casuale
Denominata anche ’numero aleatorio’, è il corrispondente stocastico della serie statistica.
Al posto degli eventi elementari ωi ⊂ Ω abbiamo valori numerici appartenenti a un insieme S detto supporto.
Gli eventi di interesse sono, in genere, insiemi numerici del tipo
X = x0
X ≤ x0
a<X ≤b
e si parla di probabilità che X assuma determinati valori
Analogamente al caso delle variabili statistiche, il simbolo X riassume, ora, valori e
probabilità.
Tipologie di variabili casuali
• discrete (Ω assume valori in un insieme finito o numerabile)
• continue (Ω corrisponde a un intervallo di valori reali)
26.3
Definizione 1 (Esperimento aleatorio). Un esperimento aleatorio è definito dalla terna
{Ω, S (Ω), P(·)}, dove
• Ω è lo spazio probabilistico,
• S (Ω) la relativa algebra degli eventi (elementari e non),
• P(·) è la misura di probabilità definita su S (Ω).
323
Osservazione
Nel caso continuo, dove Ω ≡ S ⊂ ℜ è conveniente usare la legge di probabilità P(·) =
P(X ≤ x)
Definizione 2 (Variabile casuale). Dato un esperimento aleatorio, una trasformazione X :
Ω → ℜ dello spazio probabilistico Ω in ℜ è detta variabile casuale, X, se ogni elemento
B ⊂ S (ℜ) ha controimmagine in S (Ω), dove S (ℜ) è una opportuna algebra costruita,
ad esempio a partire dalla classe degli semirette, su ℜ.
Vale a dire:
!
"
∀B ⊂ S(ℜ).
PX (B) = P X −1 (B) ,
26.4
2 Esempi di variabili casuali discrete
Esempio 3. Esperimento di estrazione di 2 palline senza reimmissione da un’urna contenente 10 palline bianche e 6 palline nere
Ω
ω1 = (B1 ∩ B2 )
P(ω1 ) = P(B1 ∩ B2 ) = P(B1 )P(B2 |B1 ) =
10 9
= 0.375
16 15
ω2 = (B1 ∩ N2 )
P(ω2 ) = P(B1 ∩ N2 ) = P(B1 )P(N2 |B1 ) =
10 6
= 0.250
16 15
ω3 = (N1 ∩ B2 )
P(ω3 ) = P(N1 ∩ B2 ) = P(N1 )P(B2 |N1 ) =
6 10
= 0.250
16 15
ω4 = (N1 ∩ N2 )
P(ω4 ) = P(N1 ∩ N2 ) = P(N1 )P(N2 |N1 ) =
6 5
= 0.125
16 15
Si costruisca la variabile casuale X = ’n◦ palline nere estratte’
Variabile casuale X = ’n◦ palline nere estratte’
X :Ω→ℜ
26.5
Ω
(B1 ∩ B2 )
(B1 ∩ N2 )
(N1 ∩ B2 )
(N1 ∩ N2 )
"
0
1
supporto S = {0, 1, 2}
xi
0
1
2
2
P(X = xi ) = pi
P(ω1 )
0.375
P(ω2 ) + P(ω3 ) 0.500
P(ω4 )
0.125
1
26.6
324
Esempio 4. Si considera un’urna contenente elementi di due tipi, A e Ā, in frazione p e
1 − p.
p
1− p
A
Ā
L’esperimento consiste nell’estrazione di una pallina dall’urna.
Abbiamo
P(A) = p
P(Ā) = 1 − p
Infatti, nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero:
• N p elementi del tipo A
• N − N p = N(1 − p) elementi del tipo Ā
che sarebbero tutti alla pari di fronte all’operazione di estrazione (eventi simmetrici),
quindi
Np
N(1 − p)
P(A) =
=p
P(Ā) =
= 1− p
N
N
Esercizio 5. Si costruisca la variabile casuale X =
’n◦
26.7
elementi di tipo A’
26.8
2.1
La variabile casuale di Bernoulli
Definizione 6 (Variabile casuale di Bernoulli). X = ’n◦ elementi di tipo A’ in una estrazione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p.
Supporto S = {0, 1}
xi
0
1
P(X = xi ) = pi
1− p
p
1
26.9
Esempio 7 (Estrazioni bernoulliane). Esperimento di estrazione di 2 elementi con reimmissione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p.
Le estrazioni in questo caso sono dette bernoulliane o prove indipendenti
Ω
(A1 ∩ A2 )
P(A1 ∩ A2 ) = P(A1 )P(A2 |A1 ) = P(A)P(A) = p2
(A1 ∩ Ā2 )
P(A1 ∩ Ā2 ) = P(A1 )P(Ā2 |A1 ) = P(A)P(Ā) = p(1 − p)
(Ā1 ∩ A2 )
P(Ā1 ∩ A2 ) = P(Ā1 )P(A2 |Ā1 ) = P(Ā)P(A) = (1 − p)p
(Ā1 ∩ Ā2 )
P(Ā1 ∩ Ā2 ) = P(Ā1 )P(Ā2 |Ā1 ) = P(Ā)P(Ā) = (1 − p)2
Si costruisca la variabile casuale X = ’n◦ elementi di tipo A estratti nelle 2 estrazioni con
reimmissione’
325
26.10
Variabile casuale X = ’n◦ elementi di tipo A estratti nelle 2 estrazioni con reimmissione’
X :Ω→ℜ
Ω
(Ā1 ∩ Ā2 )
(Ā1 ∩ A2 )
(A1 ∩ Ā2 )
(A1 ∩ A2 )
"
0
1
2
supporto S = {0, 1, 2}
xi
0
1
2
P(X = xi ) = pi
P(Ā1 ∩ Ā2 )
(1 − p)2
P(Ā1 ∩ A2 ) + P(A1 ∩ Ā2 ) (1 − p)p + p(1 − p)
P(A1 ∩ A2 )
p2
1
26.11
Osservazione
Nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero:
• N p elementi del tipo A
• N − N p = N(1 − p) elementi del tipo Ā
si potrebbe quindi anche considerare lo spazio probabilistico Ω costituito da N 2 coppie
simmetriche (dal momento che le estrazioni sono con reimmissione) del tipo (a1 ∩ a2 ),
(a1 ∩ ā2 ), (ā1 ∩ a2 ) e (ā1 ∩ ā2 )
Ω
Np·Np
N p · N(1 − p)
N(1 − p) · N p
N(1 − p) · N(1 − p)
(a1 ∩ a2 )
(a1 ∩ ā2 )
(ā1 ∩ a2 )
(ā1 ∩ ā2 )
Np·Np
= p2 ,
N2
P(Ā1 ∩ Ā2 ) =
P(A1 ∩ A2 ) =
P(Ā1 ∩ A2 ) =
N(1 − p) · N p
= (1 − p)p,
N2
N(1 − p) · N(1 − p)
= (1 − p)2
N2
P(A1 ∩ Ā2 ) =
N p · N(1 − p)
= p(1 − p)
N2
26.12
Osservazione
Cosa succede in presenza di n estrazioni?
Gli eventi elementari diventano delle n-ple e vengono definite le variabili casuali
• binomiale, nel caso le estrazioni siano con reimmissione, ovvero in presenza di
prove indipendenti
• ipergeometrica, nel caso di estrazioni senza reimmissione
26.13
326
3 La variabile casuale binomiale
Definizione 8 (Variabile casuale binomiale X ∼ Bin(n, p)). Si consideri l’esperimento di
estrazione di n elementi con reimmissione da un’urna contenente elementi di due tipi, A e
Ā, in frazione p e 1 − p.
p
1− p
A
Ā
La variabile casuale X = ’n◦ elementi di tipo A estratti nelle n estrazioni con reimmissione’ si definisce variabile casuale binomiale con parametri n e p.
X ha distribuzione di probabilità
n x
P(X = x) =
p (1 − p)n−x , (x = 0, 1, . . . , n).
x
26.14
Osservazione
L’esperimento potrebbe anche consistere nella ripetizione di n prove indipendenti, ciascuna delle quali può dare luogo a un successo, A, con probabilità p, ovvero a un insuccesso,
Ā, con probabilità 1 − p.
Osservazione
Per n = 1 si ottiene la variabile casuale di Bernoulli.
Osservazione
La variabile casuale binomiale può essere interpretata come somma di n variabili casuali
di Bernoulli.
26.15
Osservazione
• se p = 0.5 allora X ∼ Bin(n, p) ha distribuzione di probabilità simmetrica
• se p → 0 oppure p → 1 la distribuzione è asimmetrica
Osservazione
La distribuzione di probabilità può presentare 1 moda oppure 2 mode contigue.
26.16
327
0.4
0.0
0.1
0.2
n=15, p=0.75
0.3
0.4
0.3
0.2
n=15, p=0.1
0.1
0.0
0
2
4
6
8
10
12
14
0
2
4
6
10
12
14
8
10
12
14
0.4
0.3
0.0
0.1
0.2
n=15, p=0.9
0.3
0.2
0.0
0.1
n=15, p=0.5
8
x
0.4
x
0
2
4
6
8
10
12
14
0
2
4
x
6
x
26.17
Esempio 9. Calcolare la probabilità che esca 2 volte testa in 2 successivi lanci di una
moneta
Ti = {testa all’iesimo lancio} (i = 1, 2)
A = T1 ∩ T2
P(A) = P(T1 ∩ T2 ) = P(T1 ) · P(T2 |T1 ) = P(T1 ) · P(T2 ) = 0.52
(si poteva usare la binomiale con p = 0.5)
2
P(X = 2) =
0.52 (1 − 0.5)2−2
2
26.18
4 La variabile casuale ipergeometrica
Definizione 10 (Variabile casuale ipergeometrica). Si consideri l’esperimento di estrazione di n elementi senza reimmissione da un’urna contenente N elementi di due tipi, A e
Ā, con numerosità M ed N − M.
M
N −M
A
Ā
’n◦
elementi di tipo A estratti nelle n estrazioni senza reimmisLa variabile casuale X =
sione’ si definisce variabile casuale ipergeometrica.
328
X ha distribuzione di probabilità
MN−M
x
P(X = x) =
.
Nn−x
n
26.19
Osservazione
Ricostruzione mnemonica della formula di calcolo
1◦ tipo
2◦ tipo
M N−M
x
n−x
N urna campione
urna campione
n
tutti
Osservazione
La variabile casuale ipergeometrica trova applicazione nell’ambito della teoria dei campioni nel cosiddetto schema di campionamento in blocco.
0.4
0.3
0.2
0.0
0
2
4
6
8
10
12
14
0
2
4
6
8
10
12
14
8
10
12
14
0.3
0.2
0.1
0.0
0.0
0.1
0.2
n=15, M=45, K=5
0.3
0.4
x
0.4
x
n=15, M=25, K=25
26.20
0.1
n=15, M=30, K=20
0.3
0.2
0.1
0.0
n=15, M=2, K=48
0.4
Osservazione
M
◦
◦
N = p = frazione iniziale elementi di 1 tipo = P(elemento di 1 tipo alla prima estrazione)
0
2
4
6
8
10
12
14
0
x
2
4
6
x
26.21
329
Esempio 11. Calcolare la probabilità che i primi 2 numeri estratti alla tombola siano
dispari
Di = {estrazione dispari}
A = D1 ∩ D2
P(A) = P(D1 ∩ D2 ) = P(D1 ) · P(D2 |D1 ) =
45
45
A
Ā
45
45
A
Ā
45 44
90 89
prima estrazione
seconda estrazione
(si poteva usare la ipergeometrica)
4545
P(X = 2) =
900
2
2
26.22
5 La variabile casuale uniforme
Definizione 12 (Variabile casuale uniforme). Ha supporto S = {1, 2, . . . , n} con probabilità costante
1
P(X = x) = , (x = 1, . . . , n).
n
Ad esempio: n = 2 per una moneta equilibrata; n = 6 nel caso di un dado non truccato.
Osservazione
A volte si considera come supporto S = {0, 2, . . . , n} e in tal caso la probabilità risulta
P(X = x) =
1
,
n+1
(x = 0, 1, . . . , n).
26.23
330
0.5
0.0
0.1
0.2
n=6
0.3
0.4
0.5
0.4
0.3
n=2
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9 10
0
1
2
3
4
5
6
7
8
9 10
6
7
8
9 10
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
n=4
n=10
0.3
0.4
0.5
x
0.5
x
0
1
2
3
4
5
6
7
8
9 10
0
1
2
3
x
4
5
x
26.24
5.1
Esercizi
Esercizio 13. Un’urna contiene 10 palline bianche e 40 palline rosse.
Si descriva la natura della variabile casuale ’numero di palline bianche ottenute nell’estrazione di 5 palline dall’urna’ e si calcoli la probabilità di ottenere almeno 2 palline bianche
(nell’estrazione di 5 palline dall’urna) nelle seguenti ipotesi:
1. l’estrazione delle palline è effettuata con reimmissione;
2. l’estrazione delle palline è effettuata senza reimmissione.
26.25
Esercizio 14 (T 168, 19.02.1999, 5). Un’urna contiene palline rosse e palline nere.
Il rapporto tra la probabilità di ottenere 2 palline nere in 4 estrazioni con reinserimento e
la probabilità di ottenere 2 palline nere in 3 estrazioni con reinserimento è pari a 0.9.
Individuare la percentuale di palline rosse contenute nell’urna.
26.26
Esercizio 15 (T 234, 07.06.2007, 4). Si consideri un dado regolare le cui 6 facce riportano
in eguale numero i segni: ’1’, ’X’ e ’2’.
Calcolare le probabilità che lanciando 11 volte il dado:
1. il segno ’X’ compaia al più una volta;
2. essendosi presentati solo segni numerici (’1’ oppure ’2’), questi siano solo dispari.
26.27
331
6 La Funzione di Ripartizione
Definizione 16 (Funzione di Ripartizione). Data una variabile casuale X si definisce
funzione di ripartizione la seguente funzione
F(x) = P(X ≤ x)
È uno strumento unico, legge di probabilità, per i casi discreto e continuo che consente di
attribuire una probabilità al generico intervallo {a < x ≤ b}, infatti
P(a < X ≤ b) = F(b) − F(a)
Si osserva come nel caso continuo gli insiemi probabilizzabili sono costituiti dagli insiemi
appartenenti a una cosiddetta σ -algebra costruita a partire dalle semirette.
caso discreto
P(X = xk ) = pk > 0
26.28
∑ pk = 1
k
F(x) =
∑
xk ≤x
pk
caso continuo
Se la funzione di ripartizione è assolutamente continua, allora esiste una funzione
f (x) = densità di probabilità
tale che
f (x) ≥ 0
7 +∞
Vale
F(x) =
−∞
7 x
−∞
f (x)dx = 1.
f (t)dt
26.29
332
Sezione 27
27.1
Indice
1
La variabile casuale Normale
333
2
Tavola variabile casuale normale standardizzata
335
2.1 Utilizzo tavola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
2.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
3
Media e varianza di variabile casuale
339
3.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
4
Schema interpretativo v.c. normale
5
Approssimazione della variabile casuale binomiale con la normale
340
5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
340
27.2
1 La variabile casuale Normale
Definizione 1 (Variabile casuale Normale X ∼ N(μ, σ 2 )). Ha la seguente funzione di
densità
1 x−μ 2
1
exp −
f (x) = √
2
σ
2πσ
con −∞ < μ < ∞ e σ > 0
La densità di probabilità è simmetrica rispetto a μ
μ−σ
μ
27.3
μ+σ
x
27.4
333
P(a < X ≤ b) = F(b) − F(a) =
7 b
a
=
a
f (x)dx
−
a
b
x
a
b
x
b
x
P(μ − σ ≤ X ≤ μ + σ ) = 0.68
P(μ − 2σ ≤ X ≤ μ + 2σ ) = 0.955
P(|X − μ| ≤ 3σ ) = 0.9973
27.5
F(x) = P(X ≤ x) =
7 x
−∞
f (t)dt
(calcolo integrale molto complesso) però
x−μ
X −μ
≤
P(X ≤ x) = P(X − μ ≤ x − μ) = P
σ
σ
=
(corrisponde al cambiamento di variabili che conduce alla variabile standardizzata Z =
X−μ
σ )
7 x−μ
σ
1
1
x−μ
√ exp − z2 = Φ
=
2
σ
−∞
2π
Φ(z) è la funzione di ripartizione della variabile casuale Z ∼ N(μ = 0, σ 2 = 1) normale
standardizzata
Pertanto se X ∼ N(μ, σ 2 )
x−μ
F(x) = Φ
σ
inoltre
P(a < X ≤ b) = F(b) − F(a) = Φ
b−μ
σ
−Φ
basta quindi conoscere la funzione di riparzione della N(0, 1).
Tale funzione di ripartizione è tabulata.
334
a−μ
σ
27.6
27.7
2 Tavola variabile casuale normale standardizzata
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
−3
−2
−1
0.0
0.1
0.2
0.1
0.3
0.4
0.5
0.2
0.6
0.7
0.3
0.8
0.9
1.0
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.0
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
1.30
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
2.60
2.70
2.80
2.90
3.00
0
1
2
3
−3
x
−2
−1
0
1
2
3
x
27.8
335
2.1
Utilizzo tavola
Lettura diretta (1)
Sia Z ∼ N(μ = 0, σ 2 = 1) si calcoli P(X ≤ 1.24).
Tenendo conto che 1.24 = 1.20 + 0.04 possiamo leggere sulla tavola l’elemento corrispondente a 1.20 e 0.04.
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
1.30
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
2.60
2.70
2.80
2.90
3.00
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
P(Z ≤ 1.24) = 0.8925
27.9
Lettura diretta (2)
Sia X ∼ N(μ = 5, σ 2 = 9) si calcoli P(X ≤ 8.72).
Occorre passare alla variabile Normale standardizzata
X −μ
8.72 − μ
≤
=
σ
σ
8.72 − 5
= P(Z ≤ 1.24) = 0.8925.
P Z≤
3
P(X ≤ 8.72) = P
=
27.10
336
Lettura diretta (3)
Sia X ∼ N(μ = 5, σ 2 = 9) si calcoli P(X ≥ 1.28).
1.28 − μ
X −μ
≥
=
P(X ≥ 1.28) = P
σ
σ
1.28 − 5
= P(Z ≥ −1.24)
= P Z≥
3
Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetrica
abbiamo
P(Z ≥ −1.24) = P(Z ≤ 1.24) = 0.8925.
27.11
Lettura diretta (4)
Sia X ∼ N(μ = 5, σ 2 = 9) si calcoli P(X ≥ 8.72).
X −μ
8.72 − μ
>
=
σ
σ
8.72 − 5
=
= P Z>
3
= P(Z > 1.24) = 1 − P(Z ≤ 1.24) = 1 − 0.8925 = 0.1075.
P(X > 8.72) = P
27.12
337
Lettura indiretta (1)
Sia Z ∼ N(μ = 0, σ 2 = 1). Sapendo che P(Z ≤ z) = 0.8925 si ricavi z.
Dobbiamo ora cercare il valore 0.8925 all’interno della tavola.
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
1.30
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
2.60
2.70
2.80
2.90
3.00
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
Il valore si ottiene in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna),
quindi risulta z = 1.24.
27.13
Lettura indiretta (2)
Sia X ∼ N(μ = 5, σ 2 = 9). Sapendo che P(X ≤ x) = 0.8925 si ricavi x.
X −μ
x−μ
P(X ≤ x) = P
≤
=
σ
σ
x−5
= P(Z ≤ z) = 0.8925
= P Z≤
3
All’interno della tavola della Normale standardizzata troviamo 0.8925 in corrispondenza
delle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi z = 1.24;
x−5
= z = 1.24
3
x − 5 = 1.24 · 3
x = 5 + 1.24 · 3 = 8.72
338
27.14
2.2
Esercizi
Esercizio 2 (T 233, 08.02.2007, 4). Si supponga che X sia distribuita come una variabile
casuale normale con media μ = 10 e varianza σ 2 incognita.
Sapendo che P(X > 21) = 0.025 si determini il valore di σ 2 .
Esercizio 3 (T 219, 30.06.2005, 5). Una macchina produce pezzi meccanici la cui lunghezza X si distribuisce normalmente, con media pari a 10 cm e varianza pari a 2.
Un pezzo è ritenuto difettoso se risulta più lungo di un certo valore ritenuto accettabile.
Sapendo che i difettosi sono il 5%:
1. indicare il valore x0 al di sopra del quale si ritiene che un pezzo sia difettoso;
2. calcolare la probabilità che, estratti a caso 10 pezzi, uno sia difettoso.
27.15
27.16
Quadro riassuntivo
Abbiamo visto
• caso discreto
– uniforme
– binomiale
– ipergeometrica
• caso continuo
– normale o gaussiana
Si ricordi che al simbolo X corrispondono:
• nel caso discreto
valori xk e probabilità pk (distribuzione)
• nel caso continuo
supporto S e densità f (x) (x ∈ S)
27.17
3 Media e varianza di variabile casuale
• caso discreto
M(X) = ∑ xk pk = μ
k
Var(X) = ∑(xk − μ)2 pk = σ 2
k
• caso continuo
M(X) =
Var(X) =
X
7 +∞
−∞
7 +∞
−∞
x f (x)dx = μ
(x − μ)2 f (x)dx = σ 2
27.18
parametri M(X)
Var(X)
uniforme
n
n+1
2
n2 −1
12
binomiale
n, p
np
np(1 − p)
np
np(1 − p) N−n
N−1
μ
σ2
ipergeometrica
normale
n, p =
M
N
μ, σ 2
27.19
339
3.1
Esercizi
Esercizio 4 (T 156, 13.09.1997, 5). Sia X una variabile casuale Binomiale; sapendo che
il suo valore atteso e la varianza assumono valori rispettivamente uguali a 2 e 1.2:
1. individuare n (numero di prove indipendenti) e p (probabilità del singolo successo);
2. calcolare la probabilità che X assuma valori maggiori o uguali a 4.
27.20
Esercizio 5 (T 216, 04.02.2005, 6). Si consideri l’esperimento di estrazione, con ripetizione, di n palline da un’urna contenente palline rosse e bianche in proporzione p e
(1 − p).
Sia X la v.c. n◦ di palline rosse estratte e Y n◦ di bianche.
1. Sapendo che M(X) = 3 e M(Y ) = 1, determinare n e calcolare P(X > 2).
2. Nel caso di 100 estrazioni con reimmissione dalla stessa urna, calcolare P(X > 70).
27.21
4 Schema interpretativo v.c. normale
Teorema 6 (del limite centrale). Sia
Xn = μ + Z1 + Z2 + . . . + Zn
con
• {Zn } = successione di v.c. indipendenti
• M(Zi ) = 0 (tipico della variabilità accidentale)
• Var(Zi ) = σi2 (finita)
Sotto ulteriori condizioni sui momenti terzi, posto
Wn = Xn − μ
σ12 + . . . + σn2
1
1
√ exp − z2 = Φ(w)
n→∞
2
−∞
2π
La somma di v.c. indipendenti converge a una variabile casuale normale
vale
lim P(Wn ≤ w) =
7 w
27.22
Si pensi, ad esempio, a un fenomeno aleatorio le cui manifestazioni sono caratterizzate
da
• livello deterministico μ
• svariate perturbazioni accidentali indipendenti che agiscono in maniera additiva
5 Approssimazione della variabile casuale binomiale
con la normale
Teorema 7 (Approssimazione della variabile casuale binomiale con la normale). Essendo
la variabile casuale Bin(n, p) somma di v.c. Bin(1, p), allora
x + 0.5 − np
n i n−i ∼
P(X ≤ x) = ∑
pq =Φ
, pern → ∞
√
npq
i≤x i
dove
340
27.23
• q = 1− p
• Φ(·) = funzione di ripartizione di Z ∼ N(0, 1) normale standardizzata
La variabile casuale X ∼ Bin(n, p) è, quindi, approssimata da una normale con media
μ = np e varianza σ 2 = np(1 − p).
Osservazione
Si ha una buona approssimazione se valgono le seguenti condizioni:
np > 5
n(1 − p) > 5
⎧
⎨ p>0
p<1
⎩
n0
ovvero
Osservazione
Lo 0.5 nella formula consente di migliorare l’approssimazione quando n non è troppo
elevato (non utilizzato nelle applicazioni pratiche).
1.0
1.0
27.24
●
●
● ●
● ●
●
●
●
●
0.8
●
0.6
●
●
●
●
0.2
●
●
0.4
n = 40p = 0.5
0.6
0.4
●
0.2
n = 10p = 0.5
0.8
●
●
●
●
0.0
0.0
●
●
●
●
0
2
4
6
8
10
●
● ● ●
0
●
10
20
40
●
●
●
1.0
x
1.0
x
30
●
●●● ●●
●●
●
●
●
●
●
0.8
0.8
●
●
●
●
0.6
●
●
●
●
0.4
n = 100p = 0.5
0.6
0.4
●
●
●
●
0.2
0.2
●
●
●
●
●
●
●
●
●
●
●●●●
●
0
●
0.0
●
0.0
n = 20p = 0.5
●
●
5
10
15
20
x
0
20
40
60
80
100
x
27.25
341
1.0
1.0
●
●
●
●
●
●
● ●
● ●
●
●
0.8
●
●
0.6
●
●
0.4
0.6
n = 40p = 0.25
●
0.4
n = 10p = 0.25
0.8
●
●
0.2
0.2
●
●
●
0.0
0.0
●
0
2
4
6
8
10
●
●
●
0
10
20
●
●
●
●● ●
●●
●
●
●
●
●
●
●
0.8
0.8
40
x
1.0
1.0
x
30
●
●
0.6
●
●
0.2
●
●
●
0.4
n = 100p = 0.25
0.6
0.4
●
0.2
n = 20p = 0.25
●
●
●
●
●
●
0.0
0.0
●
●
●
0
5
10
15
20
x
●
0
●
●
●
●●●
20
40
60
80
100
x
27.26
5.1
Esercizi
Esercizio 8 (T 212, 15.07.2004, 3). Si supponga di effettuare 5 estrazioni con reimmissione da un’urna che contiene palline bianche e rosse in proporzione p e 1 − p.
Indicata con X la variabile casuale: n◦ di palline bianche estratte nelle 5 prove,
1. si descriva la natura della variabile casuale X, indicando valori e distribuzione di
probabilità;
2. sapendo che P(X ≤ 4) = 0.99968 si determini il valore di p e si calcolino media e
varianza di X;
3. con riferimento alla medesima urna si supponga di effettuare n = 100 estrazioni con
reimmissione; si descriva la natura della variabile casuale Y : n◦ di palline bianche
estratte nelle 100 prove e si calcoli la probabilità di ottenere almeno 10 palline
bianche.
27.27
Esercizio 9 (T 207, 15.01.2004, 5). Due dadi vengono truccati in modo che non si
presentino mai la faccia 2 del primo e la 4 del secondo.
1. Calcolare la probabilità che su 5 lanci l’evento A = ’somma dei valori ≥ 9’ si
presenti almeno 2 volte.
2. Calcolare la probabilità che su 100 lanci l’evento A si presenti almeno 30 volte.
27.28
342
Esercizio 10 (T 245, 04.09.2008, 4). Si faccia riferimento a una slot-machine dotata di 3
finestrelle, all’interno delle quali si possono presentare, a ogni lancio, i numeri da 0 a 9,
in maniera casuale e indipendente.
1. Calcolare la probabilità che si presentino 3 numeri uguali.
2. Calcolare la probabilità che escano tutti pari.
3. Eseguendo 101 lanci, calcolare la probabilità che almeno 20 presentino tutti numeri
pari.
27.29
343
Sezione A
Richiami di matematica
A.1
Indice
1
La sommatoria
345
1.1 Esempi e proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
2
Matrici e sommatorie doppie
346
3
I logaritmi
347
4
La funzione esponenziale
348
5
Il tasso complessivo di un investimento
349
6
La produttoria
349
7
Autoverifica nozioni di aritmetica e di algebra elementare
350
8
Autoverifica nozioni di aritmetica e di algebra elementare - Soluzioni
351
A.2
1 La sommatoria
Data una k-upla di valori {x1 , x2 , . . . , xk }, ovvero {xi , i = 1, 2, . . . , k} è possibile esprimere
’in forma compatta’ la somma degli elementi come segue:
k
∑ xi = x1 + x2 + . . . + xk
(1)
i=1
A.3
1.1
Esempi e proprietà
• Si supponga che k = 3 e siano: x1 = 1, x2 = 2, x3 = 3
x1 + x2 + x3 = 1 + 2 + 3 = 6
• Se c è una costante arbitraria:
k
k
i=1
i=1
c ∑ xi = ∑ cxi
(proprietà distributiva del prodotto rispetto alla somma)
se, ad esempio, c = 2, con riferimento alla terna {1, 2, 3} vale:
12 = 2 · 6 = 2 · (1 + 2 + 3) = 2 + 4 + 6 = 12
345
A.4
• Se w è un valore intero: 1 ≤ w ≤ k, la sommatoria (1) può essere scomposta come
segue:
k
w
k
i=1
i=1
i=w+1
∑ xi = ∑ xi + ∑
inoltre:
k
xi
k
∑ y j = ky j
∑ c = k · c = kc,
i=1
i=1
A.5
2 Matrici e sommatorie doppie
Si consideri la seguente matrice:
a11
a21
a31
a12
a22
a32
a13
a23
a33
vengono riportati degli esempi di utilizzo del simbolo di sommatoria per scrivere in
maniera compatta la somma dei simboli che figurano nei riquadri
i indice di riga
j indice di colonna
a11 a12 a13
a21 a22 a23
a31 a32 a33
2
3
3
2
3
∑ ∑ ai j = ∑ (ai1 + ai2 ) = a11 + a12 + a21 + a22 + a31 + a32 = ∑ ∑ ai j
i=1 j=1
i=1
j=1 i=1
A.6
a11
a21
a31
i
3
a12
a22
a32
a13
a23
a33
3
∑ ∑ ai j = ∑ (ai1 + ai2 + . . . + aii ) = a11 + a21 + a22 + a31 + a32 + a33
i=1 j=1
i=1
a11
a21
a31
3
3
a12
a22
a32
a13
a23
a33
3
∑ ∑ ai j = ∑ (aii + ai i+1 + . . . + ai3 ) = a11 + a12 + a13 + a22 + a23 + a33
i=1 j=i
i=1
A.7
346
3 I logaritmi
loga x = c, dove x > 0, a > 0, a = 1
a: base del logaritmo
x: argomento della funzione loga
c: esponente da assegnare alla base a per ottenere l’argomento x:
1
2
3
4
5
0
1
2
3
4
5
−3
−10
−2
−9
−1
−8
0
−7
1
−6
2
−5
3
−4
4
−3
5
−2
6
−1
0
7
0
8
1
9
2
10
3
ac = x
x
x
a>1
a<1
A.8
Valori della base solitamente utilizzati:
a = 10,
a = e = 2.71828
Notazioni: log10 x = Log x, loge x = ln x
Nel seguito si utilizzeranno i logaritmi in base e
Proprietà dei Logaritmi
•
•
•
•
•
•
ln xy = ln x + ln y
ln xy = ln x − ln y
ln xy = y ln x
eln x = exp(ln x) = x
ln e = 1
ln ex = x
A.9
347
4 La funzione esponenziale
−5
−4
−3
−2
−1
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
x ∈ ℜ, a > 0
a: base della funzione esponenziale
x: argomento della funzione esponenziale
30
ax ,
0
1
2
3
4
5
−5
x
−4
−3
−2
−1
0
1
2
3
4
5
x
a>1
a<1
A.10
Valore della base solitamente utilizzato:
a = e = 2.71828
ex = exp(x)
Proprietà della funzione esponenziale
•
•
•
•
•
•
•
•
ex · ey = ex+y
ex
x−y
ey = e
c
b
c
(e ) = eb = ebc
c
attenzione: e(b ) = ebc
0
e =1
ln ex = x
ln e = 1
eln x = x
A.11
348
5 Il tasso complessivo di un investimento
Se investo al tempo 0 una somma pari a C
C 5%
0
8%
1
10% M
2%
2
3
4
alla fine del primo anno il deposito ammonterà a:
C · (1 + 0.05)
alla fine del secondo anno il deposito ammonterà a:
C · (1 + 0.05) · (1 + 0.08)
alla fine del terzo anno il deposito ammonterà a:
C · (1 + 0.05) · (1 + 0.08) · (1 + 0.02)
e alla fine del quarto anno il deposito ammonterà a:
C · (1 + 0.05) · (1 + 0.08) · (1 + 0.02) · (1 + 0.10) = M
A.12
j
1
2
3
4
ij
0.05
0.08
0.02
0.10
xj = 1+ij
1.05
1.08
1.02
1.10
La relazione che intercorre tra C, capitale iniziale, ed M, montante finale, è la seguente:
4
4
j=1
j=1
M = C ∏ (1 + i j ) = C ∏ x j = C · 1.27234.
A.13
6 La produttoria
Data una k-upla di valori (x1 , x2 , . . . , xk ), ovvero (xi , i = 1, 2, . . . , k)
k
∏ xi = x1 · x2 · . . . · xk
i=1
se c è una costante arbitraria:
k
k
. . . · c = ck
∏ c = c · kc ·volte
∏ y j = ykj
i=1
i=1
k
k
i=1
i=1
∏(cxi ) = ck ∏ xi
349
A.14
Relazione con i logaritmi
k
ln
∏ xi
i=1
k
= ln(x1 · x2 · . . . · xk ) = ln x1 + ln x2 + . . . + ln xk = ∑ ln xi
i=1
Esercizio 1. Dimostrare la seguente eguaglianza
k
ln
∏ xifi
i=1
k
= ∑ ln(xi ) · f i
i=1
A.15
7 Autoverifica nozioni di aritmetica e di algebra elementare
1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continue
o discrete:
(a) somma S dei punti ottenuti nel lancio di due dadi,
(b) diametro D di una sfera,
(c) numero N di individui in una famiglia,
(d) altezza H di un coscritto alla leva,
A.16
2. Arrotondate il numero 46.7385:
(a) alla decina più prossima,
(b) al terzo decimale,
(c) all’unità più prossima.
A.17
3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori che
portano alle seguenti misurazioni:
(a) velocità di 119 km/h,
(b) altezza di 1.76 m.
A.18
4. Esprimete ciascun numero senza usare le potenze di dieci:
(a) 2.8 · 106 ,
(b) 0.000185 · 105 .
A.19
5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimali
tali da garantire almeno 4 cifre significative:
(a) 22.58 · 5.16,
(b) 5.78 · 2700 · 16.00,
√
(c) (416.00 · 0.00019)/ 73.84.
A.20
6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con
quattro cifre significative:
(a) 4U − 6V − 2Z,
√
(b) U 2 − 2UV + Z 2 ,
350
√
(c) (U −V )/ U 2 +V 2 ,
(d) 3(U −V )2 + Z.
A.21
7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate:
(a) A = (0, 1), B = (1, 3),C = (2, 3), D = (3, 1),
(b) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = |X|,
(c) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 10 − 2X,
(d) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 2 + X 2 ,
A.22
8. Risolvete le seguenti equazioni (e sistemi):
(a) 16 − 5c = 36,
(b) 2(12 + y)/3 = 6 − (9 − y)/2,
(c) 3x2 + 2x − 1 = 0,
(d) {2a + b = 10;
7a − 3b = 9}.
A.23
9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni:
(a) il numero N di bambini è compreso fra 30 e 50, estremi compresi,
(b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette,
(c) X è maggiore o uguale a −4 e minore di 3,
(d) X è superiore a Y per più di due.
A.24
10. Risolvete le seguenti diseguaglianze:
(a) 3x ≥ 12,
(b) −3 ≤ (2x + 1)/5 < 3,
(c) |x| ≤ 3.
A.25
11. Calcolate le seguenti espressioni:
(a) y = 3 · x10 , ln y = . . .,
(b) y = 10/x,
ln y = . . ..
A.26
8 Autoverifica nozioni di aritmetica e di algebra elementare - Soluzioni
1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continue
o discrete:
(a) somma S dei punti ottenuti nel lancio di due dadi,
{2, 3, . . . , 12} (discreta)
(b) diametro D di una sfera,
(0, ∞) (continua)
(c) numero N di individui in una famiglia,
1, 2, . . . , nmax (discreta)
(d) altezza H di un coscritto alla leva,
[amin , amax ] (continua)
351
A.27
2. Arrotondate il numero 46.7385:
(a) alla decina più prossima,
50
(b) al terzo decimale,
46.739
(c) all’unità più prossima.
47
A.28
3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori che
portano alle seguenti misurazioni:
(a) velocità di 119 km/h,
3 [118.5, 119.5)
(b) altezza di 1.76 m.
3 [1.755, 1.765)
A.29
4. Esprimete ciascun numero senza usare le potenze di dieci:
(a) 2.8 · 106 ,
2 800 000
(b) 0.000185 · 105 .
18.5
A.30
5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimali
tali da garantire almeno 4 cifre significative:
(a) 22.58 · 5.16,
116.5128
(b) 5.78 · 2700 · 16.00,
249696
√
(c) (416.00 · 0.00019)/ 73.84.
0.009198
A.31
quattro cifre significative:
(a) 4U − 6V − 2Z,
−11.33
√
(b) U 2 − 2UV + Z 2 ,
2.455
√
(c) (U −V )/ U 2 +V 2 ,
−1.213
(d) 3(U −V )2 + Z.
18.92
A.32
almeno quattro cifre significative:
352
(a) 4U − 6V − 2Z,
−11.3333
√
(b) U 2 − 2UV + Z 2 ,
2.4552
√
(c) (U −V )/ U 2 +V 2 ,
−1.2127
(d) 3(U −V )2 + Z.
18.9167
A.33
7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate:
4
5
(a) A = (0, 1), B = (1, 3),C = (2, 3), D = (3, 1),
B
●
C
●
A
D
●
0
1
2
3
●
−1
0
1
2
3
4
x
(b) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = |X|,
3
●
−2
−1
●
1
0
●
−3
●
2
●
●
0
1
2
3
4
x
(c) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 10 − 2X,
353
15
●
9
10
11
●
12
13
14
●
7
8
●
5
6
●
−2
−1
0
1
2
3
4
x
−2
−3
−1
0
1
2
3
4
●
12
(d) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 2 + X 2 ,
7
8
9
10
11
●
●
4
5
6
●
3
●
●
−3
−2
−1
−1
0
1
2
●
0
1
2
3
4
x
A.34
8. Risolvete le seguenti equazioni (e sistemi):
(a) 16 − 5c = 36,
c = −4
(b) 2(12 + y)/3 = 6 − (9 − y)/2,
y = −39
(c) 3x2 + 2x − 1 = 0,
x = {−1, 1/3}
(d) {2a + b = 10;
a = 3, b = 4
7a − 3b = 9}.
A.35
9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni:
(a) il numero N di bambini è compreso fra 30 e 50, estremi compresi,
30 ≤ N ≤ 50 (intero)
(b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette,
S ≥ 7 oppure D1 + D2 ≥ 7
(c) X è maggiore o uguale a −4 e minore di 3,
−4 ≤ X < 3
(d) X è superiore a Y per più di due.
X >Y +2
354
A.36
10. Risolvete le seguenti diseguaglianze:
(a) 3x ≥ 12,
x≥4
(b) −3 ≤ (2x + 1)/5 < 3,
−8 ≤ x < 7
(c) |x| ≤ 3.
−3 ≤ x ≤ 3
A.37
11. Calcolate le seguenti espressioni:
(a) y = 3 · x10 , ln y = . . .,
ln y = ln 3 + 10 ln x
(b) y = 10/x, ln y = . . ..
ln y = ln 10 − ln x
A.38
355
Riferimenti bibliografici
[1] Bertoli Barsotti L. 1998 Probabilità: aspetti storici ed assiomatizzazione, Diritto
allo Studio Universitario, Università Cattolica del Sacro Cuore, Milano.
[2] Borra S., Di Ciaccio A. 2008 Statistica. Metodologie per le scienze economiche e
sociali, Seconda edizione. Mc-Graw-Hill, Milano.
[3] Cicchitelli G. 2012 Statistica: principi e metodi, Pearson Education, Milano.
[4] Frosini B.V. 2009 Metodi statistici: teoria e applicazioni economiche e sociali,
Carocci, Roma.
[5] Landenna G. 1994 Fondamenti di statistica descrittiva, Il Mulino, Bologna.
[6] Landenna G. 1997 Introduzione alla probabilità e all’inferenza statistica, Il Mulino,
Bologna.
[7] Landenna G., Marasini D., Ferrari P. 1997 Probabilità e variabili casuali, Il Mulino,
Bologna.
[8] Magagnoli U. 1993 Elementi di statistica descrittiva, CLUEB, Bologna.
[9] Magagnoli U. 2010 Lezioni di statistica e calcolo delle probabilità,
http://www.unife.it/scienze/lm.matematica/insegnamenti/statistica-1/materialedidattico/LEZIONI%20DI%20STATISTICA%20-%20Parte%20I.pdf.
[10] Montinaro M., Nicolini G. 2007 Elementi di statistica descrittiva, UTET, Torino.
[11] Piccolo D. 2010 Statistica, Il Mulino, Bologna.
[12] Predetti A. 2002 I Numeri Indici - teoria e pratica. Giuffré editore, Milano.
[13] Santamaria L. 2006 Statistica descrittiva: applicazioni di carattere economico e
aziendale, Vita e Pensiero, Milano.
[14] Zanella A. 2008 Elementi di statistica descrittiva. Una presentazione sintetica,
CUSL, Milano.
[15] Zani S. 1997 Analisi dei dati statistici. Voll. I,II. Giuffré editore, Milano.
[16] Zenga M. 1998 Introduzione alla statistica descrittiva, Vita e Pensiero, Milano.
[17] Zenga M. 2009 Lezioni di statistica descrittiva, Giappichelli, Torino.
357
B.1
EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica
Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215
e-mail: [email protected] (produzione); [email protected] (distribuzione)
web: www.educatt.it/libri
Euro 20,00

manuale statistica

Transcript

Documenti analoghi

Numeri indici dei prezzi al consumo per le famiglie di operai e

Ricerca Selezione Sviluppo delle Risorse Umane

Statistica Matematica - Dipartimento di Matematica

Esame di Statistica – corso base (canale N-Z)

1 Valore atteso e varianza della vc binomiale

06-SOLDI Pag 06-07

160427 iBDM Strategia EFM Vendita Diretta

b-14) Valore atteso e varianza

Lezione n. 9 ( a cura di Simona Cretaro) Modello di regressione