manuale statistica
Transcript
manuale statistica
GIUSEPPE BOARI - GABRIELE CANTALUPPI NOTE DI STATISTICA DESCRITTIVA E PRIMI ELEMENTI DI CALCOLO DELLE PROBABILITÀ GIUSEPPE BOARI - GABRIELE CANTALUPPI NOTE DI STATISTICA DESCRITTIVA E PRIMI ELEMENTI DI CALCOLO DELLE PROBABILITÀ Milano 2013 © 2013 EDUCatt - Ente per il Diritto allo Studio Universitario dell'Università Cattolica © 2013 Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215 © 2013 e-mail: [email protected] (produzione); [email protected] (distribuzione) © 2013 web: www.educatt.it/libri © 2013 ISBN edizione cartacea: 978-88-6780-023-0 Questo volume è stato stampato nel mese di settembre 2013 presso la Litografia Solari (Peschiera Borromeo - Milano) - la copia elettronica della pubblicazione è disponibile gratuitamente per il download nell’area Freebooks di EDUCatt (www.educatt.it/libri/freebook) Sommario 1 Introduzione .............................................................................................. 1 2 Caratteri e scale di misura ......................................................................... 7 3 Caratteri e loro rappresentazione grafica ............................................... 23 4 Classificazione congiunta di due caratteri ............................................... 49 5 Indici di posizione (1) ............................................................................... 53 6 Indici di posizione (2) ............................................................................... 83 7 Variabilità (1) ........................................................................................... 97 8 Variabilità (2) ......................................................................................... 107 9 Variabilità (3) ......................................................................................... 121 10 Variabilità (4) ......................................................................................... 127 11 Indici di forma ........................................................................................ 139 12 Rapporti statistici ................................................................................... 149 13 Analisi statistica bivariata ...................................................................... 169 14 Connessione (1) ..................................................................................... 179 15 Connessione (2) ..................................................................................... 189 16 Studio della dipendenza se la variabile dipendente è di tipo quantitativo ........................................................................................... 203 17 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (1) ...................................................................................... 215 18 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (2) ...................................................................................... 227 19 Modelli polinomiali ................................................................................ 239 20 Modelli riconducibili al modello retta ................................................... 257 21 Esempio stima modelli in presenza di tabella a doppia entrata ........... 265 22 Esempio stima modelli in presenza di coppie di dati ............................ 275 23 Regressione lineare multipla ................................................................. 285 24 Calcolo delle probabilità (1) ................................................................... 297 25 Calcolo delle probabilità (2) ................................................................... 311 26 Calcolo delle probabilità (3) ................................................................... 323 27 Calcolo delle probabilità (4) ................................................................... 333 28 Richiami di matematica ......................................................................... 345 29 Riferimenti bibliografici ......................................................................... 357 Sezione 1 Introduzione 1.1 Indice 1 Che cosa è la Statistica 1 2 Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo 2 3 La variabilità accidentale 2 4 Il modello statistico 4 5 Caratterizzazione della componente di errore 4 6 Le branche della statistica 5 1.2 1 Che cosa è la Statistica • Diramazione delle Matematiche • Ausilio alle discipline sperimentali – Fisica – Chimica – Biologia – Medicina – Economia Categorie di discipline scientifiche • DEDUTTIVE – matematica – geometria • INDUTTIVE – fanno ricorso alle indagini sperimentali empiriche 1.3 1 2 Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo Approccio deduttivo 1. Assunzione preliminare di certi enti e di alcune loro proprietà assiomi 2. Acquisizione di altri contenuti per via deduttiva dagli assiomi teoremi 1.4 Approccio induttivo (sperimentale) osservazioni / nuovi fatti IPOTESI conferma sperimentale NO SI TEORIA (formulazione/aggiornamento) (il ciclo si riattiva quando si presentano fatti nuovi) 1.5 3 La variabilità accidentale La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni ripetitivi caratterizzati da molteplici manifestazioni (risultati NON prevedibili con certezza) 1.6 fenomeni caratterizzati da ripetitività virtuale possono idealmente essere ripetuti nelle stesse condizioni sperimentali lancio di una moneta (T;C) ∼ 50%T ∼ 50%C cause di variabilità: non si ripete l’esperimento nelle stesse condizioni 2 1.7 Riduzione delle fonti di variabilità 1. faccia della moneta posta in alto (T ) ∼ 55%T T ∼ 45%C 2. faccia della moneta posta in alto (T ) e supporto di lancio ∼ 80%T T ∼ 20%C 3. faccia della moneta posta in alto (T ) e supporto di lancio e piano di atterraggio ∼ 99%T T ∼ 1%C 1.8 Fenomeni caratterizzati da ripetitività attuale si sono già manifestati: i risultati che si osservano sono caratterizzati da una certa variabilità (molteplicità). Indagine sul reddito degli abitanti di una certa città a una certa data classi di reddito 0 20 20 30 superiore a 30 frequenza 10% 60% 30% la variabilità dipende dalle differenti caratteristiche dei soggetti esaminati 1.9 considerando altri fattori, con cui specificare meglio le unità statistiche, si può ridurre la varibiabilità 1. soggetti con età 40 50 classi di reddito frequenza 0 20 2% 20 30 33% superiore a 30 65% 2. soggetti con età 40 50 e professione impiegato classi di reddito frequenza 0 20 2% 20 30 13% superiore a 30 85% 3. soggetti con età 40 50 e professione impiegato e titolo di studio laurea classi di reddito frequenza 0 20 0% 20 30 5% superiore a 30 95% 1.10 3 4 Il modello statistico MODELLO ≡ MECCANISMO GENERATORE • descrive i possibili risultati (osservazioni) • nell’ipotesi di ripetere più volte l’esperimento 1.11 Esempio 1. Relazione fra il peso (Y ) e la sola altezza (X) di n individui adulti modello: yi = a + bxi + ei , i = 1, . . . , n Y = f (X) + E = legge + errore accidentale 100 90 80 70 60 50 40 150 160 170 180 190 200 1.12 5 Caratterizzazione della componente di errore Accidentalità • non prevedibile con certezza • non presenta sistematicità ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●●● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ●●● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ●●● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● caratteristica minimale: compensazione tra errori positivi e negativi (somma nulla) 1.13 COMPITO DELLA STATISTICA • identificazione del modello più prossimo ai dati • verifica della validità del modello 4 FONTI DI INDETERMINATEZZA • Imperfetta specificazione del modello – forma delle relazioni presenti nel modello – variabili esplicative incluse nel modello • Imprecisione degli strumenti di misura COME AFFRONTARE LA VARIABILITÀ • punto di vista deterministico cerca di eliminare la variabilità individuandone le fonti • approccio statistico separa la componente strutturale da quella aleatoria (segnale/rumore) f (X) la legge da dall’ E errore accidentale 1.14 Osservazione a volte l’aleatorietà è parte essenziale dell’esperimento (es. giochi d’azzardo) Considerazione conclusiva Si accetta l’indeterminatezza quando: • l’eccessiva analiticità diventa troppo onerosa • la parte strutturale f (x) non è sovrastata dall’errore (rumore) compito della statistica PREVEDERE al meglio il valore della generica realizzazione del fenomeno oggetto di studio 1.15 6 Le branche della statistica Statistica descrittiva sintesi delle osservazioni campionarie o dei dati censuari Statistica probabilistica studio del meccanismo generatore delle realizzazioni campionarie (modello → campione) Statistica inferenziale dal campione al suo meccanismo generatore (campione → modello) 1.16 5 Sezione 2 Caratteri e scale di misura 2.1 Indice 1 Le fasi di una ricerca 7 2 La rilevazione dei dati 7 3 Lo spoglio dei dati 13 4 Terminologia essenziale 13 5 Tipi di caratteri e scale di misura 14 6 I caratteri qualitativi 14 7 I caratteri quantitativi 7.1 Variazione assoluta, misura relativa e variazione relativa . . . . . . . . . 17 18 8 Scale per caratteri quantitativi 19 9 Alcune considerazioni sulle scale di misura 21 2.2 1 Le fasi di una ricerca 1. Identificazione del problema 2. Astrazione • individuazione variabili osservabili (proxy) 3. Rilevazione • sperimentazione, questionari, . . . 4. Spoglio dei dati (a) organizzazione dati (b) classificazione 5. Elaborazione dei dati (a) sintesi (b) interpretazione (c) inferenza Osservazione una prima statistica consiste nel costruire le tabelle riassuntive 7 2.3 2 La rilevazione dei dati Può essere effettuata tramite: • sperimentazione tipicamente in ambito industriale • questionari – anche in questo caso spesso si stanno effettuando delle ’sperimentazioni’, ad esempio con riferimento alla valutazione del gradimento di nuove caratteristiche di un prodotto/servizio – il questionario ha anche una finalità di comunicazione • basi dati aziendali interrogazioni dei data base aziendali con procedure SQL • basi dati istituzionali: Istat, Banca d’Italia, Uffici comunali dati statistici • Internet, social networks, tweet (analisi testuali) 8 2.4 HELP US TO IMPROVE THE MUSEUM AND BE OUR GUEST FOR A NIGHT! Knowing your opinion about your visit to Palazzo Reale will help us to satisfy better your expectations and the other visitors’ ones FILL IN THIS QUESTIONNAIRE in every form, assigning a value between 1 and 7 when prompted: / . - ɷɷɷɷɷɷɷ I don’t agree 1 2 3 4 5 6 7 I agree INSERT YOUR E-MAIL ADDRESS AT THE END AND WE WILL SEND YOUR INVITATION TO BE OUR GUEST AT THE NEXT OPENING AT PALAZZO REALE Date of the visit: . . . . . . . . . . . . . . . . . . ɷ Morning ɷ Afternoon Personal information Your visit at the museum 1. Gender: ɷM ɷF 1. Who have you visited the museum with? ɷ Alone ɷ With your family/friends ɷ Group 2. Age: ……………………. 2. Is this the first time you visit Palazzo Reale? ɷ Yes ɷ No 3. Italian city / Foreign state of residence: ……………… 4. Title of study: ɷ Elementary school grade ɷ Junior high school grade ɷ Superior high school grade ɷ University degree ɷ Other 3. Why did you choose to visit this exhibition? ɷ Personal interest for the artist/the works ɷ Study or professional interest ɷ Part of a tour of the city/country ɷ To take here some parents/friends ɷ Other (specify:…………………….) 5. Job: ɷ Student ɷ Employee/Professional ɷ Pensioner ɷ Unemployed/other 4. How many exhibition did you visit during the last 12 months? ɷ None ɷ From 1 to 3 ɷ From 4 to 6 ɷ 6 and more 1. Information availability 2. Impression at the visitor’s arrival 1. Information about the exhibition are easily available I don’t agree 1 2 3 4 5 6 7 I agree 1. The waiting times to enter the exposition are acceptable. I don’t agree 1 2 3 4 5 6 7 I agree 2. How did you notice about the exhibition? ɷ a newspaper article ɷ exhibition website ɷ manifests ɷ from a friend ɷ Other (specify: . . . . . . . . . . . . . . . . . . ) 2. The number of operating counters is proportionate to visitors’ flux. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ 3. Was you aware of an on-line booking service? ɷ Yes ɷ No • If yes, I made use of it ɷ Yes ɷ No • If yes, the service is easy to use. I don’t agree 1 2 3 4 5 6 7 I agree 3. Did you use the Palazzo Reale website? ɷ No ɷ Yes • If yes, the site is accessible. I don’t agree 1 2 3 4 5 6 7 I agree • If yes, the site is acceptably complete. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ 4. The presence of contact personnel is proportionate to visitors’ flux. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ Continua nella pagina seguente Ⱥ 2.5 9 3. Logistical aspects 4. Expositive route 1. The main seat of the Palazzo is easily locatable. I don’t agree 1 2 3 4 5 6 7 I agree 1. The hall sequence provides a well-structured visit. I don’t agree 1 2 3 4 5 6 7 I agree 2. Opening days are suitable to your requirements. I don’t agree 1 2 3 4 5 6 7 I agree 2. The works positions is proper to the type of exposition (thematic, monographic, etc). I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ 3. Opening hours are suitable to your requirements. I don’t’ agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ 3. Information about the works are easily found near the works themselves I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ 4. The fee is proportionate to the exhibition’s offer. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ 4. You visited the museum: ɷ Using a guided tour ɷ Using an audio guide ɷ Using a printed guide ɷ Without a guide 5. The system of signs provides complete information. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ 6. Have you found some deficiency you have to report? ɷ No ɷ Yes • If yes, the deficiency management is working properly. 5. Guide services are useful. I don’t agree 1 2 3 4 5 6 7 I agree ɷ I did not use the service ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ I don’t agree 1 2 3 4 5 6 7 I agree ɷ I did not report the deficiency 5. Hall personnel 6. Extra services 1. The hall personnel is properly prepared. I don’t agree 1 2 3 4 5 6 7 I agree 1. Which of these services of Palazzo Reale did you use? ɷ Wardrobe ɷ Audio guide ɷ Bookshop and souvenir shop ɷɷɷɷɷɷɷ 2. Their explanations are complete and easy to understand. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ 3. The presence of hall personnel is proportionate to visitors’ flux. I don’t agree 1 2 3 4 5 6 7 I agree ɷɷɷɷɷɷɷ 2. Satisfaction Wardrobe Little satisfied 1 2 3 4 5 6 7 Very satisfied Audio guide Little satisfied 1 2 3 4 5 6 7 Very satisfied Bookshop and souvenir shop Little satisfied 1 2 3 4 5 6 7 Very satisfied ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ 3. Which of the following services (not present at Palazzo Reale) do you consider essential? ɷ Restaurant/pub ɷ Internet Point Overall valuation Overall importance Make an overall valuation of the following aspects: Sign the level of importance, in your opinion, of the following aspects: Cultural offer 1. Information availability ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ Little satisfied 1 2 3 4 5 6 7 Very satisfied Little importance 1 2 3 4 5 6 7 Great importance Personnel competence and efficiency 2. Impression at the visitor’s arrival Global organization of the expositive route 3. Logistical aspects. Extra services 4. Expositive route ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ Little satisfied 1 2 3 4 5 6 7 Very satisfied Little importance 1 2 3 4 5 6 7 Great importance ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ Little satisfied 1 2 3 4 5 6 7 Very satisfied Little importance 1 2 3 4 5 6 7 Great importance ɷɷɷɷɷɷɷ ɷɷɷɷɷɷɷ Little satisfied 1 2 3 4 5 6 7 Very satisfied Little importance 1 2 3 4 5 6 7 Great importance 5. Hall personnel Overall valuation of the museum ɷɷɷɷɷɷɷ Little importance 1 2 3 4 5 6 7 Great importance ɷɷɷɷɷɷɷ Little satisfied 1 2 3 4 5 6 7 Very satisfied 6. Extra services ɷɷɷɷɷɷɷ Little importance 1 2 3 4 5 6 7 Great importance 2.6 2.7 10 2.8 2.9 11 Una volta raccolti, i dati confluiscono nella cosiddetta matrice dei dati id matr 1234321 4321234 .. . 7654567 1 2 .. . n 1 2 .. . n Esempio 1 (Matrice dati votazioni studenti). 1 2 3 4 ... cognome nome età voto stat . . . Astolfi Antonio 23 28 ... Bianchi Mario 22 31 ... .. .. .. .. . . . . Zito Mario 22 28 ... id ragione soc. abc ayz .. . zyz Esempio 2 (Matrice dati imprese). 1 2 3 settore dimensione n. dipendenti industria grande 123 terziario piccola 5 .. .. .. . . . industria media 60 k voto laurea 105 110L .. . 108 4 fatturato 2 050 234 520 342 .. . 520 420 2.10 • In ogni riga della matrice dei dati figurano tutte le informazioni riferite a un singolo soggetto. • In ogni colonna della matrice dei dati figurano le manifestazioni di una singola variabile per tutti i soggetti. 2.11 12 3 Lo spoglio dei dati Esempio 3. Rilevazione tipologia ultima vacanza effettuata da un campione di n = 36 soggetti tipologia mare montagna città d’arte agriturismo conteggio — |||| — |||| — |||| |||| — |||| — |||| | |||| || n◦ 19 11 4 2 n = 36 v j = singoli valori ( j = 1, 2, . . . , n) (le osservazioni di base) 2.12 Formalizzazione Indicando con xi (i = 1, 2, . . . , k) le modalità distinte e con ni le rispettive frequenze abbiamo X = tipologia ultima vacanza xi = tipologia x1 = mare x2 = montagna x3 = città d’arte x4 = agriturismo ni = frequenza n1 = 19 n2 = 11 n3 = 4 n4 = 2 n = 36 e, in estrema sintesi, X = {(xi , ni ), i = 1, 2, . . . , k} 2.13 4 Terminologia essenziale Unità statistiche o sperimentali supporto fisico/materiale su cui si estrinseca il fenomeno • numero finito (popolazione) • infinità numerabile (universo) Caratteri proprietà dell’unità sperimentale • qualitativi • quantitativi Modalità del carattere • attributi o categorie (caratteri qualitativi) • misure (caratteri quantitativi) 2.14 13 5 Tipi di caratteri e scale di misura Qualitativi / Categorici tipologia sconnessi ordinati scala scala nominale / per attributi scala ordinale (non ha senso confrontare distanze tra categorie) Quantitativi / Metrici (sono misure espresse da numeri interi o reali) tipologia discreti continui scale scala per intervalli scala per rapporti 2.15 6 I caratteri qualitativi sconnessi (scala nominale) • comune di residenza • tipo di industria • tipo di fabbricazione .. . ordinati (scala ordinale) • • • • titolo di studio grado di vendibilità tipo di abitazione risultato di un esame (A,B,C, . . . ) .. . 2.16 Esempio 4. Esprimi la tua opinione riguardo al prolungamento degli orari di apertura delle sale studio molto d'accordo indifferente (punteggi espressi su scale convenzionali) (tipicamente la scala di Likert) 14 decisamente contrario 2.17 Indagine sulla soddisfazione dei clienti (’customer satisfaction’) Esempio 5. Grado di soddisfazione relativo al servizio di bookshop di un museo poco Insoddisfatto indifferente soddisfatto soddisfatto molto soddisfatto 2.18 Esempio 6. Grado di soddisfazione relativo al servizio di bookshop di un museo 1 2 3 4 5 con 1 = Insoddisfatto, ..., 5 = Molto soddisfatto 2.19 Esempio 7. Grado di soddisfazione relativo al servizio di bookshop di un museo Molto soddisfatto Insoddisfatto 2.20 Funzione di trasferimento tra status mentale e punteggio dichiarato giudizio espresso M.sodd. 5 4 3 2 { { { { { 1 Ins. molto sodd. insodd. status mentale la trasformazione ideale è lineare (proporzionalità) 15 2.21 Funzione di trasferimento tra status mentale e punteggio dichiarato giudizio espresso M.sodd. 5 4 3 2 { { { { { 1 Ins. molto sodd. insodd. status mentale Nella realtà difficilmente la trasformazione sarà lineare. 2.22 Osservazione Non ha senso confrontare distanze tra categorie (anche se codificate con valori numerici) giudizio espresso M.sodd. 5 4 3 2 { { { { { 1 Ins. insodd. a b c d molto sodd. status mentale infatti ab = cd mentre (2 − 1) = (5 − 4) 2.23 16 Osservazione Due soggetti potrebbero perfino avere funzioni di trasferimento diverse ed esprimere punteggi differenti in corrispondenza dello stesso livello di percezione della soddisfazione giudizio espresso M.sodd. 5 4 3 2 { { { { { soggetto A soggetto B 1 Ins. molto sodd. insodd. status mentale Quale tra i due soggetti è più severo nelle sue valutazioni? 2.24 7 I caratteri quantitativi modalità = misure numeri reali che descrivono una proprietà oggettiva dell’unità statistica tipologia • continui insieme di modalità: intervallo • discreti insieme di modalità: finito o numerabile proprietà • ordinamento dei numeri reali • definibile una distanza d tra modalità 2.25 distanza 1. d(x1 , x2 ) = |x2 − x1 | = |x1 − x2 | ≥ 0 2. d(x1 , x2 ) = 0 ↔ x1 = x2 3. |x1 − x2 | ≤ |x1 − x3 | + |x2 − x3 | x3 ● x1● x2 ● Osservazione hanno senso le differenze (e le somme) e, quindi, per i caratteri quantitativi, è possibile effettuare operazioni aritmetiche (medie) 17 2.26 7.1 Variazione assoluta, misura relativa e variazione relativa Si considerino due misurazioni x1 e x2 di una grandezza X; Esempi: • presenze alle esposizioni delle opere di Mirò e di Schiele • valore del titolo Sotheby’s al 30.01.2013 e al 28.02.2013 Si ipotizzi che x1 = 15 x2 = 20 Definizione 8 (Variazione assoluta tra x1 e x2 ). ⎧ ⎨ > 0 se x2 > x1 = 0 se x2 = x1 Δ = x2 − x1 = ⎩ < 0 se x2 < x1 Δ = x2 − x1 = 20 − 15 = 5 2.27 Definizione 9 (Misura relativa di x2 rispetto a x1 ). ⎧ ⎨ > 1 se x2 > x1 x2 = 1 se x2 = x1 = ⎩ x1 < 1 se x2 < x1 20 x2 = = 1.3333 x1 15 Se x1 e x2 sono due misurazioni di X in due istanti temporali, ad esempio t1 e t2 , la misura relativa viene denominata montante unitario. In ambito finanziario il montante unitario è il capitale che si riceve alla fine del periodo di investimento a fronte di un investimento unitario. 2.28 Definizione 10 (Variazione relativa tra x1 e x2 ). ⎧ ⎨ > 0 se x2 > x1 x2 x2 − x1 = 0 se x2 = x1 = −1 = ⎩ x1 x1 < 0 se x2 < x1 20 − 15 x2 5 20 x2 − x1 = = −1 = = − 1 = 0.3333. x1 15 x1 15 15 La variazione relativa può essere espressa in termini percentuali x2 x2 − x1 % = 100 100 −1 % x1 x1 e con riferimento all’esempio abbiamo: (100 · 0.3333) % = 33.33%. 2.29 Esercizio 11 (Ideogrammi). Cosa suggerisce la seguente rappresentazione grafica? In seguito a nuove assunzioni il numero di meccanici → è raddoppiato è triplicato è quadruplicato 18 2.30 Esercizio 12. Cosa suggerisce la seguente rappresentazione grafica? In seguito a nuove assunzioni il numero di meccanici →DQDORJRD → qUDGGRSSLDWR qWULSOLFDWR qTXDGUXSOLFDWR 2.31 Esercizio 13. Cosa suggerisce la seguente rappresentazione grafica? Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato rispetto alle precedenti indagini? o del 100% o del 300% oppure del 150% 2.32 Esercizio 14. Cosa suggerisce la seguente rappresentazione grafica? Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato rispetto alle precedenti indagini? →DQDORJRD GHO → GHO GHO 2.33 8 Scale per caratteri quantitativi Definizione 15 (Scala per intervalli). È caratterizzata dalle seguenti due proprietà • zero convenzionale • unità di misura convenzionale Esempio: temperature, date di calendario, anno di nascita, . . . (confrontabili differenze semplici, non percentuali) Esempio 16. Una temperatura di 30◦ non è il doppio di una di 15◦ invece la differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦ Si considerino le misurazioni in gradi Fahrenheit (F = 32 + 1.8C) ◦C ◦F 0 15 20 22 30 34 32.0 59.0 68.0 71.6 86.0 93.2 19 2.34 34 − 30 = 4 = 2(22 − 20) = 2 · 2 93.2 − 86 = 7.2 = 2(71.6 − 68) = 2 · 3.6 30/15 = 2 = 86/59 = 1.4576 non ha quindi senso calcolare ’misure relative’ e nemmeno ’variazioni relative’. 2.35 Esempio 17. Se la temperatura in gradi Celsius passa da 20 a 24 si ha un aumento del 20% ◦C ◦F 20 24 68.0 75.2 In corrispondenza F(20) = 68 e F(24) = 75.2 e si registra un aumento del 10.59% 2.36 Definizione 18 (scala per rapporti). È caratterizzata dalle seguenti tre proprietà • zero oggettivo (naturale) • unità di misura convenzionale • modalità positive Esempio: peso, lunghezza, velocità, età (ha senso trattare le variazioni percentuali) Esempio 19. Una variazione di velocità da 60 a 90 km/h corrisponde all’incremento percentuale tra le stesse velocità misurate, ad esempio, in m/s Ricordando che 1km/h = 1000m/3600s = 0.2778m/s km/ora 60 90 2.37 m/sec 16.6667 25.0000 e la variazione relativa in termini percentuali risulta 90 − 60 25 − 16.6667 100 · % = 50% = 100 · %. 60 16.6667 2.38 Osservazione I numeri indici (misure relative) (anno base = 100) sono definiti solo per caratteri misurati su scale per rapporti. Osservazione Le variazioni assolute, calcolate su un carattere definito su scala per intervalli, sono definite su scala per rapporti. 2.39 Esempio 20. L’anno 2000 non rappresenta il doppio dell’anno 1000 mentre un’età di 30 anni è superiore del 50% di quella di 20 anni (età = differenza tra anno corrente e anno di nascita) L’età ha uno zero oggettivo (età alla nascita). Esempio 21. La differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦ ● ● 0 convenzionale ● 20 22 ● 30 34 32 68 71.6 86 93.2 oggettivo 0 2 oggettivo 0 3.6 oggettivo 0 oggettivo 0 7.2 si crea uno zero oggettivo. ● 4 2.40 20 9 Alcune considerazioni sulle scale di misura L’impostazione seguita nella presentazione delle scale di misura fa riferimento a Stevens SS 1946 On the Theory of Scales of Measurement. Science 103, 677-680. Problema (Lord FM 1953 On the statistical treatment of football numbers. American Psychologist, 8, 750-775) A ciascun componente di 2 squadre universitarie (matricole, 2◦ anno) di football Americano viene assegnato in maniera casuale il numero di maglia. Ricevuti i numeri i componenti della squadra del 1◦ anno lamentano che i numeri loro assegnati sono troppo bassi. • Come possiamo classificare il carattere ’numeri assegnati’? • È possibile considerare il carattere ’numeri assegnati’ come un carattere di tipo quantitativo e utilizzare le conseguenti misure di sintesi per risolvere il problema? 2.41 Possibili soluzioni • Si tratta di un carattere qualitativo ordinato. • I sostenitori dell’approccio cosiddetto ’operazionalista’ affermando «Since the numbers don’t remember where they came from ...» applicherebbero ’senza farsi troppi scrupoli’ la media aritmetica per confrontare i due gruppi di numeri. In base alla classificazione proposta da Stevens tale prassi non può essere ammessa. Una possibile soluzione può essere trovata adottando un’approccio cosiddetto pragmatico. 2.42 Approccio pragmatico (Hand DJ 2004 Measurement theory and practice. The world through quantification, Wiley). Occorre definire in maniera molto accurata il contesto e le finalità dell’applicazione che stiamo conducendo. • nel caso in oggetto non esiste relazione alcuna tra i numeri assegnati e il sistema empirico basato sul livello di abilità dei giocatori. • l’applicazione dei metodi statistici propri dei caratteri quantitativi può avere senso solo se si considerano i due gruppi di numeri solo ’come numeri’, tenendo presente che non descrivono l’abilità dei giocatori. 2.43 Quesiti • La famosa batteria di test relativi al Quoziente Intellettivo che porta all’indicatore QI misura l’ ’intelligenza’ di un individuo? • Su quale scala è espressa? 2.44 Risposte • La batteria dei test misura, in realtà, il concetto sotteso all’insieme di quesiti proposti. La batteria di test e, in generale, ogni questionario rappresentano uno strumento di misurazione. 21 • In base all’approccio pragmatico possiamo dire che: «The precise property being measured is defined simultaneously with the procedure for measuring it, under the assumption of explicitly defining the meaning of the concept one is measuring» (Hand DJ in Kenett Salini (eds.) 2012 Modern Analysis of Customer Satisfaction Surveys, Wiley) e che «In a sense this makes the scale type the choice of the researcher» (Hand DJ 2004 Measurement theory and practice. The world through quantification, Wiley, p. 63.) 2.45 Osservazione Questi ragionamenti possono, in alcune situazioni, giustificare il trattamento delle scale presenti, ad esempio, nelle indagini di customer satisfaction che sarebbero da trattare come propriamente ordinali, ma che correntemente vengono utilizzate come se fossero di tipo metrico. (Essenzialità delle fasi di astrazione e di ricerca della definizione dei concetti che saranno oggetto di analisi.) Esercizio 22. Qual è la scala di misura della variabile ’quantità di cibo ingerito’? La risposta sembra ovvia: si tratta di un carattere quantitativo continuo. E se questa variabile fosse considerata una misura del ’livello di fame/sazietà di un individuo’? 2.46 22 Sezione 3 Caratteri e loro rappresentazione grafica 3.1 Indice 1 2 Organizzazione dei dati elementari 1.1 Carattere qualitativo sconnesso . . . . . . . . . 1.2 Carattere qualitativo ordinato . . . . . . . . . . 1.3 Carattere quantitativo non raggruppato in classi 1.4 Carattere quantitativo raggruppato in classi . . 1.5 Riepilogo rappresentazioni grafiche . . . . . . 1.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rappresentazione grafica delle serie storiche 23 24 28 31 33 42 43 45 3.2 1 Organizzazione dei dati elementari Si costruiscono dei prospetti riassuntivi a partire dall’elenco delle osservazioni. 1 2 .. . ragione soc. abc ayz .. . n zyz matrice dati imprese settore dimensione n. dipendenti industria grande 123 terziario piccola 5 .. .. .. . . . industria media 60 fatturato 2 050 234 520 342 .. . 520 420 v1 , v2 , . . . , vn (generica colonna estratta dalla matrice dei dati) Se il numero di categorie/valori distinti è limitato risulta agevole raccoglierli in una tabella 3.3 Esempio 1. n◦ imprese per settore xi agricoltura industria terziario ni 76 195 257 528 tra le n = 528 unità sperimentali esistono n2 = 195 unità con modalità x2 = industria 23 3.4 Esempio 2. n◦ stanze per abitazione xi 1 2 3 4 5 6 ni 184 451 312 197 84 26 1254 tra le n = 1254 unità sperimentali esistono n3 = 312 unità con modalità x3 = 3 1.1 3.5 Carattere qualitativo sconnesso carattere qualitativo sconnesso Si è rilevato il carattere X = ’tipologia dell’ultimo spettacolo di evasione a cui hai partecipato’, ottenendo, per 8 soggetti, le seguenti osservazioni ( f = film, t = teatro, c = concerto) soggetto 1 2 3 4 5 6 7 8 evento f f c c f t f c i valori possono essere riclassificati nella seguente tabella xi f t c ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 • xi : modalità • ni : frequenze assolute; numero di unità statistiche con modalità xi • fi = nni : frequenze relative; quota di unità statistiche con modalità xi 3.6 Definizione 3 (Mutabile statistica). L’insieme delle coppie {(xi , ni ), i = 1, . . . , k} è detto mutabile statistica. Perdita d’informazione xi f t c ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 Rispetto ai dati iniziali si è persa l’informazione su quale soggetto abbia partecipato a una determinata manifestazione. 24 3.7 Rappresentazione grafica (grafico a bastoncini o canne d’organo) ni oppure fi xi f t c ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 f t c xi (modalità convenzionalmente equispaziate) 3.8 Il grafico di Pareto In presenza di un carattere qualitativo sconnesso l’ordine dato nella rappresentazione grafica alle categorie è arbitrario. Nel grafico di Pareto le categorie vengono ordinate in funzione decrescente delle rispettive frequenze. ni oppure fi xi f t c ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 f c t xi 3.9 25 frequenze assolute o relative? (1) 0.0e+00 2.0e+07 4.0e+07 6.0e+07 8.0e+07 1.0e+08 1.2e+08 1.4e+08 bovini suini ovini numero capi USA CH 127976000 2005000 49602000 2006000 13346000 377000 190924000 4388000 composizione USA CH 0.67 0.46 0.26 0.46 0.07 0.09 1.00 1.00 ni bovini suini ovini xi confronto in termini di dimensione 3.10 26 frequenze assolute o relative? (2) numero capi USA CH 127976000 2005000 49602000 2006000 13346000 377000 190924000 4388000 bovini suini ovini composizione USA CH 0.67 0.46 0.26 0.46 0.07 0.09 1.00 1.00 0.0 0.2 0.4 0.6 0.8 1.0 fi bovini suini ovini xi confronto in termini di composizione 3.11 È anche possibile costruire un grafico a torta (settori proporzionali alle frequenze) xi f t c ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 settore 180◦ 45◦ 135◦ 360◦ film teatro concerto 3.12 27 1.2 Carattere qualitativo ordinato carattere qualitativo ordinato Si è rilevato il carattere X = ’votazione’ ottenuta da 8 soggetti, ottenendo le seguenti osservazioni (d = discreto, b = buono, o = ottimo) soggetto votazione 1 d 2 d 3 4 o o 5 d 6 b 7 d 8 o i valori possono essere riclassificati nella seguente tabella (perdendo l’informazione sul voto conseguito da ciascun soggetto) xi d b o ni 4 1 3 8 fi Ni 0.500 4 0.125 5 0.375 8 1.000 Fi 0.500 0.625 1.000 • xi : modalità • ni : frequenze assolute; numero di unità statistiche con modalità xi • fi = nni : frequenze relative; quota di unità statistiche con modalità xi 3.13 xi d b o • • • • • ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 Ni 4=4 5 = 4+1 8 = 4+1+3 Fi 0.500 = 0.5 = 4/8 0.625 = 0.5 + 0.125 = 5/8 1.000 = 0.5 + 0.125 + 0.375 = 8/8 xi : modalità ni : frequenze assolute; numero di unità statistiche con modalità xi fi = nni : frequenze relative; quota di unità statistiche con modalità xi Ni : frequenze assolute cumulate; numero di unità statistiche con modalità fino a xi Fi = Nni = ∑ij=1 f j = 1n ∑ij=1 n j : frequenze relative cumulate; quota di unità statistiche con modalità fino a xi 3.14 28 Rappresentazione grafica (grafico a bastoncini o canne d’organo) ni oppure fi xi d b o ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 d b o xi Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripartizione F(x) 3.15 Funzione di ripartizione • F(x) quota di unità statistiche con modalità fino a x La definizione di funzione di ripartizione ha carattere generale (anche per i caratteri quantitativi); si osserva come x possa corrispondere anche a valori non osservati o inesistenti; nell’esempio in esame: una votazione insufficiente o compresa tra buono e ottimo o anche superiore a ottimo. 3.16 29 Grafico Funzione di Ripartizione F(x) quota di unità statistiche con modalità fino a x 1.0 F(x) 0.8 ● Fi 0.500 0.625 1.000 ● 0.6 fi Ni 0.500 4 0.125 5 0.375 8 1.000 ● 0.4 ni 4 1 3 8 0.0 0.2 xi d b o d o b x 3.17 Grafico frequenze cumulate È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la funzione N(x) • N(x) numero di unità statistiche con modalità fino a x N(x) 6 8 ● ● ● 4 fi Ni 0.500 4 0.125 5 0.375 8 1.000 2 ni 4 1 3 8 0 xi d b o d b o x 3.18 30 1.3 Carattere quantitativo non raggruppato in classi carattere quantitativo non raggruppato in classi Valgono le stesse considerazioni fatte per i caratteri qualitativi ordinati; occorre solo tenere presente, nel costruire le rappresentazioni grafiche, che le modalità del carattere sono delle misure e quindi potrebbero essere non equispaziate. 3.19 Si è rilevata la variabile X = ’votazione’ riportata da 8 soggetti, considerata metrica secondo l’approccio pragmatico, ottenendo le seguenti osservazioni soggetto votazione 1 2 24 24 3 30 4 30 5 24 6 28 7 24 8 30 i valori possono essere riclassificati nella seguente tabella xi 24 28 30 ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 Ni 4 5 8 Fi 0.500 0.625 1.000 3.20 xi 24 28 30 ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 Ni 4 5 8 Fi 0.500 0.625 1.000 xi : modalità ni : frequenze assolute; numero di unità statistiche con modalità xi fi = nni : frequenze relative; quota di unità statistiche con modalità xi Ni = ∑ij=1 n j : frequenze assolute cumulate; numero di unità statistiche con modalità minore o eguale a xi • Fi = Nni = ∑ij=1 f j : frequenze relative cumulate; quota di unità statistiche con modalità minore o eguale a xi • • • • 3.21 Definizione 4 (Serie statistica). L’insieme delle coppie {(xi , ni ), i = 1, . . . , k} è detto serie statistica. 3.22 31 Rappresentazione grafica (grafico a bastoncini) ni oppure fi xi 24 28 30 ni 4 1 3 8 fi 0.500 0.125 0.375 1.000 20 22 24 26 28 30 32 x 3.23 Grafico Funzione di Ripartizione Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripartizione F(x) • F(x) quota di unità statistiche con modalità minore o eguale a x 1.0 F(x) 0.8 ● Fi 0.500 0.625 1.000 ● 0.6 Ni 4 5 8 ● 0.4 fi 0.500 0.125 0.375 1.000 0.2 ni 4 1 3 8 0.0 xi 24 28 30 20 22 24 26 28 30 32 x 3.24 32 Grafico Frequenze cumulate È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la funzione N(x) • N(x) numero di unità statistiche con modalità fino a x N(x) 6 8 ● ● fi Ni 0.500 4 0.125 5 0.375 8 1.000 ● 4 ni 4 1 3 8 0 2 xi 24 28 30 20 22 24 26 28 30 32 x 3.25 1.4 Carattere quantitativo raggruppato in classi Nel caso di variabile continua si hanno troppi valori distinti!! È possibile raggruppare i dati in classi. In genere le classi sono chiuse a destra (da . . . escluso, a . . . incluso] Esempio 5. Si è rilevata l’altezza di 10 individui ottenendo le seguenti misurazioni: soggetto altezza 1 175 2 168 3 165 ↑ min 4 172 5 180 6 185 ↑ max 7 178 8 172 9 174 3.26 10 183 I valori assunti dalle unità statistiche possono essere rappresentati come punti sulla retta reale. ● ● ● ● ● ● ● ● ● 165 168 172 174 175 178 180 183 185 3.27 33 si consideri un intervallo (h0 , hk ] inclusivo di tutti i valori, ● ● ● ● ● ● ● ● ● 165 168 172 174 175 178 180 183 185 ( ] h0 hk (ma anche di possibili valori che potrebbero essere rilevati su altre unità statistiche) quindi h0 < min teorico e hk ≥ max teorico 3.28 si definisca una partizione dell’intervallo in k sottoinsiemi (denominati classi) ( classe 1 h0 ]( ... classe 2 h1 classe k ] ( ] h2 h k−1 hk Le k classi (h0 , h1 ], (h1 , h2 ], . . . , (hk−1 , hk ] costituiscono una partizione dell’intervallo (h0 , hk ]: 1. sono intervalli (insiemi) disgiunti 2. la loro unione coincide con (h0 , hk ] 3.29 Nel caso in esame si ipotizzi di utilizzare k = 3 classi. soggetto altezza 1 175 2 168 3 165 ↑ min 4 172 5 180 6 185 ↑ max 7 178 8 172 9 174 10 183 È, quindi, possibile assegnare ciascuno dei valori osservati a una e una sola delle classi. ( 162 ● ● 165 168 ]( ]( ● ● ● ● ● ● ● 172 174 175 178 180 183 185 170 180 ] 190 Si osserva il carattere esaustivo della classificazione operata 3.30 34 Una volta definiti gli estremi delle classi, i seguenti valori soggetto altezza 1 175 2 168 3 165 4 172 5 180 6 185 7 178 8 172 9 174 10 183 possono essere riclassificati in una tabella i classe hi−1 hi 1 h0 = 162 h1 = 170 2 h1 = 170 h2 = 180 3 h2 = 180 h3 = 190 ni 2 6 2 10 • hi−1 : estremo inferiore della classe i-esima • hi : estremo superiore della classe i-esima • ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi 3.31 Definizione 6 (Seriazione statistica). L’insieme degli elementi {((hi−1 , hi ), ni ), i = 1, . . . , k} è detto seriazione statistica. Osservazione Nella determinazione delle classi (hi−1 hi ) occorre evitare le seguenti situazioni: • poche classi con frequenze troppo elevate, • molte classi con frequenze troppo basse (≤ 15). 3.32 Il fenomeno può essere analizzato non solo in termini assoluti, ma anche in termini relativi hi−1 hi 162 170 170 180 180 190 • fi = ni n: ni fi 2 0.2 6 0.6 2 0.2 10 1 frequenze relative; quota di unità statistiche con valore tra hi−1 e hi 3.33 e si possono anche costruire le frequenze cumulate hi−1 hi 162 170 170 180 180 190 • • • • • ni fi Ni 2 0.2 2 6 0.6 8 2 0.2 10 10 1 Fi 0.2 0.8 1 hi−1 , hi : estremi inferiore e superiore della classe i-esima ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi fi = nni : frequenze relative; quota di unità statistiche con valore tra hi−1 e hi Ni : frequenze assolute cumulate; numero di unità statistiche con modalità ≤ hi Fi : frequenze relative cumulate; quota di unità statistiche con modalità ≤ hi 3.34 35 Perdita d’informazione soggetto altezza 1 175 2 168 3 165 4 172 5 180 6 185 hi−1 hi 162 170 170 180 180 190 7 178 8 172 9 174 10 183 ni 2 6 2 10 Rispetto ai dati iniziali non si è solo persa l’informazione su quale soggetto abbia una determinata altezza, ma non si hanno più nemmeno i valori delle singole altezze all’interno di ciascuna classe. 3.35 Ipotesi di equidistribuzione delle unità statistiche all’interno di ciascuna classe hi−1 hi ni 162 170 2 170 180 6 180 190 2 10 ( 162 ● ]( ● ● ● ● ● 170 ● ]( ● 180 ● ] ● 190 È come se si suddividesse ciascuna classe hi−1 hi in ni sottoclassi e si posizionassero i dati in corrispondenza degli estremi superiori di queste sottoclassi. 3.36 Definizione 7 (Densità di frequenza (assoluta)). Rapporto tra il numero, ni , di unità statistiche nella classe i e l’ampiezza della classe ai = hi − hi−1 di = ni ai Essa rappresenta il numero (medio) di unità statistiche che cadono in un generico intervallo di ampiezza unitaria. graficamente, nell’ipotesi che ni 1, abbiamo ( ] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● hi−1 hi intervallo unitario 3.37 La densità di frequenza può, naturalmente, essere espressa anche in termini relativi. Definizione 8 (Densità di frequenza (relativa)). Quota (media) di unità statistiche che vengono a cadere in un generico intervallo di ampiezza unitaria all’interno della classe di = fi ai rapporto tra quota di unità statistiche nella classe e ampiezza della classe ai = hi − hi−1 3.38 36 Rappresentazione grafica (istogramma) Sull’asse delle ordinate si riportano le densità di frequenza (assolute o relative) hi−1 hi 162 170 170 180 180 190 ni fi ai 2 0.2 8 6 0.6 10 2 0.2 10 10 1.0 di (assolute) di (relative) 0.25 0.025 0.60 0.060 0.20 0.020 ni ai oppure fi ai 150 160 170 180 190 200 x 3.39 Interpretazione istogramma L’area di ciascun rettangolo nell’istogramma coincide con la frequenza assoluta (relativa) della classe ni ai ai · naii = ni fi ai ai ai · afii = fi ai 3.40 37 Funzione di ripartizione F(x) Quota di unità statistiche con modalità minore o eguale a x hi−1 hi 162 170 170 180 180 190 ni 2 6 2 10 fi 0.2 0.6 0.2 1 Ni 2 8 10 Fi 0.2 0.8 1 F(x) 1.0 ● 0.4 0.6 0.8 ● 0.2 ● 0.0 ● 150 160 170 180 190 200 x sulla base delle informazioni disponibili possiamo solo quantificare il valore di F(x) solo per x = hi , i = 1, . . . , k, x < h0 e x > hk 38 3.41 Ipotizzando però l’equidistribuzione delle unità statistiche all’interno di ciascuna classe possiamo individuare la posizione delle singole ni osservazioni di ciascuna classe ottenendo (cfr. rappresentazione per caratteri discreti) hi−1 hi 162 170 170 180 180 190 ni 2 6 2 10 fi 0.2 0.6 0.2 1 Ni 2 8 10 Fi 0.2 0.8 1 1.0 F(x) ● 0.8 ● ● 0.6 ● ● 0.4 ● ● 0.2 ● ● 0.0 ● 150 160 170 180 190 200 x 3.42 39 Quando il numero di unità statistiche risulta sufficientemente elevato in ciascuna classe, ni 1, otteniamo 0.8 1.0 F(x) ● ● ● ● ● ● ● ● ● ● ● ● ● 0.6 ● ● ● 0.4 ● ● ● 0.2 ● 0.0 ● 150 ● 160 ● ● ● ● ● ● ● ● 170 180 190 200 x 3.43 In tal caso la funzione a gradini può essere approssimata con una spezzata F(x) 1.0 ● 0.4 0.6 0.8 ● 0.2 ● 0.0 ● 150 160 170 180 190 200 x Questa rappresentazione viene comunque utilizzata anche nel caso di ni qualsiasi, facendo l’ipotesi che ni 1. 40 3.44 È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la funzione N(x) • N(x) numero di unità statistiche con modalità fino a x hi−1 hi 162 170 170 180 180 190 ni 2 6 2 10 fi 0.2 0.6 0.2 1 Ni 2 8 10 N(x) 10 ● 4 6 8 ● 2 ● 0 ● 150 160 170 180 190 200 x 3.45 41 1.5 Riepilogo rappresentazioni grafiche qualitativo sconnesso Frequenze semplici ni , fi Tipologia carattere qualitativo quantitativo quantitativo ordinato no classi con classi ni ai oppure fi ai 3.46 qualitativo sconnesso qualitativo ordinato Frequenze cumulate Ni , Fi Tipologia carattere quantitativo no classi quantitativo con classi ● ● ● ● ● non definita ● ● 3.47 Osservazione Per ogni variabile presente nella matrice dei dati 1 2 .. . ragione soc. abc ayz .. . n zyz matrice dati imprese settore dimensione n. dipendenti industria grande 123 terziario piccola 5 .. .. .. . . . industria media 60 fatturato 2 050 234 520 342 .. . 520 420 siamo in grado di effettuare sintesi univariate (tabelle e grafici). Nel seguito considereremo ulteriori analisi (indici di posizione e variabilità). 3.48 42 1.6 Esercizi Eventuali riferimenti in parentesi riportano numero del tema d’esame, data e numero di esercizio della corrispondente prova di Statistica I (Università Cattolica del Sacro Cuore, Milano, Facoltà di Economia, Interfacoltà di Economia-Lettere). Esercizio 9. Nella seguente figura sono riportate le Funzioni di Ripartizione relative alle seriazioni statistiche: • X: distribuzione dei redditi nella località A; • Y : distribuzione dei redditi nella località B. ● 1 ● A ● 0.8 ● 0.7 B ● 0.2 ● 0 10 20 30 40 50 60 In quale località si ha presenza di redditi più elevati? A ≺ B: i redditi in B sono superiori a quelli in A A B: i redditi in A sono superiori a quelli in B 3.49 43 Esercizio 10 (T 162, 24.06.1998, A). Una delegazione provinciale della F.I.C. (Federazione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati dai suoi 8 componenti (A, B, . . . , H) durante l’anno. Si riportano il tipo di sport (S, nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno, i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e). serv cron S T D R 1 B n a 120 20 2 B n a 120 20 3 H c a 360 45 4 G c a 60 60 5 F n i 180 30 6 A s i 360 50 7 E s i 360 70 8 E n i 120 30 9 B s i 360 60 10 C n p 180 45 11 D s p 480 60 12 D s p 420 70 13 B c p 300 40 14 C c p 420 60 15 G n p 180 30 1. Si rappresenti graficamente la mutabile S. 2. Si rappresentino graficamente le frequenze assolute e la funzione di ripartizione della variabile D. 3. Si raggruppino i valori di R in tre classi chiuse a destra di ampiezza 25, considerando come estremo inferiore della prima classe il valore 10, e se ne dia una rappresentazione grafica. 3.50 Esercizio 11 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’): ’visitatori occasionali’ hi−1 hi fi 5 10 0.76 10 20 0.08 20 25 0.16 1.00 ’visitatori esperti’ hi−1 hi fi 5 10 0.40 10 20 0.40 20 25 0.20 1.00 1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due tipologie di visitatori. 3.51 Esercizio 12 (T 180, 14.09.2000, 1). Lo spessore X china è compreso tra 15.2 e 16.5 mm. Si individuino le ampiezze delle 4 classi (Ii ) in cui è modo tale che: I1 I2 I3 fi 0.05 0.09 0.72 di 0.25 0.45 2.40 delle lamine prodotte da una macripartito l’intervallo (15.1; 16.5] in I4 0.14 0.20 1. Si costruisca l’istogramma della variabile X. 2. Supponendo che dalla produzione vengano scartate le lamine con spessore minore di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito, la percentuale di lamine eliminate. 3.52 44 2 Rappresentazione grafica delle serie storiche Le serie storiche Una serie storica {Xt } è una sequenza di valori x0 , x1 , . . . , xT registrati: • in corrispondenza degli istanti temporali t = 0, 1, 2, . . . , T • al termine degli intervalli (t − 1,t], t = 1, 2, . . . , T . Si pensi, ad esempio, alla quotazione giornaliera di un titolo di borsa oppure alla realizzazione mensile o trimestrale del fatturato di un’azienda. Serie storiche di stock e di flusso • La serie storica si definisce di stock se i riferimenti temporali sono istanti temporali (’capitale sociale’, ’quotazione di chiusura di un titolo’) • La serie storica si definisce di flusso se i riferimenti temporali sono degli intervalli temporali (’risultato economico di esercizio’, ’volume degli scambi’) 3.53 3.54 A partire dai valori osservati è possibile definire: • la sequenza delle variazioni assolute rispetto a un particolare istante temporale, ad esempio t = 0: x0 − x0 = 0, x1 − x0 , . . . , xT − x0 • la sequenza delle misure relative rispetto a un particolare istante temporale, ad esempio t = 0: x0 x1 xT = 1, , . . . , x0 x0 x0 • la sequenza delle variazioni relative rispetto a un particolare istante temporale, ad esempio t = 0: x1 − x0 x1 xT − x0 xT x0 − x0 = 0, = − 1, . . . , = −1 x0 x0 x0 x0 x0 45 che possono anche essere espresse come variazioni relative percentuali (se moltiplicate per 100): x1 − x0 x1 − x0 xT − x0 xT − x0 0, = 100 0, % ,..., ,..., x0 x0 x0 x0 x1 xT x1 xT 0, − 1, . . . , − 1 = 100 0, − 1, . . . , − 1 % x0 x0 x0 x0 3.55 Esempio 13. Serie storica {Xt } delle valutazioni contabili del patrimonio dell’azienda Y risultanti dai bilanci degli esercizi 2003, . . . , 2007 (dati in milioni di e); le sequenze delle xt variazioni assolute xt − xt−1 , delle misure relative xt−1 e delle variazioni relative semplici e percentuali, xt −xt−1 xt−1 t 0 1 2 3 4 e 100 Anno 2003 2004 2005 2006 2007 xt −xt−1 xt−1 %, xt 518 550 540 580 608 definite rispetto agli istanti temporali t − 1: xt − xt−1 xt xt−1 xt −xt−1 xt−1 % 32 −10 40 28 1.0618 0.9818 1.0741 1.0483 0.0618 −0.0182 0.0741 0.0483 6.18 −1.82 7.41 4.83 3.56 650 Si riportano le possibili rappresentazioni grafiche delle serie storiche oggetto di analisi. 600 ● 550 ● ● ● 450 500 ● 2002 2003 2004 2005 2006 2007 2008 Serie storica xt che descrive l’andamento del patrimonio dell’azienda Y tra il 2003 e il 2007 (dati in milioni di e) (stock) 46 3.57 50 40 30 20 10 0 2003 2004 2005 2006 2007 2008 −20 −10 2002 3.58 650 Serie storica xt − xt−1 che descrive le variazioni del patrimonio dell’azienda Y tra il 2003 e il 2007 (dati in milioni di e) (flusso) ● 550 ● ● ● 450 ● 2003 2004 2005 2006 2007 2008 2002 2003 2004 2005 2006 2007 2008 2002 2003 2004 2005 2006 2007 2008 0.90 1.00 1.10 −20 0 20 40 2002 xt Serie storiche xt , xt −xt−1 e xt−1 che descrivono rispettivamente il patrimonio dell’azienda Y , le sue variazioni semplici e i valori relativi, di anno in anno, tra il 2003 e il 2007. 47 3.59 40 20 0 −20 2003 2004 2005 2006 2007 2008 2002 2003 2004 2005 2006 2007 2008 2002 2003 2004 2005 2006 2007 2008 −0.04 0.00 0.04 0.08 −0.04 0.00 0.04 0.08 2002 Serie storiche che descrivono le variazioni assolute xt − xt−1 , le variazioni relative semplix −x x −x ci e percentuali, t xt−1t−1 e 100 t xt−1t−1 %, subite di anno in anno dal patrimonio dell’azienda Y tra il 2003 e il 2007. 3.60 Esercizio 14. Si ricostruiscano le rappresentazioni grafiche precedenti con riferimento alla seguente serie storica: t 0 1 2 3 4 Anno 2000 2001 2002 2003 2004 xt 100 50 100 150 100 xt − xt−1 xt xt−1 xt −xt−1 xt−1 100 xt −xt−1 xt−1 % 3.61 48 Sezione 4 La classificazione congiunta di due caratteri 4.1 Indice 1 La classificazione congiunta di due caratteri 49 4.2 1 La classificazione congiunta di due caratteri Esempio 1. Con riferimento ai dati, inerenti 15 servizi di cronometraggio complessivamente espletati da 8 componenti della F.I.C. (Federazione Italiana Cronometristi), cfr. Esercizio nella sezione precedente. servizio D R 1 120 20 2 120 20 3 360 45 4 60 60 5 180 30 6 360 50 7 360 70 8 120 30 9 360 60 10 180 45 11 480 60 12 420 70 13 300 40 14 420 60 15 180 30 si vuole studiare il comportamento congiunto delle variabili D ed R. A tal fine si raggruppano i valori di D nelle tre classi (50, 180], (180, 360], (360, 480] e i valori di R nelle tre classi (10, 35], (35, 60], (60, 85]. D\R 50 180 180 360 360 480 10 35 35 60 60 85 ni• Ciascuna unità statistica può essere assegnata a una e una sola delle celle nella tabella; occorre conteggiare quante unità statistiche corrispondono a ciascuna combinazione delle classi di D = durata del servizio e R = entità del rimborso D\R 50 180 180 360 360 480 n• j 10 35 5 0 0 5 35 60 2 4 2 8 60 85 0 1 1 2 4.3 ni• 7 5 3 15 Il valore 4 nella seconda riga, seconda colonna (parte interna della tabella) indica che tra le 15 unità statistiche ve ne sono 4 che hanno prestato una durata del servizio tra 180 e 360 minuti ricevendo un rimborso compreso tra 35 e 60 e. Esso viene indicato con n22 , dove il primo indice sta a indicare la classe della variabile D (indice di riga) mentre il secondo indice indica la classe della variabile R (indice di colonna). 49 4.4 Abbiamo quindi D\R 50 180 180 360 360 480 n• j 10 35 n11 = 5 n21 = 0 n31 = 0 n•1 = 5 35 60 n12 = 2 n22 = 4 n32 = 2 n•2 = 8 60 85 n13 = 0 n23 = 1 n33 = 1 n•3 = 2 ni• n1• = 7 n2• = 5 n3• = 3 n = 15 • ni j frequenze congiunte; numero di unità statistiche con modalità (appartenenti alla classe) corrispondente alla i-esima riga e j-esima colonna. • ni• frequenze marginali di D; numero di unità statistiche con i-esima modalità (appartenenti alla i-esima classe) di D; (somma delle frequenze congiunte nella i-esima riga; • n• j frequenze marginali di R; numero di unità statistiche con j-esima modalità (appartenenti alla j-esima classe) di R; (somma delle frequenze congiunte nella j-esima colonna. Si osserva come nella tabella D\R 50 180 180 360 360 480 n• j 10 35 n11 = 5 n21 = 0 n31 = 0 n•1 = 5 35 60 n12 = 2 n22 = 4 n32 = 2 n•2 = 8 60 85 n13 = 0 n23 = 1 n33 = 1 n•3 = 2 4.5 ni• n1• = 7 n2• = 5 n3• = 3 n = 15 figurino anche le frequenze assolute delle due variabili D e R separatamente considerate D 50 180 180 360 360 480 ni• 7 5 3 15 R 10 35 35 60 60 85 n• j 5 8 2 15 La frequenza n1• = 7, attinente alla classe 50 180 è stata ottenuta sommando n11 = 5, n12 = 2 e n13 = 0. Il simbolo • sostituisce l’indice rispetto al quale si è effettuata la somma: 7 = n1• = n11 + n12 + n13 = 3 ∑ n1 j j=1 4.6 Definizione 2 (Variabile/Mutabile statistica doppia). L’insieme (X,Y ) delle terne {xi , y j , ni j , i = 1, 2 . . . , h; j = 1, 2, . . . , k}, dove gli elementi xi , y j possono essere categorie, valori singoli, classi o valori centrali delle classi, è detto mutabile/variabile statistica doppia. Le coppie di dati elementari {vr , wr } (r = 1, 2, . . . , n) sono riassunte in h modalità/classi xi e k modalità/classi y j X\Y x1 .. . y1 n11 .. . ... ... yj n1 j .. . ... ... yk n1k .. . ni• n1• .. . xi .. . ni1 .. . ... ni j .. . ... nik .. . ni• .. . xh n• j nh1 n•1 ... ... nh j n• j ... ... nhk n•k nh• n 50 4.7 xi , y j = eventuali valori centrali ni• = totali di riga = ∑kj=1 ni j n• j = totali di colonna = ∑hi=1 ni j h k h k i=1 j=1 ∑ ∑ ni j = ∑ ni• = ∑ n• j = n i=1 j=1 Dalla mutabile/serie/seriazione doppia è possibile ricavare due distribuzioni marginali univariate. 4.8 Esempio 3. X = spessore Y = durezza X,Y 5.5 7.5 7.5 9.5 9.5 11.5 11.5 13.5 n• j 70 80 6 25 7 2 40 80 90 9 29 10 4 52 90 100 9 25 9 5 48 ni• 24 79 26 11 140 Nel caso in esame siamo in presenza di una seriazione statistica doppia, le cui marginali sono xi 5.5 7.5 7.5 9.5 9.5 11.5 11.5 13.5 ni• 24 79 26 11 140 yj 70 80 80 90 90 100 n• j 40 52 48 140 4.9 Osservazione Non è immediato stabilire, con la semplice lettura della tabella, se lo spessore (X) induce un aumento di durezza (Y ); necessitano, a tale proposito, ulteriori strumenti statistici che verranno presentati nell’ambito dell’analisi statistica bivariata. 4.10 51 Sezione 5 Indici di posizione (1) 5.1 Indice 1 Indici sintetici o statistiche 53 2 Indici di posizione 53 3 La moda 55 4 I Percentili 4.1 Procedura grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Calcolo ’preciso’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 62 65 5 Box & Whiskers plot 67 6 Le medie potenziate 6.1 La media aritmetica (r = 1) . . . . . . . . . . . 6.2 La media armonica (r = −1) . . . . . . . . . . 6.3 La media quadratica (r = 2) . . . . . . . . . . 6.4 Il Teorema fondamentale sulle medie potenziate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 72 73 74 7 Esercizi 77 8 L’operatore media aritmetica 79 9 Interpretazione fisica della media aritmetica 80 10 Media aritmetica di una trasformazione lineare 80 5.2 1 Indici sintetici o statistiche Date le n osservazioni campionarie v 1 , v2 , . . . , v n , eventualmente raccolte in una serie statistica X = {(xi , ni )}, un indice sintetico è una funzione I = α(v1 , v2 , . . . , vn ) = α(X) 5.3 53 2 Indici di posizione ? sono migliori gli studenti maschi o le femmine ? si mangiano più polli pro-capite in Italia o in Danimarca ? (si confrontano statistiche che rappresentano i livelli/valori tipici) 5.4 LA STATISTICA di Trilussa Sai ched’è la statistica? È na’ cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che spósa. Ma pè me la statistica curiosa è dove c’entra la percentuale, pè via che, lì,la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna due. 5.5 A seconda della scala di misurazione un indice di posizione dovrà soddisfare le seguenti caratteristiche: • da nominale in su modalità/valore più simile a tutti (o alla maggioranza) 1. internalità uno dei valori assunti dal fenomeno (condizione di Cauchy) • da ordinale in su valore centrale della distribuzione 1. internalità xmin ≤ α(X) ≤ xmax (condizione di Cauchy) 2. monotonicità X ≤ Y → α(X) ≤ α(Y ) • da scala per intervalli (dati metrici) modalità più vicina a tutti 3. moltiplicatività α(cX) = cα(X) con c costante arbitraria 54 5.6 È possibile definire i seguenti indici di posizione, in accordo alla scala di misurazione del carattere oggetto di studio • da nominale in su → moda (o norma) • da ordinale in su → mediana (o percentili) • da scala per intervalli (dati metrici) → medie 5.7 Osservazioni • la proprietà di Cauchy è irrinunciabile • 1) 2) e 3) media in senso stretto • se cade la proprietà di monotonicità la media si dice in senso lato Alcuni indici tipici • moda • percentili x p di ordine p (0 ≤ p ≤ 1) • mediana • medie potenziate – – – – aritmetica armonica geometrica quadratica .. . (la moda è definibile anche per caratteri qualitativi sconnessi) 5.8 3 La moda Definizione 1 (Moda per caratteri qualitativi e caratteri quantitativi con valori non raggruppati in classi). Moda(X) = {x j : n j = max ni } = {x j : f j = max fi } (modalità/valore di massima frequenza) 5 ni oppure fi ni 2 5 3 2 12 0 xi 2 4 7 8 0 2 4 Moda(X)=4 6 8 1 xi 5.9 55 Definizione 2 (Moda per caratteri quantitativi con valori raggruppati in classi). nj fj ni fi Moda(X) = x j : = max = max = xj : aj ai aj ai (valore centrale classe di max densità di frequenza) 10 ni ai oppure fi ai oppure fi ai di 3 4 5 8 2 ni ai ni 6 4 10 8 2 30 0 xi 24 45 57 78 89 0 2 4 6 8 1 Moda(X)=7.5 5.10 (se Moda(X) esiste, cioè unimodale . . . ) Esempio 3. Si consideri la distribuzione degli spettacoli organizzati dalle associazioni culturali di una regione tipo spettacolo teatrale concerto musica classica concerto rock concerto big band totale n. eventi 82 125 160 158 525 La distribuzione è quasi bimodale! La nozione di media espressa dalla moda può avere, a volte, un carattere molto incerto. 5.11 Osservazione Cadendo la monotonicità la moda è media solo in senso lato Esempio 4. Distribuzione delle auto di servizio di 15 aziende X: osservazioni al tempo t, Y : osservazioni al tempo t + 1 (3 aziende con due auto hanno raddoppiato il parco macchine) yi ni xi ni 1 5 1 5 2 7 2 4 3 2 3 2 4 1 4 4 15 15 tempo t: tempo t + 1: 1 1 = 1 1 = 1 1 = 1 1 = 1 1 = 2 2 = Moda(X) = 2 2 2 = 2 2 = 2 2 = 2 3 > 2 3 > 2 4 > 3 4 > 3 4 > 4 4 = Moda(Y ) = 1 anche se y( j) ≥ x( j) ( j = 1, . . . , 15) abbiamo Moda(Y ) < Moda(X)!! 56 5.12 Esempio 5 (Carattere qualitativo). Si considerano le distribuzioni percentuali del colore dei capelli di alcune scolaresche colore nero castano biondo altro S1 0.10 0.25 0.60 0.05 1 S2 0.30 0.30 0.30 0.10 1 S3 0.70 0.20 0.05 0.05 1 La moda è una delle modalita !!! Ha senso solo la moda (modalità comune al maggior numero di unità statistiche) Non è possibile calcolare mediana o media ! Osservazione S2 è plurimodale 5.13 Esercizio 6. Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’): ’visitatori esperti’ hi−1 hi fi 5 10 0.40 10 20 0.40 20 25 0.20 1.00 ’visitatori occasionali’ hi−1 hi fi 5 10 0.76 10 20 0.08 20 25 0.16 1.00 1. Si rappresentino graficamente le funzioni di ripartizione. 2. In base ai grafici precedenti si individui la moda delle due distribuzioni. 5.14 57 4 I Percentili Si consideri una serie di n valori distinti riferiti a una variabile misurata su scala almeno ordinale (ad esempio l’altezza in cm) 5.15 Si cerca il valore x p che divide la distribuzione dei dati ordinati in due parti: xp p 1−p • una quota p dei soggetti ha valore inferiore o uguale a x p • una quota 1 − p dei soggetti ha valore superiore o uguale a x p Alcuni percentili notevoli • x0.25 = Q1 = 1◦ quartile • x0.50 = Q2 = 2◦ quartile = mediana • x0.75 = Q3 = 3◦ quartile 5.16 5.17 Esempio 7. Se il percentile di ordine 0.30 della distribuzione delle altezze dei soggetti di una collettività è pari a x0.30 = 130 cm, ciò significa che: • il 30% dei soggetti ha un’altezza minore o uguale a 130 cm • il 70% dei soggetti un un’altezza non inferiore a 130 cm. Osservazione Il percentile è individuabile, per qualsiasi valore di p, in maniera univoca solo in situazioni particolari (n 100 e variabile statistica continua, che si manifesta con un elevato numero di valori distinti). 58 5.18 Esempio 8. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 12 unità statistiche Una volta ordinate dalla più piccola alla più grande si assegni la posizione (rango) all’interno dei dati ordinati (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12) Nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti. 5.19 (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12) Ogni valore strettamente compreso tra l’altezza x(6) della sesta unità statistica e x(7) , altezza della settima unità statistica, divide la distribuzione esattamente in 2 parti: • la quota di soggetti con altezza non superiore a quel valore è esattamente pari al 50% (6/12). • la quota di soggetti con altezza non inferiore a quel valore è esattamente pari al 50% (6/12). 5.20 Esempio 9. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 12 unità statistiche le si ordina e si assegna la posizione all’interno dei dati ordinati (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12) Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti 5.21 (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12) Le altezze della sesta e settima (e ottava) unità statistica coincidono, diciamo sono uguali a c: • la quota di soggetti con altezza non superiore a c è superiore al 50% (8/12). • la quota di soggetti con altezza non inferiore a c è superiore al 50% (7/12). Esempio 10. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 5 unità statistiche 59 5.22 le si ordina e si assegna la posizione all’interno dei dati ordinati (1)(2)(3)(4)(5) Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti 5.23 (1)(2)(3)(4)(5) Si consideri l’altezza della quinta unità statistica x(5) : • la quota di soggetti con altezza non superiore a x(5) è superiore al 50% (3/5). • la quota di soggetti con altezza non inferiore a x(5) è superiore al 50% (3/5). Occorre, quindi, una definizione più generale di percentile. Definizione 11 (Percentile). (definizione formale) 5.24 xp = ∑ x: xi ≤x fi ≥ p ∩ ∑ xi ≥x fi ≥ (1 − p) x p = {x : [F(x) ≥ p] ∩ [1 − F(x) + f req(x) ≥ (1 − p)]} dove con f req(x) si è indicata la frequenza relativa corrispondente al valore x. (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12) (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12) x p è un valore x non superato da almeno una frazione p delle unità statistiche e contemporaneamente superato da almeno una frazione 1 − p delle unità statistiche In particolare assumiamo che: • se p = 0 → x0 = xmin = x(1) • se p = 1 → x1 = xmax = x(n) Per determinare il percentile possiamo contemporaneamente fare riferimento: • alla funzione di ripartizione F(x): quota di unità statistiche con modalità minore o uguale a x. • alla funzione di ripartizione retrocumulata R(x). Definizione 12 (Funzione di ripartizione retrocumulata R(x)). Si definisce funzione di ripartizione retrocumulata, detta anche funzione di sopravvivenza, la funzione che a ogni x fa corrispondere la quota di unità statistiche con modalità non inferiore a x. 60 5.25 5.26 5.27 Osservazione Se il carattere è quantitativo continuo R(x) = 1 − F(x). F(x) e R(x) danno la ’stessa’ informazione con riferimento alla determinazione del percentile: x p = F −1 (p) = R−1 (1 − p) 5.28 In presenza di un carattere qualitativo ordinato e di un carattere quantitativo non rilevato con classi vale: Ri = 1 − F(i) + fi . Per trovare x p dobbiamo cercare l’insieme dei valori che soddisfa le due condizioni F(x) ≥ p R(x) ≥ 1 − p 5.29 xi 2 4 5 7 8 ni 4 6 4 1 5 20 fi 0.20 0.30 0.20 0.05 0.25 1 • p = 0.25 Fi 0.20 0.50 0.70 0.75 1.00 Ri 1.00 0.80 0.50 0.30 0.25 x0.25 = 4 F(4) = 0.5 ≥ 0.25 e R(4) = 0.8 ≥ 0.75 • p = 0.50 5.30 x0.5 = 4 ma anche x0.5 = 5 F(4) = 0.5 ≥ 0.5 e R(4) = 0.8 ≥ 0.5 F(5) = 0.7 ≥ 0.5 e R(5) = 0.5 ≥ 0.5 4 ≤ x0.5 ≤ 5 Consideriamo il valore centrale x0.5 = 4+5 = 4.5. 2 5.31 • p = 0.75 x0.75 = 7 ma anche x0.75 = 8 F(7) = 0.75 ≥ 0.5 e R(7) = 0.3 ≥ 0.25 F(8) = 1 ≥ 0.5 e R(8) = 0.25 ≥ 0.25 7 ≤ x0.5 ≤ 8 Consideriamo il valore centrale x0.75 = 7+8 = 7.5. 2 5.32 61 4.1 Procedura grafica 1.0 Per determinare x p possiamo però anche fare riferimento alla sola funzione di ripartizione. Se il carattere è qualitativo ordinato oppure siamo in presenza un carattere quantitativo con valori non raggruppati in classi abbiamo 0.8 ● 0.75 ● Fi 0.20 0.50 0.70 0.75 1.00 0.5 ● 0.4 Ni 4 10 14 15 20 0.25 0.2 ni 4 6 4 1 5 20 ● 0.0 xi 2 4 5 7 8 0.6 ● 0 2 4 5 7 8 10 x0.25 x0.25 = F −1 (0.25) = 4 x0.5 = F −1 (0.5) =?? x0.75 = F −1 (0.75) =?? 5.33 • p = 0.5 x(10) = 4 ≤ x0.5 < 5 = x(11) si ricorda che x10 = 4 e x11 = 5 soddisfano la definizione formale di mediana. Consideriamo il valore centrale x0.5 = 4+5 = 4.5. 2 5.34 • p = 0.75 x(15) = 7 ≤ x0.75 < 8 = x(16) si ricorda che x15 = 7 e x16 = 8 soddisfano la definizione formale di mediana. Consideriamo il valore centrale x0.75 = 7+8 = 7.5. 2 5.35 62 1.0 In presenza di classi, se ni 1, abbiamo 0.9 ● 0.6 fi Fi 0.2 0.2 0.1 0.3 0.3 0.6 0.3 0.9 0.1 1 1 p 0.3 F(x) ● ● 0.2 ni 200 100 300 300 100 1000 ● 0.0 xi 24 45 57 78 89 ● ● 2 4 xp 5 7 8 9 x0.25 = 4.5 1.0 5.36 0.9 ● 0.6 0.3 F(x) ● ● 0.2 fi Fi 0.2 0.2 0.1 0.3 0.3 0.6 0.3 0.9 0.1 1 1 0.0 xi 24 45 57 78 89 ● ● ● 2 4 5 7 8 9 x0.3 x0.3 = 5 x0.5 =?? 5.37 63 1.0 Per determinare il valore della mediana, percentile di ordine 0.5, determiniamo in primo luogo la classe di appartenenza, 5 7 (corrispondente alla prima Fi ≥ 0.5) 0.9 ● 0.6 0.3 F(x) ● 0.5 ● 0.2 fi Fi 0.2 0.2 0.1 0.3 0.3 0.6 0.3 0.9 0.1 1 1 0.0 xi 24 45 57 78 89 ● ● ● 2 4 5 x0.5 7 8 9 x Osserviamo come il punto 0.5 sull’asse delle ordinate sia a 2/3 del segmento che unisce i punti 0.3 e 0.6; quindi anche x0.5 sull’asse delle ascisse sarà in posizione 2/3 sul segmento che unisce i punti 5 e 7, vale a dire x0.5 = 5 + 23 · 2 = 6.3333. Segue la formula teorica: x p = hi−1 + 5.38 p − Fi−1 p − Fi−1 ai = hi−1 + ai Fi − Fi−1 fi dove: • • • • hi−1 : estremo inferiore della classe (i) di appartenenza del percentile di ordine p, ai : ampiezza della classe i, Fi−1 e Fi : valori della funzione di ripartizione in hi−1 e hi , fi = Fi−1 − Fi : frequenza relativa della classe i. 64 5.39 4.2 Calcolo ’preciso’ Come si è visto, in molte situazioni, la determinazione del percentile avviene in maniera ’convenzionale’. Con riferimento alla serie statistica xi 2 4 5 7 8 ni 4 6 4 1 5 20 fi 0.20 0.30 0.20 0.05 0.25 1 Fi 0.20 0.50 0.70 0.75 1.00 Ri 1.00 0.80 0.50 0.30 0.25 per la mediana, x0.5 , e per il terzo quartile, x0.75 , si sono scelti 4.5 e 7.5, valori intermedi tra 4 e 5 e tra 7 e 8. Si osserva come qualsiasi altro valore negli intervalli [4, 5] e [7, 8] avrebbe potuto essere utilizzato per x0.5 e per x0.75 . Se il numero delle unità statistiche è ridotto, i valori che soddisfano la definizione formale di percentile potrebbero anche essere molto dissimili tra loro. 5.40 Esistono in letteratura diverse formule per il calcolo dei percentili, si veda Hyndman, R. J., Fan, Y. (1996) Sample quantiles in statistical packages, American Statistician, 50, 361-365. Si riporta una delle definizioni, comunemente utilizzata nei pacchetti statistici di uso corrente. 5.41 Definizione 13 (Calcolo ’preciso’ x p ). x p = (1 − γ) · x( j) + γ · x( j+1) dove x( j) è l’elemento che occupa la posizione j all’interno dei dati ordinati con j = [np + (1 − p)] [·] parte intera dell’argomento, e γ = np + (1 − p) − j. In particolare, se p = 0.5, si ottiene j= n 2 n+1 2 e γ= 1 2 0 se n è pari se n è dispari se n è pari se n è dispari 5.42 Segue la definizione di mediana, che distingue le situazioni di numerosità pari e dispari: Definizione 14 (Mediana). x0.5 = 1 2 x( n ) + x( n +1) 2 2 x( n+1 ) 2 65 se n è pari se n è dispari Con riferimento all’esempio di n = 20 unità statistiche, la mediana risulta la semisomma degli elementi di posizione 10 e 11 nella serie dei dati ordinati x(10) + x(11) 4+5 = = 4.5. 2 2 Nel caso il carattere sia qualitativo ordinato o quantitativo non rilevato in classi, per la mediana si ottiene lo stesso risultato che si avrebbe con il metodo grafico della funzione di ripartizione. In presenza di una seriazione statistica, se ni non è elevato, abbiamo: (per n pari) 30 ● 27 ni Ni 6 6 3 9 9 18 9 27 3 30 30 ● 18 N(x) xi 24 45 57 78 89 5.43 ● 16 15 9 ● 6 ● xn 0 2 xn 2+1 ● 2 4 5 7 8 9 x 7 6 = 6.4444 5+ ·2 + 5+ ·2 2 9 9 n n + 1 − Ni−1 − Ni−1 x( n ) = hi−1 + 2 ai x( n +1) = hi−1 + 2 ai 2 2 Ni − Ni−1 Ni − Ni−1 x0.5 = x( n ) + x( n +1) 2 2 = 1 2 5.44 Osservazione Se x( n ) e x( n +1) appartengono alla stessa classe si ottiene 2 2 n+1 x0.5 = hi−1 + − Ni−1 ai Ni − Ni−1 2 Anche in presenza di una seriazione statistica con n dispari abbiamo la stessa formula n+1 − Ni−1 x0.5 = x( n+1 ) = hi−1 + 2 ai 2 Ni − Ni−1 5.45 Esercizio 15. Si fornisca una rappresentazione grafica e si riassumano opportunamente gli esiti riportati nel seguente prospetto vi scarso sufficiente discreto buono ni 18 14 12 6 5.46 66 5 Box & Whiskers plot ● ● ● ● ● 35 ● outliers ● ● 32 33 34 75% ● x0.75 ● ● 25% x0.5 ● 31 50% 75% 25% x0.25 ● ● 30 ● 5.47 Rappresentazione grafica costituita da: • box (scatola) – x0.25 = Q1 – x0.50 = Q2 – x0.75 = Q3 • whiskers (baffi) – baffo inferiore = max{xmin , Q1 − 1.5(Q3 − Q1)} – baffo superiore = min{xmax , Q3 + 1.5(Q3 − Q1)} x0.75 − x0.25 = Q3 − Q1 è chiamata differenza interquartile. Utilizzo: • idea sintetica della distribuzione • confronti • individuazione dati anomali (oltre i baffi) 67 5.48 5.49 Esempio 16 (Altezza della navata e lunghezza totale delle cattedrali inglesi). Faraway JJ 2002 Practical Regression and Anova using R, July 2002, (http://stat.ethz.ch/CRAN/doc/contrib/Faraway-PRA.pdf) • x altezza della navata (m) y lunghezza totale (m) Alcune cattedrali sono in stile romanico, altre in stile gotico. I dati relativi alle cattedrali con entrambi gli stili sono stati duplicati. Si confrontano i due stili mediante grafici Box & Whiskers plot. Durham Canterbury Gloucester Hereford Norwich Peterborough St.Albans Winchester Ely York Bath Bristol Chichester Exeter GloucesterG Lichfield Lincoln NorwichG Ripon Southwark Wells St.Asaph WinchesterG Old.St.Paul Salisbury style r r r r r r r r r g g g g g g g g g g g g g g g g x 22.86 24.38 20.73 19.51 25.30 24.38 21.34 23.16 22.56 30.48 22.86 15.85 18.90 20.73 26.21 17.37 24.99 21.95 26.82 16.76 20.42 13.72 31.39 31.39 25.60 y 153.01 159.11 129.54 104.85 124.05 137.46 167.94 161.54 166.73 158.19 68.58 91.44 127.41 124.66 129.54 112.78 154.23 124.05 89.92 83.21 126.49 55.47 161.54 186.23 144.17 5.50 Distribuzione 'lunghezza totale' 60 15 80 20 120 25 160 30 Distribuzione 'altezza della navata' g r g r 5.51 68 Esercizio 17. Si confrontino mediante grafici Box & Whiskers plot le seguenti serie di osservazioni Serie X : 12, 7, 11, 10, 15, 14, 30, 20, 11, 8, 12 Serie Y : 7, 17, 10, 9, 9, 11, 8, 6, 12, 7, 10, 7, 13, 9, 8 5.52 Esercizio 18. Si costruisca il Box & Whiskers plot per la seguente serie statistica xi 20 27 30 33 ni 44 36 70 50 200 5.53 Esercizio 19. Si costruisca il Box & Whiskers plot per la seguente seriazione statistica basandosi sulla funzione di ripartizione hi−1 hi 15 25 25 29 29 31 31 35 fi 0.22 0.18 0.35 0.25 1 5.54 69 50 Esercizio 20. Quale tra i due istogrammi corrisponde al Box & Whiskers plot? 0.05 0.04 40 0.03 0.02 0.01 20 30 0.00 0 10 20 30 40 50 0 10 20 30 40 50 0.05 0.04 10 0.03 0.02 0.01 0.00 5.55 50 Esercizio 21. Quale tra i due istogrammi corrisponde al Box & Whiskers plot? 0.05 0.04 40 0.03 0.02 0.01 20 30 0.00 0 10 20 30 40 50 0 10 20 30 40 50 0.05 0.04 10 0.03 0.02 0.01 0.00 5.56 70 6 Le medie potenziate Definizione 22. Data una variabile statistica X con modalità xi > 0 (eventualmente valori centrali) si definisce media potenziata di ordine r 1 r 1 k r xi ni = ∑ n i=1 1 1 r r k k r ni r x = x f i ∑ in ∑ i i=1 i=1 μ (r) = = con fi = nni ed r = ±1, ±2, ±3, . . .. Nel caso di frequenze unitarie (o valori singoli v j , j = 1, . . . , n) μ (r) = n 1 n ∑ 1 r vrj j=1 5.57 6.1 La media aritmetica (r = 1) Definizione 23. μ (1) = μ = M(X) = k 1 k xi ni = ∑ xi fi . ∑ n i=1 i=1 Osservazione È inessenziale la positività delle xi . Esempio 24. M(X) è il valore centrale di una successione aritmetica con un numero dispari di termini, ad esempio 1, 2, 3, 4, 5 si osservi che in questo caso ciascuna modalità figura una sola volta, quindi k = n = 5 e n1 = n2 = . . . = nk = 1, quindi: μ = M(X) = 1 k 1 ∑ xi ni = 5 (1 + 2 + 3 + 4 + 5) = 3. n i=1 5.58 71 Esempio 25. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 nella serie statistica xi 1 2 2.5 10 ni 2 4 3 1 10 (1) si può procedere al calcolo della media aritmetica ni 2 4 3 1 10 xi 1 2 2.5 10 μ = M(X) = xi ni 2 8 7.5 10 27.5 1 1 k ∑ xi ni = 10 27.5 = 2.75. n i=1 5.59 Osservazione Nel caso di una seriazione statistica i valori xi sono i valori centrali delle classi hi−1 hi 0.25 1.75 1.75 2.25 2.25 2.75 2.75 17.25 ni 2 4 3 1 10 xi 1 2 2.5 10 → ni 2 4 3 1 10 M(X) = 2.75 5.60 Esercizio 26. Si supponga che il valore di ciascuna unità statistica aumenti di 1 unità; si ricalcoli il valore della media aritmetica; si ripeta l’esercizio nel caso in cui i valori raddoppino. 5.61 Osservazione La media potenziata di ordine r può essere riscritta nel seguente modo μ (r) 1 k r = ∑ xi ni n i=1 1 r 1 = [M(X r )] r Radice r-esima della media aritmetica dei valori di X elevati a r. 6.2 5.62 La media armonica (r = −1) Definizione 27. μ (−1) = 1 1 n ∑ki=1 x1i ni = 1 M( X1 ) Osservazioni La presenza di valori xi = 0 toglie significato all’espressione; Inoltre, valori xi positivi e negativi potrebbero rendere il denominatore nullo. 72 5.63 Esempio 28. μ (−1) è il valore centrale di una successione armonica con un numero dispari di termini, ad esempio 1 1 1 1 1, , , , 2 3 4 5 anche in questo caso siamo in presenza di valori singoli e, quindi, ciascuna modalità figura una sola volta: k = n = 5 e n1 = n2 = . . . = nk = 1 1 μ (−1) = 1 n ∑ki=1 x1i ni 1 = 1 5 (1 + 2 + 3 + 4 + 5) = 1 3 5.64 Esempio 29. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 in serie statistica è possibile procedere al calcolo della media armonica xi 1 2 2.5 10 μ (−1) = 6.3 1 1 n ∑ki=1 x1i ni ni xi ni 2 4 3 1 10 = 2 2 1.2 0.1 5.3 1 1 10 5.3 = 1 = 1.8868 0.53 5.65 La media quadratica (r = 2) Definizione 30. k 1 (2) μ = ∑ xi2 ni = M(X 2 ) n i=1 Osservazione La positività delle xi è inessenziale. 5.66 Esempio 31. Con riferimento alla precedente serie statistica abbiamo xi 1 2 2.5 10 ni 2 4 3 1 10 xi2 ni 2 16 18.75 100 136.75 k 1 1 (2) 2 μ = ∑ xi ni = 10 136.75 = 3.698 n i=1 Osservazione Vale l’ordinamento: xmin < μ (−1) = 1.8868 < μ (1) = 2.75 < μ (2) = 3.698 < xmax 5.67 73 6.4 Il Teorema fondamentale sulle medie potenziate Teorema 32. La funzione μ (r) 1 k ∑ = r (r = ±1, ±2, . . .) xir fi i=1 con xi positivi (ordinati) e distinti 1. è monotona in senso stretto 2. asintoti lim μ (r) = x1 lim μ (r) = xk r→−∞ r→+∞ 3. ogni μ (r) è una media in senso stretto 4. media geometrica (r = 0) lim μ (r) r→0 = n k ∏ xini 1 n k ∏ = i=1 k = ∏ xifi = μ (0) . xini i=1 i=1 5.68 5 Esempio 33. Si riporta l’andamento della funzione serie statistica μ (r) con riferimento alla seguente μ(r) 4 xmax ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3 ● μ(2) μ(1) 2 μ(0) ● ● ● (−1)● μ ● ● 1 ni 7 3 3 7 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● xmin 0 xi 1 2 3 4 −20 −10 0 10 20 r 5.69 74 Definizione 34. Si definisce variabile statistica degenere una variabile statistica caratterizzata da modalità tutte eguali fra loro: xi = c, ∀i. Per tale variabile statistica, in base alla proprietà di Cauchy, μ (r) = c per qualsiasi valore dell’ordine r. Osservazione Per r = 0 la media non è definita (forma indeterminata 1∞ ); μ (0) è ottenuta con un’operazione di limite μ (0) = lim μ (r) r→0 5.70 Esempio 35. Si calcolano media armonica, geometrica, aritmetica e quadratica della seguente variabile statistica xi 8.5 10.5 13.5 18.5 classi 7.5 9.5 9.5 11.5 11.5 15.5 15.5 21.5 ni 40 25 120 145 330 μ(−1) μ(0) μ(1) μ(2) 13.8577 14.3826 14.8636 15.2894 media media media media armonica geometrica aritmetica quadratica ● ● ● ● 5.71 75 La definizione di media aritmetica si estende anche a v.s. generiche (xi sia positivi che negativi) mantenendo le proprietà di media in senso stretto 1. (Cauchy) Posto x(1) = min xi = x1 i x(k) = max xi = xk i abbiamo x1 ≤ x i ≤ x k moltiplicando tutti i termini della diseguaglianza per la costante non negativa fi il verso della diseguaglianza non cambia x1 f i ≤ x i f i ≤ x k f i la diseguaglianza vale per tutti i valori di X, possiamo quindi sommare rispetto all’indice i e il verso della diseguaglianza non cambia k k k i=1 i=1 i=1 ∑ x1 fi ≤ ∑ xi fi ≤ ∑ xk fi x1 e xk sono delle costanti, non dipendono dall’indice i e possono essere portate fuori dalle sommatorie k k k i=1 i=1 i=1 x1 ∑ fi ≤ ∑ xi fi ≤ xk ∑ fi la somma delle frequenze relative fi vale 1, quindi k x1 ≤ ∑ xi fi ≤ xk i=1 vale a dire x1 ≤ μ ≤ x k 2. (moltiplicatività) Si ricorda che Y = cX ↔ yi = cxi La media di Y risulta k M(Y ) = ∑ yi fi i=1 sostituendo cxi a yi abbiamo k M(Y ) = ∑ cxi fi i=1 c è una costante moltiplicativa che può essere portata fuori dalla sommatoria, quindi k M(Y ) = c ∑ xi fi = cM(X) i=1 ricordando che ∑ki=1 xi fi = M(X). 76 5.72 3. (monotonicità) Si ricorda che Y ≥X ↔ yi = xi + δi La media di Y risulta (δi ≥ 0) k M(Y ) = ∑ yi fi i=1 sostituendo xi + δi a yi abbiamo k M(Y ) = ∑ (xi + δi ) fi i=1 possiamo sviluppare il prodotto (xi + δi ) fi k M(Y ) = ∑ (xi fi + δi fi ) i=1 e scomporre la sommatoria nella somma di due sommatorie k k k i=1 i=1 i=1 M(Y ) = ∑ xi fi + ∑ δi fi ≥ ∑ xi fi La diseguaglianza finale vale in quanto ∑ki=1 δi fi ≥ 0 in base alla proprietà di Cauchy applicata alla variabile statistica {(δi , ni ), i = 1, 2, . . . , k}. 5.73 7 Esercizi Esercizio 36. Con riferimento alla variabile statistica xi 1 2 3 4 5 ni 2 4−θ 2 θ 2 10 1. indicare quali valori può assumere il parametro θ 2. si calcolino poi al variare di θ i valori della media armonica, geometrica, aritmetica e quadratica, della moda e della mediana 3. si commentino i risultati ottenuti con riferimento al Teorema sulle medie potenziate. 5.74 Esercizio 37. Si riportano i redditi di 5 soggetti (valori in migliaia di e) soggetto 1 reddito 15 2 22 3 25 4 28 5 35 1. Si calcoli la media aritmetica dei redditi. 2. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito raddoppi. 3. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito aumenti di 5000e. 5.75 77 Esercizio 38 (T 221, 08.09.2005, 1). Nel prospetto seguente sono riportate, con riferimento ai redditi di n soggetti (variabile X), le classi di rilevazione e le rispettive densità di frequenza. hi−1 hi di 10 15 4 15 20 4 20 39 3 1. Si ricostruiscano le distribuzioni delle frequenze assolute e cumulate della variabile X e si dia una opportuna rappresentazione grafica di X e della sua funzione di ripartizione F(x). 2. Si calcoli la media e si identifichino su un grafico i quartili di X. 5.76 Esercizio 39. Si dia una rappresentazione grafica e si calcoli il valore della media armonica della seriazione statistica hi−1 hi ni 13 1 36 9 6 11 10 11 21 20 5.77 Esercizio 40 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella seguente tabella risulti μ (−∞) = 10 e μ (1) = 20 xi x1 30 ni n1 30 5.78 Esercizio 41. Indicare se le seguenti medie potenziate μ (0) = 6.3, μ = 4.3, μ (2) = 4.3 sono compatibili con la seguente serie statistica (della quale sono note solo alcune informazioni) xi 2.5 4 .. . ni 20 22 .. . 16 10 5.79 Esercizio 42. Indicare se le seguenti medie potenziate μ (−1) = 5, μ = 14, sono compatibili con la seguente serie statistica (della quale sono note solo alcune informazioni) xi 11 12 14 .. . 78 ni 2 2 2 .. . μ (2) = 13 5.80 Esercizio 43 (T 165, 30.09.1998, 3). Sia X una variabile statistica simmetrica rispetto al valore 85: xi 10 x2 2x2 − 10 x4 ni 10 n2 n3 10 1. Supponendo n = 100, si ricavi la distribuzione delle frequenze cumulate e se ne dia rappresentazione grafica. 5.81 μ (39) , Esercizio 44 (P 001, 10.03.1995, 2). Dire, motivando la risposta, se ovvero la media potenziata di ordine 39, può assumere il valore 39, con riferimento alla seguente v.s. X xi 4 12 20 28 36 ni 39 39 39 39 39 Calcolare la media geometrica di X e indicare l’intervallo di valori reali entro il quale può presentarsi la media armonica. 5.82 8 L’operatore media aritmetica Definizione 45 (Operatore media aritmetica). Si definisce operatore media aritmetica, indicato con M(X), la funzione che assegna a ogni variabile statistica X la sua media aritmetica k 1 k μ = ∑ xi ni = ∑ xi fi = M(X). n i=1 i=1 Nella letteratura anglosassone l’operatore media aritmetica 5.83 M(X) viene indicato con E(X) (expected value). 5.84 79 9 Interpretazione fisica della media aritmetica ’centro di gravità’ o ’punto di equilibrio’ delle frequenze k k k k i=1 i=1 i=1 i=1 ∑ (xi − μ) fi = ∑ xi fi − ∑ μ fi = μ − μ ∑ fi = μ − μ = 0 f2 f3 f4 f1 x1 x3 x2 x4 μ xi − μ = braccio fi = peso o forza 5.85 10 Media aritmetica di una trasformazione lineare Teorema 46. Se Y = aX + b allora M(Y ) = aM(X) + b Dimostrazione. k M(Y ) = ∑ yi fi = i=1 k k ∑ (axi + b) fi = ∑ (axi fi + b fi ) i=1 i=1 k k k k i=1 i=1 i=1 i=1 = ∑ axi fi + ∑ b fi = a ∑ xi fi + b ∑ fi = aM(X) + b 5.86 80 Osservazione Il teorema precedente afferma che l’operatore media aritmetica M(X) è un operatore lineare M(aX + b) = aM(X) + b Osservazione In particolare M(b) = M(costante) = b dal momento che X = b è una variabile statistica degenere. 5.87 Definizione 47 (variabile scarto da un centro). Y = X −c Proprietà M(Y ) = M(X − c) = M(X) − M(c) = M(X) − c Definizione 48 (variabile scarto dalla media). Si ponga nella definizione precedente c = μ Y = X − μX , μX = M(X) Proprietà M(Y ) = M(X − μX ) = M(X) − M(X) = 0 5.88 Segue che anche la somma degli scarti dalla media è nulla k ∑ (xi − μX )ni = i=1 = k k i=1 i=1 ∑ xi ni − ∑ μX ni = k nM(X) − μX ∑ ni = nM(X) − nM(X) = 0 i=1 5.89 Definizione 49 (momenti di ordine s ≥ 1 da un centro). k M[(X − c)s ] = ∑ (xi − c)s fi i=1 Definizione 50 (momenti di ordine s ≥ 1 dalla media). k M[(X − μX )s ] = ∑ (xi − μX )s fi i=1 Utilizzeremo, nel seguito: • M[(X − μX )2 ] misura della variabilità di una distribuzione • M[(X − μX )3 ] misura di asimmetria di una distribuzione • M[(X − μX )4 ] misura di curtosi di una distribuzione 5.90 Definizione 51 (momenti di ordine s ≥ 1 dall’origine, c = 0). k M(X s ) = ∑ xis fi i=1 Abbiamo, in particolare, già visto che μ (r) = [M(X r )]1/r 5.91 81 Sezione 6 Indici di posizione (2) 6.1 Indice 1 Il problema della scelta della media 83 2 Media obiettivo secondo Chisini 83 3 Alcuni esempi di applicazione del criterio di scelta della media secondo Chisini 84 4 Scelta della media per minimizzazione del danno 87 5 Proprietà associativa della media aritmetica 91 6 Esercizi 94 7 Proprietà mediana e media aritmetica 94 6.2 1 Il problema della scelta della media α(X) = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(v1 , v2 , . . . , vn ) • funzione dei dati • ma . . . quale forma funzionale ?? Chisini (1929) La ricerca della media ha lo scopo di semplificare una data questione, sostituendo a due o più quantità date una quantità sola, atta a sintetizzarle senza variare la visione del fenomeno in esame. Si ricorda che lo studio di un fenomeno comporta, in genere, le seguenti fasi preliminari: 1. individuazione del carattere indicatore (proxy) 2. ricerca di opportuni indici sintetici vedremo: • media obiettivo • minimizzazione danno 6.3 83 2 Media obiettivo secondo Chisini Definizione 1 (Media Obiettivo secondo Chisini). Si consideri una v.s. X sulla quale è posto un vincolo globale espresso attraverso una funzione dei dati φ (X) = φ (x1 , . . . , xk ; n1 , . . . , nk ) = λ la media α deve soddisfare anch’essa il vincolo globale φ (α) = φ (α, . . . , α; n1 , . . . , nk ) = λ media obiettivo o secondo Chisini è, quindi, la soluzione dell’equazione φ (x1 , . . . , xk ; n1 , . . . , nk ) = φ (α, . . . , α; n1 , . . . , nk ) (non è garantito che α = α(X) sia una media in senso stretto) 6.4 3 Alcuni esempi di applicazione del criterio di scelta della media secondo Chisini Esempio 2. La quantità totale di 26 gettoni è stata ripartita tra 10 soggetti nel modo seguente: 7 soggetti possiedono 2 gettoni 2 soggetti possiedono 3 gettoni 1 soggetto possiede 6 gettoni Problema determinare la quantità media da assegnare a ciascun soggetto in modo da realizzare una ripartizione egalitaria del totale xi 2 3 6 ni xi ni 7 14 2 6 1 6 10 26 Soluzione si può considerare come vincolo globale il totale assegnato λ = T ; la funzione φ (X) è quindi ∑ki=1 xi ni 3 ∑ xi ni = T 3 ∑ αni = T e i=1 i=1 3 3 i=1 i=1 3 3 i=1 i=1 ∑ xi ni = ∑ αni ∑ αni = ∑ xi ni 3 3 i=1 i=1 α ∑ ni = ∑ xi ni 3 αn = ∑ xi ni i=1 84 6.5 da cui α= 1 3 ∑ xi ni n i=1 la media α corrisponde alla media aritmetica delle xi . 6.6 Osservazione la media aritmetica è la quantità che sostituita alle modalità di una variabile statistica ne lascia invariato il TOTALE. (criterio adatto alla maggior parte dei fenomeni naturali) 6.7 Esempio 3. Un investitore deposita al tempo 0 un capitale C0 presso un istituto di credito; la durata dell’investimento è pari a 5 anni; i tassi di interesse, definiti in regime di capitalizzazione composta, concordati nei diversi periodi sono: 1◦ periodo 3% i1 = 0.03 u1 = 1.03 i2 = 0.05 u2 = 1.05 2◦ periodo 5% i3 = 0.03 u3 = 1.03 3◦ periodo 3% 4◦ periodo 5% i4 = 0.05 u4 = 1.05 5◦ periodo 2% i5 = 0.02 u5 = 1.02 dove u j è il montante unitario riferito al periodo j. Problema determinare il tasso di interesse medio corrisposto dall’istituto di credito nei 5 anni. 6.8 Soluzione Si deve trovare il tasso di interesse ī = αI (i1 , . . . , i5 ), o equivalentemente ū = αU (u1 , . . . , u5 ), che consente, partendo dalla somma iniziale C0 , di riprodurre il capitale finale C5 . Ricordiamo che per j = 1, 2, . . . , 5 abbiamo C j = C j−1 + I j , dove I j = C j−1 · i j è la somma corrisposta a titolo d’interesse alla fine del periodo j-esimo. Alla fine dei periodi: C1 = C0 + I1 = C0 · u1 C2 = C1 + I2 = C1 · u2 = C0 · u1 · u2 .. . C5 = C0 · u1 · u2 · u3 · u4 · u5 = C0 ∏5j=1 u j 6.9 C0 · u1 · u2 · u3 · u4 · u5 = C5 In base al criterio di scelta secondo Chisini dobbiamo individuare il montante unitario medio ū tale che C0 · ū · ū · ū · ū · ū = C0 ū5 = C5 ovvero u1 · u2 · u3 · u4 · u5 = ū · ū · ū · ū · ū = ū5 5 5 ū = ∏ uj j=1 che corrisponde alla media geometrica dei montanti unitari, corrispondenti ai tassi di interesse i j . Nel caso in esame ū = 1.0359 85 da cui ī = ū − 1 = 1.0359 − 1 = 0.0359 = 3.59%. 6.10 Osservazione La media geometrica è la quantità che sostituita alle modalità di una variabile statistica ne lascia invariato il prodotto. 6.11 Esempio 4 (Portafoglio titoli). Un risparmiatore acquista un portafoglio composto da 2000e in BTP, 5000e in azioni e 3000e in obbligazioni e, tempo dopo, t1 dismette il capitale investito, ottenendo i seguenti rendimenti: BTP: 3.8%, azioni: −1%, obbligazioni 3.5% Ci = quantità xi = rendimenti Btp 2000 3.8% Azioni 5000 -1% Obbligazioni 3000 3.5% Problema Determinare il tasso di rendimento medio, α(x1 , x2 , x3 ), espresso in funzione dei rendimenti parziali xi , considerando come ’quantità invariante’ equivalentemente: 1. il montante complessivo (M) 2. il guadagno complessivo (G) Soluzione Si indichino con Mi i montanti e con Gi i guadagni, i = 1, 2, 3 dei tre investimenti. 1. 3 3 3 i=1 i=1 i=1 6.12 M = ∑ Mi = ∑ Ci (1 + xi ) = ∑ Ci (1 + α) 2. 3 3 3 i=1 i=1 i=1 G = ∑ Gi = ∑ Ci xi = ∑ Ci α da cui, risolvendo rispetto ad α, si ottiene: α= 131 ∑3i=1 Ci xi = 0.0131 = 1.31%. = 10000 ∑3i=1 Ci La media trovata α corrisponde alla media aritmetica dei tassi di interesse xi ponderati rispetto ai capitali investiti Ci . Esempio 5. Un automobilista percorre 100km e rileva le seguenti velocità: sulla prima tratta di 50km mantiene una velocità costante di 80km/h sulla seconda tratta di 40km una velocità costante di 120km/h sulla terza tratta di 10km una velocità costante di 40km/h Problema determinare la velocità media di percorrenza dei 100km vi 40 80 120 si 10 50 40 100 86 6.13 Soluzione si può considerare come carattere invariante il tempo totale T impiegato per compiere l’intero tragitto. E’ possibile determinare il tempo di percorrenza della singola tratta in funzione della relazione, V = TS , intercorrente tra velocità, spazio e tempo: T= 6.14 S ; V con riferimento alla singola tratta risulta: si vi ti = Ne consegue un tempo totale di percorrenza pari a: s1 s2 s3 + + v1 v2 v3 T = t1 + t2 + t3 = Se si indica con α la velocità media è possibile riscrivere la relazione che ’garantisce’ il rispetto del tempo totale di percorrenza T= s 1 s2 s3 + + . α α α 6.15 L’equazione conseguente, che consente di trovare l’espressione per α, è la seguente: s1 s2 s3 s1 s 2 s3 + + = + + v1 v2 v3 α α α s1 s 2 s 3 s1 s2 s3 + + = + + α α α v1 v2 v3 1 s1 s2 s3 (s1 + s2 + s3 ) = + + α v1 v2 v3 s 1 s 2 s3 1 1 = + + α s1 + s2 + s3 v1 v2 v3 −1 −1 1 1 s1 s2 s 3 = + + α s1 + s2 + s3 v1 v2 v3 α= 1 s1 +s2 +s3 1 s1 v1 + vs22 + vs33 6.16 La media trovata corrisponde alla media armonica delle velocità utilizzando ’come frequenze’ le lunghezze si delle diverse tratte α= vi 40 80 120 si 10 50 40 100 1 = 1 100 1.2083 ti = vsii 0.2500 0.6250 0.3333 1.2083 1 1 100 1.2083 87 = 82.761 6.17 4 Scelta della media per minimizzazione del danno Definizione 6. Data la variabile statistica X si cerca l’indice di posizione α = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(X) tale da minimizzare la sua distanza complessiva dai dati (perdita di informazione) misurata attraverso gli scarti zi = x i − α come D= 1 k ∑ d(zi )ni n i=1 dove d(z) è un’opportuna funzione di distanza che quantifica il danno (perdita di informazione) zi = xi − α in corrispondenza della generica unità statistica 6.18 1.5 0.0 0.5 1.0 |z| 2.0 2.5 3.0 Teorema 7 (Funzione di distanza valore assoluto). z se z ≥ 0 d(z) = |z| = −z se z < 0 −3 −2 −1 0 1 2 3 z D= 1 k ∑ |xi − α|ni n i=1 D = min ↔ α = x0.5 (mediana) In questo caso il danno è proporzionale rispetto all’errore. 6.19 Dimostrazione. Con riferimento ai dati v j ordinati, ovvero v( j) , consideriamo v(1) e v(n) ● ● v(1) v(n) α ogni punto interno al segmento v(1) , v(n) è a distanza minima dagli estremi (si pensi ai punti esterni) ● ● v(1) v(n) 88 lo stesso può dirsi per v(2) , v(n−1) . . . e così via Pertanto: • se n è dispari → α = v( n+1 ) 2 • se n è pari → v( n ) ≤ α ≤ v( n +1) 2 2 (va bene ogni punto del segmento) In particolare: x0.5 = v( n ) + v( n +1) 2 2 2 6.20 Dimostrazione. Si considerino 9 punti distinti su una retta a b c d e f gh i ● ● ● ● ● ● ● ● ● Dobbiamo cercare il punto che minimizza la media o, equivalentemente, la somma delle distanze da tutti i 9 punti Consideriamo un punto compreso tra a e b La somma delle distanze è data dalla somma dei 9 segmenti in figura α a b c d e f gh i ● ● ● ● ● ● ● ● ● Se consideriamo un punto compreso tra b e c la somma delle distanze si riduce: a e b sono più lontani dal nuovo punto, ma questo è più vicino agli altri 7 punti α a b c d e f gh i ● ● ● ● ● ● ● ● ● Possiamo ulteriormente ridurre la somma delle distanze spostando α verso destra α a b c d e f gh i ● ● ● ● 89 ● ● ● ● ● 6.21 La somma delle distanze risulta minima se α coincide con e. Infatti spostandosi ancora a destra la distanza si ridurrebbe per f , g, h, i, ma aumenterebbe per a, b, c, d ed e α a b c d e f gh i ● ● ● ● ● ● ● ● ● e rappresenta il punto mediano. 6.22 6.23 Teorema 8 (Funzione di distanza quadratica). 6.24 d(z) = z2 6.25 0 2 4 z2 6 8 6.26 −3 −2 −1 0 1 2 3 z D= 1 k ∑ (xi − α)2 ni n i=1 D = min ↔ α = μ (media aritmetica) In questo caso il danno è più che proporzionale rispetto all’errore. Si riportano due dimostrazioni del risultato Dimostrazione. Riscriviamo la funzione da minimizzare utilizzando l’operatore media aritmetica 1 k D = ∑ (xi − α)2 ni = M (X − α)2 . n i=1 Sommando e togliendo μ si ottiene D = M (X − μ + μ − α)2 . Si sviluppa ora il quadrato del binomio con termini (X − μ) e (μ − α) D = M [(X − μ) + (μ − α)]2 = M (X − μ)2 + (μ − α)2 + 2(X − μ)(μ − α) . Tenendo conto che l’operatore media aritmetica è lineare otteniamo D = M (X − μ)2 + M (μ − α)2 + 2M[(X − μ)(μ − α)]. 90 6.27 L’espressione (μ − α) nel terzo addendo è una costante e può essere portata fuori dall’operatore media D = M (X − μ)2 + M (μ − α)2 + (μ − α)2M[(X − μ)]. Tenendo conto che la variabile scarto dalla media (X − μ) è caratterizzata da media nulla, M[(X − μ)] = 0, il terzo addendo risulta nullo, quindi D = M (X − μ)2 + M (μ − α)2 . L’espressione risulta minima se α = μ = μ (1) = M(X). 6.28 Dimostrazione. Riscriviamo, anche per questa dimostrazione, la funzione da minimizzare utilizzando l’operatore media aritmetica D= 1 k (xi − α)2 ni = M (X − α)2 . ∑ n i=1 Poniamo uguale a 0 la derivata della funzione obiettivo d M (X − α)2 = 0. dα Dal momento che la media è un operatore lineare possiamo scambiare l’ordine dell’operatore derivata e dell’operatore media d (X − α)2 = 0. M dα Ricordando la formula della derivata di una funzione composta otteniamo M [2(X − α)(−1)] = 0. I termini 2 e (−1) sono costanti moltiplicative e possono essere portati fuori dall’operatore media −2M(X − α) = 0. Ricordando che la media è un operatore lineare otteniamo M(X) − M(α) = 0 α è una costante, quindi M(α) = α M(X) − α = 0 In conclusione: α = μ = μ (1) = M(X). 6.29 Per verificare che effettivamente si tratta di un punto di minimo possiamo controllare il segno della derivata seconda della funzione da minimizzare in corrispondenza del punto estremante α = μ 2 d 2 M (X − α)2 d (X − α)2 d [−2(X − α)] = M(+2) = +2. = M = M dα 2 dα 2 dα La funzione è convessa e il punto estremante è di minimo. 91 6.30 5 Proprietà associativa della media aritmetica Consente di esprimere la media generale come media delle medie parziali. Si considerino i dati elementari v1 , v2 , . . . , vn riuniti in h sottogruppi 1 2 ... h n1 n2 ... nh μ1 μ2 ... μh (il raggruppamento in tabelle è uno dei possibili) il singolo valore viene ora indicato con xi j : j-esima osservazione ( j = 1, 2, . . . , ni ) nel gruppo i (i = 1, 2, . . . , h). 6.31 Definizione 9 (Proprietà associativa della media aritmetica). Sia data una popolazione suddivisa in h gruppi e sia 1 ni μi = ∑ xi j ni j=1 la media del gruppo i-esimo. La media generale (calcolata su tutte le unità statistiche) μ= 1 h ni ∑ ∑ xi j n i=1 j=1 può essere riespressa come μ = = 1 h ni ∑ ni n i=1 h 1 ∑ ni n i=1 ni ∑ xi j = j=1 1 ni ni ∑ xi j = j=1 1 h ∑ μi ni n i=1 6.32 vale a dire μ= h h 1 ∑ μi ni = ∑ μi fi . n i=1 i=1 6.33 Esempio 10. Si consideri la seguente popolazione di unità statistiche raggruppate in 3 gruppi 1 3 2 4 5 4 6 6 6 7 6 8 8 Si calcolano in primo luogo le medie per i tre gruppi 92 • 1 μ1 = (4 + 5 + 6 + 7) = 5.5 4 • 1 μ2 = (4 + 6 + 6 + 8) = 6 4 • 1 μ3 = (6 + 8) = 7 2 6.34 È possibile ricostruire la variabile statistica medie di gruppo i 1 2 3 μi 5.5 6 7 ni 4 4 2 10 le cui modalità sono le medie di gruppo, con associate come frequenze le rispettive numerosità di gruppo. La media di tale variabile statistica risulta μi 5.5 6 7 μ= ni 4 4 2 10 μi ni 22 24 14 60 1 1 3 ∑ μi ni = 10 60 = 6 n i=1 e coincide con la media generale calcolata su tutte le unità statistiche. Infatti: 1 μ = (4 + 5 + 6 + 7 + 4 + 6 + 6 + 8 + 6 + 8) = 6 10 ovvero xi 4 5 6 7 8 ni 2 1 4 1 2 10 xi 4 5 6 7 8 μ= μ =6 distribuzione simmetrica 6.35 ni xi ni 2 8 1 5 4 24 1 7 2 16 10 60 1 5 1 ∑ xi ni = 10 60 = 6 n i=1 6.36 Esempio 11. Siano μ1 il voto medio delle n1 femmine μ2 il voto medio degli n2 maschi μ= μ1 n1 + μ2 n2 n1 + n2 93 Esempio 12. Dai dati di produzione media giornaliera alla media mensile o trimestrale (NB solo se le medie parziali sono aritmetiche!!) 6.37 Osservazione Si consideri la formula della media aritmetica μ= 1 h ∑ μi n i . n i=1 Indicato con ti = μi ni il totale parziale; allora μ= 1 h T ti = ∑ n i=1 n dove T è il totale generale, che associa quindi i totali parziali 6.38 6 Esercizi Esercizio 13. Definita una partizione degli abitanti di una regione in due gruppi, indicati nel seguito con 1 e 2, si sono costruiti i seguenti prospetti relativi alla distribuzione dei redditi in ciascun gruppo. Gruppo 1 Ri ni 10 15 1800 15 30 1500 30 50 2700 Ri 10 15 15 30 30 50 Gruppo 2 ni fi 0.15 0.25 0.60 1. Sapendo che il reddito medio di tutti gli abitanti della regione è 30, si determini, per il gruppo 2, il numero ni di soggetti appartenenti a ciascuna delle classi di reddito. 6.39 Esercizio 14 (T 216, 04.02.2005, 1). Con riferimento al numero dei componenti delle 50.000 famiglie di una certa regione si sono calcolati i seguenti indici di posizione: m.geometrica = 2.7; m.quadratica = 3.8. 1. Calcolare approssimativamente il numero di abitanti della regione. 6.40 7 Proprietà mediana e media aritmetica (se non specificato, per media si intende quella aritmetica) mediana • media in senso stretto • minimizza la somma degli scarti assoluti media • • • • media in senso stretto operatore lineare annulla la somma degli scarti relativi minimizza la somma degli scarti quadratici 94 • lascia invariato il totale 6.41 Osservazione La mediana, rispetto alla media, risente meno dei valori anomali X 0 1 2 3 4 ● ● ● ● ● ● ● ● ● Y 0 1 2 3 9 x0.5 = 2 = y0.5 ● M(X) = 2 < M(Y ) = 3 ma 6.42 95 Sezione 7 Variabilità (1) 7.1 Indice 1 Indici di variabilità 97 2 La variabilità per i caratteri qualitativi 98 3 Le situazioni estreme 3.1 La situazione di assenza di eterogeneità . . . . . . . . . . . . . . . . . . 3.2 La situazione di massima eterogeneità . . . . . . . . . . . . . . . . . . . 99 99 99 4 L’indice di eterogeneità di Gini 100 5 Gli indici normalizzati 101 6 Utilizzo congiunto della Moda e dell’indice di Gini 104 7 Libero Mercato, Monopolio e Oligopolio 105 7.2 1 Indici di variabilità • indice sintetico di posizione è utile per alcuni confronti • appare tuttavia insufficiente • sintesi troppo spinta fa perdere informazioni → POSIZIONE + VARIABILITÀ • interessano anche indicatori della molteplicità e della diversità dei valori di un carattere v1 , v2 , . . . , vn ? è più costante l’impegno degli studenti maschi o quello delle femmine ? c’è più sperequazione economica in Piemonte o in Lombardia ? 7.3 97 è più variabile (disperso) X oppure Y ? X ● 4 7 10 15 ● ● ● ● ● ● ● ● ● Y 0 234 78 18 20 ● ● 7.4 Esempio 1. Si considerino le votazioni riportate da due studenti in 25 esami xi 18 24 30 ni 12 1 12 25 yi 24 ni 25 25 • Come vengono qualificati i due studenti utilizzando solo una misura di posizione (media, mediana)? • Possiamo ritenere che l’impegno dedicato alla preparazione degli esami sia lo stesso per i due studenti? Definizione 2 (La variabilità). Si definisce variabilità l’attitudine di un fenomeno a manifestarsi con molteplici valori. 7.5 2 La variabilità per i caratteri qualitativi Con riferimento ai caratteri qualitativi si parla di mutabilità o eterogeneità Esempio 3. Si considera il colore dei capelli di alcune scolaresche (distribuzioni %) colore S1 S2 nero 0.10 0.30 castano 0.25 0.30 biondo 0.60 0.30 altro 0.05 0.10 1 1 S3 0.70 0.20 0.05 0.05 1 • in quale scolaresca c’è minore variabilità? • in quale scolaresca c’è maggiore variabilità? 7.6 98 3 Le situazioni estreme 3.1 La situazione di assenza di eterogeneità assenza di eterogeneità • quando tutti hanno lo stesso colore dei capelli colore nero castano biondo altro fi 1 0 0 0 1 fi 0 1 0 0 1 colore nero castano biondo altro fi 0 0 1 0 1 colore nero castano biondo altro colore nero castano biondo altro fi 0 0 0 1 1 • minima eterogeneità: ∃ fi = 1, f j = 0 se j = i mutabile statistica degenere 7.7 3.2 La situazione di massima eterogeneità massima eterogeneità • nel caso avessimo solo 4 soggetti – se 1 nero, 1 castano, 1 biondo, 1 con altro colore • e se i soggetti fossero 8? – se 2 neri, 2 castani, 2 biondi, 2 con altro colore colore nero castano biondo altro ni 2 2 2 2 8 fi 0.25 0.25 0.25 0.25 1 • massima eterogeneità: f1 = . . . = fk = 1 k equidistribuzione delle frequenze 7.8 99 situazioni estreme ritornando all’esempio delle scolaresche colore nero castano biondo altro S1 0.10 0.25 0.60 0.05 1 S2 0.30 0.30 0.30 0.10 1 S3 0.70 0.20 0.05 0.05 1 S4 0 1 0 0 1 S5 0.25 0.25 0.25 0.25 1 • minima variabilità: ∃ fi = 1, f j = 0 se j = i tutti i valori sono uguali (ad esempio S4) • massima variabilità: 1 f1 = . . . = fk = k equidistribuzione delle frequenze (S5) 7.9 4 L’indice di eterogeneità di Gini Definizione 4 (Indice di eterogeneità di Gini). k G = 1 − ∑ fi2 i=1 Osservazione L’indice di Gini viene usato anche per lo studio della concentrazione industriale o di mercato 7.10 Calcolo dell’indice di Gini Consideriamo la prima scolaresca S1 xi x1 x2 x3 x4 fi fi2 0.1 0.01 0.25 0.0625 0.6 0.36 0.05 0.0025 1 0.435 k G = 1 − ∑ fi2 = 1 − 0.435 = 0.565. i=1 In base al valore ottenuto possiamo ritenere che sussiste un livello elevato o basso di eterogeneità? 7.11 100 5 Gli indici normalizzati Gli indici normalizzati In genere, quando si costruisce uno strumento per misurare il livello I assunto da un determinato fenomeno (temperatura, peso, variabilità, tasso di umidità), è opportuno individuare le due situazioni estreme, corrispondenti a • Imin : minima presenza o assenza del fenomeno oggetto di studio • Imax : massima presenza teorica del fenomeno oggetto di studio la situazione osservata, caso reale, si posiziona in una situazione intermedia, quindi Imin ≤ I ≤ Imax Imin I Imax ● ● ● 7.12 Risulta più comodo costruire un indice che varia tra estremi prestabiliti Un indice normalizzato, IN , varia tra 0 e 1 Imin I Imax ● ● ● ● ● ● 0 IN 1 • IN = 0 quando I = Imin • IN = 1 quando I = Imax 7.13 Imin ≤ I ≤ Imax Imin I Imax ● ● ● 0 IN 1 0 ≤ IN ≤ 1 7.14 101 Imin ≤ I ≤ Imax Imin I Imax ● ● ● 0 IN 1 0 ≤ IN = I − Imin ≤1 Imax − Imin 7.15 Definizione 5 (Indice normalizzato). IN = I − Imin Imax − Imin IN = 0 ↔ I = Imin IN = 1 ↔ I = Imax Interpretazione IN molto basso 0 basso 0.3 medio 0.5 medio alto 0.7 0.8 alto altissimo 0.9 1 Osservazione Gli indici normalizzati consentono anche di effettuare dei confronti tra situazioni diverse. 102 7.16 k G = 1 − ∑ fi2 i=1 assenza mutabilità Gmin xi x1 x2 x3 x4 fi 0 0 1 0 1 fi2 0 0 1 0 1 Gmin = 1 − 1 Gmin = 0 caso reale G xi x1 x2 x3 x4 fi2 0.01 0.0625 0.36 0.0025 0.435 fi 0.1 0.25 0.6 0.05 1 massima mutabilità Gmax xi x1 x2 x3 x4 G = 1 − 0.435 G = 0.565 GN = fi 0.25 0.25 0.25 0.25 1 fi2 0.0625 0.0625 0.0625 0.0625 0.25 Gmax = 1 − 0.25 Gmax = 0.75 G − Gmin 0.565 − 0 = 0.7533 = Gmax − Gmin 0.75 − 0 7.17 L’indice di Gini nella situazione di massima eterogeneità xi fi fi2 x1 f1 = 1k k12 x2 f2 = 1k k12 .. .. .. . . . 1 xk fk = 1k k2 1 k k12 k 7.18 7.19 7.20 k 1 1 1 = 1−k 2 = 1− 2 k k k i=1 Gmax = 1 − ∑ fi2 = 1 − ∑ i=1 GN = G − Gmin G−0 G = = Gmax − Gmin 1 − 1k − 0 1 − 1k 103 7.21 6 Utilizzo congiunto della Moda e dell’indice di Gini Utilizzo congiunto della Moda e dell’indice di Gini Possiamo, quindi, confrontare le 5 scolaresche in base alla Moda e alla mutabilità del colore dei capelli colore nero castano biondo altro S1 0.10 0.25 0.60 0.05 1 S2 0.30 0.30 0.30 0.10 1 S3 0.70 0.20 0.05 0.05 1 S4 0 1 0 0 1 S5 0.25 0.25 0.25 0.25 1 Moda biondo (trimodale) nero castano G 0.565 0.72 0.465 0 0.75 GN 0.7533 0.96 0.62 0 1 • la moda è rappresentativa della distribuzione quando la mutabilità non è elevata 7.22 Esempio 6. ni 25 35 100 40 200 xi x1 x2 x3 x4 fi 0.125 0.175 0.5 0.2 1 fi2 0.015625 0.030625 0.25 0.04 0.33625 k G = 1 − ∑ fi2 = 1 − 0.33625 = 0.66375 i=1 Gmin = 0 1 = 0.75 4 0.66375 − 0 = 0.885 = 0.75 − 0 Gmax = 1 − GN = G − Gmin Gmax − Gmin • possiamo ritenere che sussiste un livello elevato di eterogeneità 7.23 Esercizio 7. [T 162, 24.06.1998, A] Una delegazione provinciale della F.I.C. (Federazione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati dai suoi 8 componenti (A, B, . . . , H) durante l’anno. Si riportano il tipo di sport (S, nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno, i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e). serv cron S T D R 1 B n a 120 20 2 B n a 120 20 3 H c a 360 45 4 G c a 60 60 5 F n i 180 30 6 A s i 360 50 7 E s i 360 70 8 E n i 120 30 104 9 B s i 360 60 10 C n p 180 45 11 D s p 480 60 12 D s p 420 70 13 B c p 300 40 14 C c p 420 60 15 G n p 180 30 1. Si confronti il grado di mutabilità di S e di T . 7.24 Esercizio 8 (T 224, 02.02.2006, 3). Con riferimento alla seguente v.s. X: xi a1 a2 a3 ni 30 ? ? 1. determinare n2 , n3 ed n in modo che Eterogeneità(X) = max teorico; 2. posto poi n = 120 ed n2 = n3 valutare il grado di eterogeneità presente nei dati. 7.25 7 Libero Mercato, Monopolio e Oligopolio Libero Mercato, Monopolio e Oligopolio Sia X una variabile statistica le cui categorie x1 , x2 , . . . , xk sono le denominazioni sociali delle k imprese operanti su un mercato, mentre f1 , f2 , . . . , fk rappresentano le quote di mercato delle k imprese • in una situazione di perfetta concorrenza si potrebbe ipotizzare che le imprese abbiano tutte la stessa quota di mercato – equidistribuzione delle frequenze ↔ mutabilità massima • in una situazione di Monopolio il mercato è concentrato in una sola delle imprese – mutabile statistica degenere ↔ assenza di mutabilità • in una situazione di Oligopolio il mercato è concentrato in poche imprese. Che valore assumerà l’indice di Gini? – possiamo aspettarci un valore elevato dell’indice di Gini normalizzato 7.26 105 Sezione 8 Variabilità (2) 8.1 Indice 1 La variabilità per caratteri quantitativi 107 2 Una classe di indici di variabilità globale 111 2.1 La differenza semplice media (r = 1) . . . . . . . . . . . . . . . . . . . 112 2.2 La differenza quadratica media (r = 2) . . . . . . . . . . . . . . . . . . . 112 3 Una classe di indici di dispersione 113 3.1 Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 ) . . . . . . 114 3.2 Lo scarto quadratico medio (r = 2, c = μ) . . . . . . . . . . . . . . . . . 115 4 Uso combinato delle misure di posizione e di variabilità 116 5 La varianza 116 6 Varianza di una trasformazione lineare 117 7 Gli indici relativi 118 8 Esercizi 119 1 La variabilità per caratteri quantitativi Si ricorda che con riferimento ai caratteri quantitativi è possibile definire una distanza d tra le modalità xi , x j assunte da due generiche unità statistiche, tale che: 1. d(xi , x j ) = |x j − xi | = |xi − x j | ≥ 0 2. d(xi , x j ) = 0 ↔ xi = x j 3. |xi − x j | ≤ |xi − xk | + |x j − xk | 107 8.2 ni xi x1 x2 x3 x4 x5 ni n1 n2 n3 n4 n5 n x1 x3 x2 x5 x4 xi 8.3 Tipologie di indicatori elementari • indicatori elementari di variabilità globale • indicatori elementari di dispersione rispetto a un centro di riferimento c x2 x4 ● x2 ● x4 ● ● ● c x1 ● ● x5 x1 ● ● ● ● x3 x3 ogni unità statistica viene confrontata con tutte le altre ogni unità statistica viene confrontata con un valore c di riferimento x5 8.4 108 Definizione 1 (Indicatori elementari di variabilità globale). x2 x4 ● x1 ● ● ● x5 ● x3 • |xi − x j |, i = 1, . . . , k, j = 1, . . . , k 8.5 Indicatori elementari di variabilità globale • |xi − x j |, i = 1, . . . , k, j = 1, . . . , k • quante coppie è possibile formare con elementi di due gruppi, il primo costituito da ni oggetti e il secondo da n j oggetti? • ad esempio se n1 = 3 ed n2 = 4 • gruppo 1 (a, a, a) e gruppo 2 (b, b, b, b) b b b b a (a,b) (a,b) (a,b) (a,b) a (a,b) (a,b) (a,b) (a,b) a (a,b) (a,b) (a,b) (a,b) (n1 = 3) · (n2 = 4) = 12 coppie • di indicatori elementari |xi − x j | calcolati con le modalità xi e x j ne esistono, quindi, ni · n j • il numero totale degli indicatori elementari di variabilità globale è n2 , avendo considerato anche il confronto di ogni unità statistica con se stessa 8.6 Esempio 2. 1 xi 1 3 5 ni 2 3 2 7 1 1 1 3 3 3 5 5 3 3 3 |xi − x j | 109 5 5 8.7 Definizione 3 (Indicatori elementari di dispersione rispetto a un centro c). x2 x4 ● ● ● c x1 ● ● x5 ● x3 • |xi − c|, i = 1, . . . , k 8.8 Indicatori elementari di dispersione rispetto a un centro c • |xi − c|, i = 1, . . . , k • di indicatori elementari di dispersione del tipo |xi − c|, calcolati con la modalità xi , ne esistono ni • il numero totale degli indicatori elementari di dispersione rispetto a un centro c è n 8.9 Esempio 4. 1 xi 1 3 5 ni 2 3 2 7 1 1 1 3 3 3 5 5 3 3 3 5 5 |xi − x j | (49 indicatori) xi 1 3 5 ni 2 3 2 7 1 1 3 3 3 |xi − c| 5 5 (7 indicatori) 110 8.10 Caratterizzazione degli indicatori elementari indicatori elementari tutti nulli assenza di variabilità dati tutti eguali (v.s. degenere) Misure di variabilità In corrispondenza delle due tipologie di indicatori elementari è possibile definire delle misure di • variabilità globale V (X) • dispersione da un centro D(X) Tali misure sono funzione degli indicatori elementari • sono definite come medie potenziate degli indicatori elementari 8.11 2 Una classe di indici di variabilità globale Definizione 5 (Differenza media con ripetizione). Si definisce differenza media con ripetizione di ordine r la media potenziata di ordine r (r = 1, 2, . . .) degli indicatori elementari di variabilità globale |xi − x j |, i = 1, . . . , k, j = 1, . . . , k 1 k k Δr = 2 ∑ ∑ |xi − x j |r ni n j n i=1 j=1 1/r (r = 1, 2, . . .) Sono dette ’con ripetizione’ perchè vengono conteggiate anche le differenze |xi −xi | = 0. 8.12 Proprietà Dalle proprietà delle medie potenziate si possono ricavare le seguenti considerazioni riferite alle misure di variabilità globale • condizione di Cauchy – min |xi − x j | = 0 ≤ Δr ≤ max |xi − x j | = xk − x1 quindi: * Δr ≥ 0 (non negatività) * Δr = 0 se e solo se xi = c • condizione di monotonicità – Δr è funzione monotona crescente rispetto a |xi − x j | • proprietà moltiplicativa – Se Y = bX allora Δr (Y ) = bΔr (X) • limite superiore medie potenziate – limr→+∞ Δr = max |xi − x j | = xk − x1 = R dove R = Range o campo di variazione 111 • Inoltre, se Y = X + b allora Δr (Y ) = Δr (X + b) = Δr (X) (invarianza per traslazione) 8.13 Invarianza per traslazione Si consideri Y = X + 1, ad esempio: ni xi 2 4 7 ni 3 4 3 10 yi 3 5 8 ni 3 4 3 10 2 3 4 5 7 8 le distanze interne tra le modalità sono le stesse per X e Y 8.14 2.1 La differenza semplice media (r = 1) Definizione 6 (La differenza semplice media (r = 1)). Δ1 = 1 k k ∑ ∑ |xi − x j |ni n j n2 i=1 j=1 8.15 2.2 La differenza quadratica media (r = 2) Definizione 7 (La differenza quadratica media (r = 2)). 1 k k Δ2 = 2 ∑ ∑ (xi − x j )2 ni n j n i=1 j=1 1/2 Osservazione È collegata al più importante indice di dispersione; si ha, infatti √ √ Δ2 = 2 · (scarto quadratico medio) = 2 · σ 8.16 112 3 Una classe di indici di dispersione Definizione 8 (Le differenze medie di ordine r). Si considera la media potenziata di ordine r (r = 1, 2, . . .) degli indicatori elementari di dispersione dal centro di riferimento c, |xi − c|, i = 1, . . . , k 1 k Dr (c) = ∑ |xi − c|r ni n i=1 1/r (r = 1, 2, . . .) solitamente come centro c si può considerare: • un percentile (x p ) • la mediana (x0.5 ) • la media aritmetica (μ) 8.17 Dr (c) = 1 k ∑ |xi − c|r ni n i=1 1/r (r = 1, 2, . . .) Proprietà Dalle proprietà delle medie potenziate si possono ricavare le seguenti considerazioni riferite alle misure di dispersione • condizione di Cauchy – min |xi − c| = 0 ≤ Dr (c) ≤ max |xi − c| quindi: * Dr (c) ≥ 0 (non negatività) * Dr (c) = 0 se e solo se xi = c • condizione di monotonicità – Dr (c) è funzione monotona crescente rispetto a |xi − c| • proprietà moltiplicativa – Se Y = bX allora Dr (bc)Y = bDr (c)X • Inoltre, se Y = X + b allora Dr (c)Y = Dr (c)(X+b) = Dr (c)X (invarianza per traslazione) 8.18 113 Invarianza per traslazione Si consideri Y = X + 1, ad esempio: ni xi 2 4 7 ni 3 4 3 10 μX = 4.3 yi 3 5 8 ni 3 4 3 10 μY = 5.3 2 3 4 5 7 8 le distanze tra le modalità e la media sono le stesse per X e Y 8.19 3.1 Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 ) Definizione 9 (Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 )). D1 (x0.5 ) = 1 k ∑ |xi − x0.5 |ni n i=1 ovvero D1 (x0.5 ) = M [|X − x0.5 |] 8.20 Esempio 10. Calcoliamo D1 (x0.5 ) per la serie statistica xi 2 4 7 ni 3 4 3 10 In primo luogo si deve determinare il valore della mediana xi 2 4 7 ni 3 4 3 Ni 3 7 10 x0.5 = x(6) = 4 114 Si calcolano poi gli scostamenti assoluti dalla mediana e li si moltiplica per le frequenze xi 2 4 7 ni 3 4 3 10 Ni |xi − x0.5 | |xi − x0.5 |ni 3 2 6 7 0 0 10 3 9 15 D1 (x0.5 ) = 3.2 1 15 = 1.5 10 8.21 Lo scarto quadratico medio (r = 2, c = μ) Definizione 11 (Lo scarto quadratico medio (r = 2, c = μ)). 1/2 1 k 2 D2 (μ) = ∑ (xi − μ) ni = σ n i=1 ovvero D2 (μ) = M [(X − μ)2 ] = σ Osservazione È collegato alla differenza quadratica media Δ2 = √ 2·σ per r = 2 l’indice di variabilità globale è direttamente proporzionale all’indice di dispersione riferito alla media 8.22 Esempio 12. Con riferimento alla serie statistica xi 2 4 7 ni 3 4 3 10 xi ni 6 16 21 43 la media aritmetica risulta 1 43 = 4.3 10 Si calcolano gli scostamenti al quadrato da μ e li si moltiplica per le frequenze μ = M(X) = xi 2 4 7 ni (xi − μ)2 3 5.29 4 0.09 3 7.29 10 (xi − μ)2 ni 15.87 0.36 21.87 38.10 Dividendo il totale ottenuto per la numerosità delle unità statistiche si ottiene il quadrato dello scarto quadratico medio 1 k 1 σ 2 = M (X − μ)2 = ∑ (xi − μ)2 ni = 38.10 = 3.81 n i=1 10 √ σ = D2 (μ) = M [(X − μ)2 ] = 3.81 = 1.9519 8.23 115 4 Uso combinato delle misure di posizione e di variabilità Uso combinato delle misure di posizione e di variabilità x0.5 e D1 (x0.5 ) μ e σ = D2 (μ) Si ricorda che, in base al criterio di scelta della media per minimizzazione del danno: D= 1 k ∑ |xi − α|ni = min ↔ α = x0.5 n i=1 D= 1 k ∑ (xi − α)2 ni = min ↔ α = μ n i=1 valgono, quindi, le seguenti proprietà di minimo D1 (x0.5 ) = M [|X − x0.5 |] ≤ M [|X − α|] , ∀α ∈ ℜ σ 2 = M (X − μ)2 ≤ M (X − α)2 , ∀α ∈ ℜ 8.24 5 La varianza Definizione 13 (Varianza). [D2 (μ)]2 = k 1 k (xi − μ)2 ni = ∑ (xi − μ)2 fi = σ 2 = Var(X) = σX2 ∑ n i=1 i=1 σ 2 = Var(X) = M (X − μ)2 Formula operativa σ 2 = Var(X) = M X 2 − μ 2 8.25 Dimostrazione. Sviluppando il quadrato che figura nella definizione M[(X − μ)2 ] = M(X 2 − 2μX + μ 2 ) e ricordando che M(·) è un operatore lineare M(X 2 ) − 2μM(X) + μ 2 = M(X 2 ) − 2μ 2 + μ 2 = M(X 2 ) − μ 2 . 8.26 Esempio 14. Per calcolare la varianza della serie statistica xi 2 4 7 ni 3 4 3 10 xi ni 6 16 21 43 μ = M(X) = 116 1 43 = 4.3 10 una volta ottenuta la media, è sufficiente calcolare il momento secondo M(X 2 ) xi 2 4 7 ni 3 4 3 10 xi2 ni 12 64 147 223 M(X 2 ) = 1 k 2 1 ∑ xi ni = 10 223 = 2.23 n i=1 e applicare la formula operativa Var(X) = σ 2 = M[(X − μ)2 ] = = M(X 2 ) − μ 2 = = momento secondo − media2 = = 2.23 − 4.32 = 22.3 − 18.49 = 3.81 8.27 6 Varianza di una trasformazione lineare Teorema 15. Se Y = aX + b allora M(Y ) = aM(X) + b Var(Y ) = a Var(X) 2 (operatore lineare) (non è un operatore lineare) Dimostrazione. Var(Y ) = M[(Y − μY )2 ] = M{[aX + b − (aμx + b)]2 } = = M{[aX + b − aμx − b]2 } = = M{[aX − aμx ]2 } = = M{[a(X − μx )]2 } = = M[a2 (X − μx )2 ] = = a2 M[(X − μx )2 ] = a2Var(X) 8.28 Esempio 16. Si calcolino media e varianza della seguente serie statistica xi 2 3 4 5 • xi 2 3 4 5 ni 10 12 22 6 50 xi ni 20 36 88 30 174 xi2 ni 40 108 352 150 650 ni 10 12 22 6 μ = M(X) = M(X 2 ) = 117 1 50 174 1 50 650 = 3.48 = 13 • Var(X) = M(X 2 ) − μ 2 = 13 − 3.482 = 13 − 12.1104 = 0.8896 Sapendo che Y = 12 X + 4 si calcolino M(Y ) e Var(Y ) • M(Y ) = 12 M(X) + 4 = 12 3.48 + 4 = 5.74 2 • Var(Y ) = 12 Var(X) = 14 0.8896 = 0.2224 8.29 7 Gli indici relativi Indici relativi In generale: • gli indici, I, dipendono dall’unità di misura e dall’ordine di grandezza del fenomeno • non è possibile effettuare confronti Definizione 17 (Indice relativo). IR = I opportuno indice di posizione (numero puro) Definizione 18 (Coefficiente di variazione). CV = σ μ (è un indice relativo: numero puro) Esempio 19. Si consideri il peso di 4 soggetti misurato alla nascita, variabile X, e all’età di 30 anni, variabile Y . 1 2 3 4 xi 3 2.5 3.2 5 yi 73 57 69 85 Quale tra le due variabili presenta maggiore variabilità? Confrontando le medie aritmetiche 1 M(X) = (3 + 2.5 + 3.2 + 5) = 3.425 4 1 (73 + 57 + 69 + 85) = 71 M(Y ) = 4 come ragionevolmente ci si può aspettare, il livello medio di Y è superiore a quello di X. Calcoliamo ora le varianze e i coefficienti di variazione 1 M(X 2 ) = = μX = (32 + 2.52 + 3.22 + 52 ) = 12.6225 4 1 2 M(Y ) = = μY = (732 + 572 + 692 + 852 ) = 5141 4 Var(X) = M(X 2 ) − μX2 = 0.8919 Var(Y ) = M(Y 2 ) − μY2 = 100 √ σX 0.8919 0.9444 CV (X) = = = = 0.2757 μX 3.425 3.425 √ σY 100 10 CV (Y ) = = = 0.1408 = μY 71 71 Dal confronto dei coefficienti di variazione si evince che il livello di variabilità di X (peso da bambini) è superiore a quello di Y (peso da adulti). 118 8.30 8.31 8.32 Esempio 20. Volendo confrontare peso e altezza di n individui possiamo calcolare i seguenti indicatori indicatore media aritmetica varianza scarto quadratico medio coefficiente di variazione μ σ2 σ CV = σ μ unità di misura peso altezza kg cm kg2 cm2 kg cm kg cm = 1 kg cm = 1 Il confronto degli indici di posizione per variabili con differenti unità di misure non ha senso. Il coefficiente di variazione, che non dipende dall’unità di misura, rende possibile il confronto in termini di variabilità. 8.33 Esempio 21. Volendo sintetizzare i redditi di una famiglia e il prodotto interno lordo nazionale negli ultimi 10 anni possiamo calcolare i seguenti indicatori indicatore media aritmetica varianza scarto quadratico medio coefficiente di variazione μ σ2 σ CV = σ μ ordine di grandezza in e famiglia nazione 103 109 6 10 1018 3 10 109 103 109 =1 =1 103 109 Non ha alcun senso confrontare il reddito medio della famiglia con il PIL medio. Il coefficiente di variazione, che non dipende dall’ordine di grandezza, rende possibile il confronto in termini di variabilità. 8.34 8 Esercizi Esercizio 22 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella seguente tabella: xi x1 30 ni n1 30 1. M(X 2 ) = 900, Var(X) = 500 e X risulti simmetrica. 8.35 Esercizio 23 (T 180, 14.09.2000, 1). Lo spessore X china è compreso tra 15.2 e 16.5 mm. Si individuino le ampiezze delle 4 classi (Ii ) in cui è modo tale che: I1 I2 I3 fi 0.05 0.09 0.72 di 0.25 0.45 2.40 delle lamine prodotte da una macripartito l’intervallo (15.1; 16.5] in I4 0.14 0.20 1. Si costruisca l’istogramma della variabile X. 2. Si identifichi il valore della mediana e si calcoli un indice di variabilità di X. 3. Supponendo che dalla produzione vengano scartate le lamine con spessore minore di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito, la percentuale di lamine eliminate. 8.36 119 Esercizio 24 (T 248, 29.01.2009, 1). Il seguente prospetto riporta i valori rilevati in corrispondenza a 8 unità statistiche con riferimento a un carattere qualitativo X e a un carattere quantitativo Y : X a b b c a a c c Y 30 20 24 50 40 50 40 30 1. Si ricostruisca la mutabile statistica X e se ne dia una rappresentazione grafica. 2. Si riassumano con opportuni indici di posizione e di variabilità le distribuzioni X e Y , commentando opportunamente i risultati ottenuti. 3. Si indichi l’intervallo dei possibili valori che può assumere la media armonica di Y . 4. Si definiscano le relazioni esistenti rispettivamente tra le medie e le varianze di Y e di W = 100 − 2Y e si calcolino quindi media e varianza di W . 8.37 Esercizio 25 (P 001, 10.03.1995, 1). Data la variabile statistica X con distribuzione di frequenze xj 1 2 4 7 n j 8 10 6 40 calcolare M(X) e Var(X). Calcolare inoltre la media aritmetica e la varianza delle v.s. Y = 6 + X, Z = 7X, W = X 3. 8.38 Esercizio 26 (P 001, 10.03.1995, 4). Date le v.s. X e Y caratterizzate dalle seriazioni (con classi chiuse a destra) xi 10 15 15 25 25 50 50 75 ni 21 38 51 20 yi 100 110 110 150 150 200 200 250 ni 30 18 21 21 fornire un’adeguata rappresentazione grafica delle due distribuzioni e confrontarne media e variabilità. 8.39 120 Sezione 9 Variabilità (3) 9.1 Indice 1 Ulteriori considerazioni su media e varianza di una trasformazione lineare 1.1 X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 X ∗ = X − μX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . μX 1 X∗ X 1.3 Z = X−μ σX = σX X − σX = σX (variabile statistica standardizzata) . . . . 1.4 U = σXX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 W = 2X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 121 122 123 123 124 9.2 1 Ulteriori considerazioni su media e varianza di una trasformazione lineare Considerazioni Se Y = aX + b allora M(Y ) = aM(X) + b Var(Y ) = a2Var(X) operatore lineare non è un operatore lineare 9.3 Si considerano, a titolo di esempio, le seguenti trasformazioni lineari di una seriazione stastica X 1. X ∗ = X − μX 2. Z= X − μX σX 3. U= X σX 4. W = 2X 121 9.4 1.1 X valori centrali 3 6 9 X 24 48 8 10 ni 4 8 8 20 fi 0.2 0.4 0.4 1 ai 2 4 2 di 0.1 0.1 0.2 xi ni 12 48 72 132 xi2 ni 36 288 648 972 0.0 0.1 0.2 0.3 0.4 0.5 M(X) = 6.6 = μ Var(X) = 48.6 − 6.62 = 5.04 sqm(X) = 2.245 −5 0 5 10 15 20 9.5 1.2 X ∗ = X − μX valori centrali -3.6 -0.6 2.4 X −4.6 −2.6 −2.6 1.4 1.4 3.4 ni 4 8 8 20 M(X ∗ ) = 0 = μ Var(X ∗ ) = 5.04 − 02 = 5.04 sqm(X ∗ ) = 2.245 o più semplicemente M(X ∗ ) = M(X) − M(X) = 0 Var(X ∗ ) = 12 ·Var(X) = Var(X) 122 fi 0.2 0.4 0.4 1 ai 2 4 2 di 0.1 0.1 0.2 xi ni -14.4 -4.8 19.2 0 xi2 ni 51.84 2.88 46.08 100.8 0.5 0.4 0.3 0.2 0.1 0.0 −5 0 5 10 15 20 9.6 ∗ μX 1 X X 1.3 Z = X−μ σX = σX X − σX = σX (variabile statistica standardizzata) valori centrali -1.6036 -0.2673 1.069 X −2.049 −1.1581 −1.1581 0.6236 0.6236 1.5145 ni 4 8 8 20 fi 0.2 0.4 0.4 1 ai 0.8909 1.7817 0.8909 di 0.2245 0.2245 0.449 xi ni -6.4143 -2.1381 8.5524 0 xi2 ni 10.2857 0.5714 9.1429 20 0.0 0.1 0.2 0.3 0.4 0.5 M(Z) = 0 = μ Var(Z) = 1 − 02 = 1 sqm(Z) = 1 o più semplicemente M(Z) = M(X)/σ − μ/σ = μ/σ − μ/σ = 0 Var(Z) = Var(X)/σ 2 = σ 2 /σ 2 = 1 −5 0 5 10 15 20 9.7 1.4 U = X σX 123 valori centrali 1.3363 2.6726 4.0089 X 0.8909 1.7817 1.7817 3.5635 3.5635 4.4544 ni 4 8 8 20 fi 0.2 0.4 0.4 1 ai 0.8909 1.7817 0.8909 di 0.2245 0.2245 0.449 xi ni 5.3452 21.3809 32.0713 58.7975 xi2 ni 7.1429 57.1429 128.5714 192.8571 0.0 0.1 0.2 0.3 0.4 0.5 M(U) = 2.9399 = μ Var(U) = 9.6429 − 2.93992 = 1 sqm(U) = 1 o più semplicemente M(U) = M(X)/σ Var(U) = Var(X)/σ 2 = σ 2 /σ 2 = 1 −5 0 5 10 15 20 9.8 1.5 W = 2X valori centrali 6 12 18 X 48 8 16 16 20 ni 4 8 8 20 fi 0.2 0.4 0.4 1 M(W ) = 13.2 = μ Var(W ) = 194.4 − 13.22 = 20.16 sqm(W ) = 4.49 o più semplicemente M(W )2 · M(X) Var(W ) = 22Var(X) = 4 ·Var(X) 124 ai 4 8 4 di 0.05 0.05 0.1 xi ni 24 96 144 264 xi2 ni 144 1152 2592 3888 0.5 0.4 0.3 0.2 0.1 0.0 −5 0 5 10 15 20 9.9 Definizione 1 (Variabile statistica standardizzata). Data una variabile statistica X con media μX e varianza σX2 si definisce variabile statistica standardizzata la seguente variabile statistica X − μX Z= σX Applicando le proprietà dell’operatore media e della varianza si dimostra che M(Z) = 0 e Var(Z) = 1 La variabile statistica standardizzata • non ha unità di misura • non ha ordine di grandezza • risulta invariante rispetto a eventuali trasformazioni lineari operate su X Se Y = aX + b abbiamo, infatti: Y − μY aX + b − (aμX + b) aX − aμX a(X − μX ) X − μX = = = = σY aσX aσX aσX σX 9.10 125 Sezione 10 Variabilità (4) 10.1 Indice 1 La varianza di un miscuglio (h gruppi) 2 1.1 σBetween . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 σWithin 1.3 Applicazioni del risultato di scomposizione della varianza . 1.4 Il Rapporto di Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 128 128 131 132 2 Esercizi 135 3 La diseguaglianza di Tchebychev 136 10.2 1 La varianza di un miscuglio (h gruppi) Si considerino i dati elementari v1 , v2 , . . . , vn riuniti in h sottogruppi 1 2 ... h n1 n2 ... nh μ1 σ12 μ2 σ22 ... ... μh σh2 (il raggruppamento in tabelle è uno dei possibili). Il singolo valore viene ora indicato con xi j : j-esima osservazione ( j = 1, 2, . . . , ni ) nel gruppo i (i = 1, 2, . . . , h) • media gruppo i-esimo μi = • varianza gruppo i-esimo σi2 = 1 ni 1 ni ni ∑ xi j j=1 ni ∑ (xi j − μi )2 j=1 In base alla proprietà associativa della media aritmetica μ= 10.3 1 k ∑ μi ni n i=1 la media generale è la media delle medie di gruppo. 127 10.4 Teorema 1 (Scomposizione della varianza). La varianza di tutte le unità statistiche è pari alla somma di varianza between e varianza within σ 2 = σB2 + σW2 10.5 2 1.1 σBetween Idea riguardo alla diversità dei gruppi: quanto sono diversi i gruppi tra di loro • quanto sono diverse le medie di gruppo μi • varianza delle medie di gruppo μi 2 Definizione 2 (σBetween ). σB2 = 1 h ∑ (μi − μ)2 ni n i=1 10.6 2 1.2 σWithin Idea riguardo alla variabilità all’interno dei gruppi: quanto sono variabili i gruppi al loro interno • media delle varianze dei gruppi σi2 2 Definizione 3 (σWithin ). 1 h 2 ∑ σi ni n i=1 σW2 = 10.7 Dimostrazione. σ2 = 1 h ni 1 h ni (xi j − μ)2 = ∑ ∑ (xi j − μi + μi − μ)2 = ∑ ∑ n i=1 j=1 n i=1 j=1 = 1 h ni ∑ ∑ [(xi j − μi ) + (μi − μ)]2 = n i=1 j=1 = 1 h ni (xi j − μi )2 + (μi − μ)2 + 2(xi j − μi )(μi − μ) = ∑ ∑ n i=1 j=1 = 1 h ni 1 h ni 1 h ni (xi j − μi )2 + ∑ ∑ (μi − μ)2 + ∑ ∑ 2(xi j − μi )(μi − μ) = ∑ ∑ n i=1 j=1 n i=1 j=1 n i=1 j=1 = 1 h 1 ∑ ni ni n i=1 = h ni ni h 1 h 1 ni ∑ (xi j − μi )2 + n ∑ ∑ (μi − μ)2 + n ∑ ∑ 2(xi j − μi )(μi − μ) = j=1 i=1 j=1 h 1 1 ∑ ni σi2 + n ∑ (μi − μ)2 n i=1 i=1 ni i=1 j=1 h 2 ∑ 1 + n ∑ (μi − μ) j=1 i=1 ni = 1 h 2 h 1 h ni σi2 + ∑ (μi − μ)2 ni + ∑ (μi − μ) · 0 = ∑ n i=1 n i=1 n i=1 = 1 h 1 h 2 2 2 σi ni + ∑ (μi − μ)2 ni = σWithin + σBetween ∑ n i=1 n i=1 ni ∑ (xi j − μi ) = j=1 0 10.8 128 Esempio 4. Si consideri la seguente popolazione di unità statistiche raggruppate in 3 gruppi 1 2 3 4 5 4 6 6 6 7 6 8 8 Abbiamo μ1 = μ2 = μ3 = 1 (4 + 5 + 6 + 7) = 5.5 4 1 (4 + 6 + 6 + 8) = 6 4 1 (6 + 8) = 7 2 e con riferimento alla proprietà associativa della media aritmetica: μ= 1 1 3 ∑ μi ni = 10 60 = 6 n i=1 10.9 A partire dalla variabile statistica medie di gruppo i 1 2 3 μi 5.5 6 7 ni 4 4 2 10 le cui modalità sono le medie di gruppo, con frequenze le numerosità di gruppo, possiamo calcolare media e varianza ni μi ni μi2 ni μi 5.5 4 22 121 6 4 24 144 7 2 14 98 10 60 363 μ = 1 3 1 1 h modalità · frequenze = ∑ μi ni = 60 = 6 ∑ n i=1 n i=1 10 σB2 = 1 3 1 3 1 (μi − μ)2 ni = ∑ μi2 ni − μ 2 = 363 − 62 = 36.3 − 36 = 0.3 ∑ n i=1 n i=1 10 la varianza delle medie di gruppo è la varianza Between. Calcoliamo ora le varianze nei tre gruppi: • 1 1 σ12 = (42 + 52 + 62 + 72 ) − 5.52 = 126 − 30.25 = 31.5 − 30.25 = 1.25 4 4 • • 1 1 σ22 = (42 + 62 + 62 + 82 ) − 62 = 152 − 36 = 38 − 36 = 2 4 4 1 1 σ32 = (62 + 82 ) − 72 = 100 − 49 = 50 − 49 = 1. 2 2 129 10.10 10.11 È possibile ricostruire la variabile statistica varianze di gruppo σi2 1.25 2 1 i 1 2 3 ni 4 4 2 10 le cui modalità sono le varianze di gruppo, con associate come frequenze le rispettive numerosità di gruppo. La media di tale variabile statistica risulta σi2 1.25 2 1 σW2 = ni σi2 ni 4 5 4 8 2 2 10 15 1 h 1 3 1 modalità · frequenze = ∑ σi2 ni = 15 = 1.5. ∑ n i=1 n i=1 10 10.12 La varianza generale calcolata su tutte le unità statistiche può essere ottenuta come σ 2 = σB2 + σW2 = 0.3 + 1.5 = 1.8 Si può, infatti, verificare che σ2 = = 1 2 (4 + 52 + 62 + 72 + 42 + 62 + 62 + 82 + 62 + 82 ) − 62 10 1 378 − 36 = 37.8 − 36 = 1.8 10 ovvero xi 4 5 6 7 8 σ 2 = M(X 2 ) − μ 2 = ni xi2 ni 2 32 1 25 4 144 1 49 2 128 10 378 1 378 − 62 = 37.8 − 36 = 1.8 10 10.13 130 1.3 Applicazioni del risultato di scomposizione della varianza Il risultato di scomposizione della varianza 2 2 + σWithin σ 2 = σBetween trova largo impiego nelle analisi di Marketing: è opportuno effettuare una segmentazione delle unità statistiche in funzione della variabile di raggruppamento utilizzata nello scomporre la varianza? Esempi • Studio del livello di spesa in funzione della fascia di età oppure della regione geografica. • Definizione della strategia di comunicazione aziendale: pianificare un’unica campagna o adottare comunicazioni diverse in funzione, ad esempio, dell’età o della zona di appartenenza? 10.14 Il risultato di scomposizione della varianza consente, infatti, di verificare se il comportamento delle unità statistiche può essere ritenuto sostanzialmente diverso tra i gruppi. • La varianza Between, varianza delle medie di gruppo, misura quanto sono tra loro diverse le medie di gruppo μi e, quindi, quanto diverso è il comportamento tra i soggetti appartenenti a diversi gruppi. • La varianza Within, media delle varianze di gruppo, fornisce una sintesi del livello di variabilità presente in ciascun gruppo: una sintesi di quanto le medie di gruppo siano rappresentative dei valori all’interno di ciascun gruppo. 10.15 Quando ha senso effettuare una segmentazione delle unità statistiche Devono essere verificate entrambe le seguenti condizioni: 1. la varianza Between deve assumere valore grande σ 2 > σB2 0 2. la varianza Within deve essere piccola 0 < σW2 σ 2 • medie di gruppo tra loro diverse • medie di gruppo rappresentative dei rispettivi gruppi (omogeneità dei valori all’interno di ciascun gruppo) 10.16 131 1.4 Il Rapporto di Correlazione Un indice sintetico che consente di stabilire se è opportuno effettuare una segmentazione delle unità statistiche è il Rapporto di Correlazione (normalizzazione della varianza Between) Definizione 5 (Rapporto di correlazione). η2 = σB2 σ2 Proprietà • η 2 = 0 ↔ σB2 = 0 medie di gruppo tutte uguali • η 2 = 1 ↔ (σB2 = σ 2 e σW2 = 0) medie di gruppo diverse e fortemente rappresentative delle distribuzioni di gruppo, che risultano degeneri in quanto le varianze di gruppo sono tutte pari a 0 10.17 Con riferimento all’esempio precedente abbiamo ottenuto σB2 = 0.3 σW2 = 1.5 σ 2 = 1.8 quindi 0.3 = 0.1667 1.8 il rapporto di correlazione assume un valore molto basso; non ha, quindi, senso effettuare una segmentazione delle unità statistiche in funzione della variabile di raggruppamento che è stata presa in considerazione. Un’analisi grafica preliminare è sempre utile al fine di esaminare la possibilità di effettuare una segmentazione. Possiamo rappresentare i valori assunti dalle unità statistiche appartenenti ai 3 gruppi 1 2 3 4 5 4 6 6 6 7 6 8 8 η2 = ● ● ● ● ● Gruppo 1 Gruppo 2 0 1 2 3 7 ● ● ● 6 ● 5 ● 4 8 9 10 10.18 Gruppo 3 10.19 Possiamo aggiungere al grafico precedente le medie di gruppo 132 10 9 8 ● ● ● ● Gruppo 1 Gruppo 2 0 1 2 3 7 ● 6 ● ● ● 5 ● 4 ● Gruppo 3 10.20 ● ● ● ● ● Gruppo 1 Gruppo 2 0 1 2 3 7 ● ● ● 6 ● 5 ● 4 8 9 10 Dall’analisi del grafico si evince un’elevata dispersione dei valori di alcuni gruppi dalle rispettive medie Gruppo 3 → possibile sintomo che le medie non sono rappresentative 133 10.21 Un’efficace analisi grafica può anche essere condotta confrontando i Box & Whiskers Plot delle distribuzioni di gruppo, qui riferiti a esempi diversi da quello precedentemente discusso, con una numerosità adeguata delle unità statistiche. Esempio 6 (Distribuzione dello stipendio rispetto al genere). 40 ● ● ● ● ● ● 30 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 10 20 ● ● ● ● ● ● ● ● ● ● ● 0 1 10.22 Esempio 7 (Distribuzione dello stipendio rispetto al titolo di studio). 40 ● ● ● ● 30 ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3 4 10 ● ● ● 1 ● 2 5 10.23 134 Esempio 8 (Distribuzione dello stipendio rispetto al genere & titolo di studio). 40 ● ● ● ● ● ● 30 ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 10 ● ● 01 ● ● ● 02 03 04 05 11 12 13 14 15 10.24 2 Esercizi Esercizio 9 (T 206, 25.09.2003, 1). La qualità dei prodotti di un’azienda produttrice di materiali edili, strutturata su due differenti linee produttive (Li ; i = 1, 2), è misurata attraverso la resistenza a pressione (Y ) rilevata sui provini prodotti dalle due linee. Nel seguente prospetto sono riportati, per ciascuna delle due linee, la media ed il coefficiente di variazione di Y , calcolati su un certo numero di provini: linea L1 L2 n◦ provini μi 50 32 100 29 CVi 0.065 1. Calcolare media e varianza di Y sul totale dei 150 provini. 2. Valutare, tramite un opportuno indice, se possiamo ritenere diversi i livelli medi di resistenza dei prodotti nelle due linee. 10.25 Esercizio 10 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’): ’visitatori esperti’ hi−1 hi fi 5 10 0.40 10 20 0.40 20 25 0.20 1.00 ’visitatori occasionali’ hi−1 hi fi 5 10 0.76 10 20 0.08 20 25 0.16 1.00 1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due tipologie di visitatori e le si confronti mediante opportuni indici di posizione e di variabilità; 2. sapendo che la media di Y , riferita a tutte le 80 unità statistiche, è pari a 11.625 e che il numero di soggetti esperti è pari a 30 si calcoli, applicando il risultato della scomposizione della varianza, il valore della varianza della variabile Y riferita a tutte le 80 unità statistiche. 135 10.26 3 La diseguaglianza di Tchebychev Definizione 11 (Diseguaglianza di Tchebychev). Sia X una variabile statistica con media μ = M(X) e varianza σ 2 = Var(X). Assegnato un qualsiasi valore t > 1 si consideri l’intervallo dei valori di X, centrato rispetto alla media μ e di raggio tσ (μ − tσ , μ + tσ ). La frequenza relativa, riferita alle unità statistiche che assumono valore al di fuori di tale intervallo, è al più eguale a t12 1 ∑ fi ≤ t 2 i:|x −μ|≥tσ i ∑ i:|xi −μ|≥tσ 1 fi ≤ 2 t 10.27 di conseguenza la frequenza relativa, riferita alle unità statistiche che assumono valore all’interno dell’intervallo, sarà almeno pari a 1 − t12 valori tipici t 2 3 4 5 1 t2 0.25 0.1111 0.0625 0.04 1 − t12 0.75 0.8889 0.9375 0.96 10.28 136 Esempio 12. μ μ − tσ μ − tσ • l’area in GRIGIO è al più pari a t12 • l’area in BIANCO è almeno pari a 1 − t12 10.29 0.00 0.05 0.10 0.15 0.20 0.25 Esempio 13. 10 15 20 25 μX = 16.6986 σX = 2.9653 t = 2 • l’area in GRIGIO è al più pari a 212 = 0.25 = 25% • l’area in BIANCO è almeno pari a 1 − 212 = 0.75 = 75% 137 10.30 Esempio 14. 350 400 450 μX = 375.8302 σX = 23.3231 t = 2.5 • l’area in GRIGIO è al più pari a 2.51 2 = 0.16 = 16% • l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84% 10.31 Esempio 15. 77.0 77.5 μX = 78.0939 78.0 78.5 σX = 0.3815 t = 2.5 = 0.16 = 16% • l’area in GRIGIO è al più pari a • l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84% 1 2.52 138 10.32 Sezione 11 Indici di forma 11.1 Indice 1 Asimmetria 1.1 Simmetria . . . . . . . . . . . . . . . . 1.2 Asimmetria . . . . . . . . . . . . . . . 1.3 Tipologie asimmetria . . . . . . . . . . 1.4 Caratterizzazione indici di posizione (1) 1.5 Caratterizzazione indici di posizione (2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 139 142 143 143 143 2 Misure di asimmetria 144 3 Curtosi 146 3.1 Tipologie curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4 Esercizi 148 11.2 1 Asimmetria 1.1 Simmetria Definizione 1 (funzione (continua) simmetrica). Una funzione f (x) si definisce simmetrica rispetto a un centro c se ∀k > 0 vale: f (c − k) = f (c + k) c c−k c c+k 11.3 139 Esempio 2. Anche la seguente funzione (continua a intervalli) è simmetrica rispetto al centro c c−k c c+k 11.4 Esempio 3. Anche la seguente funzione (di variabile discreta, ovvero definita su un insieme di valori discreti) è simmetrica rispetto al centro c c−k c c+k 11.5 Definizione 4 (Variabile statistica simmetrica). Una variabile statistica X si definisce simmetrica rispetto al centro c se: • per ogni xi = c − k • esiste un valore corrispondente x j = c + k (simmetrico) tale che f (xi ) = f (x j ) X simmetrica → M(X) = c Si ricorda che la media aritmetica è il baricentro (punto di equilibrio delle frequenze) di ogni distribuzione; 140 in presenza di una variabile statistica X con distribuzione simmetrica rispetto a c vale M(X) = c = baricentro 11.6 X simmetrica → x0.5 = c Osservando il grafico di una variabile statistica simmetrica c c si evince che (almeno) metà delle unità statistiche hanno valore non superiore a c e (almeno) metà delle unità statistiche hanno valore non inferiore a c; il punto c può, quindi, essere interpretato come la mediana della distribuzione. Osservazione Se si utilizza la formula della mediana x0.5 = x([n·0.5]+1) la precedente proprietà può non valere se il numero n di unità statistiche è pari. 11.7 X simmetrica → Moda = c Se la moda esiste, coincide con il centro di simmetria c c X simmetrica → M (X − μ)2r+1 = 0, r = 0, 1, 2, . . . Esplicitando l’espressione del momento centrale di ordine dispari rispetto alla media aritmetica abbiamo r M (X − μ)2r+1 = ∑ (xi − μ)2r+1 fi = 0, r = 0, 1, 2, . . . i=1 c c 141 11.8 Scarti di eguale entità ma con segno opposto sono ponderati con le medesime frequenze, quindi si compensano. Si ricordi per r = 0 l’interpretazione della media aritmetica come baricentro di una distribuzione di frequenze, M(X − μ) = 0. 11.9 Riepilogo • simmetria → M(X) = x0.5 = c • M(X) = x0.5 = c ? → simmetria Il fatto che la media aritmetica coincida con la mediana è solo un sintomo del fatto che la distribuzione possa essere simmetrica. • simmetria • → M (X − μ)2r+1 = 0, M (X − μ)2r+1 = 0, r = 0, 1, 2, . . . r = 0, 1, 2, . . . → simmetria Se tutti i momenti centrali rispetto alla media sono nulli allora la distribuzione è simmetrica. Il momento centrale di ordine 1 rispetto alla media, M(X − μ), è sempre nullo, a prescindere dalla forma della distribuzione. Se verifico che il momento centrale di ordine 3 rispetto alla media, M (X − μ)3 , è nullo, ho solo un sintomo del fatto che la distribuzione possa essere simmetrica. 11.10 1.2 Asimmetria Esempio 5 (funzioni asimmetriche). asimmetria positiva asimmetria negativa 11.11 142 1.3 Tipologie asimmetria Definizione 6. Asimmetria positiva Una distribuzione si definisce asimmetrica positiva quando è caratterizzata da una coda destra più pesante della sinistra (fat/heavy right tail) Definizione 7. Asimmetria negativa Una distribuzione si definisce asimmetrica negativa quando è caratterizzata da una coda sinistra più pesante della destra (fat/heavy left tail) 1.4 11.12 Caratterizzazione indici di posizione (1) Nel caso di una distribuzione asimmetrica positiva vale il seguente ordinamento: Moda < x0.5 < μ Moda x0.5 μ 11.13 1.5 Caratterizzazione indici di posizione (2) Nel caso di una distribuzione asimmetrica negativa vale il seguente ordinamento: μ < x0.5 < Moda μ x0.5 Moda 143 11.14 2 Misure di asimmetria Definizione 8 (Confronto tra media e mediana). μ − x0.5 • se la distribuzione è asimmetrica positiva → μ − x0.5 > 0 • se la distribuzione è asimmetrica negativa → μ − x0.5 < 0 • se la distribuzione è simmetrica → μ = x0.5 11.15 Definizione 9 (Indice di Fisher (skewness)). M (X − μ)3 X −μ 3 = M γ1 = σ3 σ • se la distribuzione è asimmetrica positiva → γ1 > 0 • se la distribuzione è asimmetrica negativa → γ1 < 0 • se la distribuzione è simmetrica → γ1 = 0 È l’indice più utilizzato. Si tratta di un indice relativo. Dalla seconda formulazione dell’indice si evince che γ1 è il momento terzo della variabile standardizzata. 11.16 Osservazione Le misure di asimmetria proposte sono solo sintomo di simmetria/asimmetria !! • se μ − x0.5 > 0 → tendenza alla asimmetria positiva • se μ − x0.5 = 0 → tendenza alla simmetria • se μ − x0.5 < 0 → tendenza alla asimmetria negativa • se γ1 > 0 → tendenza alla asimmetria positiva • se γ1 = 0 → tendenza alla simmetria • se γ1 < 0 → tendenza alla asimmetria negativa 11.17 Esempio 10. Si calcolino le misure di asimmetria μ − x0.5 e γ1 con riferimento alla seguente variabile statistica xi ni 1 1 2 2 3 4 4 3 10 La mediana risulta: x0.5 = x([10·0.5]+1) = x(6) = 3 11.18 Calcolo di media e varianza xi 1 2 3 4 ni xi ni 1 1 2 4 4 12 3 12 10 29 144 xi2 ni 1 8 36 48 93 M(X) = μ = 2.9 M(X 2 ) = 9.3 Var(X) = σ 2 = M(X 2 ) − μ 2 = 9.3 − 2.92 = 9.3 − 8.41 = 0.89 σ = 0.9434 Otteniamo, quindi μ − x0.5 = 2.9 − 3 = −0.1 sintomo di asimmetria negativa. Calcolo di 1 k M (X − μ)3 = ∑ (xi − μ)3 ni n i=1 xi 1 2 3 4 ni (xi − μ) (xi − μ)3 1 −1.9 −6.859 2 −0.9 −0.729 4 0.1 0.001 3 1.1 1.331 10 11.19 (xi − μ)3 ni −6.859 −1.458 0.004 3.993 −4.320 1 M (X − μ)3 = (−4.32) = −0.432 10 M (X − μ)3 −0.432 0.432 = −0.5145 γ1 = = =− σ3 0.94343 0.8396 indizio di asimmetria negativa. 11.20 Esempio 11 (Contro-esempio). classi xi ni 0 10 5 14 10 20 15 9 20 30 25 12 30 40 35 8 • • • • • • μ= 18.2558 M (X − μ)3 = 193.4221 x0.5 = 18.8889 σ = 11.1482 γ1 = 0.1396 μ − x0.5 = −0.6331 11.21 145 3 Curtosi 0.0 0.1 0.2 0.3 0.4 Il concetto trova particolare utilizzo in finanza, ad esempio con riferimento alle serie dei prezzi relativi dei titoli o delle valute. Si confronta la forma della distribuzione con quella del modello Normale, che verrà presentato nella sezione sul calcolo delle Probabilità. −4 −2 0 2 4 11.22 3.1 Tipologie curtosi 0.2 0.3 Definizione 12. Distribuzione leptocurtica Una distribuzione si definisce leptocurtica quando presenta, rispetto alla Normale, una frequenza superiore nei valori sulle code e nei valori intorno alla media (fat/heavy tails). 0.0 0.1 distribuzione Normale −5 0 5 ● μ 11.23 146 1.5 Definizione 13. Distribuzione platicurtica Una distribuzione si definisce platicurtica quando presenta, rispetto alla Normale, una frequenza superiore nei valori intermedi tra la media e le code. 0.0 0.5 1.0 distribuzione Normale −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 ● μ 11.24 Definizione 14 (Indici di curtosi (kurtosis)). M (X − μ)4 X −μ 4 =M γ2 = σ4 σ β2 = M (X − μ)4 X −μ 4 − 3 = M −3 σ4 σ • se la distribuzione è leptocurtica ↔ γ2 > 3 • se la distribuzione è platicurtica ↔ γ2 < 3 • se la distribuzione è mesocurtica ↔ γ2 = 3 • se la distribuzione è leptocurtica ↔ β2 > 0 • se la distribuzione è platicurtica ↔ β2 < 0 • se la distribuzione è mesocurtica ↔ β2 = 0 11.25 Osservazioni La seconda formulazione degli indici fa riferimento al momento quarto della variabile standardizzata. Una distribuzione si definisce mesocurtica se ha lo stesso indice di curtosi della Normale γ2 = 3 ovvero β2 = 0. 147 11.26 4 Esercizi Esercizio 15 (T 206, 25.09.2003, 3). Data la seguente distribuzione di frequenze relative della variabile statistica X: xi fi 10 0.1 35 f2 A f4 50 0.3 B f5 1. Si determinino i valori di A, B, f2 , f4 e f5 in modo che X risulti simmetrica rispetto alla mediana pari a 50. 2. Calcolare il valore dei seguenti momenti centrali: μ̄ 5 = M (X − μ)5 , μ̄ 7 = M (X − μ)7 e μ̄ 9 = M (X − μ)9 . 3. Si calcolino la varianza e l’indice di asimmetria delle variabili statistiche: Y = X −2 Z = 3X. e 11.27 Esercizio 16. Sia γ1 (X) l’indice di asimmetria di una variabile statistica X Si ricavi l’espressione dell’indice di asimmetria della variabile statistica Y = a+b·X in funzione di γ1 (X). 11.28 Esercizio 17 (T 231, 11.01.2007, 3). Si vuole studiare il numero di prodotti venduti in funzione del loro prezzo Y e del modo X in cui sono stati pubblicizzati (c1 = a mezzo stampa o c2 = a mezzo televisione). Nella seguente tabella vengono riportate le distribuzioni di frequenze relative condizionate riguardanti le v.s. Y |X = ci (i = 1, 2): Y |X = ci c1 c2 0 10 0.5 0.1 10 20 0 0.8 20 30 0.5 0.1 1 1 1. Sapendo che le frequenze marginali assolute di X sono pari a 150 e 250, si ricostruisca la distribuzione delle frequenze congiunte. 2. Calcolare la moda ed un opportuno indice di mutabilità normalizzato per la v.s. X. 3. Dopo aver rappresentato graficamente la distribuzione di frequenza della v.s. Y , se ne calcoli la mediana, la media, la varianza e l’indice di asimmetria. 4. Sia W = 2 + 3Y ; utilizzando le opportune proprietà si calcolino M(W ), Var(W ) e l’indice di asimmetria di W . 11.29 Esercizio 18 (T 250, 04.06.2009, 1). È data la seguente seriazione X: i hi−1 hi 1 10 16 2 16 30 3 30 h3 ni 10 20 10 1. Si calcoli il valore da attribuire ad h3 , sapendo che la densità di frequenza (assoluta) della terza classe risulta pari a 1.31579 e si dia una rappresentazione grafica della distribuzione X. 2. Si calcolino media aritmetica, varianza e coefficiente di variazione di X. 3. Si indichi, almeno approssimativamente, il valore assunto dalla media potenziata di X di ordine −1000. 4. Si indichi, senza effettuare calcoli e giustificando la risposta, se la distribuzione di X è simmetrica. 5. Si calcoli il valore da attribuire ad h3 nell’ipotesi che M(X) = 23. 148 11.30 Sezione 12 Rapporti statistici 12.1 Indice 1 Introduzione 149 2 Rapporti Statistici 151 3 Rapporti di densità 151 4 Rapporti di composizione 152 5 Indici inter-popolazione 153 6 Indici inter-temporali 6.1 Numeri indici a base fissa e a base mobile 6.2 Cambiamento di base (NIBF) . . . . . . . 6.3 Trasformazione NIBF in NIBM . . . . . 6.4 Variazione relativa media . . . . . . . . . 6.5 Passaggio da NIBM a NIBF . . . . . . . 6.6 Numeri Indici composti . . . . . . . . . . 6.7 Numeri Indici dei prezzi . . . . . . . . . 6.8 I Numeri Indici di borsa . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 154 156 156 157 158 158 159 161 161 1 Introduzione Nelle scienze economiche e sociali vengono trattate misure di: • • • • conteggio (N) quantità (Q) prezzo/valore unitario valore globale dove: • valore globale = N· prezzo unitario • valore globale = Q· prezzo unitario In molte circostanze è più opportuno ricorrere a misure relative (ad esempio ’pro-capite’). Si ricorda come le misure relative possano essere definite solo per caratteri misurati su scala per rapporti. 149 12.2 Consideriamo, quindi, le manifestazioni di una generica grandezza G, definita su scala per rapporti, riferita alla popolazione P al tempo t: G(P,t) 12.3 Definizione 1 (Cross section). Le manifestazioni di G(P,t) = G(P) per un t prefissato, al variare di P costituiscono una cross section. Esempio 2. Il Prodotto Interno Lordo delle nazioni dell’area Euro nel 2013. 12.4 Definizione 3 (Serie storica). Le manifestazioni di G(P,t) = G(t) = xt per P prefissato, al variare di t costituiscono una serie storica. Riferimento temporale • istante t → serie storica di stock x0 , x1 , x2 , . . . , xT (esempio: prezzo, popolazione residente, . . .) • intervallo (t − 1,t) → serie storica di flusso x1 , x 2 , . . . , x T (esempio: produzione, vendite, nascite, . . .) 12.5 Rapporti tra due grandezze (per i confronti) • R1 = abitanti Nt = chilometri quadrati km2 • R2 = consumo per abitante = Qt Nt R3 = produzione per ettaro = Qt ha R4 = fatturato per addetto = Vt Nt • • • R5 = ROI, Return On Investment = .. . 150 Rt It 12.6 Osservazione Nei precedenti rapporti: • a numeratore figura una grandezza di flusso, • mentre a denominatore figura una grandezza di stock; Occorre prestare particolare attenzione a tali situazioni e domandarsi, in particolare, a quale istante temporale è attribuita la grandezza a denominatore ed, eventualmente, come renderla il più possibile rappresentativa di tutto l’intervallo temporale a cui è riferito il numeratore. Ad esempio, una vendita di titoli con elevata rischiosità potrebbe avere una forte influenza sulla valutazione ROI. 12.7 2 Rapporti Statistici • • • • rapporti di composizione indici inter-popolazione indici inter-temporali rapporti di densità (assoluti) .. . • rapporti di durata (giacenza media magazzino) • rapporti di ripetizione (rotazione stock) .. . • indici di penetrazione (rapporti di rapporti) Esempio 4. Gli indici di penetrazione possono essere, ad esempio, calcolati • fra % di composizione • fra quote di mercato • fra consumi pro-capite 12.8 3 Rapporti di densità Definizione 5. Data una popolazione P, e due grandezze G, H, con H misura di ’dimensione’ di P si definisce Rapporto di densità il rapporto G(P,t) H(P,t) 12.9 151 4 Rapporti di composizione Definizione 6. Data una popolazione P, i sottoinsiemi P1 , P2 , . . . , Ph , Pi ⊂ P, i = 1, 2, . . . , h, costituiscono una partizione di P se: 1. hi=1 Pi = P 2. Pi ∩ Pj = ∅ 12.10 quoziente = PARTE TUTTO Definizione 7. Data una popolazione P, una partizione di P e una grandezza G misurata 1. sugli elementi di P 2. in uno stesso istante/intervallo temporale t si definisce rapporto di composizione il rapporto Ri = G(Pi ,t) G(P,t) quindi h ∑ Ri = 1 (oppure 100) i=1 Le frequenze relative fi sono un esempio di rapporti di composizione. Esempio 8. Consumi giornalieri di birra popolazione 15-65 anni zona NO NE Centro SI totale (a) (b) popol · 1000 n % 10261 26.4 7259 18.7 7412 19.1 13916 35.8 38848 100.0 ↑ (c) (d) litri · 1000 n % 279.1 28.5 204.7 20.9 240.1 24.5 256.1 26.1 980.0 100.0 ↑ rapporti di composizione Fonte: Indagini campionarie INRAN 152 (e) cc pro-capite 27.2 28.2 32.4 18.4 25.2 ↑ rapporti di densità (f) indice penetrazione 1.08 1.12 1.28 0.73 1.00 12.11 Osservazioni • totale(e) e totale( f ) sono medie ponderate • (e) = (c) (a) (f) = (d) (b) = (c) totale(c) (a) totale(a) = (c) (a) totale(c) totale(a) = (e) totale(e) 12.12 Esempio 9. Ricettività alberghiera Italia (1998) Esercizi Totale Alberghi Camere N. % N. % 90 0.3% 8390 0.9% 2450 7.2% 175753 18.3% 12401 36.7% 450908 46.9% 10094 29.9% 210893 21.9% 8767 25.9% 115001 12.0% 33802 100.0% 960945 100.0% ↑ ↑ rapporti di composizione N. medio N. medio camere letti 93 177 72 135 36 74 21 39 13 24 28 55 ↑ ↑ rapporti di densità Fonte: Federalberghi, Primo rapporto sul sistema alberghiero in Italia, 1998 Osservazione Il numero medio di camere è un rapporto di densità: G(P,t) H(P,t) • G(P,t): numero totale di camere della popolazione P • H(P,t): numero totale di alberghi della popolazione P 12.13 5 Indici inter-popolazione Definizione 10. Data una grandezza G espressa su scala per rapporti • riferita a due popolazioni P ed S • rilevata nello stesso (istante/periodo) t si definisce indice interpopolazione relativo alla popolazione S con riferimento a P P IS = G(S;t) G(P;t) (poco usati: non utili per i confronti!!) 12.14 Esempio 11. consumo di vino in Francia consumo di vino in Italia (nell’anno t) Se, ad esempio, nell’anno 2003 fosse risultato consumo di vino in Francia V (F, 2003) = = 1.05 consumo di vino in Italia V (I, 2003) si sarebbe concluso che per ogni litro di vino consumato in Italia si erano consumati 1.05 litri di vino in Francia 12.15 Esempio 12. consumo di vino pro/capite in Francia consumo di vino pro/capite in Italia (più informativo) 12.16 153 6 Indici inter-temporali Definizione 13. Con riferimento a una serie storica, relativa a una grandezza G espressa su scala per rapporti, e riferita a un’unica popolazione P, si definisce numero indice al tempo t (istante o periodo) con riferimento a t0 t0 It = G(P;t) xt = G(P;t0 ) xt0 (t0 è detto base) tipologie • base fissa (t0 ) montante unitario (grandezza relativa) rispetto a t0 • base mobile (t0 = t − 1) montante unitario (grandezza relativa) rispetto a t − 1 12.17 6.1 Numeri indici a base fissa e a base mobile Definizione 14 (Numeri indici a base fissa). xt G(P;t) = t0 It , = G(P;t0 ) xt0 (t = 0, 1, . . . , T ) dove t0 è un prefissato istante o periodo di riferimento Definizione 15 (Numeri indici a base mobile). G(P;t) xt = = G(P;t − 1) xt−1 t−1 It , (t = 1, 2, . . . , T ) dove t − 1 è l’istante o periodo precedente a t 12.18 Osservazione Sono collegati alle variazioni relative rispetto alla base: • base fissa xt − xt0 xt = − 1, xt0 xt0 • base mobile (t = 0, 1, . . . , T ) xt xt − xt−1 = − 1, xt−1 xt−1 (t = 1, 2, . . . , T ) (eventualmente esprimibili anche come percentuale) 12.19 Esempio 16. Ricettività alberghiera mondiale anno 1994 1995 1996 1997 1998 n.camere · 1000 Europa America 5492 5653 5942 6030 6130 4494 4540 4598 4670 4700 (base 1994 = 100) NIBF NIBF Europa America 100.00 100.00 102.93 101.02 108.19 102.31 109.80 103.92 111.62 104.58 Fonte: OMT; Horwath International, Arthur Andersen; 1998, stime 154 base mobile NIBM NIBM Europa America − − 102.93 101.02 105.11 101.28 101.48 101.57 101.66 100.64 Osservazione base = periodo di stabilità 12.20 Ricostruzione dei numeri indici per l’Europa con base fissa riferita all’anno 1994 (t0 = 1994) G(t) t0 =1994 It = G(1994) ad esempio: t0 =1994 I1997 = 6030 = 1.0980 5492 ovvero x1997 : x1994 = 1994 I1997 :1 Il numero indice per l’anno 1997 riferito all’anno base 1994 risulta pari a 1.0980: la grandezza relativa è 1.0980. Quindi tra il 1994 e il 1997 si è osservato un incremento complessivo pari al 9.80% = (1.0980 − 1) · 100% anno = t 1994 1995 1996 1997 1998 xt 5492 5653 5942 6030 6130 t0 =1994 It 5492 5492 = 1 5653 t0 =1994 I1995 = 5492 5942 I = t0 =1994 1996 5492 6030 t0 =1994 I1997 = 5492 6130 t0 =1994 I1998 = 5492 interpretazione = 1.0293 = 1.0819 = 1.0980 = 1.1162 dal dal dal dal 1994 1994 1994 1994 al al al al 1995 1996 1997 1998 + 2.93% + 8.19% + 9.80% + 11.62% 12.21 su scala centesimale numeri indici con base 1994 = 100 anno = t 1994 1995 1996 1997 1998 xt 5492 5653 5942 6030 6130 numeri indici con base 1994 = 1 t0 =1994 It 5492 5492 = 1 5653 t0 =1994 I1995 = 5492 = 1.0293 5942 I = t0 =1994 1996 5492 = 1.0819 6030 t0 =1994 I1997 = 5492 = 1.0980 6130 t0 =1994 I1998 = 5492 = 1.1162 numeri indici con base 1994 = 100 t0 =1994 It · 100 100 102.93 108.19 109.80 111.62 12.22 Ricostruzione numeri indici a base mobile (t0 = t − 1) per l’Europa G(t) t0 =t−1 It = G(t − 1) ad esempio, da: 1996 I1997 = G(1997) 6030 = = 1.0148 G(1996) 5942 si può concludere che tra il 1996 e il 1997 si è registrato un incremento pari a 1.48%. anno = t 1994 1995 1996 1997 1998 xt 5492 5653 5942 6030 6130 t−1 It = 1995 I1996 = 1996 I1997 = 1997 I1998 = 1994 I1995 − 5653 5492 5942 5653 6030 5942 6130 6030 · 100 − 102.93 105.11 101.48 101.66 t−1 It = 1.0293 = 1.0511 = 1.0148 = 1.0166 interpretazione dal dal dal dal 1994 1995 1996 1997 al al al al 1995 1996 1997 1998 + 2.93% + 5.11% + 1.48% + 1.66% 12.23 155 6.2 Cambiamento di base (NIBF) Cambio di base da t0 a t1 • avendo i dati originari, posso ricalcolare G(t) = t1 It G(t1 ) • partendo, invece, dagli indici con base fissa t0 abbiamo G(t) G(t)/G(t0 ) G(t) G(t0 ) t It = = = 0 t1 It = G(t ) G(t1 ) G(t1 )/G(t0 ) 1 t0 It1 G(t0 ) 12.24 Cambiamento di base per i numeri indici Europa con base fissa riferita all’anno 1994 (t0 = 1994), nuova base 1995 (t1 = 1995) anno = t xt t0 =1994 It t1 =1995 It 5492 1 1994 5492 1 t1 =1995 I1994 = 5653 = 1.0293 = 0.9715 5653 1.0293 1995 5653 1.0293 t1 =1995 I1995 = 5653 = 1.0293 = 1 1.0819 1996 5942 1.0819 t1 =1995 I1996 = 5942 5653 = 1.0293 = 1.0511 6030 1997 6030 1.0980 t1 =1995 I1997 = 5653 = 1.0980 1.0293 = 1.0667 1.1162 1998 6130 1.1162 t1 =1995 I1998 = 6130 5653 = 1.0293 = 1.0844 12.25 6.3 Trasformazione NIBF in NIBM È possibile ricostruire la serie dei numeri indici a base mobile anche disponendo solo dei numeri indici con base fissa t0 ; infatti, a partire dai dati originari abbiamo: G(t) G(t)/G(t0 ) G(t) G(t0 ) t It = = = 0 t−1 It = G(t − 1) G(t − 1) G(t − 1)/G(t0 ) t0 It−1 G(t0 ) se disponiamo della serie dei numeri indici a base fissa t0 (rapporto di NIBF contigui) anno = t xt 1994 5492 t0 =1994 It t−1 It t0 I1994 1 1995 5653 1.0293 1996 5942 1.0819 1997 6030 1.0980 1998 6130 1.1162 t0 I1995 t0 I1994 t0 I1996 t0 I1995 t0 I1997 t0 I1996 t0 I1998 t0 I1997 t0 I1993 = = = = t−1 It =− 1.0293 1 1.0819 1.0293 1.0980 1.0819 1.1162 1.0980 − = 1.0293 1994 I1995 = = 1.0511 1995 I1996 = = 1.0149 1996 I1997 = = 1.0166 1997 I1998 = 5653 5492 5942 5653 6030 5942 6130 6030 = 1.0293 = 1.0511 = 1.0148 = 1.0166 12.26 156 6.4 Variazione relativa media Si consideri, ad esempio, 1994 I1998 , numero indice al tempo 1998 con base 1994 (grandezza relativa al tempo 1998 rispetto alla base 1994). 1994 I1998 può essere espresso in funzione dei numeri indici a base mobile t−1 It , t = 1995, . . . , 1998 (grandezze relative al tempo t rispetto a t − 1) 1994 I1998 G(1998) G(1994) = 1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998 = G(1995) G(1996) G(1997) G(1998) · · · G(1994) G(1995) G(1996) G(1997) Si desidera ottenere la media α dei numeri indici a base mobile (grandezza relativa media riferita a una unità temporale) In base al criterio di scelta della media secondo Chisini abbiamo 1994 I1998 = 1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998 = α · α · α · α = α4 Risolvendo rispetto ad α si ottiene α= 1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998 . 4 La grandezza relativa media risulta la media geometrica dei numeri indici a base mobile. 12.27 Osservazione α = 4 = 4 G(1995) G(1996) G(1997) G(1998) · · · G(1994) G(1995) G(1996) G(1997) G(1998) = G(1994) 4 1994 I1998 Esempio 17. Con riferimento all’esempio dei numeri indici per l’Europa si ottiene √ 4 4 6130 4 I = = 1.1162 = 1.11620.25 = 1.0279 1994 1998 5492 si può, quindi, concludere che tra il 1994 e il 1998 si è registrato un incremento medio annuale (variazione relativa media) del numero delle camere pari al 2.79%. 12.28 Definizione 18 (Grandezza relativa media e variazione relativa media). Si consideri la serie storica delle k + 1 osservazioni Xt , . . . , Xt+k e i corrispondenti numeri indici a base mobile t It+1 , . . . , t+k−1 It+k ; si definisce grandezza relativa media la media geometrica dei k numeri indici a base mobile α= k k ∏ t+i−1 It+i−1 = k t It+1 · . . . · t+k−1 It+k = k t It+k 1 corrispondente alla radice di ordine k del numero indice a base fissa t It+k . La variazione relativa media risulta: α −1 e, in termini percentuali, 100 · (α − 1) 12.29 157 6.5 Passaggio da NIBM a NIBF Si ricordi che G(t) t It = 0 = G(t − 1) t0 It−1 t−1 It (NIBM) da cui t0 It = t0 It−1 · t−1 It ma t0 It−1 = t0 It−2 · t−2 It−1 quindi t0 It = t0 It−2 · t−2 It−1 · t−1 It e, continuando ricorsivamente fino a t0 It0 = 1, si ottiene . . . 12.30 • per t > t0 t0 It = t0 It0 +1 · t0 +1 It0 +2 · prodotto · I · I · I NIBM fino a t−3 t−2 t−2 t−1 t−1 t vale a dire (NIBF) t0 It = t ∏ j=t0 +1 • per t = t0 t0 It0 • per t < t0 , dalla t0 It t0 It−1 (NIBM) =1 = ricavo t0 It−1 j−1 I j = t−1 It t0 It t−1 It per cui, noto t0 It , ottengo, a ritroso, gli indici a base fissa da quelli a base mobile 12.31 Osservazione Le precedenti trasformazioni valgono solo per indici rapporto (grandezze relative) Nel caso i numeri indici siano espressi in scala centesimale occorre passare ai rapporti (grandezze relative) 6.6 12.32 Numeri Indici composti I numeri indici che sono stati considerati finora sono detti numeri indici semplici in quanto sono riferiti a un’unica serie storica. Spesso si ha a che fare con più serie storiche (ad esempio le serie storiche dei prezzi di un paniere di prodotti o di un portafoglio di azioni); a partire da ciascuna serie storica è possibile ottenere una serie di numeri indici semplici. Un numero indice composto è una sintesi di numeri indici semplici Esempio 19. A partire dalle variazioni dei prezzi di più prodotti si desidera ottenere una misura della variazione del livello generale dei prezzi. Si osserva come la variazione nel livello generale dei prezzi venga, talvolta, utilizzata come misura dell’inflazione, che però rappresenta la perdita del potere di acquisto. 158 12.33 6.7 Numeri Indici dei prezzi • media ponderata dei prezzi relativi degli h prodotti scelti come rappresentativi dei consumi di una collettività i pt i p0 • come coefficienti di ponderazione si possono utilizzare i valori delle merci scambiate: – nel periodo 0 (base): i v0 – nel periodo t (corrente): = i p0 · i q0 i v0 = i pt · i qt Si può, quindi, considerare una serie statistica avente una delle seguenti strutture xi .. . i pt i p0 .. . ni .. . i v0 = i p0 · i q0 .. . v0 xi .. . i pt i p0 .. . ni .. . i vt = i pt · i qt .. . vt 12.34 pane 0 t prezzi relativi valori (0) valori (1) pane pt latte latte p0 latte pt burro burro p0 burro pt pane p1 pane p0 latte p1 latte p0 burro p1 burro p0 pane p0 · pane q0 latte p0 · latte q0 burro p0 · burro q0 pane p0 pane p1 · pane q1 latte p1 · latte q1 burro p1 · burro q1 Si vuole calcolare una media delle modalità prezzi relativi xi = i pt i p0 utilizzando quali coefficienti di ponderazione (frequenze) i valori riferiti all’anno base oppure all’anno corrente ni = i v0 = i p0 · i q0 oppure ni = i vt = i pt · i qt 12.35 Definizione 20. Si definisce indice dei prezzi di Laspeyres (1884), la media aritmetica delle variazioni dei prezzi dei singoli prodotti xi = i pt i p0 calcolata utilizzando come frequenze i valori scambiati al tempo 0 (base) ni = i v0 = i p0 · i q0 p L 0 It = h 1 h 1 ∑hi=1 i pt i q0 i pt xi ni = h i p0 i q0 = h ∑ ∑ n i=1 ∑i=1 i p0 i q0 i=1 i p0 ∑i=1 i p0 i q0 Si osserva come il valore del paniere dei beni venga aggiornato solo in occasione di un eventuale cambiamento di base. 159 12.36 Definizione 21. Si definisce indice dei prezzi di Paasche (1874), la media armonica delle variazioni dei prezzi dei singoli prodotti xi = i pt i p0 calcolata utilizzando come frequenze i valori scambiati al tempo t (corrente) ni = i vt = i pt · i qt p P 0 It = = 1 h −1 ∑ xi ni n i=1 −1 = 1 ∑hi=1 i pt i qt h ∑ i p0 i=1 i pt −1 i pt i qt ∑hi=1 i pt i qt ∑hi=1 i p0 i qt Si osserva come il valore del paniere dei beni debba essere aggiornato a ogni periodo di rilevazione Si osserva come, con riferimento ai prodotti usualmente consumati, sussista un legame negativo tra le variazioni dei prezzi e le variazioni delle quantità (la funzione di domanda dei prodotti è convessa). In tali situazioni l’indice dei prezzi di Laspeyres sovrastima la reale variazione dei prezzi, mentre l’indice di Paasche la sottostima. Fisher ha proposto la seguente misura ’ideale’ ottenuta come media geometrica dei precedenti indici. 12.37 Definizione 22. Indice dei prezzi di Fisher (1922) p F p L p P 0 It = 0 It · 0 It Osservazione La procedura per il cambiamento di base si complica nel caso di numeri indici composti. Ad esempio, sul sito dell’Istat sono pubblicati opportuni coefficienti di conversione. 12.38 Esempio 23. Si considerino i dati riferiti a 4 prodotti i p0 pt q0 qt 1 2 3 4 10 15 8 14 12 20 9 18 1000 2000 1500 500 800 2100 1200 900 Si calcolino gli indici sintetici dei prezzi di Laspeyres, Paasche e Fisher Indice dei prezzi di Laspeyres ni = i p0 · i q0 xi ni xi = ii pp0t 12 = 1.2 10 · 1000 = 10000 12000 10 20 15 = 1.3333 15 · 2000 = 30000 40000 9 8 · 1500 = 12000 13500 8 = 1.125 18 = 1.2857 14 · 500 = 7000 9000 14 59000 74500 p L 0 It = M(X) = 1 74500 = 1.2627 59000 160 12.39 la variazione relativa nel livello generale dei prezzi, secondo l’Indice di Laspeyres, è del +26.27%. Si osserva come tale valore sia compreso tra la minima e massima variazione registrata nel prezzo dei singoli prodotti [12.50%, 33.33%]. 12.40 Indice dei prezzi di Paasche ni ni = i pt · i qt xi = ii pp0t xi 12 12 · 800 = 9600 8000 10 = 1.2 20 15 = 1.3333 20 · 2100 = 42000 31500 9 9 · 1200 = 10800 9600 8 = 1.125 18 18 · 900 = 16200 12600 14 = 1.2857 78600 61700 p P 0 It −1 = M X −1 = Indice dei prezzi di Fisher IFisher = 1 1 n ∑ki=1 x1i ni p L p P 0 It · 0 It = = 1 1 78600 61700 √ = 78600 = 1.2739 61700 1.6086 = 1.2682 12.41 6.8 I Numeri Indici di borsa Si considera un paniere di azioni e si calcola l’evoluzione dei prezzi al termine di ogni minuto di contrattazione. La struttura dell’indice Mibtel è simile a quella dell’indice di Laspeyres p 0 It = ∑hi=1 i pi 0 ti c i p0 i c i q0 ∑hi=1 i p0 i c i q0 = ∑hi=1 i pt i q0 ∑hi=1 i p0 i c i q0 dove i c è un fattore correttivo delle quotazioni che tiene conto delle operazioni sul capitale sociale (ad esempio aumenti di capitale sociale con eventuali opzioni di sottoscrizione da effettuare nell’intervallo temporale (0,t)) 12.42 7 Esercizi Esercizio 24 (T 239, 10.01.2008, 2). Sapendo che per un aggregato macroeconomico il numero indice riferito al tempo 2006 con base 2005 è pari a 2005 I2006 = 0.95 e che tra il 2006 e il 2007 l’aggregato ha subito una variazione percentuale del +5% si determini 2005 I2007 , numero indice riferito all’istante temporale 2007 con base 2005. 12.43 Esercizio 25 (T 241, 14.02.2008, 2). Sapendo che il valore di un aggregato macroeconomico nel 2006 è 80, che il numero indice riferito al tempo 2006 con base 2005 è pari a 2005 I2006 = 1.2 e che tra il 2006 e il 2007 l’aggregato ha subito una variazione assoluta di −20 si determini 2005 I2007 , numero indice riferito all’istante temporale 2007 con base 2005. 12.44 161 Esercizio 26 (T 249, 12.02.2009, 2). Si riporta l’evoluzione temporale dei prezzi e delle quantità scambiate di 2 prodotti a e b, tra il 2000 il 2002. a a pt 2000 330 2001 345 2002 390 b a qt b pt b qt 10 a q2001 10 80 80 85 b q2001 10 10 1. Si calcoli l’indice dei prezzi di Laspeyres al tempo 2002 con base 2000. p F , al tempo 2001 con base 2. Supponendo che l’indice dei prezzi di Fisher, 2000 I2001 2000, sia risultato pari a 1.033, valore inferiore a quello dell’indice di Laspeyres, si indichi l’intervallo dei possibili valori dell’indice di Paasche. 12.45 Esercizio 27 (T 252, 02.07.2009, 4). Con riferimento alla seguente serie storica si costruisca la serie dei numeri indici a base mobile e si calcoli 2 I4 interpretando il valore ottenuto. t 1 2 3 4 5 Xt 2.3 2.7 2.3 1.8 2.4 12.46 Esercizio 28 (T 255, 14.01.2010, 2). Sapendo che per un aggregato macroeconomico il numero indice riferito al tempo 2003 con base 2000 è pari a 2000 I2003 = 1.49 e che il numero indice riferito al tempo 2003 con base 2002 è pari a 2002 I2003 = 1.21 si determinino: 1. la variazione relativa subita dall’aggregato tra il 2000 e il 2002; 2. il tasso medio annuo di variazione tra il 2000 e il 2003. 12.47 Esercizio 29 (T 257, 11.02.2010, 2). Il consumo pro-capite di gelato in Italia ha presentato, negli ultimi 5 anni, le seguenti variazioni % annuali 2004 +1.2% 2005 +8% 2006 2007 +8% +2% 2008 −8% 1. Scelto come base il 2003 (= 100) ricostruire la serie dei numeri indici a base fissa. 2. Sapendo che nel 2003 si è manifestato un consumo pro-capite di 33kg, indicare il consumo del 2008. 3. Indicare l’aumento % complessivo registratosi tra il 2006 e il 2008. 12.48 Esercizio 30 (T 265_1, 22.09.2011, 2). Il prospetto seguente riporta la serie dei numeri indice a base mobile per una determinata grandezza macroeconomica X: t t−1 It 2002 2003 2004 − 0.8545 0.7173 2005 0.7585 2006 0.9441 2007 0.6775 1. Sapendo che il valore della grandezza X nel 2002 era 77 si ricostruiscano i valori della serie storica. 2. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006. 3. Si indichi il valore mediano delle variazioni relative subite dalla grandezza X negli anni considerati. Esercizio 31 (T 264_2, 23.06.2011, 2). È data la serie storica dei numeri indici con base mobile (su scala centesimale) del prezzo di un kg di pane: anno t−1 It 2006 − 2007 106 2008 104 162 2009 102 2010 101 12.49 1. Si ricostruisca la serie storica dei prezzi sapendo che nel 2006 il pane costava 0.75 euro. 2. Si ricostruisca la serie storica dei numeri indici a base fissa (2006 = 100). 3. Si determini il tasso medio di variazione del prezzo del pane tra il 2006 e il 2010. 12.50 Esercizio 32 (T 264_3, 07.07.2011, 2). Si consideri la serie storica dei prezzi del prodotto A nel periodo 2001–2005. anno pA 2001 2002 20 25 2003 20 2004 30 2005 40 1. Si ricostruisca la serie dei numeri indici a base fissa (2003=100). 2. Si calcolino, interpretandone il significato, i seguenti numeri indici: 2003 I2005 . 2002 I2001 e 12.51 Esercizio 33 (T 258-1, 03.06.2010, 2). Sapendo che per un aggregato macroeconomico il numero indice riferito al tempo 2003 con base 2000 è pari a 2000 I2003 = 1.49 e che il numero indice riferito al tempo 2005 con base 2003 è pari a 2003 I2005 = 1.22 si determinino: 1. il numero indice riferito al tempo 2005 con base 2000; 2. il tasso medio di variazione subito dall’aggregato tra il 2000 e il 2005. 12.52 Esercizio 34 (T 258-3, 15.07.2010, 2). Con riferimento alla seguente serie dei prezzi di un prodotto tra il 1998 il 2002 si costruiscano le serie dei numeri indici a base fissa (2000 = 100) e a base mobile e sulla base di quest’ultima si calcoli il tasso medio di variazione del prezzo di tale prodotto tra il 1999 e il 2001. t pt 1998 130 1999 135 2000 140 2001 145 2002 150 12.53 Esercizio 35 (T 262, 03.02.2011, 2). Con riferimento ai prezzi di un prodotto nel periodo 2004–2008 sono disponibili alcuni elementi della serie dei numeri indici a base fissa 2004 = 100 e della serie dei numeri indici a base fissa 2006 = 100. Anni NIBF(2004 = 100) NIBF(2006 = 100) 2004 100 2005 102.5 2006 106 100 2007 109.18 103 2008 109 NIBM 1. Si ricostruiscano le due serie complete dei NIBF dei prezzi e si costruisca la serie dei NI a base mobile. 2. Si calcoli il tasso d’incremento medio dei prezzi tra il 2004 e il 2007. 12.54 Esercizio 36 (T 263, 17.02.2011, 2). Si consideri la serie dei numeri indici a base mobile dei prezzi del prodotto A nel periodo 2004–2007. anno NIBMA 2004 − 2005 105 2006 105 2007 105 1. Si ricostruisca la serie dei numeri indici a base fissa (2004 = 100). 163 2. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto B, sapendo che nel periodo considerato i prezzi di B sono costantemente risultati il doppio dei prezzi di A. 12.55 Esercizio 37 (T 264_1, 09.06.2011, 3). Il seguente prospetto riporta i prezzi e le quantità scambiate per i prodotti A e B negli anni 1990, 2000 e 2010. anno A pt 1990 100 2000 150 2010 260 A qt 111 142 123 B pt 200 600 B qt 101 92 83 1. Si indichi quale valore deve assumere il prezzo del prodotto B nel 2000 affinché l’indice dei prezzi di Laspeyres al tempo 2000 con base 1990 risulti pari a p L 1990 I2000 = 1.5. 2. Si calcoli l’indice dei prezzi di Paasche al tempo 2010 con base 1990, commentando il risultato ottenuto. 12.56 Esercizio 38 (T 265, 08.09.2011, 2). Il prospetto seguente riporta la produzione di energia elettrica in TWh per le fonti energetiche rinnovabili nel periodo 2002–2007: t rinnovabili 2002 49.0 2003 48.0 2004 55.7 2005 49.9 2006 52.2 2007 49.4 1. Si ricostruisca la serie dei numeri indici a base mobile. 2. Si calcoli il tasso medio di crescita nel periodo considerato. 12.57 Esercizio 39 (T 266, 12.01.2012, 3). Si riporta l’evoluzione temporale del prezzo di un prodotto tra il 2001 il 2005. t pt 2001 330 2002 342 2003 390 2004 405 2005 420 1. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto. 2. Si interpreti il valore assunto dal numero indice 2002 I2003 3. Si calcoli il tasso medio di variazione dei prezzi tra il 2002 e il 2005. 12.58 Esercizio 40 (T 267, 26.01.2012, 3). Con riferimento alla seguente serie storica Wt anno Wt 1. 2. 3. 4. 2008 800 2009 850 2010 900 2011 1000 Si costruisca la serie dei numeri indici a base fissa, con base 2008 = 100. Si interpreti l’ultimo valore della serie sopra calcolata. Si costruisca la serie dei numeri indici a base mobile. Si calcoli quale dovrebbe essere il valore W2012 in modo che il tasso medio di crescita nel periodo 2008–2012 risulti pari al 6%. 12.59 Esercizio 41 (T 268, 09.02.2012, 2). Si consideri la seguente serie dei numeri indice a base fissa riguardante l’andamento della serie Zt . anno NIBF 2008 1 2009 1.1 164 2010 0.9 2011 1.2 1. Si costruisca la serie dei numeri indici a base mobile. 2. Si interpreti l’ultimo valore della serie sopra calcolata. 3. Si calcoli il valore Z2011 sapendo che Z2009 = 47. 12.60 Esercizio 42 (T 269_1, 07.06.2012, 2). Si consideri la seguente serie dei numeri indice a base fissa (2008) riguardante l’andamento della serie Zt . anno NIBF(2008) 1. 2. 3. 4. 2008 1 2009 1.1 2010 0.9 2011 1.2 Si costruisca la serie dei numeri indici con base fissa 2010. Si interpreti il primo valore della serie sopra calcolata. Si calcoli il tasso medio di variazione tra il 2008 e il 2011. Si calcoli il valore Z2007 sapendo che Z2008 = 47. 12.61 Esercizio 43 (T 269_2, 28.06.2012, 2). Si consideri la serie storica delle quotazioni di un generico titolo Qt . anno 1 2 3 4 5 Qt 114 86 101 113 86 1. Si costruisca la serie dei numeri indici con base mobile. 2. Si calcoli e interpreti il valore del numero indice al tempo 5 con base 1. 3. Si calcoli il tasso medio di variazione per l’intero periodo considerato. 12.62 Esercizio 44 (T 269_3, 12.07.2012, 2). Il prospetto seguente riporta la serie dei numeri indice a base mobile, NIBM, per una determinata grandezza macroeconomica X (serie storica di flusso) t t−1 It 2002 2003 2004 − 0.8545 0.7173 2005 0.7585 2006 0.9441 2007 0.6775 1. Sapendo che il valore della grandezza X nel 2007 era 22.90 si ricostruiscano i valori della serie storica. 2. Si rappresenti graficamente la serie storica X. 3. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006. 4. Si indichi la peggiore variazione relativa subita dalla grandezza X negli anni considerati. 12.63 Esercizio 45 (T 270, 06.09.2012, 1). Si consideri la variabile Xt = numerosità della popolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001. Anno Xt 1861 22 1881 1901 28 33 1921 39 1941 43 1961 51 1981 56 2001 58 1. Si costruisca la serie dei numeri indici con base mobile. 2. Si interpreti il valore dell’ultimo degli indici sopra calcolati. 3. Si calcoli il tasso di crescita medio della popolazione italiana tra il 1901 e il 2001. 12.64 Esercizio 46 (T 270-1, 20.09.2012, 1). Si consideri la variabile Xt = numerosità della popolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001. Anno Xt 1861 22 1881 1901 28 33 1921 39 165 1941 43 1961 51 1981 56 2001 58 1. Si costruisca la serie dei numeri indici con base fissa 1861. 2. Si interpreti il valore del numero indice al tempo 1881 con base 1861. 3. Si calcoli il tasso di crescita medio annuo della popolazione italiana tra il 1861 e il 1881. 12.65 Esercizio 47 (T 271, 10.01.2013, 2). Si consideri la seguente serie storica delle vendite di un’azienda tra il 2006 e il 2010. t xt 2006 2007 205 290 2008 315 2009 340 2010 225 1. Si costruisca la corrispondente serie dei numeri indici a base mobile. 2. Si calcoli il tasso medio di variazione tra il 2008 e il 2010, commentando il risultato ottenuto. 12.66 Esercizio 48 (T 272, 24.01.2013, 2). Della serie storica Xt delle vendite di un’azienda tra il 2006 e il 2010 abbiamo le seguenti informazioni: t 2006 2007 2008 2009 2010 NIBM NIBF 100 113 116 106 131 1. Si riempiano le caselle vuote della tabella e sapendo che x2010 =650 si calcoli x2006 . 2. Si calcoli il tasso medio di variazione tra il 2007 e il 2010, commentando il risultato ottenuto. 12.67 Esercizio 49 (T 273, 07.02.2013, 2). Dati i seguenti NIBM delle vendite di un’azienda tra il 2001 e il 2005: t NIBM 2001 2002 0.94 2003 1.12 2004 1.06 2005 1.11 1. Si calcolino i numeri indice a base fissa (base 2001). 2. Si calcoli il tasso medio di variazione tra il 2001 e il 2005 esprimendolo in valore percentuale. 3. Per ottenere un tasso medio di variazione tra il 2001 e il 2006 del 7% che valore dovrebbe avere 2001 I2006 ? 12.68 Esercizio 50 (T 274-1, 06.06.2013, 2). Dati i seguenti NIBF (base 2001) delle vendite di un’azienda tra il 2001 e il 2005: t NIBF 2001 1.00 2002 0.94 2003 1.12 2004 1.06 2005 1.11 1. Si calcolino i numeri indice a base mobile. 2. Si calcoli il tasso medio di variazione tra il 2003 e il 2005 esprimendolo in valore percentuale. 3. Sapendo che tra il 2005 e il 2006 vi è stato un calo delle vendite del 10% si determinino 2005 I2006 e il valore delle vendite nel 2006. 12.69 166 Esercizio 51 (T 274, 27.06.2013, 2). Si consideri la serie NIBF (base 2006) relativa alla spesa delle Amministrazioni Pubbliche rilevata tra il 2005 e il 2009: t NIBF 2005 0.9705 2006 1.0000 2007 1.0164 2008 0.7607 2009 1.0951 1. Si calcolino i numeri indice a base mobile. 2. Si calcoli il tasso medio di variazione tra il 2006 e il 2009 esprimendolo in valore percentuale. 3. Si calcoli il Numero Indice del 2006 con base l’anno 2009 interpretando il valore ottenuto. 12.70 Esercizio 52 (T 274-2, 11.07.2013, 2). Si consideri la serie NIBM relativa alla spesa delle Amministrazioni Pubbliche rilevata tra il 2005 e il 2009: t NIBM 2005 2006 1.0304 2007 1.0164 2008 0.7484 2009 1.4397 1. Sapendo che x2009 = 334 si calcoli il valore di x2005 . 12.71 167 Sezione 13 Analisi statistica bivariata 13.1 Indice 1 Introduzione 169 1.1 Problemi asimmetrici e problemi simmetrici . . . . . . . . . . . . . . . . 169 2 Studio di un caso 169 2.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 2.2 Distribuzioni condizionate Y |X . . . . . . . . . . . . . . . . . . . . . . . 171 2.3 Distribuzioni condizionate X|Y . . . . . . . . . . . . . . . . . . . . . . . 171 3 Formalizzazione simbolica v.s. doppia 4 Indipendenza stocastica 173 4.1 Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . 173 4.2 Definizione di indipendenza stocastica . . . . . . . . . . . . . . . . . . . 174 4.3 Quadro riassuntivo indipendenza stocastica . . . . . . . . . . . . . . . . 174 5 Dipendenza funzionale 175 6 Studio della dipendenza 177 171 13.2 1 Introduzione Studio congiunto di due caratteri per accertare la presenza di relazioni di dipendenza tra di essi. • ripartizione quote mercato prima e dopo campagna pubblicitaria • studio customer satisfaction: analisi questionari per area geografica • impresa con diverse dipendenze con produzione simile: analisi di produttività Nell’ambito della statistica inferenziale si studiano dei metodi che consentono l’attribuzione di un significato al valore degli indicatori (cfr. χ 2 ) che attengono a una data situazione. 1.1 Problemi asimmetrici e problemi simmetrici Definizione 1 (Problema asimmetrico). Un problema ha carattere asimmetrico quando solo una variabile può essere considerata dipendente dall’altra Y dipende da X oppure X dipende da Y. Si osserva come vale solo una delle due precedenti proposizioni. 169 13.3 Definizione 2 (Problema simmetrico). Un problema ha carattere simmetrico quando il rapporto di dipendenza è bi-direzionale X ↔ Y. In questo caso le due variabili si dicono concomitanti. 13.4 2 Studio di un caso Con riferimento alle variabili X = ’provenienza del cliente’ e Y = ’secondo piatto’ si rileva la distribuzione congiunta dei 250 secondi serviti la scorsa domenica in un ristorante di una località turistica X \Y Europa America Asia n• j y1 y2 y3 y4 y5 30 20 15 15 20 5 40 10 15 30 5 10 20 10 5 40 70 45 40 55 ni• 100 100 50 250 y1 = carne arrosto y2 = carne alla griglia y3 = pesce crudo y4 = pesce alla griglia y5 = selvaggina È possibile ottenere la variabile statistica doppia con le frequenze congiunte relative fi j = X \Y Europa America Asia f• j y1 0.12 0.02 0.02 0.16 y2 0.08 0.16 0.04 0.28 13.5 ni j n y3 0.06 0.04 0.08 0.18 y4 0.06 0.06 0.04 0.16 y5 0.08 0.12 0.02 0.22 fi• 0.40 0.40 0.20 1 13.6 2.1 Distribuzioni marginali X \Y Europa America Asia n• j y1 30 5 5 40 y2 20 40 10 70 y3 15 10 20 45 X ni• fi• Europa 100 0.40 America 100 0.40 Asia 50 0.20 n 250 1 y4 15 15 10 40 y5 20 30 5 55 Y y1 y2 y3 y4 y5 n ni• 100 100 50 250 n• j 40 70 45 40 55 250 f• j 0.16 0.28 0.18 0.16 0.22 1 13.7 170 2.2 Distribuzioni condizionate Y |X X \Y Europa America Asia n• j Y |X=x1 y1 y2 y3 y4 y5 n1• y1 30 5 5 40 f .cond.r. = 0.30 0.20 0.15 0.15 0.20 1 n1 j 30 20 15 15 20 100 y3 15 10 20 45 n1 j n1• Y |X=x3 y1 y2 y3 y4 y5 n3• 2.3 y2 20 40 10 70 y4 15 15 10 40 y5 20 30 5 55 ni• 100 100 50 250 Y |X=x2 y1 y2 y3 y4 y5 n2• n3 j 5 10 20 10 5 50 n2 j 5 40 10 15 30 100 f .cond.r. = 0.10 0.20 0.40 0.20 0.10 1 f .cond.r. = 0.05 0.40 0.10 0.15 0.30 1 n2 j n2• n3 j n3• 13.8 Distribuzioni condizionate X|Y X \Y Europa America Asia n• j y1 30 5 5 40 y2 20 40 10 70 y3 15 10 20 45 y4 15 15 10 40 y5 20 30 5 55 ni• 100 100 50 250 X|Y =y1 Europa America Asia n•1 ni1 30 5 5 40 f .cond.r. = 0.75 0.125 0.125 1 ni1 n•1 X|Y =y2 Europa America Asia n•2 ni2 20 40 10 70 f .cond.r. = 0.29 0.57 0.14 1 ni2 n•2 X|Y =y3 Europa America Asia n•3 ni3 15 10 20 45 f .cond.r. = 0.33 0.22 0.44 1 ni3 n•3 X|Y =y4 Europa America Asia n•4 ni4 15 15 10 40 f .cond.r. = 0.375 0.375 0.25 1 ni4 n•4 X|Y =y5 Europa America Asia n•5 ni5 20 30 5 55 f .cond.r. = 0.364 0.545 0.09 1 ni5 n•5 13.9 3 Formalizzazione simbolica v.s. doppia X\Y x1 .. . y1 n11 .. . ... yj . . . n1 j .. . . . . yk . . . n1k .. . ni• n1• .. . xi .. . ni1 .. . ... ... nik .. . ni• .. . xh n• j nh1 n•1 . . . nh j . . . n• j . . . nhk . . . n•k nh• n ni j .. . 171 da questa derivano: • 2 variabili statistiche marginali • 2 famiglie di variabili statistiche condizionate X x1 .. . n1• .. . Y y1 .. . n•1 .. . X|y j x1 .. . n1 j .. . Y |xi y1 .. . ni1 .. . xi .. . ni• .. . yj .. . n• j .. . xi .. . ni j .. . yj .. . ni j .. . xh nh• n yk n•k n xh nh j n• j yk nik ni• 13.10 in corrispondenza v.s. doppia relativa fi j = ni j n v.s. marginali relative X xi x1 .. . xi .. . xh n1• n ni• n nh• n fi• = f1• .. . Y yj y1 .. . = fi• .. . yj .. . = fh• 1 yk ( j = 1, 2, . . . , k) n•1 n n• j n n•k n f• j = f•1 .. . = f• j .. . = f•k 1 (i = 1, 2, . . . , h) 13.11 v.s. condizionate relative X|y j xi f .cond.rel. f1 j n1 j x1 n• j = f • j .. .. . . fi j ni j xi n• j = f • j ... ... fh j nh j xh n• j = f • j 1 Y |xi y j f .cond.rel. fi1 ni1 y1 ni• = fi• .. .. . . fi j ni j yj ni• = fi• .. .. . . nik fik yk = ni• fi• 1 13.12 172 4 Indipendenza stocastica Si consideri un campione di 100 famiglie, estratte tra quelle che hanno figli adulti, per le quali sono state rilevate le variabili: X = professione paterna X\Y operaio impiegato dirigente n• j Y = scolarità dei figli elementari diploma 3 2 9 6 18 12 30 20 laurea 5 15 30 50 ni• 10 30 60 100 distribuzioni marginali X O I D ni• 10 30 60 100 Y E D L fi• 0.1 0.3 0.6 1 n• j 30 20 50 100 f• j 0.3 0.2 0.5 1 13.13 4.1 Distribuzioni condizionate X\Y operaio impiegato dirigente n• j f• j elementari 3 9 18 30 0.3 diploma 2 6 12 20 0.2 laurea 5 15 30 50 0.5 ni• 10 30 60 100 fi• 0.1 0.3 0.6 Y |x1 E D L n1• n1 j 3 2 5 10 f .cond.r. 0.3 0.2 0.5 1 Y |x2 E D L n2• n2 j 9 6 15 30 f .cond.r. 0.3 0.2 0.5 1 Y |x3 E D L n3• n3 j 18 12 30 60 f .cond.r. 0.3 0.2 0.5 1 X|y1 O I D n•1 ni1 3 9 18 30 f .cond.r. 0.1 0.3 0.6 1 X|y2 O I D n•2 ni2 2 6 12 20 f .cond.r. 0.1 0.3 0.6 1 X|y3 O I D n•3 ni3 5 15 30 50 f .cond.r. 0.1 0.3 0.6 1 Le distribuzioni condizionate relative non dipendono dalla condizione. Le distribuzioni condizionate assolute (righe/colonne) sono proporzionali. I caratteri si dicono statisticamente (stocasticamente) indipendenti Con riferimento al precedente esempio le distribuzioni delle frequenze condizionate relative sono fra loro identiche. 13.14 Quindi, sulla base dei dati disponibili • non sussiste dipendenza della professione paterna dal livello di scolarità dei figli • non sussiste dipendenza del livello di scolarità dei figli rispetto alla professione paterna 13.15 173 4.2 Definizione di indipendenza stocastica Definizione 3 (Indipendenza stocastica). Data la v.s. (m.s.) doppia (X,Y ) le componenti X e Y sono stocasticamente indipendenti se: 1. tutte le condizionate X|y j ( j = 1, 2, . . . , k) hanno la stessa distribuzione percentuale 2. tutte le condizionate Y |xi (i = 1, 2, . . . , h) hanno la stessa distribuzione percentuale 3. sono somiglianti alle rispettive marginali ni j ni• = = fi• , ∀i ( j = 1, . . . , k) n• j n n• j ni j = = f• j , ∀ j (i = 1, . . . , h) ni• n 13.16 4.3 Quadro riassuntivo indipendenza stocastica X|y j somigliante a ∼ X, ∀ j ni j ni• = ←→ n• j n somigliante a Y |xi ∼ n• j ni j = ←→ ni• n Y, ∀i ni• · n• j , ∀i, j ni j = n (condizione di fattorizzazione) 13.17 Esempio 4. (colore dei capelli)|(zona geografica) colore nero castano biondo altro Z1 0.10 0.25 0.60 0.05 1 Z2 0.30 0.30 0.30 0.10 1 Z3 0.70 0.20 0.05 0.05 1 condizionate relative diverse → non indipendenza Osservazione qui le marginali non possono essere ricostruite, perché? In definitiva i caratteri X e Y sono indipendenti se ni• · n• j = n̂i j , ni j = n ∀i, j Si osservi come ni j ni• n• j = = fi• · f• j n n n quindi, condizione di indipendenza è anche ni• n• j fi j = = fi• · f• j = fˆi j , ∀i, j n n Definizione 5 (Notazione frequenze teoriche indipendenza stocastica). ni j n̂i j = frequenze osservate = frequenze teoriche nella situazione di indipendenza stocastica 174 13.18 13.19 Osservazione L’indipendenza stocastica è una condizione simmetrica (X indip Y ↔ Y indip X) Osservazione Nella situazione di indipendenza stocastica, le frequenze congiunte n̂i j non assumono necessariamente valori interi. Osservazione La presenza di frequenze congiunte nulle implica la non-indipendenza. 13.20 Nel seguito si considereranno solo tabelle ammissibili Definizione 6 (Tabelle ammissibili). X\Y yj xi ni j ni• n• j n ni• > 0, ∀i n• j > 0, ∀ j Non figurano righe/colonne con elementi tutti nulli. 13.21 5 Dipendenza funzionale A ogni modalità della variabile esplicativa corrisponde una sola modalità della variabile dipendente Definizione 7 (Dipendenza funzionale di Y da X). Sussiste dipendenza funzionale di Y da X, y = g(x), se le distribuzioni condizionate Y |xi sono degeneri 1. k ≤ h 2. a ogni xi corrisponde un solo y j Esempio 8. Europa America Asia A f rica X\Y x1 x2 x3 x4 y1 n11 0 n31 0 y2 0 n22 0 0 y3 0 0 0 n43 13.22 Definizione 9 (Dipendenza funzionale di X da Y ). Sussiste dipendenza funzionale di X da Y , x = f (y), se le distribuzioni condizionate X|y j sono degeneri 1. h ≤ k 2. a ogni y j corrisponde un solo xi Esempio 10. Europa America Asia X\Y x1 x2 x3 y1 n11 0 0 y2 0 n22 0 y3 0 0 n33 y4 0 n24 0 13.23 175 Definizione 11 (Dipendenza funzionale biettiva). Sussiste dipendenza funzionale biettiva se 1. le distribuzioni Y |xi sono degeneri 2. le distribuzioni X|y j sono degeneri in tale situazione la tabella è quadrata e si ha una frequenza non nulla per riga/colonna Esempio 12. Europa America Asia X\Y x1 x2 x3 y1 0 n21 0 y2 n12 0 0 y3 0 0 n33 13.24 Esempio 13 (Tabelle relative a situazioni di dipendenza funzionale). X \Y Europa America Asia n• j y1 30 0 0 30 y2 y3 y4 y5 70 0 0 0 0 0 45 55 0 50 0 0 70 50 45 55 ni• 100 100 50 250 • sussiste dipendenza funzionale di X da Y • ma non sussiste dipendenza funzionale di Y da X X \Y Europa America Asia n• j y1 y2 y3 30 0 0 0 70 0 0 0 50 30 70 50 ni• 30 70 50 150 • sussiste dipendenza funzionale di Y da X e contemporaneamente • sussiste dipendenza funzionale di X da Y 13.25 Esercizio 14. Determinare le frequenze congiunte ni j in modo da realizzare la situazione di dipendenza funzionale di Y da X Soluzione X \Y x1 x2 x3 n• j y1 n11 n21 n31 10 y2 n12 n22 n32 20 ni• 10 5 15 30 X \Y x1 x2 x3 n• j y1 y2 10 0 0 5 0 15 10 20 ni• 10 5 15 30 a ogni modalità di X deve corrispondere una e una sola modalità della Y 13.26 176 Controllo delle distribuzioni condizionate n1 j Y |X=x1 n1 j f .cond.r. = n1• y1 10 1 0 0 y2 n1• 10 1 Y |X=x3 y1 y2 n3• n3 j 0 15 15 Y |X=x2 y1 y2 n2• n2 j 0 5 5 f .cond.r. = 0 1 1 n3 j n3• f .cond.r. = 0 1 1 n2 j n2• tutte le distribuzioni condizionate Y |xi sono degeneri: sussiste una relazione di dipendenza funzionale di Y (variabile dipendente) rispetto a X (variabile esplicativa) 13.27 6 Studio della dipendenza attraverso: • connessione principalmente per caratteri qualitativi • modelli di regressione (se la variabile dipendente è quantitativa) per descrivere al meglio un carattere in funzione dell’altro considereremo pertanto: • indici di connessione distanza dall’indipendenza stocastica • indici di dipendenza accostamento dei modelli teorici ai dati 13.28 Esercizio 15 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30 alberghi. Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimento, S, rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti. Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera, con riferimento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, rilevate nel 1999, della permanenza media in giorni, G, del soggiorno, condizionate rispetto alla categoria alberghiera, A. G|A A \ S non sodd. indi f f . sodd. 1.5 0.50 0.70 0.60 18 6 36 3.0 0.30 0.15 0.25 12 43 45 7.5 0.20 0.15 0.15 8 12 20 1.00 1.00 1.00 1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza effettuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A e G. 2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni G|A = e G|A = . 13.29 177 Sezione 14 Connessione (1) 14.1 Indice 1 La connessione e le sue misure 179 2 Indici di connessione 179 3 Distanze elementari: le contingenze 180 4 Indice χ 2 di Pearson 181 4.1 L’indice χ 2 come funzione delle contingenze relative . . . . . . . . . . . 181 4.2 Formula operativa dell’indice χ 2 . . . . . . . . . . . . . . . . . . . . . . 181 4.3 Normalizzazione dell’indice χ 2 . . . . . . . . . . . . . . . . . . . . . . . 182 5 Calcolo indice χ 2 5.1 Calcolo indice χ 2 con le contingenze assolute . . . . . . . . . . . . . . . 5.2 Calcolo indice χ 2 con le contingenze relative . . . . . . . . . . . . . . . 5.3 Calcolo indice χ 2 con la formula operativa . . . . . . . . . . . . . . . . . 183 183 183 184 6 Interpretazione delle contingenze relative 186 7 Esercizi 188 14.2 1 La connessione e le sue misure Definizione 1 (Connessione). Si ha connessione tra due caratteri X e Y se X e Y non sono stocasticamente indipendenti connessione = non indipendenza stocastica ovvero la mutabile (variabile) statistica doppia (X,Y ) è caratterizzata da distribuzioni condizionate non somiglianti perché distribuzioni condizionate somiglianti = indipendenza Y |x1 ∼ Y |x2 ∼ . . . ∼ Y |xh ∼ Y X|y1 ∼ X|y2 ∼ . . . ∼ X|yk ∼ X 14.3 179 2 Indici di connessione Misura della variabilità fra le distribuzioni condizionate ma anche Distanza dalla situazione di indipendenza stocastica Si confrontano ni j ni• n̂i j n• j n tabella osservata ni• n• j n tabella teorica Osservazione La tabella teorica di indipendenza è unica!! Le due tabelle hanno in comune le distribuzioni marginali ni• n• j n̂i j = n 14.4 3 Distanze elementari: le contingenze Definizione 2 (Contingenze assolute). ci j = ni j − n̂i j proprietà h k i=1 j=1 h k ∑ ci j = 0, ∑ ci j = 0, ∑ ∑ ci j = 0 i=1 j=1 Definizione 3 (Contingenze relative). ni j n̂i j Se sussiste indipendenza stocastica ci j = ni j − n̂i j = 0 e ni j = 1, n̂i j ∀i, j 14.5 Esempio 4. 3 4 7 14 8 1 1 2 5 1 14 4 12 7 13 32 5.2500 5.2500 1.5000 3.0625 3.0625 0.8750 5.6875 5.6875 1.6250 14 14 4 −2.2500 0.9375 1.3125 0 contingenze ci j assolute 2.7500 −0.5000 −2.0625 1.1250 −0.6875 −0.6250 0 0 0 0 0 0 180 ni j 12 7 13 32 n̂i j contingenze relative 0.5714 1.5238 0.6667 1.3061 0.3265 2.2857 1.2308 0.8791 0.6154 14.6 Esempio 5. X\Y x1 x2 x3 X\Y x1 x2 x3 x1 x2 x3 y1 3 1 6 10 y2 3 2 0 5 y3 3 3 9 15 y1 y2 3 1.5 2 1 5 2.5 10 5 contingenze ci j assolute y1 y2 y3 0 1.5 −1.5 −1 1 0 1 −2.5 1.5 0 0 0 9 6 15 30 y3 4.5 3 7.5 15 ni j 9 6 15 30 n̂i j contingenze relative y1 y2 x1 1 2 2 x2 0.5 0 x3 1.2 0 0 0 0 y3 0.6667 1 1.2 14.7 4 Indice χ 2 di Pearson Definizione 6. h k χ2 = ∑ ∑ c2i j i=1 j=1 n̂i j (ni j − n̂i j )2 n̂i j i=1 j=1 k h =∑∑ dove • ni j sono le frequenze congiunte osservate • n̂i j sono le frequenze teoriche nella situazione di indipendenza stocastica 4.1 14.8 L’indice χ 2 come funzione delle contingenze relative χ2 = = (ni j − n̂i j )2 n̂i j i=1 j=1 h k h k ∑∑ ∑∑ i=1 j=1 = h k ∑∑ i=1 j=1 = h k n2i j + n̂2i j − 2ni j n̂i j n̂i j n2i j 2ni j n̂i j + − n̂i j n̂i j n̂i j n2i j h h k χ n̂2i j k h ni j n̂i j i=1 j=1 n̂i j i=1 j=1 ni j h k h k ∑ ∑ ni j n̂i j + ∑ ∑ n̂i j −2 ∑ ∑ ni j i=1 j=1 2 k ∑ ∑ n̂i j + ∑ ∑ n̂i j − 2 ∑ ∑ i=1 j=1 = n̂2i j h i=1 j=1 +n k ni j = ∑ ∑ ni j −n = n n̂i j i=1 j=1 i=1 j=1 −2n h k ni j ∑ ∑ fi j n̂i j − 1 i=1 j=1 14.9 181 4.2 Formula operativa dell’indice χ 2 χ2 = k h ni j ∑ ∑ ni j n̂i j − n i=1 j=1 = = n2i j ni• n• j − n i=1 j=1 n h k n2i j k h ∑∑ n∑ ∑ i=1 j=1 ni• n• j χ 2 = n h k ∑∑ −n n2i j i=1 j=1 ni• n• j −1 14.10 4.3 Normalizzazione dell’indice χ 2 Se sussiste indipendenza stocastica ni j = n̂i j e, quindi, χ 2 = 0: 2 =0 χmin Si dimostra che nella situazione di dipendenza funzionale χ 2 = n · min(h − 1, k − 1) dove h e k sono rispettivamente il numero di modalità delle variabili X e Y (numero di righe e colonne nella tabella a doppia entrata). In conclusione, l’indice normalizzato risulta χN2 = 2 χ 2 − χmin χ2 χ2 = 2 = 2 2 χmax n · min(h − 1, k − 1) χmax − χmin 14.11 182 5 Calcolo indice χ 2 5.1 Calcolo indice χ 2 con le contingenze assolute X\Y x1 x2 x3 y1 y2 y3 3 3 3 9 1 2 3 6 ni j 6 0 9 15 10 5 15 30 X\Y y1 y2 y3 x1 3 1.5 4.5 9 x2 2 1 3 6 n̂i j 5 2.5 7.5 15 x3 10 5 15 30 y1 y2 y3 x1 0 1.5 −1.5 0 1 0 0 x2 −1 ci j = ni j − n̂i j x3 1 −2.5 1.5 0 0 0 0 0 y1 y2 y3 x1 0 1.5 0.5 2 (ni j −n̂i j )2 n̂i j x2 0.5 1 0 1.5 x1 0.2 2.5 0.3 3 (ni j − n̂i j )2 = 6.5 n̂i j i=1 j=1 h k χ2 = ∑ ∑ 14.12 5.2 Calcolo indice χ 2 con le contingenze relative X\Y x1 x2 x3 y1 y2 y3 3 3 3 9 1 2 3 6 ni j 6 0 9 15 10 5 15 30 X\Y y1 y2 y3 x1 3 1.5 4.5 9 2 1 3 6 x2 n̂i j x3 5 2.5 7.5 15 10 5 15 30 y1 y2 y3 x1 1 2 0.6667 ni j n̂i j 1 x2 0.5 2 1.2 x3 1.2 0 y1 y2 y3 n x1 3 6 2 11 ni j n̂ii jj 3 7.5 x2 0.5 4 x3 7.2 0 10.8 18 h k χ 2 = ∑ ∑ ni j i=1 j=1 ni j − n = 36.5 − 30 = 6.5 n̂i j 14.13 183 5.3 X\Y x1 x2 x3 x1 x2 x3 Calcolo indice χ 2 con la formula operativa y1 y2 y3 3 3 3 1 2 3 6 0 9 10 5 15 y1 y2 0.1000 0.2000 0.0167 0.1333 0.2400 0.0000 9 6 15 30 ni j y3 0.0667 0.1000 0.3600 0.3667 0.2500 0.6000 h k n2i j ni• n• j ∑∑ χ =n 2 n2i j i=1 j=1 ni• n• j −1 = 6.5 14.14 Esempio 7. Si riprenda l’analisi del caso con cui si è aperta la Sezione precedente (X = ’provenienza’, Y = ’secondo’) X \Y y1 Europa 30 America 5 Asia 5 40 n• j y2 y3 y4 y5 ni• 20 15 15 20 100 40 10 15 30 100 10 20 10 5 50 70 45 40 55 250 La situazione teorica di indipendenza stocastica n̂i j = ni• · n• j risulta n X \Y y1 y2 y3 y4 y5 ni• Europa 16 28 18 16 22 100 America 16 28 18 16 22 100 Asia 8 14 9 8 11 50 n• j 40 70 45 40 55 250 14.15 Le contingenze assolute ci j = ni j − n̂i j risultano X \Y Europa America Asia Le contingenze relative ni j n̂i j y2 y1 14 −8 −11 12 −3 −4 y3 y4 −3 −1 −8 −1 11 2 y5 −2 8 −6 risultano X \Y y1 y2 y3 y4 y5 Europa 1.8750 0.7143 0.8333 0.9375 0.9091 America 0.3125 1.4286 0.5556 0.9375 1.3636 Asia 0.6250 0.7143 2.2222 1.2500 0.4545 14.16 Utilizzando la definizione dell’indice χ 2 si calcolano c2i j = (ni j − n̂i j )2 X \Y Europa America Asia y1 196 121 9 y2 y3 y4 64 9 1 144 64 1 16 121 4 184 y5 4 64 36 e (ni j − n̂i j )2 n̂i j X \Y Europa America Asia y1 y2 12.25 2.2857 7.5625 5.1428 1.125 1.1429 y3 y4 y5 0.5 0.0625 0.1818 3.5556 0.0625 2.9091 13.4444 0.5 3.2727 53.9977 14.17 (ni j − n̂i j )2 = 53.9977 n̂i j i=1 j=1 k h χ2 = ∑ ∑ Con riferimento all’esempio in esame: h = 3, k = 5 : 2 = n · min(h − 1, k − 1) = 250 · min(3 − 1, 5 − 1) χmax = 250 · min(2, 4) = 250 · 2 = 500 χN2 = χ2 53.9977 = 0.108. = 2 χmax 500 Utilizzando la formula operativa si calcolano X \Y Europa America Asia y1 0.2250 0.0063 0.0125 14.18 n2i j ni• n• j y2 y3 0.0571 0.0500 0.2286 0.0222 0.0286 0.1778 y4 0.0563 0.0563 0.0500 y5 0.0727 0.1636 0.0091 1.216 χ2 = n h k n2i j ∑ ∑ ni• n• j − 1 = 250 · (1.216 − 1) = 53.9976 i=1 j=1 14.19 185 6 Interpretazione delle contingenze relative Si riprende l’esempio sulla distribuzione dei 250 ’secondi’ serviti a clienti di diversa origine geografica. X \Y Europa America Asia n• j y1 y2 y3 y4 y5 30 20 15 15 20 5 40 10 15 30 5 10 20 10 5 40 70 45 40 55 ni• 100 100 50 250 Si considerino le distribuzioni condizionate Y |X y1 y2 y3 y4 y5 Europa 0.30 0.20 0.15 0.15 0.20 America 0.05 0.40 0.10 0.15 0.30 Asia 0.10 0.20 0.40 0.20 0.10 f req.marg.rel. 0.16 0.28 0.18 0.16 0.22 X|Y Europa America Asia y1 0.750 0.125 0.125 1 y2 2/7 4/7 1/7 1 y3 15/45 10/45 20/45 1 y4 0.375 0.375 0.25 1 y5 20/55 30/55 5/55 1 1 1 1 1 f req.marg.rel. .4 .4 .2 1 14.20 Contingenze relative: ni j ni j = ni• n• j = n̂i j n ni j ni• n• j n = f (y j |xi ) = f (y j ) ni j n• j ni• n = f (xi |y j ) f (xi ) • Confrontando le frequenze osservate con le frequenze teoriche nella situazione di indipendenza stocastica abbiamo una misura relativa della frequenza congiunta osservata rispetto a quella che si avrebbe nella situazione di indipendenza stocastica. = 1.875: il consumo di ’carni arrosto’ da parte di clienti euAd esempio n̂n11 11 ropei è superiore dell’87.5% rispetto a quello che si avrebbe nella situazione di indipendenza stocastica. 14.21 • Se rapportiamo le frequenze condizionate relative f (y j |xi ) alle frequenze marginali relative f (y j ) (prima tabella di distribuzioni condizionate) confrontiamo il comportamento di Y nella distribuzione condizionata xi rispetto al comportamento ’medio’ di Y (cfr. infra). Ad esempio f (y1 |x1 ) 0.30 = = 1.875 f (y1 ) 0.16 nella composizione dei secondi consumati dai clienti europei il consumo di ’carni arrosto’ è superiore dell’87.5% rispetto a quello che si ha nella composizione dei secondi di tutti i clienti (media di riferimento). 14.22 • Se rapportiamo le frequenze condizionate relative f (xi |y j ) alle frequenze marginali relative f (xi ) (seconda tabella di distribuzioni condizionate) confrontiamo il comportamento di X nella distribuzione condizionata y j rispetto al comportamento ’medio’ di X (cfr. infra). 186 Ad esempio f (x1 |y1 ) 0.75 = = 1.875 f (x1 ) 0.4 nella composizione geografica dei clienti che hanno consumato ’carni arrosto’ la frazione di clienti europei è superiore dell’87.5% rispetto alla composizione geografica di tutti i clienti (media di riferimento). 14.23 Le frequenze marginali di Y possono essere ottenute come media ponderata delle frequenze condizionate Y |xi . n• j = n• j = n• j = n1 j + n2 j + . . . + nk j n1• n2• nk• n1 j + n2 j + . . . + nk j n1• n2• nk• nk j n1 j n2 j n1• + n2• + . . . + nk• n1• n2• nk• e dividendo per n abbiamo n• j n = f• j = nk j nk• n1 j n1• n2 j n2• + +...+ n1• n n2• n nk• n nk j n1 j n2 j f1• + f2• + . . . + fk• n1• n2• nk• Ad esempio, 1 (0.30 · 100 + 0.05 · 100 + 0.10 · 50) 250 0.16 = 0.30 · 0.4 + 0.05 · 0.4 + 0.10 · 0.2 0.16 = 14.24 Una considerazione analoga vale per le frequenze marginali di X, che possono essere ottenute come media ponderata delle frequenze condizionate X|y j . ni• = ni• = ni• = ni1 + ni2 + . . . + nih n•1 n•2 n•h ni1 + ni2 + . . . + nih n•1 n•2 n•h ni1 ni2 nih n•1 + n•2 + . . . + n•h n•1 n•2 n•h e dividendo per n abbiamo ni• n = fi• = ni1 n•1 ni2 n•2 nih n•h + +...+ n•1 n n•2 n n•h n ni1 ni2 nih f•1 + f•2 + . . . + f•h n•1 n•2 n•h Ad esempio, 0.4 = 2 15 20 1 0.75 · 40 + · 70 + · 45 + 0.375 · 40 + · 55 250 7 45 55 0.4 = 0.75 · 0.16 + 15 20 2 · 0.28 + · 0.18 + 0.375 · 0.16 + · 0.22 7 45 55 14.25 187 7 Esercizi Esercizio 8 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti alcuni dati in una tabella a doppia entrata: Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo tale che χ 2 = 0. X \Y x1 x2 n• j y1 21 X \Y x1 x2 n• j y1 20 10 y2 X \Y x1 x2 n• j y2 2 y3 ni• 14 37 ni• 3 y3 30 15 y1 y2 y3 ni• 21 0 15 14.26 Esercizio 9 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiunte del carattere quantitativo X e del carattere qualitativo ordinato Y X \Y 1 x2 y1 2 n21 n•1 y2 n12 n22 n•2 y3 n13 n23 n•3 ni• n1• n2• 14 2 e che per la variabile 1. Si completi la tabella (modalità e frequenze) in modo tale che χ 2 = χmax Y si verifichi la condizione n•1 = n•3 . 14.27 Esercizio 10 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddisfatte, se possibile, le condizioni indicate: X \Y x1 x2 x3 1. 2. y1 19 y2 y3 8 3 χN2 χN2 =1e =0e 2 χmax 2 χmax = 90 = 180 14.28 188 Sezione 15 Connessione (2) 15.1 Indice 1 Analisi grafica: costruzione di un Mosaic Plot 189 2 Student Admissions at UC Berkeley 192 2.1 Odd e Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 3 Analisi di dati multidimensionali: the Titanic data 197 4 Studio della connessione per problemi asimmetrici 198 5 Analisi delle distribuzioni condizionate 198 6 L’indice τ di Goodman Kruskal 199 7 Esercizi 199 15.2 1 Analisi grafica: costruzione di un Mosaic Plot X \Y umanistica scienti f ica tecnica Economia Giurisprudenza 20 40 35 35 25 15 80 90 Ingegneria 15 30 35 80 75 100 75 250 Se si vuole rappresentare la Facoltà scelta, Y , come dipendente dalla tipologia di diploma superiore X, occorre considerare 1. la distribuzione delle frequenze marginali relative di X 2. le distribuzioni delle frequenze condizionate relative Y |xi , i = 1, 2, 3 X u s t fi• 0.30 0.40 0.30 1.00 Y |x=u E G I ni1 n•1 0.2667 0.5333 0.2000 1.0000 Y |x=s E G I ni2 n•2 0.35 0.35 0.30 1.0000 Y |x=t E G I ni3 n•3 0.3333 0.2000 0.4667 1.0000 15.3 189 X u s t fi• 0.30 0.40 0.30 1.00 Fi• 0.30 0.70 1.00 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 15.4 X u s t fi• 0.30 0.40 0.30 1.00 Fi• 0.30 0.70 1.00 1 t 0.7 s 0.3 u 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 15.5 190 Y |x=u E G I ni1 n•1 0.27 0.53 0.20 1.00 f .c.r. cum. 0.27 0.80 1.00 Y |x=s E G I E ni2 n•2 0.35 0.35 0.30 1.00 f .c.r. cum. 0.35 0.70 1.00 G Y |x=t E G I I ni3 n•3 0.33 0.20 0.47 1.00 f .c.r. cum. 0.33 0.53 1.00 1 t 0.7 s 0.3 u 15.6 Y |x=u E G I ni1 n•1 0.27 0.53 0.20 1.00 f .c.r. cum. 0.27 0.80 1.00 Y |x=s E G I E ni2 n•2 0.35 0.35 0.30 1.00 G f .c.r. cum. 0.35 0.70 1.00 Y |x=t E G I I ni3 n•3 0.33 0.20 0.47 1.00 f .c.r. cum. 0.33 0.53 1.00 1 t 0.7 s 0.3 u 15.7 Esercizio 1. Costruire il mosaic plot per le distribuzioni condizionate X|Y j ’tipologia di provenienza’ per ciascuna Facoltà. In questo caso la rappresentazione delle distribuzioni condizionate segue una struttura verticale e non orizzontale. 191 15.8 2 Student Admissions at UC Berkeley (from the R help system) This data set is frequently used for illustrating Simpson’s paradox, see Bickel et al. (1975). At issue is whether the data show evidence of sex bias in admission practices. There were 2691 male applicants, of whom 1198 (44.5%) were admitted, compared with 1835 female applicants of whom 557 (30.4%) were admitted. This gives a sample odds ratio of 1.83, indicating that males were almost twice as likely to be admitted. In fact, graphical methods ... show that the apparent association between admission and sex stems from differences in the tendency of males and females to apply to the individual departments (females used to apply more to departments with higher rejection rates). See the home page of Michael Friendly (http://www.math.yorku.ca/SCS/friendly.html) for further information. Bickel, P. J., Hammel, E. A., and O’Connell, J. W. (1975) Sex bias in graduate admissions: Data from Berkeley. Science, 187, 398-403. 15.9 Distribuzione congiunta: Admitted Rejected Male 1198 1493 Female 557 1278 Distribuzioni marginali: freq Male 2691 Admitted Female 1835 Rejected freq 1755 2771 Distribuzione congiunta (frequenze relative fi j ): Admitted Rejected Male 0.2647 0.3299 Female 0.1231 0.2824 Distribuzioni marginali (frequenze relative fi• , f• j ): freq freq Male 0.5946 Admitted 0.3878 Female 0.4054 Rejected 0.6122 2.1 15.10 Odd e Odds Ratio Definizione 2 (Odd). Con riferimento a una variabile statistica Y dicotomica, (con due sole modalità y1 e y2 ) si definisce odd il rapporto tra le frequenze assunte da y1 e y2 . Esempio 3. Considerando il risultato del test di ammissione abbiamo 557 = 0.4358 per le femmine. maschi e 1278 1198 1493 = 0.8024 per i 15.11 Definizione 4 (Odds ratio). Con riferimento a una variabile statistica doppia (X,Y ) con Y dicotomica si definisce odds ratio il rapporto tra due odds definiti sulle distribuzioni condizionate Y |X. Esempio 5. Considerando i risultati dei test di ammissione abbiamo 1198 1493 557 1278 = 0.8024 = 1.8412 0.4358 15.12 192 Distribuzioni condizionate Admit|Gender: Male Female Gender|Admit: Admitted Rejected Admitted 0.4452 0.3035 Male 0.6826 0.5388 Rejected 0.5548 0.6965 Female 0.3174 0.4612 Rejected Rejected Admitted Female Female Male Male Admitted Admit Admit 15.13 Distribuzioni (congiunte) di Gender e Admit, condizionatamente ai diversi livelli della variabile Dept Department A Male Female Admitted 512 89 Rejected 313 19 Department B Male Female Admitted 353 17 Rejected 207 8 Department C Male Female Admitted 120 202 Rejected 205 391 Department D Male Female Admitted 138 131 Rejected 279 244 Department E Male Female Admitted 53 94 Rejected 138 299 Department F Male Female Admitted 22 24 Rejected 351 317 Dalle precedenti tabelle è possibile ricavare le informazioni relative: • al diverso grado di selettività esercitato dai 6 dipartimenti, • alla preferenza nella scelta del dipartimento. 193 15.14 15.15 Grado di selettività Department A Department B Department C Department D Department E Department F freq Admitted 0.6442 Rejected 0.3558 freq Admitted 0.6325 Rejected 0.3675 freq Admitted 0.3508 Rejected 0.6492 freq Admitted 0.3396 Rejected 0.6604 freq Admitted 0.2517 Rejected 0.7483 freq Admitted 0.0644 Rejected 0.9356 I dipartimenti sono già ordinati rispetto alla rigidità nella selezione 15.16 Scelta dipartimento Department A Department B Department C Department D Department E Department F freq Male 0.8842 Female 0.1158 freq Male 0.9573 Female 0.0427 freq Male 0.3540 Female 0.6460 freq Male 0.5265 Female 0.4735 freq Male 0.3271 Female 0.6729 freq Male 0.5224 Female 0.4776 La preferenza data dalle femmine ai diversi dipartimenti è secondo l’ordine ECFDAB 15.17 194 Distribuzioni condizionate di Admit|Gender per i diversi dipartimenti Department A Male Female Admitted 512 89 Rejected 313 19 Male Female Admitted 0.6206 0.8241 Rejected 0.3794 0.1759 Department B Male Female Admitted 353 17 Rejected 207 8 Male Female Admitted 0.6304 0.6800 Rejected 0.3696 0.3200 Department C Male Female Admitted 120 202 Rejected 205 391 Male Female Admitted 0.3692 0.3406 Rejected 0.6308 0.6594 Department D Male Female Admitted 138 131 Rejected 279 244 Male Female Admitted 0.3309 0.3493 Rejected 0.6691 0.6507 Department E Male Female Admitted 53 94 Rejected 138 299 Male Female Admitted 0.2775 0.2392 Rejected 0.7225 0.7608 Department F Male Female Admitted 22 24 Rejected 351 317 Male Female Admitted 0.0590 0.0704 Rejected 0.9410 0.9296 15.18 Student admissions at UC Berkeley Department A Department B Rejected Department C Rejected Admitted Admitted Rejected Sex Female Female Female Male Sex Male Sex Male Admitted Admit Admit Department D Department E Rejected Admitted Department F Rejected Admitted Rejected Sex Sex Admit Female Female Female Sex Male Male Male Admitted Admit Admit Admit 15.19 195 Distribuzioni condizionate di Gender|Admit per i diversi dipartimenti Department A Male Female Admitted 512 89 Rejected 313 19 Admitted Rejected Male 0.8519 0.9428 Female 0.1481 0.0572 Department B Male Female Admitted 353 17 Rejected 207 8 Admitted Rejected Male 0.9541 0.9628 Female 0.0459 0.0372 Department C Male Female Admitted 120 202 Rejected 205 391 Admitted Rejected Male 0.3727 0.3440 Female 0.6273 0.6560 Department D Male Female Admitted 138 131 Rejected 279 244 Admitted Rejected Male 0.5130 0.5335 Female 0.4870 0.4665 Department E Male Female Admitted 53 94 Rejected 138 299 Admitted Rejected Male 0.3605 0.3158 Female 0.6395 0.6842 Department F Male Female Admitted 22 24 Rejected 351 317 Admitted Rejected Male 0.4783 0.5254 Female 0.5217 0.4746 15.20 Student admissions at UC Berkeley Department A Department B Rejected Department C Rejected Admitted Admitted Rejected Sex Female Female Female Male Sex Male Sex Male Admitted Admit Admit Department D Department E Rejected Admitted Department F Rejected Admitted Sex Female Female Sex Male Sex Female Admit Rejected Male Male Admitted Admit Admit Admit 15.21 Osservazioni • Solo nei dipartimenti C ed E si ha una percentuale di successo per le femmine lievemente inferiore rispetto a quella ottenuta dai maschi. • In tali dipartimenti si osserva anche che la quota di femmine tra gli ammessi risulta inferiore alla quota di femmine tra coloro che non sono stati ammessi. • L’elevato numero di femmine che hanno fatto domanda in tali dipartimenti, unitamente al basso numero di domande presentate nei dipartimenti a bassa selettività, ha una grande influenza nella determinazione della percentuale di successo a livello ’marginale’, dando l’impressione di una discriminazione nei confronti delle candidature delle femmine. 196 15.22 3 Analisi di dati multidimensionali: the Titanic data (from the R help system) The sinking of the Titanic is a famous event. Many well-known facts – from the proportions of first-class passengers to the ’women and children first’ policy, and the fact that that policy was not entirely successful in saving the women and children in the third class – are reflected in the survival rates for various classes of passenger. The dataset Titanic consists of a 4-dimensional array resulting from cross-tabulating 2201 observations on 4 variables. The variables and their levels are as follows: No 1 2 3 4 Name Class Sex Age Survived Levels 1st, 2nd, 3rd, Crew Male, Female Child, Adult No, Yes These data were originally collected by the British Board of Trade in their investigation of the sinking. Note that there is not complete agreement among primary sources as to the exact numbers on board, rescued, or lost. > mosaicplot(Titanic) 15.23 Titanic 1st Adult 2nd Child Adult Child 3rd Adult Child Crew Adult Female Yes No Sex Male Yes No Child Class 15.24 197 4 Studio della connessione per problemi asimmetrici Si consideri la seguente tabella a doppia entrata che riassume la distribuzione delle variabili X, provenienza scolastica, e Y , Facoltà scelta. umanistica scientifica commerciale ECONOMIA 9 30 41 LETTERE 36 30 4 È ragionevole1 ritenere che la scelta della Facoltà Y possa logicamente dipendere dalla tipologia di formazione superiore conseguita X. L’indice χ 2 , che, si ricorda, ha carattere simmetrico, risulta 46.1607, con valore normalizzato χN2 = 0.3077, confermando la presenza di connessione tra le variabili in gioco. 15.25 5 Analisi delle distribuzioni condizionate Studio delle distribuzioni condizionate Y |X. Si riportano le frequenze condizionate relative Y |xi , i = 1, 2, 3. umanistica scientifica commerciale ECONOMIA 0.2000 0.5000 0.9111 LETTERE 0.8000 0.5000 0.0889 Con riferimento ai 250 casi considerati: • gli studenti provenienti da una scuola umanistica prediligono la Facoltà di Lettere; • quelli provenienti da un istituto commerciale la Facoltà di Economia; • gli studenti con maturità scientifica sono, invece, equidistribuiti tra le due Facoltà. La situazione è evidente se si considerano i valori della Moda per le distribuzioni condizionate. Per ’avvalorare’ il valore della moda si può calcolare una misura di eterogeneità. Si osserva come anche l’indice di Gini non normalizzato, G, consenta di effettuare un confronto tra i livelli di eterogeneità delle distribuzioni condizionate, essendo queste caratterizzate tutte dallo stesso numero di categorie. Con riferimento alla marginale Y : G(Y ) = 0.4978: k k ni j 2 2 G(Y |xi ) = 1 − ∑ , i = 1, . . . , h G(Y ) = 1 − ∑ f• j j=1 j=1 ni• xi umanistica scientifica commerciale Moda(Y |xi ) LETTERE ECONOMIA 15.26 G(Y |xi ) 0.32 0.5 0.162 15.27 1 Nella presente sezione si assume che X ’variabile sulle righe della tabella’ possa interpretarsi come variabile ’indipendente’, mentre Y ’variabile sulle colonne della tabella’ come variabile ’dipendente’, valga cioè la seguente relazione di causalità X →Y 198 Lo studio delle cosiddette ’differenze di eterogeneità’ G(Y ) − G(Y |xi ), i = 1, . . . , h, consente di stabilire per quali livelli della variabile X si ha una propensione della variabile Y a concentrarsi su ’poche’ categorie, o addirittura su un valore modale, dando in questo caso un contributo significativo alla connessione Moda(Y |xi ) LETTERE ECONOMIA xi umanistica scientifica commerciale G(Y |xi ) 0.32 0.5 0.162 G(Y ) − G(Y |xi ) 0.4978 − 0.32 = 0.1778 0.4978 − 0.5 = −0.0022 0.4978 − 0.162 = 0.3358 Per Y |x1 e per Y |x3 abbiamo G(Y ) − G(Y |xi ) > 0. 6 15.28 L’indice τ di Goodman Kruskal L’indice di Goodman Kruskal consiste in una sintesi (media aritmetica) delle differenze di eterogeneità, che vengono ponderate con le frequenze della variabile condizionante X: GK(Y |X) = τY |X = MX {G(Y ) − G(Y |X)} G(Y ) Si osserva che l’indice è normalizzato. xi umanistica scientifica commerciale G(Y ) − G(Y |xi ) 0.1778 −0.0022 0.3358 GK(Y |X) = τY |X = n(xi ) 45 60 45 150 22.9778 150 0.4978 mod × freq 8 -0.1333 15.1111 22.9778 = 0.3077. 15.29 Se la variabile ’dipendente’, Y , è caratterizzata da due sole categorie l’indice χN2 e l’indice di Goodman Kruskal, GK(Y |X), forniscono lo stesso valore (normalmente ciò non avviene). Solo per esercizio: GK(X|Y ) = 0.1402 questo risultato ha la sola valenza numerica e nessun senso logico in quanto basato sull’assunzione che sia la tipologia di diploma a dipendere dalla scelta della Facoltà. 7 Esercizi Esercizio 6 ( ). Nella seguente tabella è riportata la distribuzione delle frequenze congiunte delle variabili X = ’Tipologia diploma scuola superiore’ e Y = ’Facoltà universitaria’ rilevate in corrispondenza di un campione di 250 matricole. X \Y umanistica scienti f ica tecnica Economia Giurisprudenza 20 40 35 35 25 15 80 90 199 Ingegneria 15 30 35 80 75 100 75 250 15.30 1. È possibile ritenere che la scelta della facoltà dipende dal tipo di diploma? 2. Sotto quali condizioni tale conclusione è estensibile a tutta la popolazione delle matricole universitarie? 15.31 Esercizio 7 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30 alberghi. Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimento, S, rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti. Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera, con riferimento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, rilevate nel 1999, della permanenza media in giorni, G, del soggiorno, condizionate rispetto alla categoria alberghiera, A. G|A A \ S non sodd. indi f f . sodd. 1.5 0.50 0.70 0.60 18 6 36 3.0 0.30 0.15 0.25 12 43 45 7.5 0.20 0.15 0.15 8 12 20 1.00 1.00 1.00 1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza effettuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A e G. 2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni G|A = e G|A = . 3. Si calcoli una misura della connessione tra il livello di soddisfazione e la categoria alberghiera (S|A). 15.32 Esercizio 8 (T 239, 10.01.2008, 3). Completare la tabella, esplicitando anche i valori possibili per x2 e y2 , in modo tale che l’indice χ 2 normalizzato sia pari a zero: X \Y 5 x2 = 1 y2 = 3 2 15.33 Esercizio 9 (T 240, 31.01.2008, 2,3). Completare la tabella (inserendo frequenze congiunte e marginali) in modo che: a) χ 2 = 21; b) ci sia dipendenza funzionale di Y da X. X \Y x1 x2 y1 y2 14 y3 21 15.34 Esercizio 10 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti alcuni dati in una tabella a doppia entrata: Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo tale che χ 2 = 0. X \Y x1 x2 n• j y1 29 X \Y x1 x2 n• j y1 20 10 y2 10 y3 ni• 6 45 y2 11 y3 30 15 ni• 200 X \Y x1 x2 n• j y1 y2 y3 29 0 15 ni• 15.35 201 Sezione 16 Studio della dipendenza se la variabile dipendente è di tipo quantitativo 16.1 Indice 1 Introduzione 203 2 Studio di un caso 203 3 Collegamento tra scomposizione della varianza e analisi bivariata 204 4 Calcolo del rapporto di correlazione ηY2|X 205 5 Considerazioni di riepilogo 207 6 Raccordo notazione 207 7 Analisi del Rapporto di Correlazione 207 8 Relazione tra indipendenza stocastica e indipendenza in media 210 9 Esercizi 212 16.2 1 Introduzione Nella presente sezione si descrive come analizzare il comportamento congiunto di due variabili in relazione a un problema di tipo asimmetrico con: • X carattere qualitativo o quantitativo (variabile esplicativa) • Y carattere quantitativo (variabile dipendente) Si vuole studiare Y come funzione di X. Si ricorda come lo studio della dipendenza passi sempre attraverso lo studio delle distribuzioni condizionate Y |X. Dal momento che la variabile dipendente (variabile risposta/outcome) Y è di tipo quantitativo, è possibile descrivere le distribuzioni condizionate mediante appropriati indici di posizione. Utilizzeremo le medie delle distribuzioni condizionate M(Y |xi ). La scelta della media come indice sintetico verrà giustificata nelle sezioni successive, quando verrà presentato il criterio dei minimi quadrati. 203 16.3 2 Studio di un caso Un albergatore è interessato a stabilire se la struttura dei consumi per food & beverage è diversa per le due categorie di clienti che viaggiano per turismo (T ) o per lavoro (L), categorie della variabile Motivazione (X). A tal fine effettua, presso un campione di 10 soggetti, una rilevazione dei caratteri X e Y ottenendo le seguenti informazioni X T T L L T T L T L L Y 23.1 43.1 21.5 7 21.8 34.6 26.6 30.2 18 10.5 16.4 3 Collegamento tra scomposizione della varianza e analisi bivariata Sebbene risulti più semplice analizzare i dati in questione considerando la struttura per gruppi1 Turismo Lavoro 23.1 43.1 21.8 34.6 21.5 30.2 26.6 7 18 10.5 riclassifichiamo i dati in una tabella a doppia entrata SOLO per mostrare come la variabile di ragruppamento possa essere interpretata come variabile esplicativa o condizionante. X \Y T L n• j 7 0 1 1 Y |Xi T L 7 0 0.2 10.5 0 1 1 10.5 0 0.2 18 0 1 1 18 0 0.2 21.5 0 1 1 21.5 0 0.2 21.8 1 0 1 23.1 1 0 1 21.8 0.2 0 23.1 0.2 0 26.6 0 1 1 26.6 0 0.2 30.2 1 0 1 30.2 0.2 0 34.6 1 0 1 34.6 0.2 0 43.1 1 0 1 43.1 0.2 0 ni• 5 5 10 1 1 16.5 Si ricorda come sia possibile studiare il comportamento congiunto a partire da un’analisi grafica che rappresenti le coppie di valori e le medie di gruppo (medie condizionate) Possiamo rappresentare i valori assunti dalle unità statistiche appartenenti alle 2 categorie 1 cfr. calcolo delle medie potenziate in corrispondenza di valori singoli e il risultato di scomposizione della varianza 204 50 ● 40 ● 30 ● ● ● ● ● 20 ● ● 10 ● 0 Turismo Lavoro Y |X = turismo Y |X = lavoro M(Y |X = turismo) = 30.56 M(Y |X = lavoro) = 16.72 Var(Y |X = turismo) = 61.2184 Var(Y |X = lavoro) = 51.0536 16.6 Infatti: • M(Y |X = turismo) = Var(Y |X = turismo) = = 1 1 (23.1 + 43.1 + 21.8 + 34.6 + 30.2) = 152.8 = 30.56 5 5 1 (23.12 + 43.12 + 21.82 + 34.62 + 30.22 ) − 30.562 = 5 1 4975.66 − 933.9136 = 995.132 − 933.9136 = 61.2184 5 • M(Y |X = lavoro) = Var(Y |X = lavoro) = = 1 1 (23.1 + 43.1 + 21.8 + 34.6 + 30.2) = 83.6 = 16.72 5 5 1 (21.52 + 72 + 26.62 + 182 + 10.52 ) − 16.722 = 5 1 1653.06 − 279.5584 = 330.612 − 279.5584 = 51.0536 5 Stiamo quindi interpretando i dati mediante la funzione medie condizionate. 16.7 Dal momento che le medie condizionate sono fra loro diverse è possibile concludere che sussiste una forte dipendenza della variabile Y dalla variabile X =motivazione del soggiorno? Per rispondere al quesito occorre considerare il risultato di scomposizione della varianza e calcolare il rapporto di correlazione ηY2|X Notazione Nel presente contesto (analisi bivariata) la varianza Between e la varianza Within sono anche denominate varianza spiegata e varianza residua. 16.8 205 4 Calcolo del rapporto di correlazione ηY2|X In primo luogo calcoliamo media e varianza della variabile statistica medie condizionate M(Y |X) xi M(Y |xi ) ni T 30.56 5 L 16.72 5 le cui modalità sono le medie condizionate (medie di gruppo), con frequenze le numerosità delle categorie della variabile condizionante (numerosità di gruppo) M(Y |xi ) 30.56 16.72 ni M(Y |xi ) · ni {M(Y |xi )}2 · ni 5 152.8 4669.568 5 83.6 1397.792 10 236.4 6067.36 MX {M(Y |X)} = 1 h 1 ∑ modalità · frequenze = 10 236.4 = 23.64 = M(Y ) n i=1 VarX {M(Y |X)} = σB2 = = 1 6067.36 − 23.642 = 606.736 − 558.8496 = 47.8864 10 varianza momento = − media2 = spiegata secondo 16.9 È possibile ricostruire la variabile statistica varianze condizionate Var(Y |X) xi Var(Y |xi ) T 61.2184 L 51.0536 ni 5 5 10 le cui modalità sono le varianze condizionate (varianze di gruppo), con associate come frequenze le numerosità delle categorie della variabile condizionante (numerosità di gruppo). La media di tale variabile statistica risulta Var(Y |xi ) 61.2184 51.0536 MX {Var(Y |X)} ni Var(Y |xi )ni 5 306.092 5 255.268 10 561.36 1 h varianza = ∑ modalità · frequenze = residua n i=1 = σW2 = = 1 561.36 = 56.136 10 16.10 La varianza della variabile statistica marginale Y (varianza generale calcolata su tutte le unità statistiche) può essere ottenuta come σY2 = varianza spiegata + varianza residua = σB2 + σW2 = 47.8864 + 56.136 = 104.0224 206 Si può, infatti, verificare che Var(Y ) = = 1 (23.12 + 43.12 + 21.52 + 72 + 21.82 + 34.62 + 26.62 + 30.22 + 182 + 10.52 ) − 23.642 10 1 (6628.72) − 558.8496 = 662.872 − 558.8496 = 104.0224 10 16.11 Abbiamo, quindi VarX {M(Y |X)} = σB2 = 47.8864 MX {Var(Y |X)} = σW2 = 56.136 e σ 2 = 104.0224 quindi 47.8864 = 0.4603 104.0224 il rapporto di correlazione assume un valore moderato. Non sussiste, quindi, un livello di dipendenza così forte tra la spesa per food & beverage e la motivazione del soggiorno. η2 = 5 Considerazioni di riepilogo Considerazioni di riepilogo • È possibile concludere che sussiste dipendenza della variabile Y = spesa per food & beverage dalla variabile X = motivazione del viaggio in quanto le medie condizionate sono fra loro diverse (Varianza delle medie condizionate) • Tale considerazione non garantisce un livello elevato di dipendenza in quanto le medie condizionate devono essere ’rappresentative’ delle rispettive distribuzioni condizionate • Si deve, quindi, anche considerare la variabilità delle rispettive distribuzioni condizionate • Affinché le medie condizionate siano rappresentative è necessario che le varianze condizionate assumano valore piccolo (Media delle varianze condizionate) 16.12 6 Raccordo notazione Proprietà Associativa della media aritmetica media generale = media delle medie di gruppo M(Y ) = MX {M(Y |X)} Scomposizione varianza σB2 = + σW2 = = 2 = σ(globale) varianza spiegata = VarX {M(Y |X)} + + varianza residua = MX {Var(Y |X)} = = varianza dipendente = Var(Y ) 16.13 207 7 Analisi del Rapporto di Correlazione Osservazione • medie condizionate tra loro molto diverse → varianza spiegata ↑ • varianze condizionate piccole → varianza residua ↓ Precedentemente si era utilizzato il Rapporto di Correlazione per stabilire se è opportuno effettuare una segmentazione delle unità statistiche; l’indice consente di sintetizzare le due considerazioni riportate nella precedente Osservazione. Definizione 1 (Rapporto di correlazione). ηY2|X = = var.spiegata VarX {M(Y |X)} = Var(Y ) Var(Y ) var.residua MX {Var(Y |X)} 1− = 1− Var(Y ) Var(Y ) 16.14 Interpretazione • è interpretabile anche come rapporto di composizione in quanto var. spiegata + var. residua = var. totale dipendente 0 ≤ η2 ≤ 1 • quota di variabilità spiegata dalla funzione medie condizionate Si analizzano ora le situazioni a cui corrispondono i valori estremi di η 2 ηY2|X 16.15 =0 ηY2|X = VarX {M(Y |X)} Var(Y ) quindi ηY2|X = 0 ↔ VarX {M(Y |X)} = 0 la variabile statistica ’medie condizionate’ M(Y |X) ha varianza nulla (è degenere) M(Y |x1 ) = M(Y |x2 ) = . . . = M(Y |xh ) = M(Y ) situazione di indipendenza in media y ● ● ● ● ● ● ● ● ● ● ● x1 x2 ... xh 16.16 ηY2|X =1 ηY2|X = 1 − MX {Var(Y |X)} Var(Y ) quindi ηY2|X = 1 ↔ MX {Var(Y |X)} = 0 208 la variabile statistica ’varianze condizionate’ Var(Y |X) ha media nulla ma Var(Y |x1 ) ≥ 0,Var(Y |x2 ) ≥ 0, . . . ,Var(Y |xh ) ≥ 0 quindi MX {Var(Y |X)} = 0 ↔ Var(Y |x1 ) = . . . = Var(Y |xh ) = 0 le distribuzioni condizionate Y |xi sono degeneri, situazione di dipendenza funzionale. y ● ● ● x1 x2 ... xh 16.17 Osservazione In tutte le precedenti considerazioni la variabile X ha svolto il ruolo di carattere condizionante, come mera variabile di raggruppamento; potrebbe, quindi, essere di tipo • qualitativo (genere, regione geografica, tipo di cliente, classe di età o di reddito) • o quantitativo (numero componenti famiglia, età) In entrambi i casi, da un punto di vista operativo, non dovrebbe essere caratterizzata da un numero troppo elevato di categorie/modalità (eventuale ricodifica in un numero ridotto di categorie/classi). Esercizio 2. Con riferimento a 20 unità statistiche sono state rilevate le variabili X1, X2, Y, Z e W. i x1i 1 1 2 1 3 1 4 1 5 1 6 2 7 2 8 2 9 2 10 3 11 3 12 3 13 4 14 4 15 4 16 4 17 4 18 4 19 4 20 4 x2i 1 1 2 2 3 2 3 4 4 3 4 4 1 1 3 2 2 3 3 4 yi 38 39 40 41 42 47 43 46 44 42 41 43 47 49 49 43 48 43 45 44 209 zi wi 36 32.75 38 34.75 40 36.2 42 38.2 44 40 49 50.2 41 42 47 48.4 43 44.4 42 40 40 38.4 44 42.4 48 50.75 52 54.75 52 54 40 42.2 50 52.2 40 42 44 46 42 44.4 16.18 Si vuole studiare la dipendenza: A di Y in funzione di X1 C di Y in funzione di X2 B di Z in funzione di X1 D di W in funzione di X2 medie condizionate diverse - bassa variabilità distribuzioni condizionate A X1 X1 X1 1 2 M(Y|X1) 40 45 Var(Y|X1) 2 2.5 n(Y|X1) 5 4 X1 3 42 X1 4 46 0.6667 5.75 3 8 60 55 55 50 50 45 45 40 40 35 1 2 3 4 5 medie condizionate diverse - elevata variabilità distribuzioni condizionate X1 X1 X1 1 2 M(Z|X1) 40 45 Var(Z|X1) 8 10 n(Z|X1) 5 4 X1 3 42 2.6667 3 X1 4 46 23 8 X2 3 4 44 43.6 6 2.64 60 55 50 50 45 45 40 40 35 35 30 30 1 2 M(Y)=MX1[M(Y|X1)] 3 4 2 3 4 6 5 5 D X2 X2 X2 1 2 M(W|X2) 43.3 43.8 Var(W|X2) 92.75 40.64 n(W|X2) 4 5 0 1 2 M(Y)=MX2[M(Y|X2)] 43.7 2 M(Z)=MX1[M(Z|X1)] 5 1 medie condizionate simili - elevata variabilità distribuzioni condizionate 55 3 4 43.7 2 MX1[M(Y |X1)] 1916 varianza spiegata VarX1[M(Y|X1)] 6.31 varianza residua MX1[Var(Y|X1)] 3.4 Var(Y)=var.spieg.+var.res. 9.71 rapporto di correlazione 0.649846 B 0 60 0 A X2 30 0 B C X2 X2 X2 1 2 M(Y|X2) 43.3 43.8 Var(Y|X2) 23.1875 10.16 n(Y|X2) 4 5 35 30 16.19 medie condizionate simili - bassa variabilità distribuzioni condizionate 60 24 10.56 6 5 5 C MX2[M(Y |X2)] 1909.763 VarX2[M(Y|X2)] 0.0725 varianza spiegata MX2[Var(Y|X2)] 9.6375 varianza residua Var(Y)=var.spieg.+var.res. 9.71 rapporto di correlazione 0.007467 M(W)=MX2[M(W|X2)] 43.7 MX1[M(Z2|X1)] 43.7 2 MX2[M(W |X2)] 1916 varianza spiegata VarX1[M(Z|X1)] 6.31 varianza residua MX1[Var(Z|X1)] 13.6 Var(Z)=var.spieg.+var.res. 19.91 rapporto di correlazione 0.316926 D 1909.763 VarX2[M(W|X2)] 0.0725 varianza spiegata MX2[Var(W|X2)] 38.55 varianza residua Var(W)=var.spieg.+var.res. 38.6225 rapporto di correlazione 0.001877 A 1a situazione di riferimento (medie condizionate diverse e rappresentative) C 2a situazione di riferimento (medie condizionate simili e poco rappresentative) B aumento variabilità distribuzioni condizionate D aumento variabilità distribuzioni condizionate 8 Relazione tra indipendenza stocastica e indipendenza in media Relazione tra indipendenza stocastica e indipendenza in media indipendenza stocastica Y |xi ∼ Y X2 X2 3 4 44 43.6 ↔ X|y j ∼ X ↓ ↑\/ ↓ ↑\/ M(Y |xi ) = M(Y ) i = 1, 2, . . . , h ηY2|X = 0 M(X|y j ) = M(X) j = 1, 2, . . . , k 2 =0 ηX|Y indipendenza in media Nella parte in basso a destra della precedente relazione si è assunto che anche X sia di tipo quantitativo. 210 16.20 Osservazione 2 possono anche essere molto differenti ηY2|X e ηX|Y 16.21 Indipendenza in media (biettiva) ma non indipendenza stocastica y2 − b y2 0 20 10 30 0 20 X \Y x2 − c x2 x2 + c y2 + b 0 10 0 abbiamo y x ● ● ● ● ● ● ● ● ● ● y x μY (x1 ) = μY (x2 ) = μY (x3 ) = y2 μX (y1 ) = μX (y2 ) = μX (y3 ) = x2 e ηY2|X = 0 2 =0 ηX|Y 16.22 Indipendenza in media in una direzione (di X da Y ) e non indipendenza in media nell’altra X \Y x2 − c x2 x2 + c y1 0 10 0 y2 20 30 20 y3 10 0 10 abbiamo y x ● ● ● ● ● ● ● ● ● ● ● y x μY (x1 ) = μY (x3 ) > μY (x2 ) ● e μX (y1 ) = μX (y2 ) = μX (y3 ) = x2 ηY2|X > 0 2 =0 ηX|Y 16.23 211 9 Esercizi Esercizio 3. Si completino, se possibile, le seguenti tabelle a doppia entrata con le opportune frequenze congiunte relative in modo tale che: a) le variabili X e Y siano stocasticamente indipendenti X \ Y y1 y2 y3 x1 0.4 x2 0.6 0.2 0.6 0.2 1 b) sussiste dipendenza funzionale di Y da X X \ Y y1 y2 y3 x1 0.4 x2 0.6 0.2 0.6 0.2 1 c) sussiste dipendenza funzionale di X da Y X \ Y y1 y2 y3 x1 0.4 x2 0.6 0.2 0.6 0.2 1 16.24 Esercizio 4 (continuazione). Si completino, se possibile, le seguenti tabelle a doppia entrata con le opportune frequenze congiunte relative in modo tale che: d) sussistono contemporaneamente: dipendenza funzionale di X da Y indipendenza in media di Y da X X \Y x1 x2 y1 0.2 y2 0.6 y3 0.2 0.4 0.6 1 e) si realizzino contemporaneamente le seguenti condizioni: ⎧ ⎨ indipendenza in media di Y da X non ci sia dipendenza funzionale di X da Y ⎩ X e Y non siano stocasticamente indipendenti X \Y x1 x2 y1 0.2 y2 0.6 y3 0.2 0.4 0.6 1 16.25 Esercizio 5 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiunte del carattere quantitativo X e del carattere qualitativo ordinato Y X \Y 1 x2 y1 2 n21 n•1 y2 n12 n22 n•2 y3 n13 n23 n•3 ni• n1• n2• 14 1. Si completi la tabella (modalità e frequenze) in modo che contemporaneamente ci sia indipendenza in media di X da Y e la moda di Y sia y2 . 16.26 212 Esercizio 6 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddisfatte, se possibile, le condizioni indicate: X \Y x1 x2 x3 1. y1 19 y2 y3 8 3 2 ηX|Y =0e ηY2|X = 0 16.27 Esercizio 7 (T 256, 28.01.2010, 5). Si indichi, senza effettuare calcoli e motivando le risposte, 2 e χ2 . il valore (o l’intervallo di valori) assunto dagli indici ηY2|X , ηX|Y N X \Y 4 6 1 9 0 2 0 8 3 0 6 16.28 Esercizio 8 (T 264-3, 07.07.2011, 4). Si completi se possibile la seguente tabella, riportando modalità e frequenze e motivando teoricamente la risposta, in modo tale che: X \Y 1 2 3 2 2 5 5 2 0 2 8 2 <1 1. ηY2|X < ηX|Y 2 2. ηY2|X = ηX|Y 16.29 Esercizio 9 (T 267, 26.01.2012, 5). Se possibile e giustificando teoricamente le risposte, si completi la seguente tabella in modo da soddisfare le condizioni sotto indicate. X \ Y 10 30 5 1 6 10 5 2 = 1, η 2 = 0 1. ηX|Y Y |X 2 = 0, χ 2 = 0 2. ηX|Y 2 = 1, η 2 = 1 3. ηX|Y Y |X 16.30 Esercizio 10 (T 269-2, 28.06.2012, 4). Dati due caratteri Z e W , indicare che valore assume 2 l’indice ηZ|W nelle seguenti ipotesi: 1. l’indice di connessione χ 2 assume valore zero; 2. la media delle varianze condizionate è pari a 3 volte la varianza delle medie condizionate; 3. la distribuzione delle medie condizionate e delle varianze condizionate è la seguente w1 w2 w3 M(Z|W ) 2 4 6 2 7 7 7 σZ|W frequenze marginali di W 20 10 20 16.31 Esercizio 11 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le risposte, si completi la seguente tabella in modo da soddisfare le condizioni sotto indicate. X \Y 3 9 2 2 2 6 2 1. ηY2|X = ηX|Y 16.32 213 Sezione 17 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (1) 17.1 Indice 1 Introduzione 215 2 Funzioni delle componenti di una variabile statistica doppia 215 3 Media di una funzione di una variabile statistica doppia 216 4 La Covarianza 218 5 Interpretazione della Covarianza 218 6 Media di una combinazione lineare 224 7 Varianza di una combinazione lineare 225 8 Covarianza tra trasformazioni lineari 226 17.2 1 Introduzione Si premettono alcuni complementi sulla variabile statistica doppia • • • • funzioni delle componenti di una variabile statistica doppia media di una funzione delle componenti di una variabile statistica doppia covarianza media di una combinazione lineare delle componenti di una variabile statistica doppia • varianza di una combinazione lineare delle componenti di una variabile statistica doppia • covarianza tra trasformazioni lineari 2 Funzioni delle componenti di una variabile statistica doppia W = f (X,Y ) = X +Y 215 17.3 • reddito coniugi → reddito familiare • peso veicolo + peso carico = peso lordo y1 = 5 y2 = 15 y3 = 25 X \Y x1 = 15 3 9 18 2 6 12 x2 = 25 5 15 30 x3 = 35 n• j 10 30 60 wk 20 30 40 50 60 nk = nk 3 2+9 5 + 6 + 18 15 + 12 30 100 ∑ ni• 30 20 50 100 f −1 (30) = {(25, 5), (15, 15)} ni j = {(xi ,y j ): f (xi ,y j )=wk } ∑ ni j = ∑ ni j {(xi ,y j )= f −1 (wk )} {(xi ,y j ):xi +y j =wk } 17.4 3 Media di una funzione di una variabile statistica doppia Definizione 1 (Media di una funzione di una variabile statistica doppia). L’operatore media aritmetica assume la seguente struttura • 1 h k M(W ) = M{ f (X,Y )} = ∑ ∑ f (xi , y j )ni j n i=1 j=1 in presenza di una variabile statistica doppia (tabella a doppia entrata) • M(W ) = M{ f (X,Y )} = 1 n ∑ f (xi , yi ) n i=1 quando si considerano le coppie di valori (ciascuna coppia figura una sola volta) 17.5 Esempio 2 (W = X + Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo calcolare la media sulla variabile W (dopo averla ricostruita) wk 20 30 40 50 60 nk wk nk 3 60 11 330 29 1160 27 1350 30 1800 100 4700 k M(W ) = ∑ wk nk = 47 i=1 oppure applicare la formula dell’operatore media alla serie statistica doppia (X,Y ) (xi + y j )ni j x1 = 15 x2 = 25 x3 = 35 y1 = 5 (15 + 5) · 3 = 60 (25 + 5) · 2 = 60 (35 + 5) · 5 = 200 y2 = 15 (15 + 15) · 9 = 270 (25 + 15) · 6 = 240 (35 + 15) · 15 = 750 y3 = 25 (15 + 25) · 18 = 720 (25 + 25) · 12 = 600 (35 + 25) · 30 = 1800 4700 216 M(X +Y ) = 1 h k 1 (xi + y j )ni j = 4700 = 47 = M(X) + M(Y ) = 27 + 20 ∑ ∑ n i=1 j=1 100 17.6 Esempio 3 (W = X +Y , coppie valori). Si considerino le seguenti coppie di informazioni relative alle variabili X e Y xi 3 2 1 4 2 yi 6 4 4 6 5 l’applicazione della formula dell’operatore media consiste nel calcolare la media della variabile somma yi wi = xi + yi xi 3 6 9 2 4 6 1 4 5 4 6 10 2 5 7 12 25 37 ∑ M = ∑ /n 2.4 5 7.4 M(X) M(Y ) M(X +Y ) Oppure, ricordando che l’operatore media è lineare M(X +Y ) = 7.4 = M(X) + M(Y ) = 2.4 + 5 17.7 Esempio 4 (W = X ·Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo calcolare la media sulla variabile W (dopo averla ricostruita) wk 75 125 175 225 375 525 375 625 875 nk wk nk 3 225 2 250 5 875 9 2025 6 2250 15 7875 18 6750 12 7500 30 26250 100 54000 k M(W ) = ∑ wk nk = 540 i=1 oppure possiamo applicare direttamente la formula dell’operatore media alla serie statistica doppia (X,Y ) xi y j ni j x1 = 15 x2 = 25 x3 = 35 y1 = 5 15 · 5 · 3 = 225 25 · 5 · 2 = 250 35 · 5 · 5 = 875 y2 = 15 15 · 15 · 9 = 2025 25 · 15 · 6 = 2250 35 · 15 · 15 = 7875 y3 = 25 15 · 25 · 18 = 6750 25 · 25 · 12 = 7500 35 · 25 · 30 = 26250 54000 M(X ·Y ) = 1 1 h k ∑ ∑ (xi · y j )ni j = 100 54000 = 540 n i=1 j=1 17.8 Esempio 5 (W = X ·Y , coppie valori). Si considerino le seguenti coppie di informazioni relative alle variabili X e Y xi 3 2 1 4 2 yi 6 4 4 6 5 217 ∑ M = ∑ /n xi yi xi yi 3 6 18 2 4 8 1 4 4 4 6 24 2 5 10 12 25 64 2.4 5 12.8 M(X) M(Y ) M(XY ) Si osserva come M(XY ) = 12.8 = M(X)M(Y ) = 2.4 · 5 = 12 17.9 4 La Covarianza Definizione 6 (Covarianza). Cov(X,Y ) = M[(X − μX )(Y − μY )] con μX = M(X) μY = M(Y ) Applicando la proprietà dell’operatore media aritmetica come operatore lineare Cov(X,Y ) = M[(X − μX )(Y − μY )] = = M(XY − X μY − μX Y + μX μY ) = = M(XY ) − μY M(X) − μX M(Y ) + μX μY = = M(XY ) − μX μY − μX μY + μX μY = M(XY ) − μX μY = si ottiene la seguente formula operativa Cov(X,Y ) = M(XY ) − M(X)M(Y ) 17.10 Con riferimento ai due esempi precedenti: • tabella a doppia entrata Cov(X,Y ) = M(XY ) − μX μY = 540 − 27 · 20 = 540 − 540 = 0 • coppie valori Cov(X,Y ) = M(XY ) − μX μY = 12.8 − 2.4 · 5 = 12.8 − 12 = 0.8 5 Interpretazione della Covarianza Si riprende la definizione di covarianza Cov(X,Y ) = M[(X − μX )(Y − μY )] la cui scrittura estesa, nel caso di coppie di osservazioni, risulta Cov(X,Y ) = 1 n ∑ (xi − μX )(yi − μY ) n i=1 Implica, quindi, il calcolo 218 17.11 1. delle medie (marginali) μX e μY di X e Y 2. degli scarti dalle medie (xi − μX ) e (yi − μY ) 3. della media del prodotto di tali scarti Il segno della covarianza dipende dal segno degli addendi (xi − μX )(yi − μY ) che figurano nella sommatoria Si consideri la rappresentazione grafica delle seguenti coppie di osservazioni (xi , yi ) xi 3.5 3 1 4 2 3 3 2 2 1 17.12 yi 6 4 3.5 6 5.5 5 7 3 6 2 17.13 7 ● 6 ● ● ● ● 5 ● 4 ● ● 3 ● 0 1 2 ● 0 1 2 3 possiamo identificare sul grafico le medie di X e Y : μX = 2.45, μY = 4.8 219 4 5 17.14 7 ● 6 ● ● ● ● ● 5 μY 4 ● ● 3 ● 0 1 2 ● 0 1 2 μX 3 4 5 tracciare le 2 rette perpendicolari in corrispondenza di μX = 2.45 e μY = 4.8 17.15 7 ● 6 ● ● ● ● ● 5 μY 4 ● ● 3 ● 0 1 2 ● 0 1 2 μX 3 4 5 e qualificare il contributo alla covarianza dato dai punti nei quattro quadranti 220 17.16 7 ● (+) (+) = (+) 6 ● ● ● ● ● 5 μY 4 ● ● 3 ● 0 1 2 ● 0 1 2 μX 3 4 5 i punti nel quadrante in alto a destra hanno coordinate xi > μX e yi > μY → danno contributo positivo 17.17 7 ● (+) (+) = (+) 6 ● ● ● ● ● 5 μY 4 ● ● 3 ● (+) (−) = (−) 0 1 2 ● 0 1 2 μX 3 i punti nel quadrante in basso a destra hanno coordinate xi > μX e yi < μY → danno contributo negativo 221 4 5 17.18 7 ● (+) (+) = (+) 6 ● ● ● ● ● 5 μY 4 ● ● 3 ● 2 (−) (−) = (+) 0 1 (+) (−) = (−) ● 0 1 2 μX 3 4 5 i punti nel quadrante in basso a sinistra hanno coordinate xi < μX e yi < μY → danno contributo positivo 17.19 7 ● (−) (+) = (−) (+) (+) = (+) 6 ● ● ● ● ● 5 μY 4 ● ● 3 ● 2 (−) (−) = (+) 0 1 (+) (−) = (−) ● 0 1 2 μX 3 i punti nel quadrante in alto a sinistra hanno coordinate xi < μX e yi > μY → danno contributo negativo 222 4 5 17.20 7 conclusione (1) ● ● ● ● ● ● ● ● 6 ●● ● ● ● ● ● ● ● ● 5 ● ● 4 ● ● 3 ●● 2 Cov(X, Y) > 0 ● ● 1 ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● μY ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ●● 0 ● ● 1 μX 2 ● 3 4 5 se sono più frequenti i punti nelle regioni in alto a destra e in basso a sinistra potremo aspettarci un valore positivo della covarianza 17.21 conclusione (2) ● 7 ● ● ● 6 ●● ● ● ● ● ● ● ● ● ● ● 5 Cov(X, Y) < 0 ● ● ● ● ● ● ●● 4 ● ●● ● ● ● ● ● ● ● ● ● μY 3 ●●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● 2 ● ● ● ● 1 ● ● ● ● ● ● ● ● ● 0 ● ● 0 1 2 μX 3 4 ● ● ● 5 ● se sono più frequenti i punti nelle regioni in basso a destra e in alto a sinistra potremo aspettarci un valore negativo della covarianza Interpretazione della Covarianza La covarianza fornisce, quindi, informazioni sulla tipologia di relazione esistente tra le due variabili • se sussiste una dipendenza di tipo diretto Cov(X,Y ) > 0 a valori elevati della X corrispondono valori elevati della Y a valori piccoli della X corrispondono valori piccoli della Y 223 17.22 • se sussiste una dipendenza di tipo inverso Cov(X,Y ) < 0 a valori elevati della X corrispondono valori piccoli della Y a valori piccoli della X corrispondono valori elevati della Y Esempio 7. Dalle nozioni di Economia Politica • relazione tra X = prezzo e Y = domanda: Cov(X,Y ) < 0 • relazione tra X = prezzo e Y = offerta: Cov(X,Y ) > 0 17.23 Esempio 8. Con riferimento ai dati seguenti ∑ ∑ /n xi 3.5 3 1 4 2 3 3 2 2 1 24.5 2.45 M(X) yi 6 4 3.5 6 5.5 5 7 3 6 2 48 4.8 M(Y ) xi · yi 21 12 3.5 24 11 15 21 6 12 2 127.5 12.75 M(XY ) Cov(X,Y ) = M(XY ) − μX μY = 12.75 − 2.45 · 4.8 = 12.75 − 11.76 = 0.99 17.24 6 Media di una combinazione lineare Teorema 9 (Media di una combinazione lineare). Siano X e Y due variabili statistiche con medie μX e μY e sia W = a + bX + cY. Allora M(W ) = a + bM(X) + cM(Y ). Dimostrazione. M(W ) = M(a + bX + cY ) = a + bM(X) + cM(Y ). ricordando che la media è un operatore lineare. 17.25 224 Dimostrazione. La dimostrazione può anche essere svolta considerando la definizione dell’operatore media aritmetica per una variabile statistica doppia M(a + bX + cY ) = = 1 h k ∑ ∑ (a + bxi + cy j )ni j n i=1 j=1 k h ∑ ∑ (a + bxi + cy j ) fi j i=1 j=1 = k h i=1 j=1 = k h k h ∑ ∑ a fi j + ∑ ∑ bxi fi j + ∑ ∑ cy j fi j h i=1 j=1 i=1 j=1 h k k h i=1 j=1 j=1 i=1 k a ∑ ∑ fi j + b ∑ xi ∑ fi j + c ∑ y j ∑ fi j i=1 j=1 h k i=1 j=1 = a · 1 + b ∑ xi fi• + c ∑ y j f• j = = a + bμX + cμY . 17.26 7 Varianza di una combinazione lineare Teorema 10 (Varianza di una combinazione lineare). Siano X e Y due variabili statistiche con medie μX , μY , varianze σX2 , σY2 e covarianza Cov(X,Y ) = σXY . Si definisca W = a + bX + cY. Allora Var(W ) = b2Var(X) + c2Var(Y ) + 2bcCov(X,Y ). Esempio 11. μX = 5, μY = 10, σX2 = 4, σY2 = 5, σXY = 4.5 Se W = 10 − 5X + 2Y allora a = 10, b = −5, c = +2 Var(W ) = (−5)2 · 4 + 22 · 5 + 2 · (−5) · 2 · 4.5 = 100 + 20 − 90 = 30 225 17.27 Dimostrazione. ! " Var(W ) = M [W − M(W )]2 " ! = M [a + bX + cY − M(a + bX + cY )]2 " ! = M [a + bX + cY − a − bμX − cμY )]2 ! " = M [bX + cY − bμX − cμY )]2 = M [b(X − μX ) + c(Y − μY )]2 = M b2 (X − μX )2 + c2 (Y − μY )2 + +2bc(X − μX )(Y − μY )] 2 2 2 = b M (X − μX ) + c M (Y − μY )2 + +2bc M [(X − μX )(Y − μY )] = = b2Var(X) + c2Var(Y ) + 2bcCov(X,Y ) b2 σX2 + c2 σY2 + 2bc σXY 17.28 8 Covarianza tra trasformazioni lineari Teorema 12 (Covarianza tra trasformazioni lineari). Siano X e Y due variabili statistiche con medie μX , μY , varianze σX2 , σY2 e covarianza Cov(X,Y ). Si definiscano W = a + bX e T = c + dY. Allora Cov(W, T ) = bd Cov(X,Y ). 17.29 Dimostrazione. Cov(W, T ) = M {[W − M(W )][T − M(T )]} = M {[a + bX − M(a + bX)][c + dY − M(c + dY )]} = M {[a + bX − a − bμX )][c + dY − c − dμY )]} = M {[bX − bμX )][dY − dμY )]} = M {bd[X − μX )][Y − μY )]} = bd M {[X − μX )][Y − μY )]} = bd Cov(X,Y ) 17.30 226 Sezione 18 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (2) 18.1 Indice 1 La dipendenza e le sue misure 227 2 I modelli di regressione 228 3 Il criterio dei minimi quadrati 230 4 Soluzione del problema: La funzione di Regressione 231 5 Origine del termine regressione 232 6 Adattamento e dipendenza 235 7 I polinomi di regressione 236 18.2 1 La dipendenza e le sue misure Come si è visto nelle sezioni precedenti lo studio della dipendenza passa attraverso lo studio delle distribuzioni condizionate: studio condizionate → studio connessione • condizionate somiglianti = indipendenza • condizionate diverse = dipendenza • condizionate degeneri = dipendenza funzionale In più, data una v.s. doppia (X,Y ), quando la variabile dipendente (Y ) è quantitativa ci si propone di descrivere al meglio l’andamento (la dinamica) del livello di Y al variare di X. 18.3 227 Esempio 1 (la scaltra commessa del negozio di scarpe). Per prevedere la lunghezza del piede del cliente considera le informazioni relative a un campione di soggetti yj nj 37 3 lunghezza piede di 90 maschi adulti 38 39 40 41 42 43 44 45 5 8 12 16 21 13 8 3 M(Y ) = 41.3667, 46 1 90 Var(Y ) = 3.81 Ipotizzando che il campione estratto sia rappresentativo dei clienti del negozio, preso a caso un maschio adulto possiamo affermare che la lunghezza del suo piede è in media tra 41 e 42. Più correttamente applicando la diseguaglianza di Tchebychev • con t = 2 una frazione degli √ individui almeno pari al 75% avrà lunghezza del piede nell’intervallo 41.4 ± 2 · 3.8 = [37.5, 45.3] • con t = 3 una frazione degli √ individui almeno pari al 89% avrà lunghezza del piede nell’intervallo 41.4 ± 3 · 3.8 = [35.5, 47.2] 18.4 La commessa osserva, però, anche l’altezza del cliente prima di suggerire un articolo; con riferimento al campione abbiamo (X = altezza in cm) Y \X 37 38 39 40 41 42 43 44 45 46 medie varianze 160 2 3 3 4 3 2 170 1 2 4 6 7 9 6 2 180 17 37 39.5294 2.3668 41.0811 2.8853 190 29 1 1 2 2 1 7 3 5 8 12 16 21 13 8 3 1 90 42.1379 1.843 44.1429 1.551 41.3667 3.81 1 2 6 9 6 4 1 Considerato un individuo di altezza 160 possiamo dire che Y è in media tra 39 e 40 (con maggior precisione!) Var(Y |X = 160) = 2.3668 < Var(Y ) = 3.81 I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 2 risultano X limin f limsup 160 36.5 42.6 170 37.7 44.5 180 39.4 44.9 190 41.7 46.6 18.5 37.5 45.3 I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 3 risultano X limin f limsup 160 34.9 44.1 170 36 46.2 180 38.1 46.2 190 40.4 47.9 35.5 47.2 18.6 228 2 I modelli di regressione Definizione 2 (I modelli di regressione). Sono funzioni che descrivono il legame tra Y e X (studio della dipendenza) vengono così definiti dei modelli teorici che possono essere utilizzati per approssimare le osservazioni (interpolazione) Y ∗ = g(X) Y = g(X) + E ovvero yi = g(xi ) + ei y j = g(xi ) + ei j dove E è la componente di errore, che riassume gli scostamenti di Y da Y ∗ dovuti • alla misurazione • al modello (altre esplicative non disponibili o non considerate). 18.7 Nella seguente tabella sono riassunte le informazioni relative alle variabili X e Y per 10 unità statistiche X\Y 37 43 50 ni• 1 1 1 0 2 2 0 1 1 2 1 1 0 2 3 0 2 2 4 4 n• j 2 5 3 10 50 ● ● 45 yi 37 43 50 43 37 43 43 50 50 43 ● ● ● ● 40 xi 1 1 2 2 3 3 4 4 4 4 ● ● 35 i 1 2 3 4 5 6 7 8 9 10 55 Si riportano, nel seguente prospetto, le medesime informazioni con riferimento alle coppie di valori (xi , yi ) rilevati in corrispondenza di ciascuna delle 10 unità statistiche 0 1 2 3 4 5 18.8 Si supponga di interpretare la ⎧ variabile Y secondo una generica funzione della variabile ⎨ 41 se x = 1 45 se x = 2 X, ad esempio: Y ∗ = g1 (X) = ⎩ 42 se x = 3 ei = yi − g1 (xi ) 37 − 41 = −4 43 − 41 = 2 50 − 45 = 5 43 − 45 = −2 37 − 42 = −5 43 − 42 = 1 43 − 47 = −4 50 − 47 = 3 50 − 47 = 3 43 − 47 = −4 229 ● 50 g1 (xi ) 41 41 45 45 42 42 47 47 47 47 ● 45 yi 37 43 50 43 37 43 43 50 50 43 ● ● ● ● 40 xi 1 1 2 2 3 3 4 4 4 4 ● ● 35 i 1 2 3 4 5 6 7 8 9 10 55 47 se x = 4 0 1 2 3 4 5 vale Y = Y ∗ + E = g1 (X) + E dove le componenti della variabile E (errore) sono gli scarti tra i valori di Y e i valori assegnati dal modello Y ∗ = g1 (X) • ei = yi − g1 (xi ) in presenza di coppie dei valori (xi , yi ) • ei j = y j − g1 (xi ) in presenza di valori riclassificati in tabella 18.9 Al fine di definire un criterio per scegliere la funzione g mediante la quale interpretare la variabile Y in funzione della variabile X occorre introdurre - come si è visto anche nel contesto del ’criterio di scelta della media per minimizzazione del danno’ - una opportuna penalizzazione degli scarti. Si può considerare a tal fine la funzione di perdita quadratica1 e2i = [yi − g1 (xi )]2 e2i 16 4 25 4 25 1 16 9 9 16 55 ei −4 2 5 −2 −5 1 −4 3 3 −4 ● 50 g1 (xi ) 41 41 45 45 42 42 47 47 47 47 ● 45 yi 37 43 50 43 37 43 43 50 50 43 ● ● ● ● 40 xi 1 1 2 2 3 3 4 4 4 4 ● ● 35 i 1 2 3 4 5 6 7 8 9 10 e2i j = [y j − g1 (xi )]2 0 1 2 3 4 5 18.10 3 Il criterio dei minimi quadrati Definizione 3 (Il criterio dei minimi quadrati). Si cerca la funzione g(x) ∈ G , insieme delle funzioni che assumono valore reale, che rende minima la seguente funzione criterio (che riassume il danno globale): • M(E 2 ) = " ! 1 n 2 1 n ∑ ei = n ∑ [yi − g(xi )]2 = M [Y − g(X)]2 n i=1 i=1 in presenza di coppie di valori, oppure • M(E 2 ) = " ! 1 h k 2 1 h k ei j ni j = ∑ ∑ [y j − g(xi )]2 ni j = M [Y − g(X)]2 ∑ ∑ n i=1 j=1 n i=1 j=1 in presenza di dati raccolti in una tabella a doppia entrata 18.11 M(E 2 ) Definizione 4 (Errore quadratico medio). si definisce Errore Quadratico Medio (EQM), o in inglese Mean Squared Error (MSE). Osservazione Se la variabile errore ha media nulla allora M(E 2 ) = Var(E) infatti Var(E) = M (E − μE )2 = M (E − 0)2 = M(E 2 ) 18.12 1 Come si è visto nella Sezione 6 esistono anche altre funzioni di perdita, ad esempio |ei | = |yi − g1 (xi )| 230 ⎧ 41 se x = 1 ⎪ ⎪ ⎨ 45 se x = 2 ∗ Y = g1 (X) = ⎪ 42 se x = 3 ⎪ ⎩ 47 se x = 4 i 1 2 3 4 5 6 7 8 9 10 xi 1 1 2 2 3 3 4 4 4 4 yi 37 43 50 43 37 43 43 50 50 43 g1 (xi ) 41 41 45 45 42 42 47 47 47 47 Somma Media ei −4 2 5 −2 −5 1 −4 3 3 −4 −5 −0.5 e2i 16 4 25 4 25 1 16 9 9 16 125 12.5 In corrispondenza della funzione g1 (x) l’errore quadratico medio risulta M(E 2 ) = 12.5. A ogni funzione g(x) è associato un diverso valore dell’errore quadratico medio. Nel seguente caso g2 (x) è preferibile a g1 (x). ⎧ 41 se x = 1 ⎪ ⎪ ⎨ 45 se x = 2 ∗ Y = g1 (X) = ⎪ 42 se x = 3 ⎪ ⎩ 47 se x = 4 i 1 2 3 4 5 6 7 8 9 10 xi 1 1 2 2 3 3 4 4 4 4 yi 37 43 50 43 37 43 43 50 50 43 g1 (xi ) 41 41 45 45 42 42 47 47 47 47 Somma Media ei −4 2 5 −2 −5 1 −4 3 3 −4 −5 −0.5 18.13 ⎧ 38.5 se x = 1 ⎪ ⎪ ⎨ 46 se x = 2 ∗ Y = g2 (X) = ⎪ 41 se x = 3 ⎪ ⎩ 47 se x = 4 e2i 16 4 25 4 25 1 16 9 9 16 125 12.5 i 1 2 3 4 5 6 7 8 9 10 xi 1 1 2 2 3 3 4 4 4 4 yi 37 43 50 43 37 43 43 50 50 43 g2 (xi ) 38.5 38.5 46 46 41 41 47 47 47 47 Somma Media ei −1.5 4.5 4 −3 −4 2 −4 3 3 −4 0 0 e2i 2.25 20.25 16 9 16 4 16 9 9 16 117.5 11.75 g2 (x) è anche caratterizzata dal fatto che M(E) = 0, di conseguenza non genera errori sistematici. M(E) = 0 rappresenta una caratteristica auspicabile per un modello di regressione. 18.14 4 Soluzione del problema: La funzione di Regressione Teorema 5. In presenza di una variabile statistica doppia (X,Y ) M(E 2 ) = " ! 1 h k 2 1 h k ei j ni j = ∑ ∑ [y j − g(xi )]2 ni j = M [Y − g(X)]2 ∑ ∑ n i=1 j=1 n i=1 j=1 con g ∈ G , insieme delle funzioni che assumono valore reale, risulta minima se g(x) = M(Y |X). 18.15 231 Dimostrazione. " 1 h k ! M(E 2 ) = M [Y − g(X)]2 = ∑ ∑ [y j − g(xi )]2 ni j = n i=1 j=1 1 h ni• ∑ ni• n i=1 = h 1 ∑ ni• n i=1 = k h k i=1 j=1 1 ni j ∑ [y j − g(xi )]2 ni j = n ∑ ni• ∑ [y j − g(xi )]2 ni• = j=1 k ni j ∑ [y j − g(xi )]2 ni• j=1 Si osserva come ciascuna espressione in parentesi graffe è non negativa ed è riferita alla distribuzione condizionata Y |xi . Minimizzando tutte queste espressioni si otterrà il minimo globale. Si è riformulato in un insieme di h problemi di minimo. Con riferimento a ciascuna delle distribuzioni condizionate Y |xi occorre determinare il valore α = g(xi ) che rende minima k ni j ∑ [y j − α]2 ni• ovvero M (Y − α)2 |X = xi . j=1 In base al criterio di scelta della media per minimizzazione del danno la soluzione risulta α = g(xi ) = M(Y |xi ) = μY (xi ). 18.16 Definizione 6 (Funzione di Regressione). Si definisce Funzione di Regressione una qualsiasi funzione che associa a ogni xi la media di Y condizionata a xi M(E 2 ) risulta, quindi, minimo in corrispondenza della funzione di regressione. 55 ⎧ 40 se x = 1 ⎪ ⎪ ⎨ 46.5 se x = 2 Y ∗ = M(Y |X) = 40 se x = 3 ⎪ ⎪ ⎩ 46.5 se x = 4 ei −3 3 3.5 −3.5 −3 3 −3.5 3.5 3.5 −3.5 0 0 e2i 9 9 12.25 12.25 9 9 12.25 12.25 12.25 12.25 109.5 10.95 232 ● 50 M(Y |xi ) 40 40 46.5 46.5 40 40 46.5 46.5 46.5 46.5 Somma Media ● 45 yi 37 43 50 43 37 43 43 50 50 43 ● ● ● ● 40 xi 1 1 2 2 3 3 4 4 4 4 ● ● 35 i 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 18.17 ∑ M Y yi y2i 37 1369 43 1849 50 2500 43 1849 37 1369 43 1849 43 1849 50 2500 50 2500 43 1849 439 19483 43.9 1948.3 xi 1 2 3 4 v.s. medie condizionate M(Y |xi ) ni• M(Y |xi ) · ni• 40 2 80 46.5 2 93 40 2 80 46.5 4 186 10 439 xi 1 2 3 4 [M(Y |xi )]2 · ni• 3200.0 4324.5 3200.0 8649.0 19373.5 v.s. varianze condizionate Var(Y |xi ) ni• Var(Y |xi ) · ni• 9 2 18 12.25 2 24.5 9 2 18 12.25 4 49 10 109.5 M(Y ) = MX [M(Y |X)] = 43.9 M(Y 2 ) = 1948.3 Var(Y ) = 1948.3 − 43.92 = 21.09 varianza spiegata = VarX [M(Y |X)] = 1937.35 − 43.92 = 10.14 varianza residua = MX [Var(Y |X)] = 10.95 Var(Y ) = var. sp. + var. res. = 10.14 + 10.95 = 21.09 rapporto di correlazione ηY2|X = VarX [M(Y |X)] = 0.4808 Var(Y ) 18.18 5 Origine del termine regressione Galton F.R.S., Regression towards Mediocrity in Hereditary Stature, Journal of the Anthropological Institute, 15, 246-263 (1886) Plants data: ’It appeared from these experiments that the offspring did not tend to resemble their parent seeds in size, but to be always more mediocre than they—to be smaller than the parents, if the parents were large; to be larger than the parents, if the parents were very small.’ Humans data: ’The child inherits partly from his parents, partly from his ancestry. ... Their mean stature will then be the same as that of the race; in other words, it will be mediocre. Or, to put the same fact into another form, the most probable value of the mid-ancestral deviates in any remote generation is zero.’ ’The average regression of the offspring to a constant fraction of their respective midparental deviations, which was first observed in the diameters of seeds, and then confirmed by observations on human stature, is now shown to be a perfectly reasonable law which might have been deductively foreseen.’ 233 18.19 Righe: Heights of the Midparents in inches Colonne: Heights of the Adult Children in inches 61.7 0 0 0 1 0 1 0 0 1 1 1 62.2 0 0 0 0 0 0 3 3 0 1 0 63.2 0 0 0 1 1 7 5 3 9 4 2 64.2 0 0 0 0 16 11 14 5 5 4 4 65.2 0 0 1 1 4 16 15 2 7 1 1 66.2 0 0 3 1 17 25 36 17 11 5 2 67.2 0 0 4 3 27 31 38 17 11 5 2 68.2 0 1 3 12 20 34 28 14 7 0 1 70 ● ● 64 66 68 ● 70.2 0 1 10 14 25 21 19 4 5 0 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 64 ● 71.2 0 2 4 7 20 18 11 0 2 0 0 ● ● ● 62 69.2 0 2 5 18 33 48 38 13 7 2 1 ● ● 62 Heights of the Adult Children in inches 72 74 73 72.5 71.5 70.5 69.5 68.5 67.5 66.5 65.5 64.5 64 ● 68 73.2 3 2 2 3 4 3 0 0 0 0 0 73.7 0 4 2 3 5 0 0 0 0 0 0 18.20 ● ● 66 72.2 1 7 9 4 11 4 4 0 1 0 0 ● 70 72 74 Heights of the Midparents in inches 18.21 18.22 18.23 234 6 Adattamento e dipendenza La funzione di regressione consente di descrivere il legame in media, quindi si ha: • adattamento buono se: – punti sperimentali vicini alla funzione di regressione g(x) = M(Y |X) – bassa variabilità attorno alle medie condizionate • dipendenza nulla se: – medie condizionate tutte eguali • dipendenza massima se: – medie condizionate differenti – variabilità nulla attorno alle medie condizionate Indicata, allora, la varianza della variabile statistica medie condizionate con σ̄Y2|X = VarX {M(Y |X)} essa costituisce un indice di dipendenza (assoluto). Con riferimento al modello funzione di regressione la quantità M(E 2 ) = M(E 2 ) = 18.24 ! " 1 n 2 1 n ∑ ei = n ∑ [yi − M(Y |xi )]2 = M [Y − M(Y |X)]2 n i=1 i=1 " ! 1 h k 2 1 h k ei j ni j = ∑ ∑ [y j − M(Y |xi)]2 ni j = M [Y − M(Y |X)]2 ∑ ∑ n i=1 j=1 n i=1 j=1 in presenza di coppie di valori o di tabella a doppia entrata, coincidono con la varianza residua. Infatti, con riferimento a dati classificati in una tabella a doppia entrata, M(E 2 ) puo essere riscritto come: M(E 2 ) = M (E − 0)2 k ni j 1 h ni• ∑ [y j − M(Y |xi )]2 = ∑ n i=1 j=1 ni• ! " = MX M [Y − M(Y |X)]2 |X = MX [Var(Y |X)] = σY2∗|X = 18.25 Definizione 7 (Scomposizione della varianza in corrispondenza del modello funzione di regressione). σY2 = σ̄Y2|X + σY2∗|X Var(Y ) = VarX [M(Y |X)] + MX [Var(Y |X)] = varianza spiegata + varianza residua La bontà del modello può essere identificata con la quota di varianza spiegata Definizione 8 (Rapporto di correlazione). ηY2|X = VarX [M(Y |X)] Var(Y ) 18.26 235 7 I polinomi di regressione Si è introdotta la funzione di regressione come una qualsiasi funzione passante per le h medie condizionate. Tra le infinite funzioni che soddisfano tale definizione figura anche il polinomio di grado (h − 1) y∗ = a0 + a1 x + a2 x2 + . . . + ah−1 xh−1 che unisce le medie senza soluzione di continuità. Per determinare i coefficienti a0 , a1 , a2 , . . . , ah−1 di tale polinomio, occorre risolvere il seguente sistema di h equazioni lineari ⎧ h−1 2 ⎪ ⎨ M(Y |x1 ) = a0 + a1 x1 + a2 x1 + . . . + ah−1 x1 .. . ⎪ ⎩ M(Y |xh ) = a0 + a1 xh + a2 xh2 + . . . + ah−1 xhh−1 18.27 Si osserva però come il modello descritto dal polinomio di grado (h − 1) sia troppo complesso nelle applicazioni pratiche. Si pensi ad esempio al polinomio interpolante una serie storica di lunghezza h. Comunemente si fa, quindi, ricorso a modelli più semplici: polinomi di grado inferiore a (h − 1) Si considerano dei modelli polinomiali completi di grado r 18.28 0 ≤ r ≤ h−1 spazio funzioni G = che assumono valore reale ĝ L0 L1 ... Lh−1 L0 ⊂ L1 ⊂ . . . ⊂ Lh−1 ⊂ G Y = Y ∗ + E = λ (x) = a0 + a1 X + a2 X 2 + . . . + ar X r + E si tratta di modelli lineari nei parametri. I parametri ai (i = 0, 1, . . . , r) possono essere determinati applicando ai dati il criterio dei minimi quadrati, che va a ricercare la soluzione che rende minimo l’errore quadratico medio " ! M(E 2 ) = M [Y − λ (X)]2 = M (Y − a0 − a1 X − a2 X 2 − . . . − ar X r )2 Osservazione Si dimostra, infatti, che, in base al criterio dei minimi quadrati, il modello che meglio approssima i dati è lo stesso che meglio approssima la funzione di regressione. Definizione 9 (Varianza residua). Se M(E) = 0, allora M(E 2 ) = Var(E) è denominato varianza residua. 236 18.29 18.30 Osservazione La relazione M(E) = 0 risulta verificata se il parametro a0 (denominato costante o intercetta) non è vincolato. La denominazione varianza residua, deriva dalla letteratura anglosassone nella quale le determinazioni della variabile errore E sono indicate con il termine residual. 18.31 Definizione 10 (Scomposizione della varianza). Si dimostra che se in un modello polinomiale il parametro a0 (denominato costante o intercetta) non è vincolato, allora vale la seguente scomposizione della varianza di Y . Var(Y ) = varianza spiegatamodello + varianza residuamodello = varianza spiegatamodello + M(E 2 ) Definizione 11 (Indice di adattamento). Se M(E) = 0, allora, è possibile definire la seguente misura normalizzata R2 = 1 − Var(E) M(E 2 ) = 1− Var(Y ) Var(Y ) detta indice di adattamento. Osservazione L’indice di adattamento R2 può essere interpretato come la quota di varianza spiegata dal modello. 237 18.32 Sezione 19 Modelli polinomiali 19.1 Indice 1 Il modello costante Y = a0 + E 239 1.1 Errore Quadratico Medio e Indice di adattamento . . . . . . . . . . . . . 239 2 Il modello retta Y = a + bX + E 2.1 Scomposizione della varianza totale . . . . . . . . . . . . . . . . . . . . 2.2 Indice adattamento retta . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Errore Quadratico Medio retta di regressione . . . . . . . . . . . . . . . 2.4 Una ulteriore scomposizione della varianza residua del modello retta . . . 2.5 Retta di regressione e covarianza . . . . . . . . . . . . . . . . . . . . . . 2.6 Relazione tra indipendenza stocastica, indipendenza in media e indipendenza lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Il coefficiente di correlazione lineare . . . . . . . . . . . . . . . . . . . . 2.8 Confronto tra η 2 e ρ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 240 241 242 242 242 243 244 245 247 Esercizi 249 3.1 Esercizi sul confronto tra ρ 2 e η 2 . . . . . . . . . . . . . . . . . . . . . . 249 3.2 Esercizi di carattere teorico . . . . . . . . . . . . . . . . . . . . . . . . . 254 19.2 1 Il modello costante Y = a0 + E Si tratta del polinomio di grado r = 0. La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈ L0 â0 = arg min M[E 2 ] = arg min M (Y − a0 )2 = M(Y ) = μY a0 ∈ℜ a0 ∈ℜ 5 (per le proprietà della media aritmetica: cfr. scelta per minimizzazione del danno) ● ● 4 ● 3 ● μY ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 ● ● 0 ● 0 1 2 3 4 5 19.3 239 1.1 Errore Quadratico Medio e Indice di adattamento L’errore quadratico medio risulta: M(E 2 ) = M (Y − μY )2 = Var(Y ) Dal momento che M(E) = M(Y − μY ) = 0 l’errore quadratico medio coincide con la varianza residua. L’indice di adattamento R2 (quota di varianza spiegata) assume valore nullo: 1− M(E 2 ) Var(Y ) = 1− = 0. Var(Y ) Var(Y ) Osservazioni • Non passa necessariamente per le medie condizionate • È il modello più semplice, però è decisamente scarso: anche se i dati presentano trend non ne tiene conto! 19.4 2 Il modello retta Y = a + bX + E Esprime la dinamica in modo solo proporzionale. La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈ L1 (â, b̂) = arg min M[E 2 ] = arg min M (Y − a − bX)2 a,b Si ottiene: Cov(X,Y ) Var(X) â = M(Y ) − b̂ M(X) 5 b̂ = a,b ● ● 4 ● 3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 ● ● 0 ● 0 1 2 3 4 5 19.5 Dimostrazione. Occorre risolvere il seguente sistema di equazioni lineari (denominate equazioni normali) ⎧ ⎨ ∂ M[(Y −a−bX)2 ] =0 ∂a ⎩ ∂ M[(Y −a−bX)2 ] = 0 ∂b M [2(Y − a − bX)(−1)] = 0 M [2(Y − a − bX)(−X)] = 0 −2M(Y − a − bX) = 0 −2M [(Y − a − bX)X] = 0 M(Y − a − bX) = 0 M [(Y − a − bX)X] = 0 240 Si osserva come, in corrispondenza dei valori (a, b) soluzione del sistema, dalla prima equazione segue che M(E) = 0. Dalla seconda equazione, sempre in corrispondenza dei valori (a, b) soluzione del sistema, abbiamo M(EX) = 0. La seconda equazione impone, quindi, l’ortogonalità tra E e X, da cui la denominazione di sistema delle equazioni normali. Dal momento che M è un operatore lineare, dalla prima equazione si ottiene M(Y ) − a − bM(X) = 0 â = M(Y ) − bM(X) = μY − bμX che può essere sostituito nella seconda equazione del sistema M {[Y − (μY − bμX ) − bX]X} = 0 M XY − μY X + bμX X − bX 2 = 0 M(XY ) − μY M(X) + bμX M(X) − b M X 2 = 0 M(XY ) − μX μY + b (μX )2 − bM X 2 = 0 $ % [M(XY ) − μX μY ] − b M X 2 − (μX )2 = 0 b̂ = M(XY ) − μX μY M (X 2 ) − (μX )2 = Cov(X,Y ) . Var(X) 19.6 In definitiva: b̂ = Cov(X,Y ) Var(X) â = M(Y ) − b̂ M(X) Osservazione Si dimostra che la retta interpolante tutti i dati osservati è equivalente alla retta approssimante le medie condizionate. 2.1 Scomposizione della varianza totale Definizione 1 (Scomposizione della varianza totale). Data la retta di regressione Y = â + b̂X + E = Y ∗ + E dove â e b̂ sono i valori dei coefficienti a e b del modello retta Y = a + bX + E, ottenuti secondo il criterio dei minimi quadrati, vale la seguente scomposizione Var(Y ) = varianza spiegataretta + varianza residuaretta = Var(Y ∗ ) +Var(E) = Var(Y ∗ ) + M(E 2 ) con varianza spiegataretta varianza residuaretta = Var(Y ∗ ) = Var(â + b̂X) = b̂2Var(X) = [Cov(X,Y )]2 Cov(X,Y ) 2 Var(X) = = Var(X) Var(X) $ % = M(E 2 ) = M (Y −Y ∗ )2 . L’errore quadratico medio coincide con Var(E), varianza dell’errore, (M(E) = 0). 241 19.7 19.8 Dimostrazione. Dalla prima equazione del sistema delle equazioni normali, cfr. dimostrazione che ha portato alle formule dei coefficienti â e b̂, si è ottenuto M(E) = M(Y −Y ∗ ) = 0 quindi M(Y ∗ ) = M(Y ) = μY . Si considera ora la varianza di Y $ % $ % Var(Y ) = M (Y − μY )2 = M (Y −Y ∗ +Y ∗ − μY )2 = M [(Y −Y ∗ ) + (Y ∗ − μY )]2 % $ % $ = M (Y −Y ∗ )2 + M (Y ∗ − μY )2 + M [2 (Y −Y ∗ ) (Y ∗ − μY )] $ % = M E 2 + M (Y ∗ − μY )2 + 2M [(Y −Y ∗ ) (Y ∗ − μY )] • L’errore quadratico medio al primo addendo coincide con la varianza della variabile errore (residual), dal momento che M(E) = 0. • Il secondo addendo misura la variabilità dei valori teorici del modello (punti sulla retta) rispetto alla media di Y e rappresenta la parte della variabilità di Y che il modello retta è in grado di spiegare. • Il terzo addendo, 2 volte la covarianza tra E = (Y −Y ∗ ) e (Y ∗ − μY ), risulta nullo: M [E (Y ∗ − μY )] = M E â + b̂X − â − b̂μX = M E b̂X − b̂μX = M b̂EX − b̂μX E = b̂M (EX) − b̂μX M (E) = b̂ · 0 − b̂μX · 0 = 0 essendo M (EX) = M [(Y −Y ∗ ) X] = 0 in base alla seconda equazione del sistema delle equazioni normali. Quindi Var(Y ) = Var(E) +Var(Y ∗ ) = varianza residuaretta + varianza spiegataretta . 19.9 2.2 Indice adattamento retta Definizione 2 (Indice di adattamento della retta di regressione). Dal momento che vale la scomposizione Var(Y ) = varianza spiegataretta + varianza residuaretta possiamo definire, analogamente al modello funzione di regressione, un indice di adattamento come R2 = = varianza residuaretta M(E 2 ) varianza spiegataretta = 1− = 1− Var(Y ) Var(Y ) Var(Y ) [Cov(X,Y )]2 Var(X) Var(Y ) = [Cov(X,Y )]2 = ρ 2. Var(X)Var(Y ) 19.10 242 2.3 Errore Quadratico Medio retta di regressione Osservazione È possibile ricavare l’errore quadratico medio, o varianza residua, del modello retta come M(E 2 ) = varianza residuaretta = 1 − ρ 2 Var(Y ) • • • 2 la quota di varianza spiegata dal modello retta ρ rappresenta 1 − ρ 2 rappresenta la quota di varianza non spiegata (residua) varianza residuaretta è l’ammontare di varianza non spiegata 19.11 2.4 Una ulteriore scomposizione della varianza residua del modello retta La retta (secondo i minimi quadrati) e la funzione di regressione sono state ottenute come le funzioni che rendono minimo l’errore quadratico medio rispettivamente nelle classi: • L1 , delle rette, • G , delle funzioni che assumono valore reale. Dal momento che L1 ⊂ G vale la seguente relazione tra gli errori quadratici medi (varianze residue) dei due modelli 2 2 M Efunzione di regressione ≤ M Eretta . L’indice di adattamento della retta assumerà, di conseguenza, un valore inferiore a quello della funzione di regressione: ρ 2 ≤ ηY2|X . 19.12 Segue l’ulteriore scomposizione della varianza residua del modello retta varianza residuaretta = σY2∗|X + σY2∗∗ |X dove • σY2∗|X = VarX [M(Y |X)] = var. residuafunzione di regressione ∗ • σY2∗∗ |X = Var [Y − M(Y |X)] = Var â + b̂X − M(Y |X) varianza degli scostamenti tra i valori teorici secondo il modello retta e le medie condizionate (valori teorici secondo la funzione di regressione) La varianza residua della funzione di regressione viene anche detta varianza irriducibile, in quanto coincide con il valore minimo che può assumere l’errore quadratico medio di un modello scelto con il criterio dei minimi quadrati. 2.5 Retta di regressione e covarianza Si è visto come la formula del coefficiente angolare della retta di regressione secondo i minimi quadrati e l’indice di adattamento del modello retta dipendono dalla covarianza Cov(X,Y )2 Cov(X,Y ) 2 b̂ = , ρ = . Var(X) Var(X)Var(Y ) È, quindi, possibile identificare la covarianza come indicatore fondamentale della dipendenza lineare. 243 19.13 Definizione 3 (indipendenza lineare). Si ha indipendenza lineare se Cov(X,Y ) = Cov(Y, X) = 0 ↔ b = 0 ↔ ρ 2 = 0. Definizione 4 (perfetta dipendenza lineare). Si ha perfetta dipendenza lineare se ρ 2 = 1. 2 = 1. In questa situazione vale ηY2|X = ηX|Y 19.14 2.6 Relazione tra indipendenza stocastica, indipendenza in media e indipendenza lineare indipendenza stocastica ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ' ( Y |xi ∼ Y ↔ X|y j ∼ X ⏐ ⏐ ⏐ ⏐ ↓ ↑\/ ↓ ↑\/ ⏐ ⏐ ⏐ ⏐ M(Y |x ) = M(Y ) ↔ \/ M(X|y j ) = M(X) i ⏐ ⏐ i = 1, 2, . . . , h j = 1, 2, . . . , k ⏐ ⏐ ⏐ \/ ⏐ 2 =0 ηY2|X = 0 indipendenza ηX|Y ⏐ ⏐ in media ⏐ ⏐ ↓ ↑\/ ↓ ↑\/ ⏐ ⏐ ⏐ ⏐ Cov(X,Y ) = Cov(Y, X) = 0 ⏐ ⏐ indipendenza lineare ⏐ se le medie condizionate sono tra loro eguali la retta che le interpola ha coefficiente angolare nullo ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ' ( ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ \/ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ ⏐ 19.15 Osservazione Possono sussistere contemporaneamente le situazioni di indipendenza lineare e dipendenza funzionale; si consideri, al riguardo, il seguente esempio X \Y 1 2 5 n• j 8 0 k 0 k 23 0 0 k k 29 k 0 0 k ni• k k k n = 3k Le distribuzioni condizionate Y |xi e X|y j sono degeneri; sussiste, quindi, dipendenza funzionale bijettiva, ma Cov(X,Y ) = 0. M(XY ) = μX = 1 1 160k 160 (1 · 29k + 2 · 8k + 5 · 23k) = (29k + 16k + 115k) = = 3k 3k 3k 3 1 8k 8 (1k + 2k + 5k) = = 3k 3k 3 1 60k (8k + 23k + 29k) = = 20 3k 3k 160 160 160 8 − 20 = − =0 Cov(X,Y ) = M(XY ) − μX μY = 3 3 3 3 μY = 244 35 30 25 ● 10 15 20 ● 0 5 ● 0 1 2 3 4 5 19.16 2.7 Il coefficiente di correlazione lineare Definizione 5 (Il coefficiente di correlazione lineare). Si definisce coefficiente di correlazione lineare tra X e Y , ρXY , anche indicato con il simbolo ρ, la covarianza tra le corrispondenti variabili standardizzate X − μX Y − μY Cov(X,Y ) , ρ = Cov = σX σY σX σY dove μX , μY , σX , σY sono rispettivamente le medie e gli scarti quadratici medi. Teorema 6. −1 ≤ ρ ≤ 1 19.17 Dimostrazione. Il quadrato del coefficiente di correlazione lineare ρ= Cov(X,Y ) σX σY coincide con l’indice di adattamento del modello retta, ρ 2 , quota di varianza spiegata dal modello retta, 0 ≤ ρ2 ≤ 1 da cui segue la tesi. 19.18 Dimostrazione. Si ricorda che una variabile standardizzata Z è caratterizzata da media nulla e varianza unitaria, quindi: X Y X Y = M Y −μ = 0 Var X−μ = Var Y −μ =1 M X−μ σX σY σX σY Si considerano le varianze delle variabili somma e differenza delle variabili X e Y standardizzate. Entrambe le varianze risultano non negative. ⎧ ⎨ Var X−μX + Y −μY ≥ 0 σ σ Y X ⎩ Var X−μX − Y −μY ≥ 0 σX σY ⎧ ⎨ Var X−μX +Var Y −μY + 2Cov X−μX , Y −μY ≥ 0 σ σ σ σ X Y X Y ⎩ Var X−μX +Var Y −μY − 2Cov X−μX , Y −μY ≥ 0 σX σY σX σY 1 + 1 + 2ρ ≥ 0 1 + 1 − 2ρ ≥ 0 245 2 + 2ρ ≥ 0 2 − 2ρ ≥ 0 1+ρ ≥ 0 1−ρ ≥ 0 da cui segue la tesi −1 < ρ < 1. 19.19 ρ ed equazione retta di regressione Cov(X,Y ) Cov(X,Y ) σY b̂ = ρ= → b̂ = ρ 2 σ σ σ σX X Y X da cui Y ∗ = â + b̂X = μY − b̂μX + b̂X = μY + b̂(X − μX ) = μY + ρ σY (X − μX ) σX 5 5 5 retta di regressione al variare di ρ ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● 3 ● ● ● ● ● μY ● 2 2 ● ● ●● ● ● ● ● ● ● ● ● 1 2 μX 3 4 5 −1 < ρ < 0 ● ● ● ● ● ● ● ● 0 1 ● 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● 0 0 1 ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● 3 ●● ●● ● μY ● 2 μY ●● ●● ● 3 ● ● ● ● 4 4 4 ● ● ● 0 1 2 μX 3 4 5 0 1 2 ρ 0 μX 3 4 5 0 < ρ < +1 19.20 5 ● 4 4 5 retta di regressione al variare di ρ ● μY 3 ●● ●●● ● ●●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● μY ● 3 ● ● ●● ●●● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● 2 1 0 0 1 2 ● 0 1 2 μX 3 4 5 0 ρ = −1 1 2 μX 3 4 5 ρ = +1 19.21 246 2.8 Confronto tra η 2 e ρ 2 Si ipotizza di studiare la dipendenza di Y da X 0 ≤ ρ 2 ≤ ηY2|X ≤ 1 5 ηY2|X = 1 5 0 < ηY2|X < 1 5 ηY2|X = 0 ● ● ● 4 ● 4 4 ● ● ● ● ● ● ● ● ● ● ● ● 3 ● 3 3 ● ● ● ● ● ● ● ● ● ● ● 2 2 ● 1 ● ● 2 ρ2 = 0 ● ● 4 6 8 0 2 4 6 8 0 2 4 6 8 5 2 5 0 0 0 ● 0 1 ● 1 ● ● 4 ● 4 ● ● ● ● ● ● ● 3 3 ● 2 ● ● ● no ● ● ● 2 0 < ρ2 < 1 ● ● 1 0 0 1 ● 2 4 6 8 0 2 4 6 8 5 0 4 ● ● 3 ● no ● 2 no 0 1 ρ2 = 1 0 2 4 6 8 19.22 5 η2 = 0 Se η 2 = 0 anche ρ 2 = 0 in quanto le medie condizionate M(Y |xi ) sono uguali a M(Y ). 4 ● ● ● 3 ● ● ● ● ● ● ● ● 2 ● ● ● ● 0 1 ● 0 2 4 6 8 19.23 247 η2 = 1 Se η 2 = 1 sussiste dipendenza funzionale di Y da X in quanto le distribuzioni condizionate (Y |xi ) sono degeneri. 5 ηY2|X = 1 4 i dati hanno una configurazione tale che la retta interpolante risulta piatta ● 3 ● ● 2 ● 0 1 ρ2 = 0 2 4 6 8 5 0 4 ● 3 ● ● 2 ● 0 1 0 < ρ2 < 1 2 4 6 8 ρ 2 = ηY2|X = 1 sussiste perfetta dipendenza lineare 5 0 4 ● ● 3 ● 2 ● 0 1 ρ2 = 1 0 2 4 6 8 19.24 0 < η2 < 1 Come la situazione precedente, ma è presente la nuvola dei punti in quanto le distribuzioni condizionate (Y |xi ) non sono tutte degeneri. 19.25 0 < ρ2 = η2 < 1 Se ρ 2 = η 2 il modello funzione di regressione e il modello retta coincidono (hanno lo stesso errore quadratico medio); di conseguenza le medie condizionate sono allineate. 5 5 retta di regressione al variare di ρ ● ● ● 4 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3 3 ● ● ● ● ● ● 2 ● 1 ● 0 2 ● 0 1 ● ● 0 2 4 6 8 0 ρ <0 2 4 6 8 ρ >0 19.26 248 3 Esercizi I seguenti esercizi sono articolati in 2 gruppi • esercizi sul confronto tra ρ 2 e η 2 , • esercizi di carattere teorico. La presente sezione ha carattere integrativo rispetto agli esercizi che presuppongono uno sviluppo numerico. 3.1 19.27 Esercizi sul confronto tra ρ 2 e η 2 Esercizio 7 (T 246, 18.09.2008, 4). Si indichi, per ognuna delle seguenti tabelle a doppia entrata, il valore assunto dagli indici sotto indicati, motivando le risposte. 1. X \Y 1 2 3 4 10 0 0 5 0 8 0 6 0 0 6 2 , η2 , ρ2 ηX|Y Y |X 2. X \Y 1 2 3 4 10 0 10 5 0 8 0 2 , η2 , χ2 ηX|Y Y |X 19.28 Esercizio 8 (T 243, 19.06.2008, 2). Completare la seguente tabella, motivando le risposte, in modo tale che: 1. ηY2|X = 0 e ρ 2 = 1; 2. ρ 2 = 0 e χN2 = 1; 3. ηY2|X = χN2 . X \Y 3 5 10 3 15 20 6 3 8 4 12 19.29 Esercizio 9 (T 239, 10.01.2008, 4). Completare la tabella, esplicitando anche i valori possibili 2 = 1: per x2 e y2 , in modo tale ρ 2 = 0 e ηX|Y X \Y 5 x2 1 y2 3 1 19.30 Esercizio 10 (T 251, 18.06.2009, 2). Data la seguente tabella a doppia entrata si determinino i valori delle frequenze n21 ed n22 in modo tale che risulti: 1. ηY2|X = ρ 2 = 1 2. 0 < ηY2|X = ρ 2 < 1 3. ηY2|X = ρ 2 249 X \Y 10 11 12 1 2 2 0 0 0 3 0 1 2 19.31 Esercizio 11 (T 255, 14.01.2010, 5). Si completino ove possibile le seguenti tabelle, motivando la risposta, in modo tale che: 1. X \Y 1 2 5 2 0 0 4 0 8 0 0 0 4 ρ 2 = ηY2|X = 1 2. X \Y 1 3 2 4 0 0 6 0 5 2 >0 ηY2|X = 0 e contemporaneamente ηX|Y 19.32 Esercizio 12 (T 257, 11.02.2010, 5). Se possibile e giustificando teoricamente le risposte, completare le seguenti tabelle in modo da soddisfare le condizioni sotto indicate. X \Y 3 4 ? 4 0 8 ? 7 12 0 ? 1. χN2 = 1 ρ = 0 2 =1 2. ηY2|X = ηX|Y 2 =0 3. ρ 2 = ηY2|X = ηX|Y 19.33 Esercizio 13 (T 261, 13.01.2011, 4). Si completi ove possibile la seguente tabella, motivando la risposta, in modo tale che: X \Y 1 5 10 0 20 0 95 1. 0 < ρ 2 = ηY2|X < 1 2. χ 2 = 95 3. ρ 2 = 0 19.34 Esercizio 14 (T 262, 03.02.2011, 4). Si completi se possibile la seguente tabella, motivando la risposta, in modo tale che: X \Y 1 2 3 1 1 3 1 6 1. ηY2|X = 0 e ρ 2 = 1 2. ρ 2 = 0 19.35 250 Esercizio 15 (T 266, 12.01.2012, 4). La tabella seguente riporta le osservazioni della variabile Y in corrispondenza di 5 valori della X: xi 8 8 10 12 12 yi 4 6 y3 8 10 2 = 1. Si indichi un valore da assegnare a y3 affinché ρ 2 < ηY2|X e ηX|Y 19.36 Esercizio 16 (T 263, 17.02.2011, 4). Si completino se possibile le seguenti tabelle, riportando modalità e frequenze e motivando teoricamente la risposta, in modo tale che: 1. X \Y 9 10 11 2 y2 2 =0eρ >0 ηY2|X = 1, ηX|Y 2. X \Y 9 10 11 12 2 y2 4 0 0 7 ηY2|X = 1 e ρ < 0 19.37 Esercizio 17 (T 264-1, 09.06.2011, 5). Si completino se possibile le seguenti tabelle, riportando modalità e frequenze e motivando teoricamente la risposta, in modo tale che: 1. X \Y x1 x2 2 2 5 4 4 8 2 4 2 >0 ηY2|X = 0, ηX|Y 2. X \Y x1 x2 y1 2 y2 4 4 y3 2 4 ρ2 = 0 19.38 Esercizio 18 (T 265, 08.09.2011, 4). Si completino se possibile le seguenti tabelle, motivando teoricamente la risposta, in modo tale che: 1. X \Y 1 2 10 0 20 11 0 30 20 11 9 30 0 ηY2|X = ρ 2 = 0 2. X \Y 1 2 10 0 ηY2|X = ρ 2 = 0 19.39 Esercizio 19 (T 265-1, 22.09.2011, 4). Si completino se possibile le seguenti tabelle, motivando teoricamente la risposta, in modo tale che: 1. X \Y 1 2 4 2 ηX|Y 10 0 = ρ2 20 12 0 30 0 =0 251 2. X \Y 1 2 3 10 20 12 9 12 0 30 0 ηY2|X = ρ 2 = 0 19.40 Esercizio 20 (T 268, 09.02.2012, 4). Se possibile e giustificando teoricamente le risposte, si completino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate. 1. X \Y 2 3 3 9 3 6 2 <1 0 < ρ 2 = ηX|Y 2. X \Y 10 20 3 20 40 1 χ 2 = 30 e ηY2|X = 1 19.41 Esercizio 21 (T 269-1, 07.06.2012, 4). Se possibile e giustificando teoricamente le risposte, si completino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate. 1. X \Y 2 3 3 9 3 6 2 <1 0 < ρ 2 < ηX|Y 2. X \Y 10 20 3 20 40 1 ρ = −30 e ηY2|X = 0 19.42 Esercizio 22 (T 269-3, 12.07.2012, 4). Se possibile e giustificando teoricamente le risposte, si completi la seguente tabella in modo da soddisfare le condizioni sotto indicate. X \Y 3 9 2 8 8 2 1. ρ 2 = ηX|Y 2. ρ 2 = ηY2|X 19.43 Esercizio 23 (T 240, 31.01.2008, 4). Con riferimento ai dati della seguente tabella: X \Y 1 12 10 4 1 5 20 1 4 5 5 5 10 1. Rappresentare, mediante un grafico bubble diagram, le coppie di dati e la funzione di regressione per lo studio di Y |X. 2. Si stimino, attraverso il criterio dei minimi quadrati, i parametri del modello Y ∗ = a + bX 3. Calcolare ρ 2 . 252 2 . 4. Calcolare i valori di ηY2|X ed ηX|Y 19.44 Esercizio 24 (T 207, 15.01.2004, 4). Con riferimento a n = 50 unità statistiche si sono raccolti alcuni dati, relativi alle variabili (X,Y ) nella seguente tabella: Y \X 10 20 30 1 8 8 0 2 1 4 1 3 0 a b 1. Determinare i valori (interi) da assegnare alle costanti a e b affinché ηY2|X = ρ 2 . 2. Calcolare il valore del coefficiente di correlazione lineare. 19.45 Esercizio 25 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le risposte, si completi la seguente tabella in modo da soddisfare le condizioni sotto indicate. X \ Y 20 40 10 2 x2 1. ρ = 1 e χ 2 = 0 19.46 Esercizio 26 (T 271, 10.01.2013, 4). Si completino, giustificando opportunamente la risposta, le seguenti tabelle in modo tale che: y1 = 2 x1 = 2 x2 = 4 1. ρ2 =1e y3 = 12 5 2 ηX|Y 5 =0 y1 = 2 x1 = 2 x2 = 4 2. y2 = 3 y2 = 3 y3 = 12 5 5 2 =1 ρ 2 = ηY2|X = 0 e ηX|Y 19.47 Esercizio 27 (T 272, 24.01.2012, 4). Si completi la tabella, giustificando opportunamente la risposta, in modo che ρ 2 < ηY2|X . y1 = 2 x1 = 2 x2 = 4 y2 = 3 y3 = 12 5 5 19.48 Esercizio 28 (T 273, 07.02.2013, 4). Si completino le seguenti tabelle, giustificando opportunamente la risposta, in modo tale che: 1. x1 = 1 x2 = 2 x3 = 3 y1 = 2 7 0 0 y2 = 4 y3 = 6 0 n = 31 χ 2 = 62 e M(X) = 2 2. x1 = 1 x2 = 2 x3 = 3 y1 = 2 7 y2 = 4 y3 = 6 n= χ 2 = 0 e M(Y ) = 4 253 19.49 Esercizio 29 (T 274-1, 06.06.2013, 4). Si completi la seguente tabella, giustificando opportunamente la risposta, in modo che χ 2 = ρ 2 = ηY2|X . x1 = 1 x2 = 2 x3 = 3 y1 = 2 7 y2 = 4 y3 = 6 n = 120 19.50 Esercizio 30 (T 274-2, 11.07.2013, 4). Si completino le seguenti tabelle, giustificando opportunamente la risposta, in modo tale che: 1. x1 = 1 x2 = 2 y1 = 2 7 y2 = 4 y3 = 6 n = 120 ρ 2 = 1 e ηY2|X = 0 2. x1 = 1 x2 = 2 y1 = 2 7 y2 = 4 y3 = 6 n = 120 2 = 1 e η2 = 0 ηX|Y Y |X 19.51 3.2 Esercizi di carattere teorico Esercizio 31 (T 212, 15.07.2004, 1). Con riferimento alla seguente tabella a doppia entrata riferita a una rilevazione campionaria su 200 unità statistiche, posto che il rapporto di correlazione ηY2|X assume valore nullo e che la media marginale di Y è pari a 25: X \Y x1 x2 15 25 n21 25 50 80 35 n13 10 1. si determinino i valori delle frequenze assolute n13 e n21 e si rappresenti graficamente la distribuzione cumulata Y |X = x1 ; 2. si riassumano con opportuni indici di posizione e di variabilità le distribuzioni condizionate Y |X = xi , i = 1, 2; 3. sulla base di un opportuno indice verificare se si può ritenere che esista connessione tra le variabili X e Y ; 4. confrontare le due distribuzioni condizionate Y |X = xi , i = 1, 2, con un opportuno indice di asimmetria; 5. supponendo che x1 = 1 e x2 = 2x1 si calcoli il valore del coefficiente di correlazione lineare tra X e Y . 19.52 Esercizio 32 (T 212, 15.07.2004, 2). Dato il seguente grafico della serie storica Y del fatturato (in milioni di e) di un’azienda negli ultimi 7 mesi (t = 1, 2, . . . , 7), ● ● ● ● ● ● ● 0 2 4 254 6 8 1. sapendo che M(Y ) = 4, Var(Y ) = 9, e che ρ 2 = 0.64 calcolare i parametri della retta di regressione Y ∗ = a + bt; 2. indicare i valori assunti dalle varianze spiegate dei modelli I) Y ∗ = a + bt e II) funzione di regressione M(Y |t). 19.53 Esercizio 33 (T 227, 29.06.2006, 3). Date due v.s. X e Y , la funzione di regressione di Y |X è M(Y |X) = 2 + 3X 2 . Sapendo che la distribuzione marginale di X è la seguente: xi fi 1 0.2 2 0.3 3 0.4 4 0.1 e sapendo che ηY2|X = 0.5, determinare il valore della varianza residua di Y . 19.54 Esercizio 34 (T 157, 30.09.1999, 3). Data la seguente distribuzione del carattere W : wi ni 2 3 7 4 12 3 sapendo che i parametri del seguente modello di regressione: T ∗ = a + bW assumono i valori seguenti: a = −4 e b = 2, e che l’indice di adattamento di tale modello è pari al rapporto di correlazione, ossia ρ 2 = ηT2 |W , calcolare: 1. le medie condizionate M(T |W ) del carattere T ; 2. il valore di ηT2 |W sapendo che la varianza di T è pari a 100; 3. il valore della covarianza tra W e T . 19.55 Esercizio 35 (T 179, 20.07.2000, 5). A un insieme di dati si è adattato un modello di regressione lineare Y ∗ = a + bX e si sono conservati soltanto i seguenti valori: b̂ = 0.7; σX2 = 5 e M(Y 2 ) = 2.2. Si vogliono determinare le seguenti quantità: 1. ρ 2 : indice di adattamento; 2. σXY (covarianza); 3. la varianza residua; 4. la varianza spiegata; 5. l’intercetta a. Si calcolino, ove possibile, i valori numerici delle quantità sopra indicate e, in caso di impossibilità, si indichino quali ulteriori informazioni sarebbero necessarie. 19.56 Esercizio 36 (T 189, 27.09.2001, 5). Siano date le due variabili statistiche X e Y . Sapendo che il coefficiente angolare (b) della retta di regressione Y = a + bX è pari a 1.5 e il coefficiente di correlazione lineare tra X e Y è pari a 0.7, si determini il valore: 1. del coefficiente angolare della seconda retta di regressione X = γ + δY ; 2. l’indice di adattamento ρ 2 . Sapendo inoltre che σX2 = 56 si calcoli il valore: 1. della varianza spiegata della prima retta di regressione Y = a + bX; 2. della covarianza. 19.57 Esercizio 37 (T 191, 31.01.2002, 4). In una classe di 20 studenti di un liceo scientifico si sono rilevati il voto di matematica (X) ed il voto di fisica (Y ). Il coefficiente di correlazione lineare è risultato essere pari a 0.8. Per descrivere l’eventuale legame esistente fra le due variabili sono stati usati i seguenti modelli lineari: Y = a + bX ed X = c + dY , i cui parametri sono stati determinati col metodo dei minimi quadrati. Dire, motivando la risposta, se le seguenti affermazioni sono vere. 255 1. b = −0.6 e d = −1.0667; 2. l’80% della variabilità di Y è spiegata attraverso il legame lineare con X; 3. esiste perfetta relazione lineare tra X e Y . 19.58 Esercizio 38 (T 203, 26.06.2003, 3). Siano M(Y |x1 ) = 2, M(Y |x2 ) = 4 e M(Y |x3 ) = 6 le medie condizionate di una variabile Y alle tre modalità di una variabile X così distribuita: X a b c ni 10 20 10 1. Sapendo che la media delle varianze condizionate di Y a X è 20, calcolare la varianza di Y . 2. Si determini il valore di ηY2|X . 3. Posto a = 1, b = 2 e c = 3, si determini il segno del coefficiente di correlazione lineare tra X e Y. 19.59 Esercizio 39 (T 211, 01.07.2004, 3). Siano X e Y due variabili statistiche. Sapendo che il coefficiente b della retta di regressione X = a + bY è pari a 0.7 e il coefficiente di correlazione lineare tra X e Y è pari a 0.5, determinare: 1. il coefficiente angolare della retta di regressione Y = c + dX 2. le varianze residua e spiegata della retta di regressione X = a + bY sapendo che σY2 = 7 3. il valore della covarianza tra X e Y . 19.60 Esercizio 40 (T 228, 13.07.2006, 2). Con riferimento alla seguente tabella a doppia entrata si dica, motivando teoricamente la risposta, che valore assume Y \X 8 10 12 1 0 0 b 2 a 1 a 3 c 0 0 1. ηY2|X sapendo che ρ = −0.85 e che a, b, c sono valori interi strettamente positivi; 2. ηY2|X e ρ nell’ipotesi in cui a = 0. Si definisca, per questo caso, l’espressione analitica della funzione di regressione. 19.61 Esercizio 41 (T 238, 20.09.2007, 3). Siano X e Y due caratteri quantitativi tali che la funzione √ di regressione di Y su X sia M(Y |X) = 2 + 4 xi . Sapendo che la distribuzione del carattere X è la seguente: xi 4 9 16 25 36 fi 0.2 0.15 0.3 0.15 0.2 e che la varianza del carattere Y è pari a 45.6 1. si calcoli la media della variabile Y . 2. Si calcoli il valore dell’indice ηY2|X . 3. Si indichi l’intervallo dei valori che può assumere il coefficiente di correlazione lineare ρ tra le variabili X e Y . 19.62 Esercizio 42 (T 152, .., 5). Siano X1 , X2 e X3 tre variabili statistiche tra loro non correlate, con medie aritmetiche μi e varianze σi2 ; sia Z un’altra variabile definita come Z = X1 + X2 . Trovare l’espressione analitica dei parametri e della varianza residua del modello di regressione lineare di Z con X3 . 19.63 256 Sezione 20 Modelli riconducibili al modello retta 20.1 Indice 1 Linearizzazioni 257 2 Errore quadratico medio di un modello polinomiale 258 3 Modelli incompleti 259 4 Modello Y ∗ = bX 260 5 Interpretazione del coefficiente b per alcuni modelli di regressione 5.1 Relazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Trasformata logaritmica della variabile esplicativa . . . . . . . . . . . . . 5.3 Trasformata logaritmica della variabile dipendente . . . . . . . . . . . . 5.4 Trasformata logaritmica della variabile dipendente e variabile esplicativa di tipo dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Trasformata logaritmica sia della variabile dipendente che della variabile esplicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 261 261 262 6 Estensione del modello lineare bivariato 263 262 262 20.2 1 Linearizzazioni Sebbene qualsiasi funzione continua può essere approssimata, mediante uno sviluppo in serie di Taylor, da una funzione polinomiale di grado opportuno, a volte per interpretare al meglio il legame esistente tra la variabile Y e la variabile X risulta opportuno fare ricorso a una relazione di tipo non lineare. Alcune di queste sono riconducibili al modello retta (linearizzazione) tramite una opportuna trasformazione. 1 2 3 4 5 6 forma non lineare Y ∗ = aebX Y ∗ = aX b Y ∗ = abX Y ∗ = a + Xb 1 Y ∗ = a+bX X ∗ Y = a+bX 4) iperbole 5) reciproco retta forma linearizzata (lnY ∗ ) = (ln a) + bX (lnY ∗ ) = (ln a) + b(ln X) (lnY ∗ ) = (ln a) + (ln b)X Y ∗ = a + b X1 1 Y ∗ = a + bX 1 1 Y∗ = b + aX 6) reciproco iperbole 257 20.3 Il precedente prospetto contiene dei particolari modelli che nelle variabili trasformate divengono lineari di 1◦ grado e risulta, quindi, possibile fare ricorso alle usuali formule del modello retta per ottenere le stime dei parametri dipendente = intercetta + pendenza · esplicativa pendenza = intercetta = Cov(dipendente, esplicativa) Var(esplicativa) M(dipendente) − pendenza · M(esplicativa) Le stime ottenute coincidono con quelle che si otterrebbero risolvendo il problema di minimo in base al criterio dei minimi quadrati applicato ai residui della forma non lineare. Ad esempio, con riferimento ai coefficienti â e b̂ del primo modello: 2 (â, b̂) = arg min M Y − aebX (a,b) Per scegliere tra diversi modelli alternativi si confrontano i valori assunti dagli errori quadratici medi M(E 2 ) associati a tali modelli. Il modello migliore sarà quello con errore quadratico medio minimo. L’indice di adattamento non risulta, in genere, definito in quanto la variabile E può non avere media nulla, cfr. §3. 20.4 2 Errore quadratico medio di un modello polinomiale Si supponga di avere ottenuto, in base al criterio dei minimi quadrati, le stime dei coefficienti β̂0 , β̂1 , . . . , β̂k del seguente modello polinomiale: Y = β0 + β1 X + . . . + βk X k + E L’Errore Quadratico Medio M(E 2 ) = M 2 Y − β̂0 − β̂1 X − . . . − β̂k X k può essere ottenuto applicando la seguente formula operativa M(E 2 ) = M {Y (Y − modello polinomiale)} = M Y Y − β̂0 − β̂1 X − . . . − β̂k X k = M(Y 2 ) − β̂0 M(Y ) − β̂1 M (Y X) − . . . − β̂k M Y X k L’espressione vale anche se alcuni coefficienti sono nulli e, quindi, anche se manca l’intercetta o qualche potenza della variabile X. 258 20.5 3 Modelli incompleti Con riferimento ai modelli completi (modelli polinomiali nei quali figura l’intercetta come parametro libero) si è visto che la media dell’errore è nulla M(E) = 0 quindi, l’errore quadratico medio coincide con la varianza residua del modello M(E 2 ) = Var(E) e vale la scomposizione della varianza come 2 2 + σresidua σY2 = σspiegata dove 2 = varianza dei punti di regressione • σspiegata 2 • σresidua = attorno ai punti di regressione Nei modelli incompleti e in quelli non lineari, se per ricondursi alla forma linearizzata si opera una trasformazione della variabile dipendente, non vale la scomposizione della varianza e può, anche, accadere che 20.6 M(E 2 ) > σY2 . Di conseguenza dovendo scegliere quale, tra diversi modelli, quale è più opportuno utilizzare per interpretare la variabile Y si dovranno confrontare gli errori quadratici medi quando: • in qualcuno dei modelli in gioco manca l’intercetta, • l’intercetta è vincolata, • il modello è non lineare e si è operata una trasformazione che coinvolge la variabile dipendente per ricondursi alla forma linearizzata. 20.7 Esempio 1 (vincolo: retta passante in (0, a0 )). Y ∗ = a0 + bX 6 8 10 (a ≡ a0 = 10) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 4 ● ● ● 0 ● 0 2 4 6 8 20.8 Esempio 2 (vincolo: modello Y = a+bX 2 ). È possibile ricondursi al modello retta, considerando X 2 come variabile esplicativa. Nella prima delle seguenti rappresentazioni grafiche si stima il modello quadratico in X; nella seconda il modello lineare in X 2 ; si osserva come la struttura di variabilità della Y rimane immutata. I residui del primo modello sono identici a quelli del secondo, avendo operato una trasformazione solo della variabile esplicativa. Quindi l’errore quadratico medio assume lo stesso valore in entrambe le situazioni. 259 10 10 4 ● ● ● ● ● ● ● ● 8 ● ● ● 6 6 ● ● ● 4 8 ● ● ● ● ● ● ● ● ● ● ● ● 2 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● 0 ● 0 2 4 6 8 0 10 20 30 40 50 20.9 Esempio 3 (vincolo: modello Y = aX b ). È possibile ricondursi al modello retta, operando la linearizzazione ln(Y ) = ln a + b ln(X) 5 100 Nella prima delle seguenti rappresentazioni grafiche si stima il modello non lineare in X; nella seconda il modello linearizzato in ln X e lnY ; si osserva come in questo caso la struttura di variabilità della Y cambia. Non si può quindi utilizzare i residui e, tantomeno, l’indice di adattamento del secondo modello per valutare la bontà del primo. Occorre calcolare l’errore quadratico medio basandosi sui residui della prima figura. ● ● ● ● ● ● 4 80 ● ● ● ● ● ● ● ● ● ● ● ● ● 3 60 ● ● ● 40 ● ● ● ● 2 ● ● ● ● ● ● ● 1 20 ● ● ● ● ● ● ● 0 0 ● 0 2 4 6 8 ● 0.0 0.5 1.0 1.5 2.0 2.5 20.10 4 Modello Y ∗ = bX Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b % $ b̂ = arg min M (Y − bX)2 $ b dM (Y − bX)2 M db % =0 d (Y − bX)2 =0 db M [2 (Y − bX) (−X)] = 0 M −XY + bX 2 = 0 −M (XY ) + b M X 2 = 0 da cui segue b̂ = M (XY ) M (X 2 ) 20.11 L’errore quadratico medio risulta $ 2 % = M Y − b̂X = M Y − b̂X Y − b̂X M E2 = M Y − b̂X Y − b̂M Y − b̂X X 260 ma, nella dimostrazione precedente si è visto che, per b = b̂, si ha M Y − b̂X X = 0 per cui: M E 2 = M Y − b̂X Y La formula coincide con quella generale relativa ai polinomi M E 2 = M Y Y − b̂X = M Y 2 − b̂M (XY ) Si osserva come, mancando l’intercetta (è stata vincolata a 0), non vale il risultato di scomposizione della varianza e non è quindi possibile calcolare l’indice di adattamento (normalizzato). 20.12 5 Interpretazione del coefficiente b per alcuni modelli di regressione I risultati seguenti valgono anche con riferimento ai modelli di regressione multipla (che verranno presentati in una Sezione successiva), ceteris paribus, ossia supponendo che rimanga immutato il livello di tutte le altre variabili eventualmente presenti nel modello e che vi sia assenza di correlazione tra la componente di errore e i regressori. Si considerano le seguenti tipologie di relazioni lineari: • relazione lineare con trasformata logaritmica della variabile esplicativa • relazione lineare con trasformata logaritmica della variabile dipendente • relazione lineare con trasformata logaritmica della variabile dipendente e variabile esplicativa di tipo dummy • relazione lineare con trasformata logaritmica sia della variabile dipendente che della variabile esplicativa 5.1 20.13 Relazione lineare Y ∗ = a + bX se x0 → x0 + Δx consegue che y∗0 = a + bx0 → a + bx0 + bΔx = y∗0 + bΔx, quindi Δy = b. e Δy = y∗0 + bΔx − y∗0 = bΔx Δx 20.14 5.2 Trasformata logaritmica della variabile esplicativa Y ∗ = a + b ln(X) se x0 → x1 = x0 + Δx = x0 + cx0 = (1 + c)x0 consegue che y0 =→ a + b ln[(1 + c)x0 ] = a + b ln(x0 ) + b ln(1 + c) = y0 + b ln(1 + c), quindi Δy = b ln(1 + c). Si osserva che il rapporto tra il nuovo valore di x, x1 = (1 + c)x0 e il valore iniziale x0 può essere interpretato come un valore relativo e risulta pari a 1 + c: x1 = (1 + c) x0 da cui consegue una variazione relativa di x pari a c. 261 Si consideri lo sviluppo in serie di Taylor di ln(1 + c), vale: ln(1 + c) c. Per valori ’piccoli’ di c si può interpretare b ln(1 + c) bc come la variazione di y che consegue a una variazione relativa di x pari a 100c%. 5.3 20.15 Trasformata logaritmica della variabile dipendente ln(Y ∗ ) = a + bX se x0 → x1 = x0 + Δx consegue che ln(y∗0 ) → a + bx0 + bΔx = ln(y∗0 ) + bΔx. Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + bΔx} e il valore iniziale y∗0 : ! " exp{ln(y∗0 ) + bΔx} exp ln(y∗0 ) + ln ebΔx y∗1 = = = y∗0 exp{ln(y∗0 )} y∗0 ! ∗ bΔx " exp ln y0 · e y∗ · ebΔx = = 0 ∗ = ebΔx . ∗ y0 y0 Considerando lo sviluppo in serie di Taylor di ebΔx , abbiamo che ebΔx (1 + bΔx). Quindi, per valori piccoli di b e di Δx si può interpretare bΔx come la variazione relativa di y che consegue a una variazione assoluta Δx di x. 5.4 20.16 Trasformata logaritmica della variabile dipendente e variabile esplicativa di tipo dummy Si particolarizza il caso precedente tenendo presente che x può assumere solo i valori 0 e 1, rispettivamente nelle situazioni di assenza e presenza del carattere di cui è indicatrice. ln(Y ∗ ) = a + bX se x0 = 0 → x1 = 1 consegue che ln(y∗0 ) = a → ln(y∗1 ) = a + b = ln(y∗0 ) + b, Il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b} e il valore iniziale y∗0 risulta: " " ! ! exp ln y∗0 eb exp{ln(y∗0 ) + b} exp ln(y∗0 ) + ln eb y∗ eb y∗1 = = = 0 ∗ = eb . = ∗ ∗ ∗ ∗ y0 exp{ln(y0 )} y0 y0 y0 Quindi, dal momento che eb (1 + b) per valori piccoli di b, il coefficiente b può essere interpretato come la variazione relativa di y che consegue al passaggio della variabile indicatrice x dallo stato 0 allo stato 1. Ad esempio l’incremento percentuale, ceteris paribus, del salario di un soggetto di genere maschile, x = 1, rispetto allo stipendio di un soggetto di genere femminile, x = 0. 5.5 Trasformata logaritmica sia della variabile dipendente che della variabile esplicativa ln(Y ∗ ) = a + b ln(X) se x0 → x1 = x0 +Δx = x0 +cx0 = (1+c)x0 consegue che ln(y∗0 ) = a+b ln(x0 ) → ln(y∗1 ) = a + b ln[(1 + c)x0 ] = a + b ln(x0 ) + b ln(1 + c) = ln(y∗0 ) + b ln(1 + c). 262 20.17 Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b ln(1 + c)} e il valore iniziale y∗0 : y∗1 y∗0 = exp{ln(y∗0 ) + b ln(1 + c)} exp{ln(y∗0 ) + ln(1 + c)b } = = exp{ln(y∗0 )} y∗0 = exp{ln[y∗0 (1 + c)b ]} y∗0 (1 + c)b = = (1 + c)b . y∗0 y∗0 Si osservi come (1+c)b (1+bc), per valori piccoli di b e c; infatti (1+c)b = exp[ln(1+ c)b ] = exp[b ln(1 + c)]; inoltre ln(1 + c) c e, infine, exp(bc) (1 + bc). A una variazione relativa di x, pari a c (si ricordi che x1 /x0 = 1 + c) consegue, quindi, una variazione relativa di y∗ pari a circa bc (infatti, y∗1 /y∗0 1 + bc). Dal momento che si considerano valori ’sufficientemente piccoli’ di b e c le variazioni relative di x e y∗ possono rispettivamente indicarsi (nel continuo) con dx/x e dy∗ /y∗ , da cui il rapporto dy∗ y∗ dx x 20.18 bc =b c noto anche come elasticità di y∗ rispetto a x. Si osserva che la presente relazione corrisponde alla versione ’linearizzata’ di Y = αX b E. 20.19 6 Estensione del modello lineare bivariato • se ρ 2 ηY2|X → il modello è migliorabile (ad esempio aumentando il grado del polinomio) • se ρ 2 ηY2|X → il modello non è migliorabile 20.20 Esempio 4. Si riprenda l’esempio relativo alla lunghezza piede (Y ) e all’altezza (X) xi fi• μY (xi) σY2 (xi) 160 .189 39.43 2.37 170 .411 41.04 2.83 180 .322 42.14 1.84 190 .078 44.14 1.55 M(X) = 172.89 Var(X) = 73.88 M(Y ) = 41.37 Var(Y ) = 3.81 Cov(X,Y ) = M(XY ) − μX μY = 10.56 avendo espresso M(XY ) come segue M(XY ) = h k i=1 j=1 = h k i=1 j=1 fi j ∑ ∑ xi y j fi j = ∑ fi• ∑ xi y j fi• h k i=1 j=1 h h i=1 i=1 fi j ∑ fi• xi ∑ y j fi• = ∑ fi• xi (Y |xi ) = ∑ xi μY (xi ) fi• media varianze condizionate = 2.32 varianza medie condizionate = 1.54 ηY2 = 0.399 ρ 2 = 0.391 263 20.21 Soluzione aggiungere variabili esplicative → analisi multivariata ad esempio: lunghezza piede = f (altezza, peso) 20.22 264 Sezione 21 Esempio stima modelli in presenza di tabella a doppia entrata 21.1 Indice 1 Funzione di regressione 266 1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 267 2 Modello Y ∗ = a + bX 267 3 Modello Y ∗ = a + bX 2 268 4 Modello Y ∗ = aX b 268 5 Modello Y ∗ = aebX 269 6 Modello Y ∗ = bX 2 270 7 Modello Y ∗ = 5 + bX 271 8 Modello Y ∗ = 5 + bX 2 272 9 273 Schema riassuntivo 10 Indice di miglioramento Con riferimento ai dati raccolti nella tabella a doppia entrata X \Y 1 2 3 5 0 0 9 9 15 0 8 1 9 26 4 3 0 7 4 11 10 25 si stimano i parametri e l’errore quadratico medio dei seguenti modelli • • • • • • funzione di regressione Y ∗ = a + bX Y ∗ = a + bX 2 Y ∗ = aX b Y ∗ = aebX Y ∗ = bX 2 265 273 21.2 • Y ∗ = 5 + bX • Y ∗ = 5 + bX 2 21.3 Si considerano le distribuzioni condizionate Y |X per il calcolo di medie e varianze condizionate Y |x = 1 n1 j 5 0 M(Y |x = 1) = 26 15 0 Var(Y |x = 1) = 0 26 4 4 Y |x = 2 n2 j Y |x = 2 · n2 j 5 0 0 15 8 120 26 3 78 11 198 M(Y |x = 2) = 18 Var(Y |x = 2) = 24 Y |x = 3 n3 j Y |x = 3 · n3 j 5 9 45 15 1 15 26 0 0 10 60 M(Y |x = 3) = 6 Var(Y |x = 3) = 9 21.4 1 Funzione di regressione 30 Rappresentazione grafica mediante bubble diagram con aggiunta delle medie condizionate M(Y |X) ● 20 25 ● ● 10 15 ● 0 5 ● 0 1 2 3 4 21.5 Variabile statistica medie condizionate M(Y |X) xi 1 2 3 M(Y |xi ) 26 18 6 Somma modalità ni M(Y |X)ni M(Y |X)2 ni 4 104 2704 11 198 3564 10 60 360 25 362 6628 frequenze calcolo calcolo media momento secondo 266 media delle medie condizionate MX {M(Y |X)} = 362 = 14.48 25 varianza delle medie condizionate VarX {M(Y |X)} = 6628 − 14.482 = 55.4496 (varianza spiegata) 25 21.6 Variabile statistica varianze condizionate Var(Y |X) ni Var(Y |xi )ni xi Var(Y |xi ) 1 0 4 0 2 24 11 264 3 9 10 90 Somma 25 354 modalità frequenze calcolo media media varianze condizionate MX {Var(Y |X)} = 354 = 14.16 25 (varianza residua) calcolo media e varianza di Y yj 5 15 26 nj 9 9 7 25 y j n j y2j n j 45 225 135 2025 182 4732 362 6982 M(Y ) = 362/25 = 14.48 M(Y 2 ) = 6982/25 = 279.28 Var(Y ) = 279.28 − 14.482 = 69.6096 21.7 1.1 Rapporto di correlazione Dai calcoli effettuati nelle pagine precedenti si ha che M(Y ) = MX {M(Y |X)} = 14.48 Var(Y ) Var(Y ) 69.6096 = VarX {M(Y |X)} = (varianza spiegata) = 55.4496 ηY2|X = ηY2|X = + MX {Var(Y |X)} + (varianza residua) + 14.16 varianza spiegata funzione regressione Var(Y ) VarX {M(Y |X)} 55.4496 = = 0.7967 Var(Y ) 69.6096 21.8 267 2 Modello Y ∗ = a + bX Cov(X,Y ) M(X,Y ) − M(X)M(Y ) = Var(X) M(X 2 ) − [M(X)]2 27.2 − 2.24 · 14.48 −5.2352 = = = −10.4204 5.52 − 5.0176 0.5024 â = M(Y ) − b̂ M(X) = 14.48 + 10.4204 · 2.24 = 37.8217 b̂ = ρ2 = ρ = 27.4073 [Cov(X,Y )]2 = = 0.7837 Var(X)Var(Y ) 0.5024 · 69.6096 −0.8853 M(E 2 ) = Var(E) = varianza residua = 15.0568 = σY2 (1 − ρ 2 ) 21.9 Osservazione • dipendente = a + b · esplicative b̂ = Cov(esplicative, dipendente) Var(esplicative) â = M(dipendente) − b̂ M(esplicative) • Nel caso in esame la variabile errore E = Y − Y ∗ è caratterizzata da media nulla, quindi M(E 2 ) = Var(E), vale a dire l’errore quadratico medio coincide con la varianza degli errori (residui). 21.10 3 Modello Y ∗ = a + bX 2 È possibile ricondursi al modello retta dipendente = a + b · esplicative b̂ â Cov(X 2 ,Y ) M(X 2 ,Y ) − M(X 2 )M(Y ) = Var(X 2 ) M(X 4 ) − [M(X 2 )]2 57.44 − 5.52 · 14.48 −22.4896 = −2.4634 = = 39.6 − 5.522 9.1296 = M(Y ) − b̂ M(X) = 14.48 + 2.4634 · 5.52 = 28.078 = ρ2 = ρ = 505.7821 [Cov(X,Y )]2 = = 0.7958 Var(X)Var(Y ) 9.1296 · 69.6096 −0.8921 M(E 2 ) = Var(E) = varianza residua = 14.2113 = σY2 (1 − ρ 2 ) Anche nel caso in esame M(E) = 0 quindi M(E 2 ) = Var(E). 21.11 268 4 Modello Y ∗ = aX b È possibile linearizzare il modello precedente lnY ∗ = ln a + b ln X e ricondursi al modello retta dipendente = ln a + b · esplicative dove dipendente = lnY e esplicative = ln X. Per calcolare i parametri conviene riferirsi alle variabili trasformate ln X \ lnY 0 0.6931 1.0986 1.6094 0 0 9 9 2.7081 0 8 1 9 3.2581 4 3 0 7 4 11 10 25 M(ln X) = 0.744 M(lnY ) = 2.4666 M[(ln X)2 ] = 0.6942 M[(lnY )2 ] = 1.6272 Var(ln X) = 0.14 Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X)M(lnY ) = = 1.6272 − 0.744 · 2.4666 = −0.2090 b̂ = Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY ) −0.2090 = = = −1.4929 Var(ln X) M[(ln X)2 ] − [M(ln X)]2 0.14 ln (â) = M(lnY ) − b̂ M(ln X) = 3.578 → â = e3.578 = 35.8019. 21.12 Per il calcolo dell’errore quadratico medio occorre, in primo luogo, determinare i valori assunti dal modello Y ∗ = 35.8019X 1.4929 con x = 1, 2, 3. Y ∗ (1) = 35.80, Y ∗ (2) = 12.72, Y ∗ (3) = 6.94 quindi, applicando la definizione di errore quadratico medio M(E 2 ) = M 2 1 h k 2 Y − 35.8019X 1.4929 = ∑ ∑ y j − 35.8019xi1.4929 ni j n i=1 j=1 e calcolando la corrispondente media di una funzione di una variabile statistica doppia y j − 35.8019xi1.4929 x1 = 1 x2 = 2 x3 = 3 2 ni j y1 = 5 (5 − 35.80)2 · 0 (5 − 12.72)2 · 0 (5 − 6.94)2 · 9 y2 = 15 (15 − 35.80)2 · 0 (15 − 12.72)2 · 8 (15 − 6.94)2 · 1 y3 = 26 (26 − 35.80)2 · 4 (26 − 12.72)2 · 3 (26 − 6.94)2 · 0 1053.75 da cui M(E 2 ) = 1053.75 = 42.15. 25 21.13 269 5 Modello Y ∗ = aebX È possibile linearizzare il modello precedente lnY ∗ = ln a + bX e ricondursi al modello retta dipendente = ln a + b · esplicative dove dipendente = lnY e esplicative = X. Per calcolare i parametri conviene riferirsi alle variabili trasformate X \ lnY 1 2 3 1.6094 2.7081 3.2581 0 0 4 0 8 3 9 1 0 9 9 7 4 11 10 25 M(X) = 2.24 M(lnY ) = 2.4666 M[X 2 ] = 5.52 M(X lnY ) = 5.0995 Var(X) = 0.5024 Cov(X, lnY ) = 5.0995 − 2.24 · 2.4666 = −0.4256 b̂ = Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) −0.4256 = = −0.8471 = Var(X) M[(X)2 ] − [M(X)]2 0.5024 ln (â) = M(lnY ) − b̂ M(X) = 4.3641 → â = e4.3641 = 78.5786. 21.14 Per il calcolo dell’errore quadratico medio occorre, in primo luogo, determinare i valori assunti dal modello Y ∗ = 78.5786e−0.8471X con x = 1, 2, 3. Y ∗ (1) = 33.68, Y ∗ (2) = 14.44, Y ∗ (3) = 6.19 quindi, applicando la definizione di errore quadratico medio M(E 2 ) = M 2 1 h k 2 = ∑ ∑ y j − 78.5786e−0.8471xi ni j Y − 78.5786e−0.8471X n i=1 j=1 e calcolando la corrispondente media di una funzione di una variabile statistica doppia y j − 78.5786e−0.8471xi x1 = 1 x2 = 2 x3 = 3 2 ni j y1 = 5 (5 − 33.68)2 · 0 (5 − 14.44)2 · 0 (5 − 6.19)2 · 9 y2 = 15 (15 − 33.68)2 · 0 (15 − 14.44)2 · 8 (15 − 6.19)2 · 1 y3 = 26 (26 − 33.68)2 · 4 (26 − 14.44)2 · 3 (26 − 6.19)2 · 0 729.75 da cui M(E 2 ) = 729.75 = 29.19. 25 21.15 270 6 Modello Y ∗ = bX 2 Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b $ 2 % b̂ = arg min M Y − bX 2 b $ 2 % dM Y − bX 2 =0 db 2 d Y − bX 2 =0 M db M 2 Y − bX 2 −X 2 = 0 M −X 2Y + bX 4 = 0 −M X 2Y + b M X 4 = 0 da cui segue b̂ = M X 2Y 57.44 = = 1.4505. M (X 4 ) 39.6 21.16 Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi M(E 2 ) = M Y Y − b̂X 2 = M(Y 2 ) − b̂M(X 2Y ) = 279.28 − 1.4505 · 57.44 = 195.9633 Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della varianza: il valore dell’errore quadratico medio è superiore a quello di Var(Y ). 271 21.17 7 Modello Y ∗ = 5 + bX Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b % $ b̂ = arg min M (Y − 5 − bX)2 b $ dM (Y − 5 − bX)2 M db % =0 d (Y − 5 − bX)2 =0 db M [2 (Y − 5 − bX) (−X)] = 0 (è utile considerare Y − 5 come termine unico) M −X (Y − 5) + bX 2 = 0 −M [X (Y − 5)] + b M X 2 = 0 da cui segue b̂ = X \ Y −5 1 2 3 0 0 0 9 9 M [X (Y − 5)] 16 = = 2.8986. M (X 2 ) 5.52 10 0 8 1 9 21 4 3 0 7 4 11 10 25 M[X 2 ] = 5.52 M[X(Y − 5)] = 16 M[(Y − 5)2 ] = 159.48 21.18 Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi considerando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è alterata la struttura di variabilità della Y ). M(E 2 ) = M (Y − 5) Y − 5 − b̂X = M (Y − 5)2 − b̂ M[X(Y − 5)] = 159.48 − 2.8986 · 16 = 113.1024. Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della varianza: il valore dell’errore quadratico medio è superiore a quello di Var(Y ). 272 21.19 8 Modello Y ∗ = 5 + bX 2 Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b $ 2 % b̂ = arg min M Y − 5 − bX 2 b $ 2 % dM Y − 5 − bX 2 db =0 2 d Y − 5 − bX 2 =0 db M 2 Y − 5 − bX 2 −X 2 = 0 M (è utile considerare Y − 5 come termine unico) M −X 2 (Y − 5) + bX 4 = 0 −M X 2 (Y − 5) + b M X 4 = 0 da cui segue b̂ = X \ Y −5 1 2 3 0 0 0 9 9 M X 2 (Y − 5) 29.84 = = 0.7535. M (X 4 ) 39.6 10 0 8 1 9 21 4 3 0 7 4 11 10 25 M[X 4 ] = 39.6 M[X 2 (Y − 5)] = 29.84 M[(Y − 5)2 ] = 159.48 21.20 Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi considerando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è alterata la struttura di variabilità della Y ). M(E 2 ) = M (Y − 5) Y − 5 − b̂X 2 = M (Y − 5)2 − b̂ M[X 2 (Y − 5)] = 159.48 − 0.7535 · 29.84 = 136.9956. Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della varianza: il valore dell’errore quadratico medio è superiore a quello di Var(Y ). 273 21.21 9 Schema riassuntivo modello Y∗ = M(E 2 ) indice adatt. I f .regress. 14.16 0.7967 II III a + bX a + bX 2 15.0568 14.2113 0.7837 0.7958 IV V VI V II V III aX b aebX bX 2 5 + bX 5 + cX 2 42.15 29.19 195.96 113.10 136.996 non vale il teorema di scomposizione della varianza in quanto M(E) = 0 21.22 10 Indice di miglioramento Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato l’errore quadratico medio (Mean Squared Error) più piccolo e come ’peggiore’ quello che ha associato l’errore quadratico medio più grande. Nel caso M(E) = 0 è possibile calcolare anche l’indice di adattamento e il modello ’migliore’ sarà quello che ha associato l’indice di adattamento più grande. Definizione 1. Si definisce indice di miglioramento la riduzione relativa dell’errore quadratico medio che si ottiene passando dal modello peggiore al modello migliore. pegg,migl ρ 2 = MSE pegg − MSEmigl MSE pegg Il seguente prospetto riporta gli indici di miglioramento per gli 8 modelli considerati 2 riga,colonna ρ ∗ Y = I II III IV V VI V II V III I f .regress. 0.0596 0.0036 0.6641 0.5149 0.9277 0.8748 0.8966 II a + bX III a + bX 2 IV aX b V aebX VI bX 2 V II 5 + bX V III 5 + cX 2 0.4228 0.3009 21.23 0.0562 0.6428 0.4842 0.9232 0.8669 0.8901 0.6628 0.5131 0.9275 0.8743 0.8963 0.3075 0.7849 0.6273 0.6923 0.8510 0.7419 0.7869 0.1744 21.24 274 Sezione 22 Esempio stima modelli in presenza di coppie di dati 22.1 Indice 1 Funzione di regressione 275 1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 277 2 Modello Y ∗ = a + bX 278 3 Modello Y ∗ = a + bX 2 279 4 Modello Y ∗ = aX b 280 5 Modello Y ∗ = abX 281 6 Modello Y ∗ = bX 282 7 Schema riassuntivo 283 8 Indice di miglioramento Con riferimento alle coppie di dati 283 xi yi 3 6 2 4 1 4 4 6 22.2 2 5 si stimano i parametri e l’errore quadratico medio dei seguenti modelli • • • • • • funzione di regressione Y ∗ = a + bX Y ∗ = a + bX 2 Y ∗ = aX b Y ∗ = abX Y ∗ = bX 22.3 275 1 Funzione di regressione i xi 1 3 2 2 3 1 4 4 5 2 Somma 12 Media 2.4 yi 6 4 4 6 5 25 5 6 7 Rappresentazione grafica punti e medie condizionate M(Y |X) ● ● 3 4 ● ● 1 2 0 1 2 3 4 5 ● 0 5 22.4 Variabile statistica medie condizionate M(Y |X) xi 1 2 3 4 ni M(Y |X)ni M(Y |X)2 ni 1 4 16 2 9 40.5 1 6 36 1 6 36 5 25 128.5 frequenze calcolo calcolo media momento secondo M(Y |xi ) 4 4.5 6 6 Somma modalità media delle medie condizionate MX {M(Y |X)} = 25 =5 5 varianza delle medie condizionate VarX {M(Y |X)} = 128.5 − 52 = 0.7 (varianza spiegata) 5 22.5 276 Variabile statistica varianze condizionate Var(Y |X) ni Var(Y |xi )ni xi Var(Y |xi ) 1 0 1 0 2 0.25 2 0.5 3 0 1 0 4 0 1 0 Somma 5 0.5 modalità frequenze calcolo media media varianze condizionate MX {Var(Y |X)} = 0.5 = 0.1 5 (varianza residua) 22.6 1.1 Rapporto di correlazione Dai calcoli effettuati nelle pagine precedenti si ha che M(Y ) = 5 = MX {M(Y |X)} Var(Y ) = VarX {M(Y |X)} Var(Y ) = (varianza spiegata) 0.8 = 0.7 ηY2|X = ηY2|X = + MX {Var(Y |X)} + (varianza residua) + 0.1 varianza spiegata funzione regressione Var(Y ) VarX {M(Y |X)} 0.7 = = 0.875 Var(Y ) 0.8 22.7 277 2 Modello Y ∗ = a + bX b̂ = Cov(X,Y ) 0.8 = = 0.7692 Var(X) 1.04 â = M(Y ) − b̂ M(X) = 3.1538 ρ2 = [Cov(X,Y )]2 0.64 = = 0.7692 Var(X)Var(Y ) 1.04 · 0.8 M(E 2 ) = Var(E) = varianza residua = 0.1846 = σY2 (1 − ρ 2 ) i xi yi xi yi xi2 y2i 1 3 6 18 9 36 2 2 4 8 4 16 3 1 4 4 1 16 4 4 6 24 16 36 5 2 5 10 4 25 Somma 12 25 64 34 129 Media 2.4 5 12.8 6.8 25.8 M(X) = 2.4 M(X 2 ) = 6.8 Var(X) = M(X 2 ) − [M(X)]2 = 1.04 M(XY ) = 12.8 M(Y ) = 5 M(Y 2 ) = 25.8 Var(Y ) = M(Y 2 ) − [M(Y )]2 = 0.8 Cov(X,Y ) = M(XY ) − M(X)M(Y ) = 0.8 22.8 Osservazione • dipendente = a + b · esplicative b̂ = Cov(esplicative, dipendente) Var(esplicative) â = M(dipendente) − b̂ M(esplicative) • Nel caso in esame la variabile errore E = Y − Y ∗ è caratterizzata da media nulla, quindi M(E 2 ) = Var(E), vale a dire l’errore quadratico medio coincide con la varianza degli errori (residui). 22.9 278 3 Modello Y ∗ = a + bX 2 È possibile ricondursi al modello retta dipendente = a + b · esplicative b̂ = â = ρ2 = Cov(X 2 ,Y ) M(X 2Y ) − M(X 2 )M(Y ) 4 = = 0.1441 = 2 4 2 2 Var(X ) M(X ) − [M(X )] 27.76 M(Y ) − b̂ M(X 2 ) = 4.0202 [Cov(X 2 ,Y )]2 = 0.7205 Var(X 2 )Var(Y ) M(E 2 ) = Var(E) = varianza residua = σY2 (1 − ρ 2 ) = 0.2236 Anche nel caso in esame M(E) = 0 quindi M(E 2 ) = Var(E). i xi yi xi2 1 3 6 9 2 2 4 4 3 1 4 1 4 4 6 16 5 2 5 4 Somma 12 25 34 Media 2.4 5 6.8 M(X 2 ) = 6.8 M(X 4 ) = 74 Var(X 2 ) = M(X 4 ) − [M(X 2 )]2 = 27.76 M(X 2Y ) = 38 xi2 yi xi4 y2i 54 81 36 16 16 16 4 1 16 96 256 36 20 16 25 190 370 129 38 74 25.8 M(Y ) = 5 M(Y 2 ) = 25.8 Var(Y ) = M(Y 2 ) − [M(Y )]2 = 0.8 Cov(X 2 ,Y ) = M(X 2Y ) − M(X 2 )M(Y ) = 4 22.10 279 4 Modello Y ∗ = aX b È possibile linearizzare il modello precedente lnY ∗ = ln a + b ln X e ricondursi al modello retta dipendente = ln a + b · esplicative Per calcolare i parametri conviene riferirsi alle variabili trasformate b̂ = ln â = Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY ) = 0.3310 = Var(ln X) M[(ln X)2 ] − [M(ln X)]2 M(lnY ) − b̂ M(ln X) = 1.3368 → i xi yi ln xi ln yi 1 3 6 1.0986 1.7918 2 2 4 0.6931 1.3863 3 1 4 0.0000 1.3863 4 4 6 1.3863 1.7918 5 2 5 0.6931 1.6094 Somma 12 25 3.8712 7.9655 Media 2.4 5 0.7742 1.5931 â = eln â = e1.3368 = 3.8070 ln xi ln yi [ln xi ]2 1.9684 1.2069 0.9609 0.4805 0.0000 0.0000 2.4839 1.9218 1.1156 0.4805 6.5288 4.0897 1.3058 0.8179 M(ln X) = 0.7742 M(lnY ) = 1.5931 M[(ln X)2 ] = 0.8179 Var(ln X) = M[(ln X)2 ] − [M(ln X)]2 = 0.2185 M(ln X lnY ) = 1.3058 Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X) M(lnY ) = 0.0723 22.11 Per calcolare l’errore quadratico medio M(E 2 ) = M $ 2 % 1 n = ∑ (yi − ŷi )2 Y − Ŷ n i=1 occorre determinare i valori assunti dal modello ŷi = 3.8070 · xi0.3310 i xi 1 3 2 2 3 1 4 4 5 2 yi 6 4 4 6 5 ŷi 5.4766 4.7887 3.8070 6.0237 4.7887 Somma Errore Quadratico Medio = Media (yi − ŷi )2 0.2740 0.6221 0.0373 0.0006 0.0446 0.9786 0.1957 22.12 280 5 Modello Y ∗ = abX È possibile linearizzare il modello precedente lnY ∗ = ln a + ln b X e ricondursi al modello retta dipendente = ln a + b · esplicative Per calcolare i parametri conviene riferirsi alle variabili trasformate ln b̂ = Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) = = 0.1544 Var(X) M[X 2 ] − [M(X)]2 b̂ = eln b̂ = e0.1544 = 1.1669 ln â = M(lnY ) − ln b̂ M(X) = 1.2226 â = eln â = e1.2226 = 3.3960 i xi 1 3 2 2 3 1 4 4 5 2 Somma 12 Media 2.4 yi 6 4 4 6 5 25 5 ln yi 1.7918 1.3863 1.3863 1.7918 1.6094 7.9655 1.5931 xi ln yi xi2 5.3753 9 2.7726 4 1.3863 1 7.1670 16 3.2189 4 19.9201 34 3.9840 6.8 M(X) = 2.4 M(lnY ) = 1.5931 M(X 2 ) = 6.8 Var(X) = M(X 2 − [M(X)]2 = 1.04 M(X lnY ) = 3.9840 Cov(X, lnY ) = M(X lnY ) − M(X) M(lnY ) = 0.1606 22.13 Per calcolare l’errore quadratico medio M(E 2 ) = M $ 2 % 1 n Y − Ŷ = ∑ (yi − ŷi )2 n i=1 occorre determinare i valori assunti dal modello ŷi = 3.3960 · 1.1669xi i xi 1 3 2 2 3 1 4 4 5 2 yi 6 4 4 6 5 ŷi 5.3964 4.6245 3.9629 6.2973 4.6245 Somma Errore Quadratico Medio = Media (yi − ŷi )2 0.3643 0.3899 0.0014 0.0884 0.1410 0.9850 0.1970 22.14 281 6 Modello Y ∗ = bX Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b % $ b̂ = arg min M (Y − bX)2 $ b dM (Y − bX)2 M db % =0 d (Y − bX)2 =0 db M [2 (Y − bX) (−X)] = 0 M −XY + bX 2 = 0 −M (XY ) + b M X 2 = 0 da cui segue b̂ = M(XY ) M(X 2 ) 22.15 b̂ = M(XY ) 12.8 = = 1.8824 M(X 2 ) 6.8 Per ottenere l’errore quadratico medio si applica la formula relativa ai polinomi M(E 2 ) = M[Y (Y − b̂X)] = M(Y 2 ) − b̂ M(XY ) = 25.8 − 1.8824 · 12.8 = 1.7059 i xi yi xi yi xi2 y2i 1 3 6 18 9 36 2 2 4 8 4 16 3 1 4 4 1 16 4 4 6 24 16 36 5 2 5 10 4 25 Somma 12 25 64 34 129 Media 2.4 5 12.8 6.8 25.8 M(X 2 ) = 6.8 M(XY ) = 12.8 M(Y 2 ) = 25.8 22.16 282 7 Schema riassuntivo modello Y∗ = M(E 2 ) indice adatt. I II f .regress. a + bX 0.1 0.1846 0.875 0.7692 III a + bX 2 0.2236 0.7205 IV V VI aX b abX bX 0.1957 0.1606 1.7059 non vale il teorema di scomposizione della varianza in quanto M(E) = 0 22.17 8 Indice di miglioramento Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato l’errore quadratico medio (Mean Squared Error) più piccolo e come ’peggiore’ quello che ha associato l’errore quadratico medio più grande. Nel caso M(E) = 0 è possibile calcolare anche l’indice di adattamento e il modello ’migliore’ sarà quello che ha associato l’indice di adattamento più grande. Definizione 1. Si definisce indice di miglioramento la riduzione relativa dell’errore quadratico medio che si ottiene passando dal modello peggiore al modello migliore. pegg,migl ρ 2 = MSE pegg − MSEmigl MSE pegg Il seguente prospetto riporta gli indici di miglioramento per i 6 modelli considerati 2 riga,colonna ρ ∗ Y = I II III IV V VI I f .regress. II a + bX 0.4583 0.5528 0.4890 0.4924 0.9414 0.1744 0.0567 0.0629 0.8918 III a + bX 2 0.8689 IV aX b V abX 0.1248 0.1190 22.18 VI bX 0.0066 0.0000 0.8853 0.8845 22.19 283 Sezione 23 Regressione lineare multipla 23.1 Indice 1 Modello lineare multivariato 285 2 Modello di riferimento 286 3 Ricerca di â con il metodo dei minimi quadrati 286 4 Esempio 287 5 Interpretazione dei coefficienti 288 6 Coefficienti standardizzati 288 7 Ulteriori ipotesi sul modello lineare 289 8 Modelli di regressione lineare multipla con presenza di variabili indicatrici 289 9 Esempio 289 1 Modello lineare multivariato Y = a0 + a1 X1 + a2 X2 + . . . + ak Xk + E lineare nei parametri a j ( j = 0, 1, . . . , k) Esempio: X1 X2 = X = X2 X3 .. . = X3 285 23.2 oppure: Y = prezzo di mercato X1 = = = costo di produzione quantità prodotte quantità a magazzino = grado sfruttamento impianti = .. . prezzo periodo precedente X2 X3 X4 X5 23.3 Matrice delle osservazioni i 1 2 .. . Y y1 y2 .. . X1 x11 x21 .. . X2 x12 x22 .. . . . . Xk . . . x1k . . . x2k .. . i .. . yi .. . xi1 .. . x12 .. . ... n yn xn1 xn2 . . . xnk xik .. . 23.4 2 Modello di riferimento Posto, per definizione X0 ≡ 1 Definizione 1 (Modello di regressione multipla lineare). Y = a0 X0 + a1 X1 + . . . + ak Xk + E Definizione 2 (Notazione matriciale modello di regressione multipla lineare). ⎡ ⎤ ⎤ ⎡ ⎡ ⎡ ⎤ e1 1 x11 . . . x1k y1 a0 ⎢ y2 ⎥ ⎢ e2 ⎢ 1 x21 . . . x2k ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ Y = ⎢ . ⎥ a = ⎣ ... ⎦ X = ⎢ . .. .. ⎥ E = ⎢ .. ⎣ .. ⎦ ⎣ . ⎣ .. . . ⎦ ak yn 1 xn1 . . . xnk en ⎤ ⎥ ⎥ ⎥ ⎦ Y = Xa + E dove gli ei = yi − y∗i rappresentano gli scostamenti delle osservazioni dal modello teorico 23.5 3 Ricerca di â con il metodo dei minimi quadrati Ricerca di â con il metodo ⎫ ⎧ dei minimi quadrati 2 ⎬ ⎨ k = min â = a ∈ ℜk+1 : M Y − ∑ a j X j ⎭ ⎩ j=0 Con ovvie estensioni formali delle proprietà dell’operatore media al caso multivariato. 286 23.6 4 Esempio Esempio 3 (Consumi settimanali pro-capite di gelato). n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Y X1 X2 consumo kg prezzo/hg temp max ◦ F 0.386 0.230 41 0.374 0.240 56 0.393 0.235 63 0.425 0.238 68 0.406 0.231 69 0.344 0.262 65 0.327 0.275 61 0.288 0.307 47 0.269 0.305 32 0.256 0.319 24 0.286 0.324 28 0.298 0.311 26 0.329 0.272 32 0.318 0.287 40 0.381 0.249 55 0.381 0.258 63 0.470 0.252 72 0.443 0.249 72 0.386 0.277 67 0.342 0.277 60 0.319 0.292 44 0.307 0.287 40 0.284 0.332 32 0.326 0.285 27 0.309 0.282 28 0.359 0.265 33 0.376 0.265 41 0.416 0.225 52 0.437 0.228 64 0.548 0.221 71 media sqm 0.359 0.065 0.269 0.031 49.10 16.146 23.7 elaborazione con EXCEL Y = a0 + a1 X1 + a2 X2 + E 287 OUTPUT RIEPILOGO Statistica della regressione R multiplo 0.8929 R2 0.7972 R2 corretto 0.7822 Errore std 0.0307 Osservazioni 30 ANALISI VARIANZA gdl Regressione 2 Residuo 27 Totale 29 Intercetta prezzo temp Coefficienti 0.6435 −1.2999 0.0013 SQ 0.1001 0.0255 0.1255 MQ 0.0500 0.0009 Errore std Stat t 0.0874 7.3612 0.2547 −5.1035 0.0005 2.7472 F Significatività F 53.0725 4.41599E-10 Signif 0.0000 0.0000 0.0106 Inf 95% Sup 95% 0.4641 0.8228 −1.8225 −0.7773 0.0003 0.0023 23.8 5 Interpretazione dei coefficienti Y = a0 + a1 X1 + a2 X2 + · · · + ak Xk + E il coefficiente ai , i = 1, 2, . . . , k rappresenta la variazione (media) attesa nella variabile risposta Y conseguente a un incremento unitario della corrispondente variabile Xi , ceteris paribus, ossia supponendo che rimanga immutato il livello di tutte le altre variabili X j , j = i, e che vi sia assenza di correlazione lineare tra l’errore E e i regressori Xi , i = 1, 2, . . . , k. 23.9 Con riferimento all’esempio sul consumo di gelato il parametro a1 = −1.2999 nel modello: Y ∗ = 0.6435 − 1.2999 · X1 + 0.0013 · X2 dove: • Y ∗ = consumo teorico di gelato • X1 = prezzo/hg • X2 = temperatura indica che, supponendo che non si modifichi il livello della temperatura (X2), una variazione positiva di una unità del prezzo implica un calo nei consumi individuali di 1.2999. 23.10 6 Coefficienti standardizzati Per confrontare i coefficienti (se il modello è completo): Coeff std = βi = ai σi σY dove σi = sqm(Xi ) mentre β0 = 0 288 Y std = β1 X1std + β2 X2std + E std Intercetta prezzo temp Coeff std 0 −0.6238 0.3358 Il coefficiente standardizzato βi corrisponde alla variazione di Y dovuta a una variazione di Xi pari a σi , mentre il coefficiente ai corrisponde alla variazione di Y dovuta a una variazione unitaria di Xi . 23.11 7 Ulteriori ipotesi sul modello lineare Le ipotesi, generalmente imposte al modello lineare, sono piuttosto forti. Presuppongono, infatti, anche che: • la correlazione tra Xi e tutte le altre X j sia trascurabile • il contributo dato dalle componenti non considerate esplicitamente nel modello, in quanto riassunte dalla componente di errore E, sia in media nullo. • altre considerazioni sulla variabile di errore ai fini inferenziali, cfr. Statistica inferenziale. 23.12 8 Modelli di regressione lineare multipla con presenza di variabili indicatrici È possibile tenere conto in un modello di regressione (lineare) anche della presenza di eventuali variabili esplicative di tipo qualitativo? Ad esempio formulare un modello per interpretare la variabile dipendente Y = ’salario’ in funzione della variabile esplicativa G = ’genere’, o in funzione della variabile L = ’livello di istruzione’? La risposta immediata è di ricorrere alla costruzione della funzione di regressione considerando la variabile G o la variabile L (ed eventualmente l’interazione tra le stesse) come variabile di raggruppamento. Esistono però anche delle soluzioni alternative. 9 Esempio Esempio 4. Il presente esempio numerico considera 1472 osservazioni dall’indagine sul comportamento delle famiglie condotta dall’Unione Europea (anno 1994, Belgio). (Verbeek M, 2008, A Guide to Modern Econometrics John Wiley) Variabili presenti nel database: • • • • wage: salario lordo orario in Euro educ: livello di istruzione da 1 [basso] a 5 [alto] exper: anni di esperienza male: dummy, 1 se maschio 289 23.13 Si desidera studiare la variabile wage in funzione delle altre variabili 23.14 Genere Si definisca una nuova variabile M a partire da G, ponendo in corrispondenza della ima unità statistica: 1 se gi = maschio mi = 0 se gi = femmina Si consideri il seguente modello di regressione lineare per interpretare la variabile Y in funzione della variabile indicatrice (chiamata variabile dummy) M: Y ∗ = a + bM 23.15 Interpretazione dei coefficienti b è la differenza tra lo stipendio medio dei maschi (variabile indicatrice che figura nel modello) e lo stipendio medio delle femmine, riassunto dalla costante a. I seguenti prospetti danno, quindi, informazioni coerenti. Funzione di regressione M(Y |gi ) indwages$MALE: 0 [1] 10.26154 --------------------------------------------indwages$MALE: 1 [1] 11.56223 Modello lineare Call: lm(formula = WAGE ~ MALE, data = indwages) Residuals: Min 1Q Median -8.095 -2.864 -0.999 3Q Max 1.818 36.013 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.2615 0.1831 56.036 < 2e-16 *** MALE 1.3007 0.2351 5.532 3.74e-08 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.406 on 1470 degrees of freedom Multiple R-squared: 0.0204, Adjusted R-squared: 0.01973 F-statistic: 30.61 on 1 and 1470 DF, p-value: 3.737e-08 Nella presente situazione dal momento che la variabile esplicative nel modello lineare (M = MALE) è una variabile indicatrice consegue che: Multiple R-squared = ηY2|M 23.16 290 Livello di istruzione La variabile L è stata codificata con i valori interi da 1 a 5. Si può, in primo luogo, osservare come non sia opportuno considerare il seguente modello di regressione lineare: Y ∗ = a + bL Call: lm(formula = WAGE ~ EDUC, data = indwages) Residuals: Min 1Q -10.569 -2.731 Median -0.615 3Q 1.907 Max 34.190 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.18513 0.31830 19.43 <2e-16 *** EDUC 1.44018 0.08875 16.23 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.1 on 1470 degrees of freedom Multiple R-squared: 0.1519, Adjusted R-squared: 0.1514 F-statistic: 263.3 on 1 and 1470 DF, p-value: < 2.2e-16 23.17 Il coefficiente b dovrebbe essere interpretato, ceteris paribus, come la variazione nella variabile risposta (stima di Y ) conseguente a variazioni unitarie della variabile esplicative L (passaggi da un livello di istruzione al successivo). Non è verosimile che l’incremento sia costante! È opportuno costruire alcune (4) nuove variabili indicatrici LL2 , LL3 , LL4 , LL5 con la seguente struttura per la generica unità statistica: 1 se li = 2 1 se li = 5 ... ll5i = ll2i = 0 se li = 2 0 se li = 5 Si osservi come il numero di variabili indicatrici che sono state costruite e che verranno utilizzate nelle analisi successive è inferiore di una unità al numero di modalità distinte della variabile che si è ricodificata. Ciascuna variabile indicatrice dà informazioni sulla presenza, o meno, della generica modalità della variabile ricodificata: se, ad esempio, ll3i = 1 la iesima unità statistica possiede il terzo livello di istruzione; conseguentemente, in corrispondenza a tale unità statistica, si avrà che ll2i = ll4i = ll5i = 0. 23.18 Si considera quindi il seguente modello di regressione lineare per interpretare la variabile Y in funzione del livello di istruzione: Y ∗ = a + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 23.19 Interpretazione del generico coefficiente bi Variazione media nello stipendio che si ottiene passando dal livello di istruzione, che non è stato considerato nella costruzione delle variabili indicatrici (nel caso presente L = 1), al livello di istruzione ricodificato mediante la variabile LLi . 291 Si osserva che la costante a nel modello di regressione riassume la media della variabile risposta per le unità statistiche con livello di istruzione L = 1. I seguenti prospetti danno, quindi, informazioni equivalenti. 23.20 Funzione di Regressione M(Y |li ) indwages$EDUC: 1 [1] 8.429049 --------------------------------------------indwages$EDUC: 2 [1] 9.21519 --------------------------------------------indwages$EDUC: 3 [1] 10.2032 --------------------------------------------indwages$EDUC: 4 [1] 11.43112 --------------------------------------------indwages$EDUC: 5 [1] 13.96139 Modello Lineare Call: lm(formula = WAGE ~ -1 + L, data = indwages) Residuals: Min 1Q -11.144 -2.547 Median -0.572 3Q 1.769 Max 33.614 Coefficients: Estimate Std. Error t value Pr(>|t|) L(Intercept) 8.4290 0.4099 20.566 < 2e-16 *** LL2 0.7861 0.4804 1.637 0.101933 LL3 1.7742 0.4556 3.894 0.000103 *** LL4 3.0021 0.4634 6.479 1.26e-10 *** LL5 5.5323 0.4670 11.847 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.078 on 1467 degrees of freedom Multiple R-squared: 0.8832, Adjusted R-squared: 0.8828 F-statistic: 2219 on 5 and 1467 DF, p-value: < 2.2e-16 Anche in questo caso le variabili esplicative nel modello lineare (LLi , i = 2, . . . , 5) sono solo variabili indicatrici; consegue che: 23.21 Multiple R-squared = ηY2|L 23.22 292 Box & Whiskers Plots 10 20 30 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 1 10 20 30 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3 4 ● ● ● 1 2 5 10 20 30 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 01 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 02 03 ● 04 05 11 12 13 14 15 Dall’alto: • salario in funzione del genere (G); • salario in funzione del livello di istruzione (L); • salario in funzione delle interazioni tra genere e livello di istruzione (G : L). Genere e Livello di istruzione Funzione di Regressione M(Y |gi , l j ) paste(indwages$MALE, indwages$EDUC): 0 1 [1] 6.60001 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 2 [1] 8.152744 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 3 [1] 9.34604 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 4 [1] 10.71929 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 5 [1] 12.47561 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 1 [1] 8.982574 293 23.23 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 2 [1] 9.596581 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 3 [1] 10.74142 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 4 [1] 12.26449 --------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 5 [1] 14.942 23.24 Modello Lineare Call: lm(formula = indwages$WAGE ~ -1 + i) Residuals: Min 1Q -10.059 -2.405 Median -0.532 3Q 1.820 Max 32.634 Coefficients: Estimate Std. Error t value Pr(>|t|) i(Intercept) 6.60001 0.83243 7.929 4.36e-15 *** iMALE 2.38256 0.95008 2.508 0.01226 * iL2 1.55273 0.95949 1.618 0.10582 iL3 2.74603 0.88956 3.087 0.00206 ** iL4 4.11928 0.88088 4.676 3.19e-06 *** iL5 5.87560 0.90204 6.514 1.01e-10 *** iMALE:L2 -0.93873 1.10093 -0.853 0.39398 iMALE:L3 -0.98718 1.03092 -0.958 0.33844 iMALE:L4 -0.83736 1.04059 -0.805 0.42113 iMALE:L5 0.08384 1.05027 0.080 0.93639 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.992 on 1462 degrees of freedom Multiple R-squared: 0.8885, Adjusted R-squared: 0.8877 F-statistic: 1164 on 10 and 1462 DF, p-value: < 2.2e-16 23.25 Y∗ = a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + c12 M · LL2 + c13 M · LL3 + +c14 M · LL4 + c15 M · LL5 Anche in questo caso dal momento che le variabili esplicative nel modello lineare (LLi , i = 2, . . . , 5) sono variabili indicatrici o variabili ottenute dal prodotto di variabili indicatrici consegue che: Multiple R-squared = ηY2|M∗L 23.26 294 Genere e Livello di istruzione e anni di esperienza Y∗ = a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + +c12 M · LL2 + c13 M · LL3 + c14 M · LL4 + c15 M · LL5 + dExper Modello Lineare Call: lm(formula = WAGE ~ -1 + i + EXPER, data = indwages) Residuals: Min 1Q -13.9128 -1.8688 Median -0.3153 3Q 1.5982 Max 30.3096 Coefficients: Estimate Std. Error t value Pr(>|t|) i(Intercept) 2.094466 0.773842 2.707 0.00688 ** iMALE 1.808870 0.844576 2.142 0.03238 * iL2 1.958518 0.852688 2.297 0.02177 * iL3 4.377753 0.794609 5.509 4.25e-08 *** iL4 5.974984 0.788205 7.580 6.09e-14 *** iL5 7.970928 0.808374 9.860 < 2e-16 *** iMALE:L2 -0.169567 0.978878 -0.173 0.86250 iMALE:L3 -1.034530 0.915907 -1.130 0.25887 iMALE:L4 -0.709085 0.924519 -0.767 0.44322 iMALE:L5 0.038260 0.933099 0.041 0.96730 EXPER 0.191195 0.009666 19.780 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.547 on 1461 degrees of freedom Multiple R-squared: 0.912, Adjusted R-squared: 0.9114 F-statistic: 1377 on 11 and 1461 DF, p-value: < 2.2e-16 23.27 Si osservi che nella presente situazione la variabile Exper = numero di anni di esperienza figura come variabile quantitativa e non è conveniente costruire la funzione di regressione dal momento che Exper assume parecchi valori distinti. Multiple R-squared esprime la quota di varianza di Y spiegata dal modello di regressione lineare riportato all’inizio della pagina. Non è inoltre ragionevole assumere che l’effetto dell’esperienza sul salario sia direttamente proporzionale al numero di anni (significato del coefficiente d). Si potrebbe ovviare a tale inconveniente ricodificando anche la variabile esperienza con opportune variabili indicatrici che identifichino livelli bassi, medi e alti di esperienza. Una soluzione alternativa è quella di effettuare una trasformazione non lineare della variabile Exper. 295 23.28 Y∗ = a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + +c12 M · LL2 + c13 M · LL3 + c14 M · LL4 + c15 M · LL5 + d ln(Exper) Call: lm(formula = WAGE ~ -1 + i + LNEXPER, data = indwages) Residuals: Min 1Q -12.8419 -1.9742 Median -0.2711 3Q 1.4507 Max 30.5102 Coefficients: Estimate Std. Error t value Pr(>|t|) i(Intercept) -1.73580 0.83950 -2.068 0.0388 * iMALE 1.90487 0.83817 2.273 0.0232 * iL2 1.79639 0.84623 2.123 0.0339 * iL3 4.15723 0.78750 5.279 1.49e-07 *** iL4 5.72400 0.78077 7.331 3.76e-13 *** iL5 7.86340 0.80139 9.812 < 2e-16 *** iMALE:L2 -0.20095 0.97155 -0.207 0.8362 iMALE:L3 -1.10739 0.90916 -1.218 0.2234 iMALE:L4 -0.78301 0.91767 -0.853 0.3937 iMALE:L5 -0.08071 0.92624 -0.087 0.9306 LNEXPER 2.70650 0.13223 20.468 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.521 on 1461 degrees of freedom Multiple R-squared: 0.9133, Adjusted R-squared: 0.9127 F-statistic: 1399 on 11 and 1461 DF, p-value: < 2.2e-16 23.29 La presente formulazione, considerando la trasformata logaritmica del numero di anni di esperienza, può consentire di tenere conto di un effetto non lineare dell’esperienza (si presuppone che gli effetti sulla variabile risposta siano legati in maniera meno che proporzionale al crescere del numero di anni di esperienza). Infatti: > 1:7 [1] 1 2 3 4 5 6 7 > diff(1:7) [1] 1 1 1 1 1 1 > round(log(1:7), 4) [1] 0.0000 0.6931 1.0986 1.3863 1.6094 1.7918 1.9459 > round(diff(log(1:7)), 4) [1] 0.6931 0.4055 0.2877 0.2231 0.1823 0.1542 Per ulteriori approfondimenti si veda Verbeek M (2008) A Guide to Modern Econometrics John Wiley, testo da cui sono stati reperiti i dati relativi all’esempio considerato. 296 23.30 Sezione 24 Calcolo delle probabilità (1) 24.1 Indice 1 La probabilità 297 2 Oggetto della probabilità 298 3 Relazioni tra eventi 299 4 Operazioni elementari 301 5 Funzione di probabilità 302 6 Impostazione assiomatica 303 7 Teoremi calcolo probabilità 303 8 Approccio classico 305 9 Elicitazione e interpretazione di P(A) 307 9.1 L’approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . 307 9.2 Lo schema della scommessa . . . . . . . . . . . . . . . . . . . . . . . . 308 10 Gioco equo 309 1 La probabilità Abbiamo visto serie e seriazioni campionarie/teoriche modelli teorici per universo/popolazione xi x1 x2 .. . ϕi ϕ1 ϕ2 .. . xh ϕh ϕi = frequenze relative teoriche In corrispondenza: 297 24.2 • mutabili/variabili statistiche • mutabili/variabili casuali frequenze → probabilità Come definire la probabilità? 24.3 Definizione 1 (Esperimento deterministico). Si definisce deterministico un esperimento il cui risultato non è affetto da variabilità accidentale, è prevedibile con certezza. Definizione 2 (Esperimento aleatorio). Si definisce aleatorio un esperimento il cui risultato è casuale, non è prevedibile con certezza. Un esperimento aleatorio può, quindi, dare luogo a 2 o più risultati. Per descrivere le manifestazioni di un esperimento parleremo di eventi. Definizione 3 (Probabilità). È la misura del presentarsi di un evento; una valutazione sul fatto che un esperimento aleatorio dia luogo a un certo evento. Obiettivo Costruire modelli teorici che permettano di calcolare la probabilità di tutti gli eventi sperimentabili 24.4 0 → → → → 1-12 13-24 25-36 00 1 4 7 10 13 16 19 22 25 28 31 34 ↑ 2 5 8 11 14 17 20 23 26 29 32 35 ↑ 1-18 19-36 3 6 9 12 15 18 21 24 27 30 33 36 ↑ ← ← ← ← ← ← ← ← ← ← ← ← rosso nero 24.5 298 2 Oggetto della probabilità Definizione 4 (Eventi elementari). e 1 , e2 , . . . , e i , . . . Risultati (manifestazioni) possibili del fenomeno aleatorio Ad esempio: 1, 2, 3, . . . , 36, 0, 00 24.6 Definizione 5 (Eventi generici). A1 , A2 , . . . , Ai , . . . • Insiemi di eventi elementari • Insiemi di possibili modalità del fenomeno di specifico interesse Ad esempio: • nel gioco della roulette – pari = 2 ∪ 4 ∪ . . . ∪ 34 ∪ 36 = {2, 4, . . . , 34, 36}, – dispari, rosso, nero, 1-12, 13-24, 25-36, . . . – si puntano un gettone sul pari e un gettone sul rosso {2, 4, . . . , 34, 36} ∪ {1, 3, . . . , 34, 36} – si puntano un gettone su 1-12 e un gettone su dispari – i numeri 8, 10, 11 si possono ottenere come intersezione degli insiemi: 7-12 e nero {7, 8, 9, 10, 11, 12} ∩ {2, 4, 6, 8, 10, 11, 13, 15, . . . , 31, 33, 35} • nel lancio di un dado – risultato pari = {2, 4, 6}, – risultato dispari = {1, 3, 5}, 24.7 Definizione 6 (Classi o famiglie di eventi). Collezioni di insiemi definite attraverso una regola di appartenenza Ad esempio: • tutti gli eventi su cui è possibile puntare alla roulette Ad esempio: 24.8 Definizione 7 (Eventi particolari). • Insieme vuoto ∅ (evento impossibile) • Spazio degli eventi elementari Ω (evento certo) o spazio campionario dei possibili risultati Ad esempio: • scommessa sul numero 52 = ∅ • Ω = {1, 2, 3, . . . , 36, 0, 00} 24.9 299 3 Relazioni tra eventi Definizione 8 (Eguaglianza). A=B A e B hanno gli stessi elementi Ω Ω ● B ● A B A ● ● ● ● ● ● 24.10 Definizione 9 (Appartenenza). A⊂B gli elementi di A sono anche elementi di B (ma non necessariamente viceversa) Ω A B 24.11 Definizione 10 (Inclusione o contenimento). A⊃B 300 Ω B A 24.12 Definizione 11 (Disgiunzione o Incompatibilità). A∩B = ∅ A e B non hanno elementi in comune Ω B A 24.13 4 Operazioni elementari Definizione 12 (Insieme Unione). A∪B i cui elementi appartengono ad A oppure a B Ω A B 301 24.14 Definizione 13 (Insieme Intersezione). A ∩ B = AB i cui elementi appartengono sia ad A che a B Ω A B 24.15 Definizione 14 (Insieme Differenza). A−B i cui elementi appartengono ad A ma non a B Ω A B A−B= area bianca nell'insieme A 24.16 Definizione 15 (Insieme Complementare). Ā = Ω − A i cui elementi non appartengono ad A Ω A A 302 24.17 Esempio 16 (Lancio del dado). p p pp pp pp Ω = { p , p, pp, p p, ppp, p p} A = {dispari} = {1, 3, 5} Ā = {2, 4, 6} A ∩ Ā = ∅ 24.18 5 Funzione di probabilità È una funzione di insieme, una legge che permette di calcolare P(A) per ogni evento A ⊂ Ω. Ipotesi di lavoro Indicata con S (Ω) la classe di tutti i sottoinsiemi di Ω (compresi ∅ e Ω) assiomi del calcolo delle probabilità + probabilità eventi elementari ↓ calcolo di P(A) ∀A ⊂ S (Ω) P : S (Ω) → ℜ (tratteremo solo il caso di Ω finito) 24.19 6 Impostazione assiomatica Definizione 17 (Impostazione assiomatica di Kolmogorov). Siano Ω = lo spazio degli eventi elementari ed S (Ω) la classe di tutti i sottoinsiemi di Ω. Una funzione P(·) definita su S (Ω) si definisce funzione di probabilità se soddisfa i seguenti assiomi: 1. P(A) ≥ 0, ∀A ⊂ S (Ω) 2. P(Ω) = 1 3. Data una sequenza di eventi {A1 , A2 , . . . , An } a coppie disgiunti (Ai ∩ A j = ∅) P n 2 n Ai i=1 i=1 Osservazione 1) e 2) vincoli alla funzione misura = ∑ P(Ai ) 3) condizione operativa Osservazione Definita una legge P = P(ei ) (∀ei ⊂ Ω) che soddisfa gli assiomi possiamo calcolare P(A) (∀A ⊂ Ω) Infatti, ogni evento A è interpretabile come unione di un certo numero di eventi elementari (disgiunti) A= k 2 i=1 303 ei 24.20 per cui k P(A) = ∑ P(ei ) i=1 Altre volte risulta più agevole non ricorrere alle P(ei ) ma usare dei teoremi che derivano dai postulati 24.21 7 Teoremi calcolo probabilità Teorema 18. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Ω A B P(A ∩ B) = 0 solo se A e B sono disgiunti 24.22 Teorema 19. P(A − B) = P(A) − P(A ∩ B) Ω A B A−B= area bianca nell'insieme A P(A ∩ B) = P(B) solo se B ⊂ A 24.23 Teorema 20. P(Ā) = 1 − P(A) 304 Ω A A 24.24 Dimostrazione. P(Ā) = 1 − P(A) A ∪ Ā = Ω P(A + Ā) = P(Ω) per il secondo assioma P(Ω) = 1 A e Ā sono disgiunti per il terzo assioma P(A ∪ Ā) = P(A) + P(Ā) 24.25 Teorema 21. P(∅) = 0 Teorema 22. Se A ⊂ B allora P(A) ≤ P(B) (monotonicità) 24.26 Osservazione Se gli eventi A e B sono incompatibili P(A ∪ B) = P(A) + P(B). È il cosiddetto principio delle probabilità totali, postulato base dell’impostazione classica della probabilità. Osservazione Dall’ultimo teorema segue che P(A) ≤ 1 essendo A ⊂ Ω 24.27 Esercizio 23 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si verifichi l’evento B è pari a 0.12. La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi l’evento A. La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68. 1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi l’evento B. 2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificato l’evento B. 24.28 305 8 Approccio classico Definizione 24 (Formula classica di Laplace/Pascal). Se lo spazio probabilistico Ω • è costituito da un numero finito n di eventi elementari e • gli eventi elementari sono ’simmetrici’ (equiprobabili) la probabilità del generico evento A ⊂ Ω può essere definita come P(A) = # casi favorevoli ad A # eventi elementari ∈ A = # casi possibili n Possibili applicazioni: • giochi d’azzardo • lotto e tombola 24.29 Dimostrazione. Ω = {e1 , e2 . . . , en } Se gli eventi ei sono simmetrici (equiprobabili) vale P({ei }) = costante = p =? Per il secondo e terzo postulato P(Ω) = P n 2 n n i=1 i=1 = ∑ P(ei ) = ∑ p = np = 1 ei i=1 quindi p= e P(A) = 1 n 1 nA = . n i:ei ∈A n ∑ 24.30 Esempio 25. Calcolare la probabilità che estraendo una carta da un mazzo di 52 carte si ottenga una carta di fiori. Siamo interessati all’evento F = {carta di fiori} Con riferimento allo spazio probabilistico Ω formato dalle 52 carte A♥ A♦ A♣ A♠ 2♥ 2♦ 2♣ 2♠ 3♥ 3♦ 3♣ 3♠ 4♥ 4♦ 4♣ 4♠ 5♥ 5♦ 5♣ 5♠ 6♥ 6♦ 6♣ 6♠ 7♥ 7♦ 7♣ 7♠ 8♥ 8♦ 8♣ 8♠ 9♥ 9♦ 9♣ 9♠ 10♥ 10♦ 10♣ 10♠ J♥ J♦ J♣ J♠ Q♥ Q♦ Q♣ Q♠ K♥ K♦ K♣ K♠ 13 = 0.25 52 Con riferimento allo spazio probabilistico Ω formato dai 4 semi (simmetrici, essendo ciascuno costituito da 13 carte) P(F) = ♥ ♦ ♣ ♠ P(F) = 306 1 = 0.25 4 24.31 Esempio 26. Calcolare la probabilità che la somma dei punteggi ottenuti nel lancio di 2 dadi (equilibrati) sia almeno pari a 11. ● ● ● 4 ● ● ● ● ● ● 3 ● ● ● ● ● ● 2 7 ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 3 4 5 6 0 6 ● ● ● ● ● ● 5 5 ● ● ● ● ● ● ● ● 4 ● ● ● ● ● ● ● 3 ● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● 1 ● ● ● ● ● ● ● 1 2 3 4 5 6 0 6 ● 0 ● 1 7 Siano D1 e D2 i punteggi ottenuti con i due dadi ed S = D1 + D2 la loro somma. Lo spazio probabilistico Ω è costituito da tutte le possibili coppie di risultati 7 0 7 3 = 0.0833. 36 L’assegnazione della funzione di probabilità in base all’approccio classico può essere utilizzata se sono verificate le seguenti due assunzioni P(S ≥ 11) = P(D1 + D2 ≥ 11) = 24.32 • lo spazio probabilistico Ω consta di un numero finito di eventi • simmetria degli eventi elementari Come è possibile operare se le precedenti ipotesi non sono verificate? Si pensi, ad esempio, alla probabilizzazione dei seguenti eventi: • evento testa nel caso di una moneta non equilibrata • in una partita di calcio disputata tra le squadre a e b vinca la squadra a 24.33 9 Elicitazione e interpretazione di P(A) • approccio frequentista (oggettivo) P(A) = limite del rapporto di frequenze (legge empirica del caso) • schema della scommessa (soggettivo) P(A) = quanto sono disposto a puntare per vincere 1 (De Finetti) 24.34 9.1 L’approccio frequentista Definizione 27 (Esperimento aleatorio ripetibile). Si definisce ripetibile un esperimento aleatorio che può essere ripetuto nelle stesse condizioni sperimentali. 307 Definizione 28 (Legge empirica del caso). In presenza di un esperimento aleatorio ripetibile ∀A ⊂ S (Ω) esiste un valore oggettivo P(A) lim N→∞ NA = P(A) N Osservazione Il limite della frequenza relativa di successo soddisfa gli assiomi 0.7 24.35 0.6 Limite in senso matematico 0.5 limN→∞ f (N) = p 0.4 ∀ε > 0, ∃N0 (ε) : se N > N0 allora 0.3 | f (N) − p| < ε 0 200 400 600 800 1000 0.7 0.65 0.6 0.55 Limite in senso probabilistico 0.5 0.45 0.4 limN→∞ f (N) = c 0.35 0.3 ∀ε > 0, ∃N0 (ε, s) : se N > N0 allora | f (N) − p| < ε 0 200 400 600 800 1000 0 200 400 600 800 1000 0.7 0.65 0.6 0.55 N0 dipende anche dalla successione s di esperimenti. 0.5 0.45 0.4 0.35 0.3 24.36 9.2 Lo schema della scommessa • esperimenti non necessariamente ripetibili • opinioni soggettive differenti ∀A ⊂ S (Ω) P(A) = p posta p che il soggetto è disposto a pagare (ricevere) per riscuotere (pagare) • 1 se A si verifica • 0 se A non si verifica La scommessa deve essere coerente: non deve dar luogo a guadagni (perdite) certi. Per garantire la coerenza la valutazione non deve cambiare se l’individuo passa da scommettitore a banco. Una valutazione coerente soddisfa gli assiomi. 308 24.37 10 Gioco equo Il concetto di Gioco equo è strettamente legato a quello di scommessa coerente. Definizione 29 (Gioco equo). Un gioco si definisce equo se non dà luogo a guadagni o perdite certi, ovvero se il guadagno ’medio’ del giocatore è nullo. Osservazione Una scommessa su un evento A, per il quale P(A) = p, corrisponde a un gioco equo se puntando 1 vinco 1/p. 24.38 Esempio 30 (Lancio di una moneta equilibrata). I risultati possibili sono: T = testa e C = croce: • in base all’impostazione classica si tratta di eventi elementari simmetrici: P(T ) = P(C) = 0.5; • in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad esempio, sull’evento T 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è di 1 a 2, ovvero punto 1 per ricevere 2); 0 se risultato = T̄ quindi: posta = 1 vincita = 2 se risultato = T risultato T̄ T xi −1 1 P(X = xi ) xi · P(X = xi ) 0.5 −0.5 0.5 0.5 1 0 dove xi = guadagno = vincita − posta M(X) = E(X) = 0 Il gioco è equo: non dà, infatti, luogo a guadagni o perdite certi. 24.39 • andamento della convergenza della frequenza di T = testa in una successione di 1000 lanci (grafici A) • corrispondente evoluzione della situazione patrimoniale di un ipotetico giocatore che scommette su T (grafici B) A B A 35 0.7 0.65 25 0.6 15 0.55 0.5 10 0.5 5 0 0.4 -5 0 200 400 600 800 1000 -10 0.35 0 200 400 600 800 1000 10 0 0.45 -10 0.4 -20 0.35 -15 0.3 20 0.6 20 0.55 0.45 B 30 0.7 30 0.65 200 400 600 800 1000 70 0.7 60 0.65 0 50 0.6 -10 0.55 40 0.55 -20 0.5 -30 30 0.35 600 800 1000 -10 200 400 600 800 1000 -60 0 400 0 -50 0.35 200 1000 -40 0.4 10 0 800 10 0.45 20 0.3 600 -40 0.6 0.4 400 -30 0 0.7 0.5 200 0.3 -20 0.65 0.45 0 0 200 400 600 800 1000 -70 0.3 0 309 200 400 600 800 1000 -80 24.40 Esempio 31 (Gioco della roulette). I risultati possibili sono i simboli 0, 00, 1, 2, 3, . . . , 36: • in base all’impostazione classica: P(0) = P(00) = P(1) = . . . = P(36) = 1 ; 38 • in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere 1 unità per ricevere 1 (il rapporto tra posta razionale e vincita sul generico simbolo 38 è di 1 a 38); In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35: xi = vincita − posta −1 35 P(X = xi ) 37 38 1 38 1 xi · P(X = xi ) − 37 38 2 − 38 35 38 = −0.05263 M(X) = E(X) < 0 Il gioco non è equo: ci si attende ’in media’ una perdita certa. 310 24.41 Sezione 25 Calcolo delle probabilità (2) 25.1 Indice 1 La probabilità condizionata P(A|B) 311 2 La probabilità composta 313 3 Indipendenza stocastica 313 3.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 4 La probabilità composta (caso generale) 4.1 Esercizi . . . . . . . . . . . . . . . 4.2 Le permutazioni . . . . . . . . . . . 4.3 Le combinazioni . . . . . . . . . . 4.4 Il coefficiente binomiale . . . . . . 4.5 Il coefficiente multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 315 315 316 317 318 5 Legge delle probabilità totali 319 5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 6 Formula di Bayes 321 6.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 1 La probabilità condizionata P(A|B) In presenza di due eventi A e B Ω A B 311 25.2 siamo interessati a calcolare la probabilità dell’evento condizionato A|B, ossia la probabilità che si verifichi l’evento A a condizione che B si sia verificato. L’evento B deve potersi verificare: P(B) > 0. Si opera una restrizione dello spazio probabilistico Ω al solo evento B, che diventa lo spazio di riferimento (Ω∗ = B) su cui definire una nuova legge P∗ (A) = P(A|B). 25.3 È possibile utilizzare la legge P definita su Ω per costruire P∗ ? Ω A B L’evento A si verifica ora nella sola intersezione con B, quindi P(A|B) = P(A ∩ B) P(B) Si osserva come con riferimento allo spazio Ω vale P(A ∩ Ω) P(A) = P(Ω) 1 P(A) = 25.4 Definizione 1 (Probabilità condizionata). P(A|B) = P(A ∩ B) , P(B) P(B) = 0 Esempio 2. Si estragga una carta da un mazzo di 52 carte. Si calcoli la probabilità che sia un asso, condizionatamente al fatto che la carta estratta abbia il seme ’cuori’. • ottenere un asso all’interno delle cuori (A ∩ B) • considerando solo le uscite di cuori (B) A♥ A♦ A♣ A♠ 2♥ 2♦ 2♣ 2♠ 3♥ 3♦ 3♣ 3♠ 4♥ 4♦ 4♣ 4♠ 5♥ 5♦ 5♣ 5♠ 6♥ 6♦ 6♣ 6♠ P(A|B) = 7♥ 7♦ 7♣ 7♠ 8♥ 8♦ 8♣ 8♠ P(A ∩ B) = P(B) 9♥ 9♦ 9♣ 9♠ 1 52 13 52 = 10♥ 10♦ 10♣ 10♠ P(A ∩ B) = P(B) 312 1 52 13 52 = Q♥ Q♦ Q♣ Q♠ K♥ K♦ K♣ K♠ 1 13 Si osserva come l’ultimo passaggio nella precedente espressione P(A|B) = J♥ J♦ J♣ J♠ 1 13 25.5 non sia una semplice semplificazione della formula. Il condizionamento rappresenta, infatti, una restrizione all’insieme condizionante (B). Risulta, quindi, definita una nuova misura di probabilità P∗ riferita allo spazio probabilistico Ω∗ = B = carte di cuori. P(A ∩ B) = P(B) 1 52 13 52 = #AC in Ω #casi poss. in Ω #C in Ω #casi poss. in Ω = 1 #AC in B = = P! (A) 13 #casi poss. in B 25.6 Osservazione Con riferimento a particolari sequenze di eventi {A1 , A2 , . . . , An } il terzo postulato dell’impostazione assiomatica potrebbe applicarsi per P∗ definita su B e non per P definita su Ω. Ω A1 B A2 A3 A4 A1 ∩ A2 = ∅, A3 ∩ A4 = ∅, (A1 |B) ∩ (A2 |B) = (A3 |B) ∩ (A4 |B) = ∅ 25.7 2 La probabilità composta Da P(B|A) = P(B ∩ A) , P(A) P(A) = 0 P(A|B) = P(A ∩ B) , P(B) P(B) = 0 segue la definizione di probabilità composta. Definizione 3 (Probabilità composta). P(A ∩ B) = P(A) · P(B|A) = P(B) · P(A|B) 25.8 313 3 Indipendenza stocastica Definizione 4 (Indipendenza stocastica). Due eventi A e B si dicono stocasticamente indipendenti se P(A ∩ B) = P(A) · P(B) Se A e B sono stocasticamente indipendenti, dalla formula della probabilità condizionata segue che: • P(A ∩ B) P(A) · P(B) P(A|B) = = = P(A) P(B) P(B) l’evento B non ha alcuna influenza sulla manifestazione dell’evento A. • P(B ∩ A) P(B) · P(A) = = P(B) P(B|A) = P(A) P(A) l’evento A non ha alcuna influenza sulla manifestazione dell’evento B. 3.1 25.9 Esercizi Esercizio 5. Due eventi disgiunti sono indipendenti? Esercizio 6 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si verifichi l’evento B è pari a 0.12. La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi l’evento A. La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68. 1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi l’evento B. 2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificato l’evento B. 3. Indicare, giustificando la risposta, se A e il complementare di B sono tra loro stocasticamente indipendenti. 4. Dimostrare che A e B sono tra loro stocasticamente indipendenti. Esercizio 7 (T 156, 13.09.1997, 4). Dati due eventi tali che P(A) = 0.3, P(B) = 0.4; calcolare P(A ∪ B) nelle seguenti ipotesi: 1. A e B sono stocasticamente indipendenti; 2. A e B sono disgiunti; 3. P(A|B) = 0.8. Esercizio 8 (T 173, 13.09.1997, 4). Sapendo che la probabilità che si verifichi l’evento A è pari a 0.4 e che la probabilità che si verifichi l’evento B è pari a 0.9, dire, giustificando la risposta data, se: 1. A e B sono due eventi incompatibili (o disgiunti); 2. A e B sono due eventi tra loro stocasticamente indipendenti, sapendo che P(A∪B) = 0.9. Esercizio 9 (T 231, 11.01.2007, 4). Sapendo che A, B e C sono tre eventi che costituiscono una partizione dello spazio probabilistico Ω e che P(A) = 0.2 e P(B) è 2 volte P(C). 1. Calcolare P(B ∪C); P(A ∩C); P(A − B); P(A|B). 2. Dire se A e C sono stocasticamente indipendenti. 314 25.10 25.11 25.12 25.13 25.14 4 La probabilità composta (caso generale) Definizione 10 (Probabilità composta). Si considerino gli eventi A1 , A2 , . . . , An . Allora P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ A2 ∩ . . . ∩ An−1 ) con P(A1 ∩ A2 ∩ . . . ∩ An ) = 0. Teorema 11. Si considerino gli eventi A1 , A2 , . . . , An con P(A1 ∩ A2 ∩ . . . ∩ An ) = 0. Allora 0 < P(A1 ∩ . . . ∩ An ) ≤ P(A1 ∩ . . . ∩ An−1 ) ≤ . . . ≤ P(A1 ) Dimostrazione. Dal momento che (A1 ∩ . . . ∩ An ) ⊂ (A1 ∩ . . . ∩ An−1 ) ⊂ . . . ⊂ (A1 ∩ A2 ) ⊂ A1 , la tesi segue applicando il Teorema della monotonicità. 25.15 4.1 Esercizi Esercizio 12 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna recante impressa una lettera dell’alfabeto italiano. Calcolare la probabilità che estraendo contemporaneamente 5 palline escano: 1. 5 consonanti; 2. le 5 lettere che compongono il sostantivo ombra; (suggerimento: calcolare le seguenti probabilità: P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ), P(a1 ∩ m2 ∩ b3 ∩ r4 ∩ o5 ); conteggiare poi il numero di sequenze che possono essere costruite con le lettere o, m, b, r, a, cfr. il paragrafo successivo ’le permutazioni’). 25.16 315 4.2 Le permutazioni Esempio 13. Quante sequenze si possono costruire con le quattro lettere (elementi distinti) r, o, m, a r r r r r r o o o o o o m m m m m m a a a a a a o o m m a a r r m m a a r r o o a a r r o o m m m a o a o m m a r a r m o a r a r o o m r m r o a m a o m o a m a r m r a o a r o r m o m r o r 4 3 2 1 4 · 3 · 2 · 1 = 4! = 24 In totale 24 sequenze, ottenibili mediante il prodotto 4 · 3 · 2 · 1 = 4! = 24 25.17 Definizione 14 (Permutazioni). Numero di sequenze che possono essere costruite con n elementi distinti: n · (n − 1) · . . . · 2 · 1 Definizione 15 (Fattoriale). Si definisce fattoriale di un numero n il prodotto dei numeri da 1 a n n! = n · (n − 1) · . . . · 2 · 1 Per definizione vale 0! = 1 Esercizio 16 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna recante impressa una lettera dell’alfabeto italiano. Calcolare la probabilità che estraendo contemporaneamente 5 palline escano: 3. le 5 lettere che compongono il sostantivo sasso. 4. 3 vocali e 2 consonanti; (suggerimento: calcolare le seguenti probabilità: P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ), P(c1 ∩ c2 ∩ v3 ∩ v4 ∩ v5 ); conteggiare poi il numero di sequenze che possono essere costruite con 3 vocali e 2 consonanti, cfr. il paragrafo successivo ’le combinazioni’). Esercizio 17 (T 121, 26.06.1993, 5). Papà, mamma con i due figli vanno in gelateria e si siedono a un tavolo quadrato a 4 posti; determinare la probabilità che i due figli siano seduti uno di fronte all’altro, ritenendo equiprobabile ogni configurazione. 316 25.18 25.19 25.20 4.3 Le combinazioni Esempio 18. Si considerino 5 elementi dei quali 3 di un tipo e 2 di un secondo tipo (ad esempio 3 lettere f e 2 lettere g). Quante sequenze si possono costruire con i 5 elementi? Ipotizziamo in primo luogo che i 5 elementi siano distinti: a, b, c, d, e Il numero delle possibili sequenze è 5! = 5 · 4 · 3 · 2 · 1 = 120 abcde abced abdce abdec abecd abedc acbde acbed acdbe acdeb acebd acedb adbce adbec adcbe adceb adebc adecb aebcd aebdc aecbd aecdb aedbc aedcb bacde baced badce badec baecd baedc bcade bcaed bcdae bcdea bcead bceda bdace bdaec bdcae bdcea bdeac bdeca beacd beadc becad becda bedac bedca cabde cabed cadbe cadeb caebd caedb cbade cbaed cbdae cbdea cbead cbeda cdabe cdaeb cdbae cdbea cdeab cdeba ceabd ceadb cebad cebda cedab cedba dabce dabec dacbe daceb daebc daecb dbace dbaec dbcae dbcea dbeac dbeca dcabe dcaeb dcbae dcbea dceab dceba deabc deacb debac debca decab decba eabcd eabdc eacbd eacdb eadbc eadcb ebacd ebadc ebcad ebcda ebdac ebdca ecabd ecadb ecbad ecbda ecdab ecdba edabc edacb edbac edbca edcab edcba 25.21 Si sostituisca alle lettere a, b, c la lettera f Tutte le sequenze che contengono la coppia (d, e) in posizione prefissata, ad esempio in 4a e 5a posizione divengono indistinguibili abcde bacde cabde → f f f de acbde bcade cbade Il numero di sequenze distinte (per l’ordine) risulta allora ridotto a 120 5! = = 20, 6 3! essendo 3!, permutazione delle 3 lettere a, b, c, il numero di elementi ’indistinguibili’ con d ed e in posizione prefissata e a, b, c sostituite con f f f f de f f f ed f fd fe f fefd f f de f f f ed f fd f fe fef fd fd fef fefd f f de f f f ed f f 317 d f f fe ef f fd d f fef ef fd f d fef f efd f f de f f f ed f f f Sostituendo alle lettere d, e la lettera g, il numero di sequenze distinte (per l’ordine) risulta 120 5! = = 10, 3! · 2! 6 · 2 dove 2!, permutazione delle lettere d, e, è il numero di elementi ’indistinguibili’ con a, b, c (o f f f ) in posizione prefissata e d, e sostituite con g f f f gg f fgfg f f gg f fgf fg fgfgf f gg f f gf f fg gf fgf gfgf f gg f f f 25.22 In conclusione, disponendo di 5 elementi di cui 3 di un primo tipo e 2 di un secondo tipo, è possibile costruire 120 5! = = 10 3! · 2! 6 · 2 ordinamenti (sequenze) distinte. Definizione 19 (Combinazioni). Il numero di sequenze che possono essere costruite con n elementi dei quali k di un primo tipo e n − k di un secondo tipo · · · ◦6 •3 •45 · · · •6 ◦3 ◦45 k n−k è pari a: n! k! · (n − k)! 4.4 25.23 Il coefficiente binomiale Definizione 20 (Coefficiente binomiale). n n! = k! · (n − k)! k Per il calcolo del coefficiente binomiale risulta utile la seguente proprietà n n! n n! = = = n−k k! · (n − k)! (n − k)! · k! k Inoltre n n! = k k! · (n − k)! = = = n(n − 1) · . . . · (n − k + 1)(n − k)! k! · (n − k)! n(n − 1) · . . . · (n − k + 1) k(k − 1) · . . . · 1 k fattori k fattori 70 70 Esempio 21. Si calcolino 80 78 , 3 , 66 80 80 80 · 79 = = = 3160 78 2 2·1 70 70 · 69 · 68 = 54740 = 3·2·1 3 70 70 70 · 69 · 68 · 67 = 916895 = = 4·3·2·1 66 4 318 25.24 25.25 Esercizio 22 (T 158, 24.01.1998, 5). Sia dato un gruppo di n = 12 individui. 1. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, due persone si trovino vicine. 2. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, tre persone si trovino vicine. 25.26 4.5 Il coefficiente multinomiale Esempio 23 (Applicazione del coefficiente multinomiale). Si considerino 7 elementi dei quali 1 di un primo tipo, 3 di un secondo tipo, 2 di un terzo tipo e 1 di un quarto tipo (ad esempio ahhhllg). Quante sequenze si possono costruire? Ipotizziamo in primo luogo che i 7 elementi siano distinti: a, b, c, d, e, f , g Il numero delle possibili sequenze è 7! = 5040. Si sostituisca alle lettere b, c, d la lettera h e alle lettere e, f la l Molte sequenze divengono indistinguibili, ad esempio abcde f g abdce f g acbde f g acdbe f g adbce f g adcbe f g → ahhhllg abcd f eg abdc f eg acbd f eg acdb f eg adbc f eg adcb f eg Il numero totale di sequenze distinte (per l’ordine) risulta 7! = 420 1! · 3! · 2! · 1! 25.27 5 Legge delle probabilità totali Si consideri una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak Ω A1 A2 ... 319 Ak k Ai ∩ A j = ∅ (∀i = j) i=1 Ai = Ω, Si consideri ora un generico insieme B 25.28 Ω A1 A2 ... Ak B Si ha: B = Ω ∩ B = (A1 ∪ . . . ∪ Ak ) ∩ B = (A1 ∩ B) ∪ . . . ∪ (Ak ∩ B) pertanto P(B) = P(A1 ∩ B) + . . . + P(Ak ∩ B) e anche P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ) 25.29 Teorema 24 (Legge delle probabilità totali). Si consideri un insieme B e una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak , vale P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ) 25.30 5.1 Esercizi Esercizio 25 (T 152, 22.02.1997, 4). Tre scatole contengono rispettivamente: • due palline bianche e una nera; • due palline nere e una bianca; • tre palline bianche. Estraendo in modo indipendente una pallina da ciascuna scatola, calcolare la probabilità di estrarre due palline bianche e una nera. 25.31 Esercizio 26 (T 154, 28.06.1997, 5). Siano date due urne così composte: • la prima contiene 18 palline bianche, 17 palline rosse e 5 palline verdi, • la seconda contiene 10 palline bianche, 16 palline rosse e 24 palline verdi. Si proceda allo svolgimento del seguente esperimento casuale: si lanci un dado regolare. Se si ottiene un numero multiplo di 3 si estrae una pallina dalla prima urna contrariamente si estrae una pallina dalla seconda urna. Determinare la probabilità che la pallina estratta sia bianca. 25.32 320 6 Formula di Bayes Teorema 27 (Formula di Bayes). Si considerino • una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak • un insieme B. Si supponga di conoscere • P(A1 ), P(A2 ), . . . , P(Ak ) • P(B|A1 ), P(B|A2 ), . . . , P(B|Ak ) Allora P(Ai |B) = P(Ai )P(B|Ai ) , P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ) Dimostrazione. P(Ai |B) = i = 1, . . . , k P(Ai )P(B|Ai ) P(Ai ∩ B) = k P(B) ∑i=1 P(Ai )P(B|Ai ) ricordando la formula della probabilità composta e la legge delle probabilità totali. 25.33 Interpretazione della Formula di Bayes Ai = cause, B = effetto Consente di effettuare uno scambio tra le cause e l’effetto. Nota la probabilità di ciascuna causa e la probabilità dell’effetto data ciascuna causa, consente di determinare la probabilità della causa dato l’effetto. Esempio 28. k tiratori verso 1 obiettivo B = centro Ai |B = è stato i a centrare l’obiettivo note (a priori) le capacità tecniche di ogni tiratore espresse come probabilità di fare centro P(B|Ai) Utilizzazione Approccio soggettivo all’induzione sperimentale B = dati sperimentali P(Ai ) = distribuzione a priori 6.1 25.34 Esercizi Esercizio 29 (T 214, 23.09.2004, 3). Un manager ha nel proprio ufficio tre linee telefoniche (A, B e C) che risultano libere con probabilità rispettivamente pari a 0.70, 0.20 e 0.40. 1. Scegliendo a caso una delle linee, si determini la probabilità che la linea scelta risulti essere libera. 2. Ipotizzando che la linea scelta sia libera, qual è la probabilità che sia la linea C? 25.35 321 Sezione 26 Calcolo delle probabilità (3) 26.1 Indice 1 La variabile casuale 323 2 Esempi di variabili casuali discrete 324 2.1 La variabile casuale di Bernoulli . . . . . . . . . . . . . . . . . . . . . . 325 3 La variabile casuale binomiale 327 4 La variabile casuale ipergeometrica 328 5 La variabile casuale uniforme 330 5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 6 La Funzione di Ripartizione 332 26.2 1 La variabile casuale Denominata anche ’numero aleatorio’, è il corrispondente stocastico della serie statistica. Al posto degli eventi elementari ωi ⊂ Ω abbiamo valori numerici appartenenti a un insieme S detto supporto. Gli eventi di interesse sono, in genere, insiemi numerici del tipo X = x0 X ≤ x0 a<X ≤b e si parla di probabilità che X assuma determinati valori Analogamente al caso delle variabili statistiche, il simbolo X riassume, ora, valori e probabilità. Tipologie di variabili casuali • discrete (Ω assume valori in un insieme finito o numerabile) • continue (Ω corrisponde a un intervallo di valori reali) 26.3 Definizione 1 (Esperimento aleatorio). Un esperimento aleatorio è definito dalla terna {Ω, S (Ω), P(·)}, dove • Ω è lo spazio probabilistico, • S (Ω) la relativa algebra degli eventi (elementari e non), • P(·) è la misura di probabilità definita su S (Ω). 323 Osservazione Nel caso continuo, dove Ω ≡ S ⊂ ℜ è conveniente usare la legge di probabilità P(·) = P(X ≤ x) Definizione 2 (Variabile casuale). Dato un esperimento aleatorio, una trasformazione X : Ω → ℜ dello spazio probabilistico Ω in ℜ è detta variabile casuale, X, se ogni elemento B ⊂ S (ℜ) ha controimmagine in S (Ω), dove S (ℜ) è una opportuna algebra costruita, ad esempio a partire dalla classe degli semirette, su ℜ. Vale a dire: ! " ∀B ⊂ S(ℜ). PX (B) = P X −1 (B) , 26.4 2 Esempi di variabili casuali discrete Esempio 3. Esperimento di estrazione di 2 palline senza reimmissione da un’urna contenente 10 palline bianche e 6 palline nere Ω ω1 = (B1 ∩ B2 ) P(ω1 ) = P(B1 ∩ B2 ) = P(B1 )P(B2 |B1 ) = 10 9 = 0.375 16 15 ω2 = (B1 ∩ N2 ) P(ω2 ) = P(B1 ∩ N2 ) = P(B1 )P(N2 |B1 ) = 10 6 = 0.250 16 15 ω3 = (N1 ∩ B2 ) P(ω3 ) = P(N1 ∩ B2 ) = P(N1 )P(B2 |N1 ) = 6 10 = 0.250 16 15 ω4 = (N1 ∩ N2 ) P(ω4 ) = P(N1 ∩ N2 ) = P(N1 )P(N2 |N1 ) = 6 5 = 0.125 16 15 Si costruisca la variabile casuale X = ’n◦ palline nere estratte’ Variabile casuale X = ’n◦ palline nere estratte’ X :Ω→ℜ 26.5 Ω (B1 ∩ B2 ) (B1 ∩ N2 ) (N1 ∩ B2 ) (N1 ∩ N2 ) " 0 1 supporto S = {0, 1, 2} xi 0 1 2 2 P(X = xi ) = pi P(ω1 ) 0.375 P(ω2 ) + P(ω3 ) 0.500 P(ω4 ) 0.125 1 26.6 324 Esempio 4. Si considera un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p. p 1− p A Ā L’esperimento consiste nell’estrazione di una pallina dall’urna. Abbiamo P(A) = p P(Ā) = 1 − p Infatti, nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero: • N p elementi del tipo A • N − N p = N(1 − p) elementi del tipo Ā che sarebbero tutti alla pari di fronte all’operazione di estrazione (eventi simmetrici), quindi Np N(1 − p) P(A) = =p P(Ā) = = 1− p N N Esercizio 5. Si costruisca la variabile casuale X = ’n◦ 26.7 elementi di tipo A’ 26.8 2.1 La variabile casuale di Bernoulli Definizione 6 (Variabile casuale di Bernoulli). X = ’n◦ elementi di tipo A’ in una estrazione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p. Supporto S = {0, 1} xi 0 1 P(X = xi ) = pi 1− p p 1 26.9 Esempio 7 (Estrazioni bernoulliane). Esperimento di estrazione di 2 elementi con reimmissione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p. Le estrazioni in questo caso sono dette bernoulliane o prove indipendenti Ω (A1 ∩ A2 ) P(A1 ∩ A2 ) = P(A1 )P(A2 |A1 ) = P(A)P(A) = p2 (A1 ∩ Ā2 ) P(A1 ∩ Ā2 ) = P(A1 )P(Ā2 |A1 ) = P(A)P(Ā) = p(1 − p) (Ā1 ∩ A2 ) P(Ā1 ∩ A2 ) = P(Ā1 )P(A2 |Ā1 ) = P(Ā)P(A) = (1 − p)p (Ā1 ∩ Ā2 ) P(Ā1 ∩ Ā2 ) = P(Ā1 )P(Ā2 |Ā1 ) = P(Ā)P(Ā) = (1 − p)2 Si costruisca la variabile casuale X = ’n◦ elementi di tipo A estratti nelle 2 estrazioni con reimmissione’ 325 26.10 Variabile casuale X = ’n◦ elementi di tipo A estratti nelle 2 estrazioni con reimmissione’ X :Ω→ℜ Ω (Ā1 ∩ Ā2 ) (Ā1 ∩ A2 ) (A1 ∩ Ā2 ) (A1 ∩ A2 ) " 0 1 2 supporto S = {0, 1, 2} xi 0 1 2 P(X = xi ) = pi P(Ā1 ∩ Ā2 ) (1 − p)2 P(Ā1 ∩ A2 ) + P(A1 ∩ Ā2 ) (1 − p)p + p(1 − p) P(A1 ∩ A2 ) p2 1 26.11 Osservazione Nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero: • N p elementi del tipo A • N − N p = N(1 − p) elementi del tipo Ā si potrebbe quindi anche considerare lo spazio probabilistico Ω costituito da N 2 coppie simmetriche (dal momento che le estrazioni sono con reimmissione) del tipo (a1 ∩ a2 ), (a1 ∩ ā2 ), (ā1 ∩ a2 ) e (ā1 ∩ ā2 ) Ω Np·Np N p · N(1 − p) N(1 − p) · N p N(1 − p) · N(1 − p) (a1 ∩ a2 ) (a1 ∩ ā2 ) (ā1 ∩ a2 ) (ā1 ∩ ā2 ) Np·Np = p2 , N2 P(Ā1 ∩ Ā2 ) = P(A1 ∩ A2 ) = P(Ā1 ∩ A2 ) = N(1 − p) · N p = (1 − p)p, N2 N(1 − p) · N(1 − p) = (1 − p)2 N2 P(A1 ∩ Ā2 ) = N p · N(1 − p) = p(1 − p) N2 26.12 Osservazione Cosa succede in presenza di n estrazioni? Gli eventi elementari diventano delle n-ple e vengono definite le variabili casuali • binomiale, nel caso le estrazioni siano con reimmissione, ovvero in presenza di prove indipendenti • ipergeometrica, nel caso di estrazioni senza reimmissione 26.13 326 3 La variabile casuale binomiale Definizione 8 (Variabile casuale binomiale X ∼ Bin(n, p)). Si consideri l’esperimento di estrazione di n elementi con reimmissione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p. p 1− p A Ā La variabile casuale X = ’n◦ elementi di tipo A estratti nelle n estrazioni con reimmissione’ si definisce variabile casuale binomiale con parametri n e p. X ha distribuzione di probabilità n x P(X = x) = p (1 − p)n−x , (x = 0, 1, . . . , n). x 26.14 Osservazione L’esperimento potrebbe anche consistere nella ripetizione di n prove indipendenti, ciascuna delle quali può dare luogo a un successo, A, con probabilità p, ovvero a un insuccesso, Ā, con probabilità 1 − p. Osservazione Per n = 1 si ottiene la variabile casuale di Bernoulli. Osservazione La variabile casuale binomiale può essere interpretata come somma di n variabili casuali di Bernoulli. 26.15 Osservazione • se p = 0.5 allora X ∼ Bin(n, p) ha distribuzione di probabilità simmetrica • se p → 0 oppure p → 1 la distribuzione è asimmetrica Osservazione La distribuzione di probabilità può presentare 1 moda oppure 2 mode contigue. 26.16 327 0.4 0.0 0.1 0.2 n=15, p=0.75 0.3 0.4 0.3 0.2 n=15, p=0.1 0.1 0.0 0 2 4 6 8 10 12 14 0 2 4 6 10 12 14 8 10 12 14 0.4 0.3 0.0 0.1 0.2 n=15, p=0.9 0.3 0.2 0.0 0.1 n=15, p=0.5 8 x 0.4 x 0 2 4 6 8 10 12 14 0 2 4 x 6 x 26.17 Esempio 9. Calcolare la probabilità che esca 2 volte testa in 2 successivi lanci di una moneta Ti = {testa all’iesimo lancio} (i = 1, 2) A = T1 ∩ T2 P(A) = P(T1 ∩ T2 ) = P(T1 ) · P(T2 |T1 ) = P(T1 ) · P(T2 ) = 0.52 (si poteva usare la binomiale con p = 0.5) 2 P(X = 2) = 0.52 (1 − 0.5)2−2 2 26.18 4 La variabile casuale ipergeometrica Definizione 10 (Variabile casuale ipergeometrica). Si consideri l’esperimento di estrazione di n elementi senza reimmissione da un’urna contenente N elementi di due tipi, A e Ā, con numerosità M ed N − M. M N −M A Ā ’n◦ elementi di tipo A estratti nelle n estrazioni senza reimmisLa variabile casuale X = sione’ si definisce variabile casuale ipergeometrica. 328 X ha distribuzione di probabilità MN−M x P(X = x) = . Nn−x n 26.19 Osservazione Ricostruzione mnemonica della formula di calcolo 1◦ tipo 2◦ tipo M N−M x n−x N urna campione urna campione n tutti Osservazione La variabile casuale ipergeometrica trova applicazione nell’ambito della teoria dei campioni nel cosiddetto schema di campionamento in blocco. 0.4 0.3 0.2 0.0 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 8 10 12 14 0.3 0.2 0.1 0.0 0.0 0.1 0.2 n=15, M=45, K=5 0.3 0.4 x 0.4 x n=15, M=25, K=25 26.20 0.1 n=15, M=30, K=20 0.3 0.2 0.1 0.0 n=15, M=2, K=48 0.4 Osservazione M ◦ ◦ N = p = frazione iniziale elementi di 1 tipo = P(elemento di 1 tipo alla prima estrazione) 0 2 4 6 8 10 12 14 0 x 2 4 6 x 26.21 329 Esempio 11. Calcolare la probabilità che i primi 2 numeri estratti alla tombola siano dispari Di = {estrazione dispari} A = D1 ∩ D2 P(A) = P(D1 ∩ D2 ) = P(D1 ) · P(D2 |D1 ) = 45 45 A Ā 45 45 A Ā 45 44 90 89 prima estrazione seconda estrazione (si poteva usare la ipergeometrica) 4545 P(X = 2) = 900 2 2 26.22 5 La variabile casuale uniforme Definizione 12 (Variabile casuale uniforme). Ha supporto S = {1, 2, . . . , n} con probabilità costante 1 P(X = x) = , (x = 1, . . . , n). n Ad esempio: n = 2 per una moneta equilibrata; n = 6 nel caso di un dado non truccato. Osservazione A volte si considera come supporto S = {0, 2, . . . , n} e in tal caso la probabilità risulta P(X = x) = 1 , n+1 (x = 0, 1, . . . , n). 26.23 330 0.5 0.0 0.1 0.2 n=6 0.3 0.4 0.5 0.4 0.3 n=2 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 n=4 n=10 0.3 0.4 0.5 x 0.5 x 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 x 4 5 x 26.24 5.1 Esercizi Esercizio 13. Un’urna contiene 10 palline bianche e 40 palline rosse. Si descriva la natura della variabile casuale ’numero di palline bianche ottenute nell’estrazione di 5 palline dall’urna’ e si calcoli la probabilità di ottenere almeno 2 palline bianche (nell’estrazione di 5 palline dall’urna) nelle seguenti ipotesi: 1. l’estrazione delle palline è effettuata con reimmissione; 2. l’estrazione delle palline è effettuata senza reimmissione. 26.25 Esercizio 14 (T 168, 19.02.1999, 5). Un’urna contiene palline rosse e palline nere. Il rapporto tra la probabilità di ottenere 2 palline nere in 4 estrazioni con reinserimento e la probabilità di ottenere 2 palline nere in 3 estrazioni con reinserimento è pari a 0.9. Individuare la percentuale di palline rosse contenute nell’urna. 26.26 Esercizio 15 (T 234, 07.06.2007, 4). Si consideri un dado regolare le cui 6 facce riportano in eguale numero i segni: ’1’, ’X’ e ’2’. Calcolare le probabilità che lanciando 11 volte il dado: 1. il segno ’X’ compaia al più una volta; 2. essendosi presentati solo segni numerici (’1’ oppure ’2’), questi siano solo dispari. 26.27 331 6 La Funzione di Ripartizione Definizione 16 (Funzione di Ripartizione). Data una variabile casuale X si definisce funzione di ripartizione la seguente funzione F(x) = P(X ≤ x) È uno strumento unico, legge di probabilità, per i casi discreto e continuo che consente di attribuire una probabilità al generico intervallo {a < x ≤ b}, infatti P(a < X ≤ b) = F(b) − F(a) Si osserva come nel caso continuo gli insiemi probabilizzabili sono costituiti dagli insiemi appartenenti a una cosiddetta σ -algebra costruita a partire dalle semirette. caso discreto P(X = xk ) = pk > 0 26.28 ∑ pk = 1 k F(x) = ∑ xk ≤x pk caso continuo Se la funzione di ripartizione è assolutamente continua, allora esiste una funzione f (x) = densità di probabilità tale che f (x) ≥ 0 7 +∞ Vale F(x) = −∞ 7 x −∞ f (x)dx = 1. f (t)dt 26.29 332 Sezione 27 Calcolo delle probabilità (4) 27.1 Indice 1 La variabile casuale Normale 333 2 Tavola variabile casuale normale standardizzata 335 2.1 Utilizzo tavola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 2.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 3 Media e varianza di variabile casuale 339 3.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 4 Schema interpretativo v.c. normale 5 Approssimazione della variabile casuale binomiale con la normale 340 5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 340 27.2 1 La variabile casuale Normale Definizione 1 (Variabile casuale Normale X ∼ N(μ, σ 2 )). Ha la seguente funzione di densità 1 x−μ 2 1 exp − f (x) = √ 2 σ 2πσ con −∞ < μ < ∞ e σ > 0 La densità di probabilità è simmetrica rispetto a μ μ−σ μ 27.3 μ+σ x 27.4 333 P(a < X ≤ b) = F(b) − F(a) = 7 b a = a f (x)dx − a b x a b x b x P(μ − σ ≤ X ≤ μ + σ ) = 0.68 P(μ − 2σ ≤ X ≤ μ + 2σ ) = 0.955 P(|X − μ| ≤ 3σ ) = 0.9973 27.5 F(x) = P(X ≤ x) = 7 x −∞ f (t)dt (calcolo integrale molto complesso) però x−μ X −μ ≤ P(X ≤ x) = P(X − μ ≤ x − μ) = P σ σ = (corrisponde al cambiamento di variabili che conduce alla variabile standardizzata Z = X−μ σ ) 7 x−μ σ 1 1 x−μ √ exp − z2 = Φ = 2 σ −∞ 2π Φ(z) è la funzione di ripartizione della variabile casuale Z ∼ N(μ = 0, σ 2 = 1) normale standardizzata Pertanto se X ∼ N(μ, σ 2 ) x−μ F(x) = Φ σ inoltre P(a < X ≤ b) = F(b) − F(a) = Φ b−μ σ −Φ basta quindi conoscere la funzione di riparzione della N(0, 1). Tale funzione di ripartizione è tabulata. 334 a−μ σ 27.6 27.7 2 Tavola variabile casuale normale standardizzata 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 −3 −2 −1 0.0 0.1 0.2 0.1 0.3 0.4 0.5 0.2 0.6 0.7 0.3 0.8 0.9 1.0 0.4 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.0 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00 0 1 2 3 −3 x −2 −1 0 1 2 3 x 27.8 335 2.1 Utilizzo tavola Lettura diretta (1) Sia Z ∼ N(μ = 0, σ 2 = 1) si calcoli P(X ≤ 1.24). Tenendo conto che 1.24 = 1.20 + 0.04 possiamo leggere sulla tavola l’elemento corrispondente a 1.20 e 0.04. 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 P(Z ≤ 1.24) = 0.8925 27.9 Lettura diretta (2) Sia X ∼ N(μ = 5, σ 2 = 9) si calcoli P(X ≤ 8.72). Occorre passare alla variabile Normale standardizzata X −μ 8.72 − μ ≤ = σ σ 8.72 − 5 = P(Z ≤ 1.24) = 0.8925. P Z≤ 3 P(X ≤ 8.72) = P = 27.10 336 Lettura diretta (3) Sia X ∼ N(μ = 5, σ 2 = 9) si calcoli P(X ≥ 1.28). Occorre passare alla variabile Normale standardizzata 1.28 − μ X −μ ≥ = P(X ≥ 1.28) = P σ σ 1.28 − 5 = P(Z ≥ −1.24) = P Z≥ 3 Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetrica abbiamo P(Z ≥ −1.24) = P(Z ≤ 1.24) = 0.8925. 27.11 Lettura diretta (4) Sia X ∼ N(μ = 5, σ 2 = 9) si calcoli P(X ≥ 8.72). Occorre passare alla variabile Normale standardizzata X −μ 8.72 − μ > = σ σ 8.72 − 5 = = P Z> 3 = P(Z > 1.24) = 1 − P(Z ≤ 1.24) = 1 − 0.8925 = 0.1075. P(X > 8.72) = P 27.12 337 Lettura indiretta (1) Sia Z ∼ N(μ = 0, σ 2 = 1). Sapendo che P(Z ≤ z) = 0.8925 si ricavi z. Dobbiamo ora cercare il valore 0.8925 all’interno della tavola. 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 Il valore si ottiene in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi risulta z = 1.24. 27.13 Lettura indiretta (2) Sia X ∼ N(μ = 5, σ 2 = 9). Sapendo che P(X ≤ x) = 0.8925 si ricavi x. Occorre passare alla variabile Normale standardizzata X −μ x−μ P(X ≤ x) = P ≤ = σ σ x−5 = P(Z ≤ z) = 0.8925 = P Z≤ 3 All’interno della tavola della Normale standardizzata troviamo 0.8925 in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi z = 1.24; x−5 = z = 1.24 3 x − 5 = 1.24 · 3 x = 5 + 1.24 · 3 = 8.72 338 27.14 2.2 Esercizi Esercizio 2 (T 233, 08.02.2007, 4). Si supponga che X sia distribuita come una variabile casuale normale con media μ = 10 e varianza σ 2 incognita. Sapendo che P(X > 21) = 0.025 si determini il valore di σ 2 . Esercizio 3 (T 219, 30.06.2005, 5). Una macchina produce pezzi meccanici la cui lunghezza X si distribuisce normalmente, con media pari a 10 cm e varianza pari a 2. Un pezzo è ritenuto difettoso se risulta più lungo di un certo valore ritenuto accettabile. Sapendo che i difettosi sono il 5%: 1. indicare il valore x0 al di sopra del quale si ritiene che un pezzo sia difettoso; 2. calcolare la probabilità che, estratti a caso 10 pezzi, uno sia difettoso. 27.15 27.16 Quadro riassuntivo Abbiamo visto • caso discreto – uniforme – binomiale – ipergeometrica • caso continuo – normale o gaussiana Si ricordi che al simbolo X corrispondono: • nel caso discreto valori xk e probabilità pk (distribuzione) • nel caso continuo supporto S e densità f (x) (x ∈ S) 27.17 3 Media e varianza di variabile casuale • caso discreto M(X) = ∑ xk pk = μ k Var(X) = ∑(xk − μ)2 pk = σ 2 k • caso continuo M(X) = Var(X) = X 7 +∞ −∞ 7 +∞ −∞ x f (x)dx = μ (x − μ)2 f (x)dx = σ 2 27.18 parametri M(X) Var(X) uniforme n n+1 2 n2 −1 12 binomiale n, p np np(1 − p) np np(1 − p) N−n N−1 μ σ2 ipergeometrica normale n, p = M N μ, σ 2 27.19 339 3.1 Esercizi Esercizio 4 (T 156, 13.09.1997, 5). Sia X una variabile casuale Binomiale; sapendo che il suo valore atteso e la varianza assumono valori rispettivamente uguali a 2 e 1.2: 1. individuare n (numero di prove indipendenti) e p (probabilità del singolo successo); 2. calcolare la probabilità che X assuma valori maggiori o uguali a 4. 27.20 Esercizio 5 (T 216, 04.02.2005, 6). Si consideri l’esperimento di estrazione, con ripetizione, di n palline da un’urna contenente palline rosse e bianche in proporzione p e (1 − p). Sia X la v.c. n◦ di palline rosse estratte e Y n◦ di bianche. 1. Sapendo che M(X) = 3 e M(Y ) = 1, determinare n e calcolare P(X > 2). 2. Nel caso di 100 estrazioni con reimmissione dalla stessa urna, calcolare P(X > 70). 27.21 4 Schema interpretativo v.c. normale Teorema 6 (del limite centrale). Sia Xn = μ + Z1 + Z2 + . . . + Zn con • {Zn } = successione di v.c. indipendenti • M(Zi ) = 0 (tipico della variabilità accidentale) • Var(Zi ) = σi2 (finita) Sotto ulteriori condizioni sui momenti terzi, posto Wn = Xn − μ σ12 + . . . + σn2 1 1 √ exp − z2 = Φ(w) n→∞ 2 −∞ 2π La somma di v.c. indipendenti converge a una variabile casuale normale vale lim P(Wn ≤ w) = 7 w 27.22 Si pensi, ad esempio, a un fenomeno aleatorio le cui manifestazioni sono caratterizzate da • livello deterministico μ • svariate perturbazioni accidentali indipendenti che agiscono in maniera additiva 5 Approssimazione della variabile casuale binomiale con la normale Teorema 7 (Approssimazione della variabile casuale binomiale con la normale). Essendo la variabile casuale Bin(n, p) somma di v.c. Bin(1, p), allora x + 0.5 − np n i n−i ∼ P(X ≤ x) = ∑ pq =Φ , pern → ∞ √ npq i≤x i dove 340 27.23 • q = 1− p • Φ(·) = funzione di ripartizione di Z ∼ N(0, 1) normale standardizzata La variabile casuale X ∼ Bin(n, p) è, quindi, approssimata da una normale con media μ = np e varianza σ 2 = np(1 − p). Osservazione Si ha una buona approssimazione se valgono le seguenti condizioni: np > 5 n(1 − p) > 5 ⎧ ⎨ p>0 p<1 ⎩ n0 ovvero Osservazione Lo 0.5 nella formula consente di migliorare l’approssimazione quando n non è troppo elevato (non utilizzato nelle applicazioni pratiche). 1.0 1.0 27.24 ● ● ● ● ● ● ● ● ● ● 0.8 ● 0.6 ● ● ● ● 0.2 ● ● 0.4 n = 40p = 0.5 0.6 0.4 ● 0.2 n = 10p = 0.5 0.8 ● ● ● ● 0.0 0.0 ● ● ● ● 0 2 4 6 8 10 ● ● ● ● 0 ● 10 20 40 ● ● ● 1.0 x 1.0 x 30 ● ●●● ●● ●● ● ● ● ● ● 0.8 0.8 ● ● ● ● 0.6 ● ● ● ● 0.4 n = 100p = 0.5 0.6 0.4 ● ● ● ● 0.2 0.2 ● ● ● ● ● ● ● ● ● ● ●●●● ● 0 ● 0.0 ● 0.0 n = 20p = 0.5 ● ● 5 10 15 20 x 0 20 40 60 80 100 x 27.25 341 1.0 1.0 ● ● ● ● ● ● ● ● ● ● ● ● 0.8 ● ● 0.6 ● ● 0.4 0.6 n = 40p = 0.25 ● 0.4 n = 10p = 0.25 0.8 ● ● 0.2 0.2 ● ● ● 0.0 0.0 ● 0 2 4 6 8 10 ● ● ● 0 10 20 ● ● ● ●● ● ●● ● ● ● ● ● ● ● 0.8 0.8 40 x 1.0 1.0 x 30 ● ● 0.6 ● ● 0.2 ● ● ● 0.4 n = 100p = 0.25 0.6 0.4 ● 0.2 n = 20p = 0.25 ● ● ● ● ● ● 0.0 0.0 ● ● ● 0 5 10 15 20 x ● 0 ● ● ● ●●● 20 40 60 80 100 x 27.26 5.1 Esercizi Esercizio 8 (T 212, 15.07.2004, 3). Si supponga di effettuare 5 estrazioni con reimmissione da un’urna che contiene palline bianche e rosse in proporzione p e 1 − p. Indicata con X la variabile casuale: n◦ di palline bianche estratte nelle 5 prove, 1. si descriva la natura della variabile casuale X, indicando valori e distribuzione di probabilità; 2. sapendo che P(X ≤ 4) = 0.99968 si determini il valore di p e si calcolino media e varianza di X; 3. con riferimento alla medesima urna si supponga di effettuare n = 100 estrazioni con reimmissione; si descriva la natura della variabile casuale Y : n◦ di palline bianche estratte nelle 100 prove e si calcoli la probabilità di ottenere almeno 10 palline bianche. 27.27 Esercizio 9 (T 207, 15.01.2004, 5). Due dadi vengono truccati in modo che non si presentino mai la faccia 2 del primo e la 4 del secondo. 1. Calcolare la probabilità che su 5 lanci l’evento A = ’somma dei valori ≥ 9’ si presenti almeno 2 volte. 2. Calcolare la probabilità che su 100 lanci l’evento A si presenti almeno 30 volte. 27.28 342 Esercizio 10 (T 245, 04.09.2008, 4). Si faccia riferimento a una slot-machine dotata di 3 finestrelle, all’interno delle quali si possono presentare, a ogni lancio, i numeri da 0 a 9, in maniera casuale e indipendente. 1. Calcolare la probabilità che si presentino 3 numeri uguali. 2. Calcolare la probabilità che escano tutti pari. 3. Eseguendo 101 lanci, calcolare la probabilità che almeno 20 presentino tutti numeri pari. 27.29 343 Sezione A Richiami di matematica A.1 Indice 1 La sommatoria 345 1.1 Esempi e proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 2 Matrici e sommatorie doppie 346 3 I logaritmi 347 4 La funzione esponenziale 348 5 Il tasso complessivo di un investimento 349 6 La produttoria 349 7 Autoverifica nozioni di aritmetica e di algebra elementare 350 8 Autoverifica nozioni di aritmetica e di algebra elementare - Soluzioni 351 A.2 1 La sommatoria Data una k-upla di valori {x1 , x2 , . . . , xk }, ovvero {xi , i = 1, 2, . . . , k} è possibile esprimere ’in forma compatta’ la somma degli elementi come segue: k ∑ xi = x1 + x2 + . . . + xk (1) i=1 A.3 1.1 Esempi e proprietà • Si supponga che k = 3 e siano: x1 = 1, x2 = 2, x3 = 3 x1 + x2 + x3 = 1 + 2 + 3 = 6 • Se c è una costante arbitraria: k k i=1 i=1 c ∑ xi = ∑ cxi (proprietà distributiva del prodotto rispetto alla somma) se, ad esempio, c = 2, con riferimento alla terna {1, 2, 3} vale: 12 = 2 · 6 = 2 · (1 + 2 + 3) = 2 + 4 + 6 = 12 345 A.4 • Se w è un valore intero: 1 ≤ w ≤ k, la sommatoria (1) può essere scomposta come segue: k w k i=1 i=1 i=w+1 ∑ xi = ∑ xi + ∑ inoltre: k xi k ∑ y j = ky j ∑ c = k · c = kc, i=1 i=1 A.5 2 Matrici e sommatorie doppie Si consideri la seguente matrice: a11 a21 a31 a12 a22 a32 a13 a23 a33 vengono riportati degli esempi di utilizzo del simbolo di sommatoria per scrivere in maniera compatta la somma dei simboli che figurano nei riquadri i indice di riga j indice di colonna a11 a12 a13 a21 a22 a23 a31 a32 a33 2 3 3 2 3 ∑ ∑ ai j = ∑ (ai1 + ai2 ) = a11 + a12 + a21 + a22 + a31 + a32 = ∑ ∑ ai j i=1 j=1 i=1 j=1 i=1 A.6 a11 a21 a31 i 3 a12 a22 a32 a13 a23 a33 3 ∑ ∑ ai j = ∑ (ai1 + ai2 + . . . + aii ) = a11 + a21 + a22 + a31 + a32 + a33 i=1 j=1 i=1 a11 a21 a31 3 3 a12 a22 a32 a13 a23 a33 3 ∑ ∑ ai j = ∑ (aii + ai i+1 + . . . + ai3 ) = a11 + a12 + a13 + a22 + a23 + a33 i=1 j=i i=1 A.7 346 3 I logaritmi loga x = c, dove x > 0, a > 0, a = 1 a: base del logaritmo x: argomento della funzione loga c: esponente da assegnare alla base a per ottenere l’argomento x: 1 2 3 4 5 0 1 2 3 4 5 −3 −10 −2 −9 −1 −8 0 −7 1 −6 2 −5 3 −4 4 −3 5 −2 6 −1 0 7 0 8 1 9 2 10 3 ac = x x x a>1 a<1 A.8 Valori della base solitamente utilizzati: a = 10, a = e = 2.71828 Notazioni: log10 x = Log x, loge x = ln x Nel seguito si utilizzeranno i logaritmi in base e Proprietà dei Logaritmi • • • • • • ln xy = ln x + ln y ln xy = ln x − ln y ln xy = y ln x eln x = exp(ln x) = x ln e = 1 ln ex = x A.9 347 4 La funzione esponenziale −5 −4 −3 −2 −1 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 x ∈ ℜ, a > 0 a: base della funzione esponenziale x: argomento della funzione esponenziale 30 ax , 0 1 2 3 4 5 −5 x −4 −3 −2 −1 0 1 2 3 4 5 x a>1 a<1 A.10 Valore della base solitamente utilizzato: a = e = 2.71828 ex = exp(x) Proprietà della funzione esponenziale • • • • • • • • ex · ey = ex+y ex x−y ey = e c b c (e ) = eb = ebc c attenzione: e(b ) = ebc 0 e =1 ln ex = x ln e = 1 eln x = x A.11 348 5 Il tasso complessivo di un investimento Se investo al tempo 0 una somma pari a C C 5% 0 8% 1 10% M 2% 2 3 4 alla fine del primo anno il deposito ammonterà a: C · (1 + 0.05) alla fine del secondo anno il deposito ammonterà a: C · (1 + 0.05) · (1 + 0.08) alla fine del terzo anno il deposito ammonterà a: C · (1 + 0.05) · (1 + 0.08) · (1 + 0.02) e alla fine del quarto anno il deposito ammonterà a: C · (1 + 0.05) · (1 + 0.08) · (1 + 0.02) · (1 + 0.10) = M A.12 j 1 2 3 4 ij 0.05 0.08 0.02 0.10 xj = 1+ij 1.05 1.08 1.02 1.10 La relazione che intercorre tra C, capitale iniziale, ed M, montante finale, è la seguente: 4 4 j=1 j=1 M = C ∏ (1 + i j ) = C ∏ x j = C · 1.27234. A.13 6 La produttoria Data una k-upla di valori (x1 , x2 , . . . , xk ), ovvero (xi , i = 1, 2, . . . , k) k ∏ xi = x1 · x2 · . . . · xk i=1 se c è una costante arbitraria: k k . . . · c = ck ∏ c = c · kc ·volte ∏ y j = ykj i=1 i=1 k k i=1 i=1 ∏(cxi ) = ck ∏ xi 349 A.14 Relazione con i logaritmi k ln ∏ xi i=1 k = ln(x1 · x2 · . . . · xk ) = ln x1 + ln x2 + . . . + ln xk = ∑ ln xi i=1 Esercizio 1. Dimostrare la seguente eguaglianza k ln ∏ xifi i=1 k = ∑ ln(xi ) · f i i=1 A.15 7 Autoverifica nozioni di aritmetica e di algebra elementare 1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continue o discrete: (a) somma S dei punti ottenuti nel lancio di due dadi, (b) diametro D di una sfera, (c) numero N di individui in una famiglia, (d) altezza H di un coscritto alla leva, A.16 2. Arrotondate il numero 46.7385: (a) alla decina più prossima, (b) al terzo decimale, (c) all’unità più prossima. A.17 3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori che portano alle seguenti misurazioni: (a) velocità di 119 km/h, (b) altezza di 1.76 m. A.18 4. Esprimete ciascun numero senza usare le potenze di dieci: (a) 2.8 · 106 , (b) 0.000185 · 105 . A.19 5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimali tali da garantire almeno 4 cifre significative: (a) 22.58 · 5.16, (b) 5.78 · 2700 · 16.00, √ (c) (416.00 · 0.00019)/ 73.84. A.20 6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con quattro cifre significative: (a) 4U − 6V − 2Z, √ (b) U 2 − 2UV + Z 2 , 350 √ (c) (U −V )/ U 2 +V 2 , (d) 3(U −V )2 + Z. A.21 7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate: (a) A = (0, 1), B = (1, 3),C = (2, 3), D = (3, 1), (b) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = |X|, (c) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 10 − 2X, (d) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 2 + X 2 , A.22 8. Risolvete le seguenti equazioni (e sistemi): (a) 16 − 5c = 36, (b) 2(12 + y)/3 = 6 − (9 − y)/2, (c) 3x2 + 2x − 1 = 0, (d) {2a + b = 10; 7a − 3b = 9}. A.23 9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni: (a) il numero N di bambini è compreso fra 30 e 50, estremi compresi, (b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette, (c) X è maggiore o uguale a −4 e minore di 3, (d) X è superiore a Y per più di due. A.24 10. Risolvete le seguenti diseguaglianze: (a) 3x ≥ 12, (b) −3 ≤ (2x + 1)/5 < 3, (c) |x| ≤ 3. A.25 11. Calcolate le seguenti espressioni: (a) y = 3 · x10 , ln y = . . ., (b) y = 10/x, ln y = . . .. A.26 8 Autoverifica nozioni di aritmetica e di algebra elementare - Soluzioni 1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continue o discrete: (a) somma S dei punti ottenuti nel lancio di due dadi, {2, 3, . . . , 12} (discreta) (b) diametro D di una sfera, (0, ∞) (continua) (c) numero N di individui in una famiglia, 1, 2, . . . , nmax (discreta) (d) altezza H di un coscritto alla leva, [amin , amax ] (continua) 351 A.27 2. Arrotondate il numero 46.7385: (a) alla decina più prossima, 50 (b) al terzo decimale, 46.739 (c) all’unità più prossima. 47 A.28 3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori che portano alle seguenti misurazioni: (a) velocità di 119 km/h, 3 [118.5, 119.5) (b) altezza di 1.76 m. 3 [1.755, 1.765) A.29 4. Esprimete ciascun numero senza usare le potenze di dieci: (a) 2.8 · 106 , 2 800 000 (b) 0.000185 · 105 . 18.5 A.30 5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimali tali da garantire almeno 4 cifre significative: (a) 22.58 · 5.16, 116.5128 (b) 5.78 · 2700 · 16.00, 249696 √ (c) (416.00 · 0.00019)/ 73.84. 0.009198 A.31 6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con quattro cifre significative: (a) 4U − 6V − 2Z, −11.33 √ (b) U 2 − 2UV + Z 2 , 2.455 √ (c) (U −V )/ U 2 +V 2 , −1.213 (d) 3(U −V )2 + Z. 18.92 A.32 6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con almeno quattro cifre significative: 352 (a) 4U − 6V − 2Z, −11.3333 √ (b) U 2 − 2UV + Z 2 , 2.4552 √ (c) (U −V )/ U 2 +V 2 , −1.2127 (d) 3(U −V )2 + Z. 18.9167 A.33 7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate: 4 5 (a) A = (0, 1), B = (1, 3),C = (2, 3), D = (3, 1), B ● C ● A D ● 0 1 2 3 ● −1 0 1 2 3 4 x (b) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = |X|, 3 ● −2 −1 ● 1 0 ● −3 ● 2 ● ● 0 1 2 3 4 x (c) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 10 − 2X, 353 15 ● 9 10 11 ● 12 13 14 ● 7 8 ● 5 6 ● −2 −1 0 1 2 3 4 x −2 −3 −1 0 1 2 3 4 ● 12 (d) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 2 + X 2 , 7 8 9 10 11 ● ● 4 5 6 ● 3 ● ● −3 −2 −1 −1 0 1 2 ● 0 1 2 3 4 x A.34 8. Risolvete le seguenti equazioni (e sistemi): (a) 16 − 5c = 36, c = −4 (b) 2(12 + y)/3 = 6 − (9 − y)/2, y = −39 (c) 3x2 + 2x − 1 = 0, x = {−1, 1/3} (d) {2a + b = 10; a = 3, b = 4 7a − 3b = 9}. A.35 9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni: (a) il numero N di bambini è compreso fra 30 e 50, estremi compresi, 30 ≤ N ≤ 50 (intero) (b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette, S ≥ 7 oppure D1 + D2 ≥ 7 (c) X è maggiore o uguale a −4 e minore di 3, −4 ≤ X < 3 (d) X è superiore a Y per più di due. X >Y +2 354 A.36 10. Risolvete le seguenti diseguaglianze: (a) 3x ≥ 12, x≥4 (b) −3 ≤ (2x + 1)/5 < 3, −8 ≤ x < 7 (c) |x| ≤ 3. −3 ≤ x ≤ 3 A.37 11. Calcolate le seguenti espressioni: (a) y = 3 · x10 , ln y = . . ., ln y = ln 3 + 10 ln x (b) y = 10/x, ln y = . . .. ln y = ln 10 − ln x A.38 355 Riferimenti bibliografici [1] Bertoli Barsotti L. 1998 Probabilità: aspetti storici ed assiomatizzazione, Diritto allo Studio Universitario, Università Cattolica del Sacro Cuore, Milano. [2] Borra S., Di Ciaccio A. 2008 Statistica. Metodologie per le scienze economiche e sociali, Seconda edizione. Mc-Graw-Hill, Milano. [3] Cicchitelli G. 2012 Statistica: principi e metodi, Pearson Education, Milano. [4] Frosini B.V. 2009 Metodi statistici: teoria e applicazioni economiche e sociali, Carocci, Roma. [5] Landenna G. 1994 Fondamenti di statistica descrittiva, Il Mulino, Bologna. [6] Landenna G. 1997 Introduzione alla probabilità e all’inferenza statistica, Il Mulino, Bologna. [7] Landenna G., Marasini D., Ferrari P. 1997 Probabilità e variabili casuali, Il Mulino, Bologna. [8] Magagnoli U. 1993 Elementi di statistica descrittiva, CLUEB, Bologna. [9] Magagnoli U. 2010 Lezioni di statistica e calcolo delle probabilità, http://www.unife.it/scienze/lm.matematica/insegnamenti/statistica-1/materialedidattico/LEZIONI%20DI%20STATISTICA%20-%20Parte%20I.pdf. [10] Montinaro M., Nicolini G. 2007 Elementi di statistica descrittiva, UTET, Torino. [11] Piccolo D. 2010 Statistica, Il Mulino, Bologna. [12] Predetti A. 2002 I Numeri Indici - teoria e pratica. Giuffré editore, Milano. [13] Santamaria L. 2006 Statistica descrittiva: applicazioni di carattere economico e aziendale, Vita e Pensiero, Milano. [14] Zanella A. 2008 Elementi di statistica descrittiva. Una presentazione sintetica, CUSL, Milano. [15] Zani S. 1997 Analisi dei dati statistici. Voll. I,II. Giuffré editore, Milano. [16] Zenga M. 1998 Introduzione alla statistica descrittiva, Vita e Pensiero, Milano. [17] Zenga M. 2009 Lezioni di statistica descrittiva, Giappichelli, Torino. 357 B.1 EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215 e-mail: [email protected] (produzione); [email protected] (distribuzione) web: www.educatt.it/libri Euro 20,00