Slide lezione 6
Transcript
Slide lezione 6
Slide Cerbara parte 1 Le medie Le medie Non una ma tante: le medie sono di tanti tipi e rappresentano un valore, una modalità caratteristica e che possa sintetizzare una intera distribuzione. 1. La media può essere il valore del carattere che dovrebbe essere osservato in ogni unità del collettivo affinché rimanga invariato il risultato complessivo dell’osservazione sull’intero collettivo 2. La media deve essere il valore che è il più vicino a tutti i dati della distribuzione, od anche la media deve essere tale da rendere minima l’informazione che si perde quando si sostituisce l’intera distribuzione con la sua media 3. La media è un qualunque valore che è non inferiore al valore più pic- colo della distribuzione e non superiore al valore massimo, ossia è un va- lore non esterno all’intervallo individuato dai valori estremi che assume il carattere Le medie - La moda La moda di una distribuzione secondo un carattere qualsiasi è la modalità che presenta la massima frequenza assoluta. A tale media si dà anche il nome di norma In una distribuzione di frequenze vi può essere più di una moda, se vi sono più modalità che presentano il massimo delle frequenze Se la distribuzione ha una sola moda diciamo che è unimodale; se ha due mode diciamo che è bimodale; se ha tre mode è trimodale; ecc. Se le frequenze della distribuzione fossero tutte uguali tra loro potremmo affermare che o la distribuzione non ha la moda o che ogni modalità è la moda La moda può essere determinata facilmente anche per mezzo della rappresen- tazione grafica della distribuzione Le medie - La moda Classe di reddito N. di contribuenti Esempio. Consideriamo la distribuzione dei contribuenti con reddito da fabbricati inferiore a 1.000 euro per (€) (in migliaia) classe di reddito Può sembrare che la moda sia l’ultima classe della 0 |-| 100 1000 tabella, ma quella classe ha un’ampiezza diversa dalle 100 -| 500 3600 altre. 500 -| 1000 4000 Poiché la prima classe ha ampiezza 100 e le due Totale 8600 successive sono 4 volte e 5 volte la prima, scomponiamo la seconda classe in 4 sottoclassi e la terza in 5 sottoclassi uguali aventi ognuna ampiezza 100. Ciò comporta che la prima classe ha frequenza 1000, la seconda è composta da da 4 sottoclassi ognuna di frequenza 3.600 : 4 = 900, mentre per l’ultima classe la frequenza di ogni sottoclasse è 4.000 : 5 = 800. Così operando abbiamo sostituito alla distribuzione iniziale, che aveva come modalità 3 classi di diversa ampiezza, una distribuzione che ha 10 (1+4+5) modalità costituite tutte da classi di uguale ampiezza (€ 100). La classe modale è perciò la prima perché essa, che è ampia € 100, ha frequenza 1.000 Questa soluzione si può avere solo se facciamo l’ipotesi di uniforme distribuzione del reddito nelle classi. Le medie - La moda Se rappresentiamo graficamente la distribuzione precedente, immediatamente possiamo percepire la classe modale. Essa è quella a cui corrisponde la massima densità di frequenza, cioè l’ordinata, che è calcolata come rapporto tra l’ammontare della classe e l’ampiezza della classe stessa. Le medie - Mediana e quantili Se il carattere, che determina la distribuzione, è qualitativo ordinato rettilineo o quantitativo, oltre alla moda, la possibilità di ordinamento delle modalità del carattere consente di effettuare altre sintesi della distribuzione, che sono chiamate quantili, dei quali, come vedremo, il principale è la mediana. Innanzi tutto dobbiamo ordinare le modalità del carattere. Possiamo ordinarle in modo crescente o decrescente, oppure, se ci sono frequenze uguali, non crescente o non decrescente. Otteniamo una distribuzione ordinata. Esempio. Abbiamo rilevato su 9 persone il loro titolo di studio: I = «nessun titolo o licenza elementare», II = «licenza di scuola media inferiore», III = «diploma di scuola media superiore», IV = «lauree, diploma universitario o di corsi post laurea». Abbiamo ottenuto la distribuzione unitaria I, IV, I, III, II, IV, III, IV, III I, I, II, III, III, III, IV, IV, IV in ordine non decrescente IV, IV, IV, III, III, III, II, I, I in ordine non crescente Le medie - Mediana e quantili Se vogliamo individuare la mediana, dobbiamo distinguere tra n (numero di unità della distribuzione) pari e dispari. Se n è dispari, la mediana della distribuzione è la modalità relativa al dato statistico che occupa il posto centrale della corrispondente distribuzione ordinata Se n è pari non esiste nella distribuzione ordinata un posto centrale ma ne esistono due: se essi sono occupati da dati relativi alla stessa modalità, questa è la mediana; se le modalità sono diverse abbiamo due modalità mediane Esempio. Nella distribuzione dell’esempio precedente la modalità centrale era III, che è la mediana I, I, II, III, III, III, IV, IV, IV in ordine non decrescente IV, IV, IV, III, III, III, II, I, I in ordine non crescente Le medie - Mediana e quantili Esempio. Consideriamo la distribuzione unitaria di 8 dati relativi all’età (in anni): 20, 21, 17, 20, 22, 18, 22, 20 Ordiniamo in ordine non decrescente, otteniamo la distribuzione ordinata 17, 18, 20, 20, 20, 21, 22, 22 della quale i due posti centrali sono il 4o e il 5o a cui corrisponde per entrambi la modalità 20 anni, che è quindi la «mediana». Se n è pari e se abbiamo due modalità mediane diverse e se il carattere quantitativo continuo assumiamo come mediana della distribuzione la semisomma delle due modalità mediane. Se il carattere è invece quantitativo discreto, vanno considerate due modalità mediane distinte. Esempio. Per la distribuzione, sempre di 8 dati, che è già ordinata 17, 18, 19, 20, 21, 21, 22, 22 ai due posti centrali, il 4o e il 5o, corrispondono le modalità mediane 20 e 21. Se il carattere è quantitativo continuo, assumiamo come mediana la semisomma di 20 e 21, ossia 20,5. Le medie - Mediana e quantili In sintesi: Se n è dispari, la mediana è la modalità presente nel posto (n+1)/2-esimo (posto centrale); se n è pari, i due posti centrali sono l’ n/2-esimo e l’n/2+1-esimo. a) se ad entrambi questi posti corrisponde la stessa modalità, questa è la «mediana»; b) se ad essi corrispondono due diverse modalità, queste sono le «modalità mediane» e se il carattere rispetto a cui è fatta la distribuzione è quantitativo continuo, si chiama «mediana» la semisomma delle due modalità mediane La distribuzione ordinata viene così divisa in due parti uguali ognuna delle quali contiene il 50% delle unità. Possiamo dire che la mediana bipartisce la distribuzione ordinata Le medie - Mediana e quantili Quando n è grande per determinare la mediana conviene utilizzare le frequenze percentuali (o relative) cumulate. Ci basta cercare quale è la modalità (o la coppia di modalità) che divide la distribuzione in due distribuzioni che hanno ciascuna una numerosità pari al 50% della numerosità totale Esempio. Consideriamo la distribuzione degli occupati del 2003 per titolo di studio. La tabella contiene anche le frequenze cumulate. La modalità «diploma di scuola media superiore» arrivia all’87% degli occupati, quindi ha questo titolo di studio l’occupato per il quale il 50% degli occupati ha un titolo non superiore al suo mentre l’altro 50% ha un titolo non inferiore al suo. Quindi la mediana è il titolo di studio «diploma di scuola media superiore». Le medie - Mediana e quantili Esempio. Consideriamo la distribuzione di frequenze cumulate percentuali delle famiglie di residenti per numero di componenti (dati 2001, Fonte Istat) Poiché il 25% delle famiglie era costituito, al censimento del 2001, da famiglie con 1 componente, mentre il 52% era costituito da famiglie con 1 o 2 componenti, la famiglia che è preceduta dal 50% delle famiglie è composta necessariamente da 2 componenti che è quindi la mediana della distribuzione. È opportuno esaminare ora il caso delle distribuzioni che hanno delle classi come modalità e per le quali la classe che contiene la mediana è chiamata classe mediana. Le medie - Mediana e quantili Esempio. Consideriamo la distribuzione per classi rappresentata in tabella con n=10 pari. La mediana è quel valore che lascia alla sua sinistra 5 unità e alla sua destra 5 unità. Quindi la classe mediana è la classe 10-|15 che contiene la quinta e la sesta unità della distribuzione ordinata di frequenze. La mediana di una distribuzione secondo un carattere quantitativo soddisfa ad una proprietà importante. Chiamiamo xi – a scarto o scostamento di xi da x, dove xi è un termine di una distribuzione e x un valore qualunque della distribuzione o interno ad essa. Se noi sommiamo i valori assoluti degli scarti dei dati della distribuzione da un valore x qualsiasi, tale somma assume il suo minimo quando x è la mediana 𝑛 𝑘 𝑖=1 𝑥𝑖 − 𝑥 oppure 𝑖=1 𝑥𝑖 − 𝑥 𝑛𝑖 è minima se x è la mediana della distribuzione Le medie - Mediana e quantili Esempio. Consideriamo la distribuzione in tabella. Essa ha 35 unità e dunque la mediana si trova al posto (35+1)/2=18. Quindi la modalità mediana è 8 perché contiene l’unità 18-ma. Calcolo allora la somma degli scarti in valore assoluto da alcuni valori mostrati nella seconda parte della tabella Ad esempio, il primo valore è calcolato come (4-0)x3 + (5-0)x5 + … + (8-0)x10 + (10-0)x8 + (12-0)x7 + (16-0)x2 = 313 Come si può constatare, la somma minore è quella corrispondente a x=8 che è 87. Quindi abbiamo mostrato che la somma degli scarti in valore assoluto dalla mediana è minima. Se il carattere quantitativo è anche continuo, la mediana è uno dei valori che rende minima la somma dei valori assoluti degli scarti. Le medie - Mediana e quantili Abbiamo visto che la mediana suddivide la distribuzione ordinata in due distribuzioni che, anche in base ad un’opportuna convenzione, hanno ciascuna una numerosità pari al 50% della numerosità totale. Se suddividiamo la distribuzione ordinata in q distribuzioni parziali, aventi ognuna la qesima parte della numerosità totale, la modalità che fa da cardine fra due distribuzioni parziali successive è detta quantile: primo quantile se segna il limite fra la prima e la seconda distribuzione parziale, secondo quantile se separa la seconda dalla terza, ecc. In particolare per q = 2 si ha la mediana, per q = 3 abbiamo 2 terzili, per q = 4 si hanno 3 quartili, per q = 5 si hanno 4 quintili, per q = 6 abbiamo 5 sestili, per q = 10 vi sono 9 decili, per q = 100 si hanno 99 centili. Le medie - Mediana e quantili I quartili dividono la distribuzione ordinata in 4 parti aventi ognuna il 25% della numerosità totale. Il primo quartile è perciò l’elemento che separa la distribuzione che ha il primo 25% della numerosità totale, dalla distribuzione costituita dal successivo 75% del totale. Il secondo quartile coincide con la mediana, dato che separa le due distribuzioni parziali che hanno ciascuna il 50% della numerosità totale. Il terzo quartile è l’ele- mento che separa la distribuzione che ha il primo 75% della numerosità totale, dalla distribuzione costituita dal successivo 25% del totale Le medie - Mediana e quantili Esempio. Determiniamo i quartili della distribuzione, secondo un carattere quantitativo continuo, costituita dagli 8 numeri già ordinati 1, 1, 2, 2, 2, 4, 6, 6 Possiamo suddividere la distribuzione in 4 distribuzioni parziali dello stesso numero (2) di unità: 1;1. 2;2. 2;4. 6;6. Il primo quartile è perciò (1+2)/2=1,5 il secondo quartile è 2; il terzo quartile è (4+6)/2=5. Anche per la determinazione dei quartili, quando n è grande, e quindi si ha generalmente a che fare con una distribuzione di frequenze, conviene utilizzare le frequenze percentuali (o relative) cumulate Le medie - Mediana e quantili Esempio. Determiniamo le classi d’età a cui appartengono la mediana e i quartili della distribuzione – rappresentata dalle prime due colonne della tabella dei morti in Italia nell’anno 2001 classificati a seconda dell’età alla morte. Per determinare queste classi di età abbiamo calcolato le frequenze assolute cumulate e quelle percentuali cumulate. Dalle frequenze percentuali cumulate ricaviamo che la mediana, che è anche il secondo quartile, è nella classe 75|-80 anni perché coloro che muoiono in età inferiore ai 75 anni costituiscono il 35,5% mentre coloro che muoiono in età inferiore agli 80 anni costituiscono il 51,7% e quindi l’individuo che è preceduto e seguito dal 50% delle unità deve aver avuto un’età alla morte non inferiore a 75 anni e inferiore agli 80 anni. Con analogo ragionamento ricaviamo che il primo quartile è nella classe 70|-75 anni, il terzo quartile è nella classe 85|-90 anni; Le medie - Le medie analitiche Valgono unicamente per le distribuzioni secondo un carattere quantitativo Una media analitica è espressa da una opportuna funzione matematica di tutti o di alcuni dei numeri della distribuzione o da altri numeri che da essi possono ottenersi con semplici operazioni matematiche (frequenze relative, frequenze percentuali, ecc.). La moda, la mediana, i quantili, non sono esprimibili utilizzando l’analisi matematica quindi possono essere chiamate medie non analitiche. La media analitica più usata è la media aritmetica. Altre medie analitiche uti- lizzate frequentemente sono: la media geometrica, la media armonica, la media quadratica e il valore centrale. Tutte queste medie si possono considerare un caso particolare della media di potenze. Le medie - La media aritmetica La media aritmetica dei numeri x1, x2, …, xn è la somma x1 + x2 + … + xn divisa per n ossia La media aritmetica è espressa nella stessa unità di misura con cui sono espressi i dati Esempio. Si è rilevata l’età, in anni compiuti, di 10 studenti universitari, presenti ad una conferenza, ottenendo la seguente distribuzione per unità 21, 24, 24, 20, 20, 19, 21, 21, 24, 26 L’età media aritmetica dei 10 studenti è data dalla somma di tutte le età rilevate diviso 10, cioè 22 anni. Per arrivare più rapidamente al risultato possiamo applicare la proprietà associativa dell’addizione e calcolare la media nel modo seguente 19+(20+20)+(21+21+21)+(24+24+24)+26 ovviamente :10 e cioè (19x1+ 20x2 + 21x3 + 24x3 +26x1)/10=22 Quindi la media può essere calcolata agevolmente anche con una distribuzione di frequenze Le medie - La media aritmetica In generale per ottenere la media aritmetica di una distribuzione di frequenze assolute dobbiamo procedere nel modo seguente: • calcolare i prodotti delle modalità per le frequenze assolute; • sommare questi prodotti; • dividere la somma ottenuta per il numero n delle unità. cioè Da queste formule si può ricavare un’altre definizione della media aritimetica La media aritmetica è il valore del carattere che, sostituito ai dati individuali, ne lascia inalterata la somma. Le medie - La media aritmetica La media aritmetica si può calcolare anche nel caso di caratteri le cui modalità sono classi. In questo caso bisogna fare l’ipotesi che tutte le unità di ogni classe presentino lo stesso valore, che chiamiamo valore rappresentativo della classe. In pratica consideriamo la distribuzione come se il carattere fosse discreto e avesse per modalità i valori rappresentativi delle classi. La media che risulta dall’uso dei valori rappresentativi è generalmente diversa da quella che otterremmo nel caso di utilizzazione di tutte le informazioni. Esempio. Calcoliamo l’ampiezza demografica media dei comuni della Valle d’Aosta, escluso il capoluogo, al 31/12/2003. Il numero medio di abitanti per comune era 87.813/73 = 1.202,9 La tabella mostra i calcoli di questa media usando il valore rappresentativo delle classi. Il risultato in questo caso è 87.373/73 = 1.196,9 leggermente diverso. Le medie - La media aritmetica Nell’esempio precedente il valore rappresentativo della prima classe è stato posto pari a 300 in maniera arbitraria. Questo perché, mentre è noto l’estremo superiore della classe, non si può dire nulla di quello inferiore e quindi, non è possibile calcolare con esattezza il valore rappresentativo della classe. Si fanno allora delle ipotesi che aiutano a decidere quale valore rappresentativo utilizzare. In verità, dal momento che i dati sui singoli comuni sono noti, sappiamo che tale valore era 284, quindi il valore di 300 era abbastanza vicino a quello reale. Esempio. Abbiamo visto che, se ad una persona assegniamo una statura di 174 cm, ciò significa che la misura è un qualunque valore dell’intervallo che ha per estremi i valori 173,5 cm e 174,5 cm. In base a questa osservazione abbiamo stabilito che la classe chiusa a sinistra 170 172 centimetri equivale all’intervallo 169,5 – 171,5 centimetri. Da ciò, assumendo come valori rappresentativi delle classi la semisomma degli estremi degli intervalli, abbiamo che per la classe 170|-172 centimetri il valore rappresentativo è 170,5 cm, mentre per la classe 170|-|172 tale valore è 171 Le medie - La media aritmetica Proprietà della media aritmetica 1 - La somma di tutti gli scarti dei dati di una distribuzione dalla media aritmetica della distribuzione è nulla; cioè e nel caso di distribuzioni di frequenze La somma dei quadrati degli scarti dalla media è minima. Esempio. Per la distribuzione di 10 studenti già vista, calcoliamo gli scarti di ciascun valore dalla media che è pari a 22. La colonna degli scarti ha in effetti somma 0 (-3-2-1+2+4=0) Calcoliamo anche i quadrati di questi scarti e li moltiplichiamo per le frequenze assolute. Otteniamo 48 che è il valore minimo che possiamo ottenere. Infatti sostituendo alla media un altro qualunque valore questa somma è sempre maggiore di 48 Le medie - La media aritmetica Media aritmetica ponderata Se indichiamo con x1, x2, …, xk , i valori di una distribuzione e con p1, p2, …, pk i rispettivi pesi, la media aritmetica dei valori xi, ponderata con i pesi pi, è data da Esempio. Un candidato esegue i 3 test attitudinali. Per essi gli sono concessi rispettivamente al massimo 10, 5, 15 minuti. I punteggi ottenuti sono rispettivamente 78, 87 e 75 la cui media aritmetica è 80. Però chi ha preparato i 3 test dà ad essi importanza diversa che dipende dal tempo massimo concesso per eseguirlo. Come punteggio medio si assume allora (78x10 + 87x5 + 75x15)/10 + 5 + 15 = 2340/30 = 78 che è minore di due punti della media ottenuta dando ai 3 punteggi la stessa importanza. Le medie - Altre medie analitiche Media geometrica : è il valore che sostituito ai dati individuali ne lascia inalterato il prodotto Media armonica: La media armonica è il valore che, sostituito ai dati individuali, lascia inalterata la somma dei loro inversi Media quadratica: è il valore che, sostituito ai dati individuali, lascia inalterata la somma dei loro quadrati Le medie - Media di potenze Esiste un modo per scrivere tutte le medie che abbiamo visto e anche molte altre Scriviamo in un altro modo, ma equivalente, le medie appena viste Media armonica Media aritmetica Media quadratica Media di potenze