“Descrizione dei fenomeni collettivi” 1. Unità statistica e dato statistico
Transcript
“Descrizione dei fenomeni collettivi” 1. Unità statistica e dato statistico
Calcolo delle Probabilità e Statistica CLASSI TERZE “Descrizione dei fenomeni collettivi” 1. Unità statistica e dato statistico L’unità statistica è il più piccolo elemento su cui è possibile effettuare un’osservazione (es. un alunno di una scuola, un pezzo prodotto da una fabbrica…). Si definisce dato statistico il risultato di un’operazione compiuta sulle unità statistiche (numero di alunni maschi di una classe, prezzo medio di un certo bene…). I dati statistici possono rappresentare due grandezze diverse: frequenza, se esprimono il numero di volte in cui il fenomeno si è verificato in un periodo di tempo (basta pensare ad un contatore che esegue un conteggio); intensità, se rappresentano una media o una somma di misure effettuate sulle unità statistiche (es. misura di un peso, lunghezza, superficie, volume…, oppure un valore o una valuta). Le unità statistiche vengono studiate secondo uno o più caratteri: un carattere è un particolare aspetto dell’unità statistica che si vuole mettere in evidenza. Il carattere viene identificato mediante varie modalità, che possono essere qualitative o quantitative. • Le modalità quantitative sono espresse da valori risultanti da misurazioni o conteggi: se questi valori sono compresi in un intervallo si parla di modalità continue; se invece si tratta di determinati valori si parla di modalità discrete. • Le modalità qualitative sono indicate da espressioni verbali (marche di automobili, anni di nascita, grado delle scuole…). Prof. Daniele ATTAMPATO1 Es. Distribuzione di 30 giovani presenti in una sala giochi, secondo carattere l’età. Età Numero 15 16 17 18 19 7 8 5 4 6 30 tot. modalità quantitativa discreta frequenze ________________________________________________________________________________ Es. Distribuzione delle auto consegnate da un concessionario nel carattere 2001. Marca/Modello Consegne Fiat Punto Lancia Y Toyota Yaris Peugeot 206 Volkswagen Golf Daewoo Matiz Renault Megane 144017 57540 42481 42141 16849 19240 Opel Corsa tot. 17258 40416 379942 modalità qualitativa frequenze ________________________________________________________________________________ Es. Distribuzione delle importazioni dello Stato Francese dal 2000. carattere modalità qualitativa Anni Importazioni (milioni di euro) 2000 112.877 2001 119.878 2002 127.123 2003 159.374 2004 278.091 2005 169.767 2006 197.245 2007 136.917 intensità Prof. Daniele ATTAMPATO2 2. Sistemazione dei dati: serie e seriazioni 2.1.Tabelle a semplice entrata Una tabella a semplice entrata (come visto nei due esempi precedenti) è costituita da due colonne, la prima riporta le varie modalità qualitative o quantitative del carattere, mentre la seconda riporta le frequenze o le intensità. Se il carattere è qualitativo, la successione dei dati è detta serie statistica; se il carattere è quantitativo, la successione dei dati è detta seriazione statistica. Es. Distribuzione degli studenti italiani secondo il grado delle scuole. Grado delle scuole N.alunni iscritti Scuole Materne Scuole Elementari Scuole Medie 1500000 2900000 1775000 2545000 8720000 Scuole Superiori tot. Modalità qualitative Serie statistica ________________________________________________________________________________ Es. Elettori nelle elezioni del Parlamento Europeo, per circoscrizione Circoscrizioni elettorali Nord Occidentale Nord Orientale Centrale Meridionale Insulare tot. Elettori 12.702.945 8.879.456 9.445.290 11.654.099 5.576.311 48.258.101 Modalità qualitative Serie territoriale o geografica Prof. Daniele ATTAMPATO3 Es. Alunni delle scuole superiori italiane. Anno Scolastico N.alunni 1994/95 1995/96 1996/97 1997/98 1998/99 tot. 2.700.000 2.690.000 2.548.000 2.597.000 2.540.000 13.075.000 Modalità qualitative Serie storica _______________________________________________________________________________ Es. Rilevazione delle abitazioni di nuova costruzione, classificate per stanze. N.Stanze 1 2 3-4 5 e oltre tot. N.Abitazioni 2.000 5.700 70.000 35.000 112.700 Modalità quantitative discrete Seriazione discreta ________________________________________________________________________________ Es. Distribuzione dei comuni italiani per classi di superficie nel 1991. Classi di superficie (in migliaia di ha) fino a 1 1-----| 2 2-----| 4 4-----| 6 6-----|10 10-----| 25 tot. N.Comuni 1.741 2.061 2.093 883 742 513 8.033 Modalità quantitative continue Seriazione continua Prof. Daniele ATTAMPATO4 3. Sistemazione dei dati: serie e seriazioni Tabelle a doppia entrata Le tabelle a doppia entrata sono caratterizzate dal fatto che le unità statistiche vengono classificate contemporaneamente rispetto a due caratteri (e non più solo a uno, come visto nelle tabelle a semplice entrata). • Se i due caratteri sono entrambi qualitativi, si parla di mutabile statistica doppia. • Se i due caratteri sono entrambi quantitativi, si parla di variabile statistica doppia. • Se uno dei due caratteri è quantitativo e l’altro qualitativo, si parla di distribuzione mista. ________________________________________________________________________________ Es. di mutabile statistica doppia. Regione Puglia: iscritti alle liste di collocamento. Caratteri modalità qualitative carattere “sesso” Sesso Settore Maschi Femmine Agricoltura 44.000 60.000 Industria 97.000 37.000 Altre attività 46.000 44.000 Nessun settore 175.000 229.000 totali 362.000 370.000 totali 104.000 134.000 90.000 404.000 732.000 Modalità qualitative carattere “settore” Prof. Daniele ATTAMPATO5 Es. di variabile statistica doppia. Distribuzione di 100 abitazioni secondo il numero dei vani e i componenti della famiglia. Modalità quantitative carattere “Comp. Famiglia” Caratteri N.vani 1 2 3 4 5 totali 1 10 6 3 1 0 20 2 4 10 10 3 1 28 Componenti famiglia 3 4 1 0 5 2 12 8 8 4 2 1 28 15 5 0 0 2 2 1 5 6 0 0 1 2 1 4 totali 15 23 36 20 6 100 Modalità quantitative carattere “N.vani” ________________________________________________________________________________ Es. di distribuzione mista. Forze di lavoro per classe di età e condizione professionale, in famiglia. Modalità qualitativa del carattere “Condiz. Profess.” Classe di età 15 - 19 20 - 24 25 - 29 30 - 34 35 - 44 45 - 54 55 - 64 65 e oltre totali Condizione professionale Occupati Disoccupati 321 222 1.461 650 2.566 578 3.313 421 6.063 463 4.756 232 1.879 94 333 8 20.692 2.668 totali 543 2.111 3.144 3.734 6.526 4.988 1.973 341 23.360 Modalità quantitativa del carattere “Classe di età” Prof. Daniele ATTAMPATO6 4. Variabili e mutabili statistiche Frequenze assolute, relative, percentuali e cumulate Una variabile statistica è definita dall’insieme dei valori di un carattere quantitativo e dalle frequenze ad essi associate. Una mutabile statistica è definita dall’insieme delle modalità di un carattere qualitativo e dalle frequenze ad esse associate. • Frequenza assoluta: numero delle unità statistiche che godono di una certa proprietà. F . A. N • Frequenza relativa: F .R. = • Frequenza percentuale: F % = F .R. *100 N = tot unità statistiche • Frequenza cumulata (assoluta, relativa, percentuale): associa ad ogni valore o classe della variabile la somma della rispettiva frequenza, con le frequenze dei valori precedenti. Es. Completare la seguente tabella: N.STANZE N.ABITAZIONI Xi Yi (F.A.) 1 2.877 2 19.878 3 69.767 4 F.R. F% F.C.A. F.C.R. F.C.% 36.917 tot. Attenzione alla formula da impostare Prof. Daniele ATTAMPATO7 5. Grafici Si supponga di aver raccolto dei dati nel foglio di calcolo. Questi dati, generalmente, vengono sistemati in più colonne all’interno di celle contigue. Per inserire questi valori in un grafico con l’aiuto della creazione guidata è necessario procedere come segue: 1. Selezionare il pulsante Creazione guidata grafico che si trova sulla barra degli strumenti; 2. Nella prima finestra (Tipo di grafico), selezionare un tipo di grafico e premere il pulsante Avanti; Prof. Daniele ATTAMPATO8 3. La seconda finestra (Dati di Origine) consente di selezionare l’intervallo dei dati: un utente esperto generalmente utilizza la scheda Serie. Cliccando il tasto Aggiungi, si aggiunge un grafico nella lista: ad ogni Serie aggiunta corrisponde un grafico differente, sullo stesso piano cartesiano (ogni andamento grafico sarà caratterizzato da un colore). 4. Nella casella Nome è possibile assegnare un titolo al grafico in questione; nella casella Etichette asse categorie (X) dovranno essere caricati i dati da rappresentare sull’asse delle ascisse; nella casella Valori dovranno essere caricati i dati da rappresentare sull’asse delle ordinate. Per procedere premere Avanti. Prof. Daniele ATTAMPATO9 5. Nella finestra successiva, denominata Opzioni del grafico, c’è la descrizione dettagliata di tutte le possibilità che si hanno per personalizzare il grafico: titoli per gli assi cartesiani; selezionare/ deselezionare gli assi; selezionare/deselezionare la griglia; spostare la legenda… Se si desidera accettare le impostazioni predefinite è sufficiente cliccare su Avanti. 6. La quarta ed ultima finestra consente di scegliere se inserire il grafico in un nuovo foglio di lavoro o come oggetto sul foglio corrente. Selezionare l’opzione desiderata e premere Fine. N.B. E’ sempre possibile modificare un grafico, una volta prodotto. Ogni caratteristica o elemento del grafico può essere variata anche dopo la sua creazione, per aggiungere informazioni ulteriori o per modificare la significatività di quelle già inserite. Per farlo è sufficiente posizionarsi sul grafico,cliccare il tasto DX del mouse e scegliere l’opzione desiderata. 10 Prof. Daniele ATTAMPATO 5.1.Diagrammi cartesiani I diagrammi cartesiani sono utilizzati in genere per rappresentare: - serie storiche - seriazioni discrete Tali diagrammi possono essere facilmente realizzati con Excel, mediante i grafici a linee (per le serie storiche) ed i grafici a dispersione (per le seriazioni discrete). Es. Distribuzione delle importazioni dello Stato Francese dal 2000 grafico a linee*) (serie storica Anni Importazioni (milioni di euro) 2000 112.877 2001 119.878 2002 127.123 2003 159.374 2004 278.091 2005 169.767 2006 197.245 2007 136.917 importazioni (mil.di euro) Importazioni in Francia 300.000 250.000 200.000 150.000 100.000 50.000 0 2000 2001 2002 2003 2004 2005 2006 2007 Anni * Tale spezzata mette in evidenza l’evoluzione del fenomeno nel tempo. 11 Prof. Daniele ATTAMPATO Es. Distribuzione di 30 giovani presenti in una sala giochi, secondo grafico a dispersione*). l’età (seriazione discreta ETA' 15 16 17 18 19 tot. NUMERO (F.A.) 7 8 5 4 6 30 F.A.C. 7 15 20 24 30 ANDAMENTO DELLE F.A. 9 8 7 F.A. 6 5 4 3 2 1 0 14 15 16 17 18 19 20 Età * Questo grafico è detto diagramma a segmenti, ed è rappresentabile con Excel seguendo le fasi seguenti: • Completare il grafico a dispersione (composto dai soli punti) e chiudere la ‘Creazione guidata’; • Posizionarsi su uno qualsiasi dei punti sul grafico e premere il tasto DX del mouse; • Selezionare ‘Formato serie dati’; • Selezionare la scheda ‘Barre di errore Y’; • Selezionare la tipologia ‘Meno’; • Settare l’’Intervallo di errore percentuale’ al valore 100%; • Premere OK; NB: Per migliorare l’aspetto del diagramma a segmenti è possibile cancellare la griglia, scegliere una scala degli assi cartesiani opportuna ed aumentare la dimensione dei segmenti. 12 Prof. Daniele ATTAMPATO ANDAMENTO DELLE F.A.C. 35 30 F.A.C. 25 20 15 10 5 0 14 15 16 17 18 19 20 21 Età Questo grafico è detto funzione a gradini, ed è rappresentabile con Excel seguendo le fasi seguenti: • Completare il grafico a dispersione (composto dai soli punti) e chiudere la ‘Creazione guidata’; • Posizionarsi su uno qualsiasi dei punti sul grafico e premere il tasto DX del mouse; • Selezionare ‘Formato serie dati’; • Selezionare la scheda ‘Barre di errore X’; • Selezionare la tipologia ‘Più’; • Premere OK; NB: Per migliorare l’aspetto del diagramma a segmenti è possibile cancellare la griglia, scegliere una scala degli assi cartesiani opportuna ed aumentare la dimensione dei segmenti. 13 Prof. Daniele ATTAMPATO 5.2.Istogrammi Gli Istogrammi vengono utilizzati per rappresentare: - seriazioni continue, con dati raggruppati in classi Sull’asse delle ascisse si riportano tanti intervalli quante sono le classi e sui vari intervalli si costruiscono rettangoli le cui aree sono proporzionali alle frequenze. Bisogna distinguere due casi: a) Classi di ampiezza diversa b) Classi di pari ampiezza a) Classi di ampiezza diversa (costruzione manuale di un Istogramma). Nel caso di classi di ampiezze diverse, le altezze dei rettangoli si ottengono dividendo la relativa frequenza per l’ampiezza della classe, in modo che l’area del rettangolo rappresenti la frequenza: questo è necessario per rispettare il requisito di proporzionalità. E’ quindi necessario calcolare le cosiddette densità, che possono essere definite equivalentemente come: d= FA Ampiezza d= FR Ampiezza d= F% Ampiezza Nell’esempio che segue, si definiscono classi per rappresentare il peso di 177 neonati (in tal caso la densità viene calcolata come FR/Ampiezza). 14 Prof. Daniele ATTAMPATO In realtà, rappresentare un istogramma con Excel non è possibile. La limitazione sta nel fatto che, indipendentemente dalle reali ampiezze delle classi, Excel genera comunque rettangoli con basi di pari lunghezza. Bisogna allora necessariamente procedere con la costruzione manuale oppure utilizzare un software alternativo. * Con gli istogrammi, la somma delle aree di tutti i rettangoli è proporzionale alla somma delle frequenze. 15 Prof. Daniele ATTAMPATO b) Classi di pari ampiezza (costruzione di un Istogramma con Excel) Se le classi hanno la stessa ampiezza, l’altezza di ciascun rettangolo è pari al valore della frequenza: questa condizione soddisfa il criterio di proporzionalità tipico dell’istogramma (la base di ciascun rettangolo è difatti un valore costante, per cui l’area è proporzionale alla frequenza). Es. Distribuzione di 1000 persone presenti ad una manifestazione sportiva, secondo l’età. tot. F.A. 120 207 358 189 80 30 16 1000 Manifestazione sportiva F.A. Età 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 400 350 300 250 200 150 100 50 0 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 Età 16 Prof. Daniele ATTAMPATO 5.3.Ortogrammi (diagrammi a canne d’organo) Per quanto detto nel paragrafo precedente, il grafico “istogramma” di Excel rappresenta, in realtà, il cosiddetto ortogramma, costituito da rettangoli di basi uguali ed altezze proporzionali alle frequenze o alle intensità del fenomeno. Tale rappresentazione è utilizzata utilizzata nel caso di: - serie storiche - serie geografiche - altri tipi di serie E’ facile intuire come si possano accostare rettangoli riferiti a sessi, o ad anni, o a paesi diversi, o a zone diverse, allo scopo di effettuare confronti (alternativa: grafico a barre). Es. Commercio mondiale: importazioni negli anni 1991-1999 (in miliardi di dollari) IMPORTAZIONI (miliardi dollari) ANNI 1991 1992 1993 1994 1995 1996 1997 1998 1999 tot. EUROPA ASIA 3.464 3.570 3.890 4.600 4.780 4.900 5.150 5.350 5.680 41.384 2.800 2.930 3.100 3.200 3.350 3.400 3.470 3.700 3.900 29.850 CONTINENTI AFRICA AMERICA OCEANIA 2.250 2.300 2.490 2.400 2.700 2.870 2.920 3.000 3.145 24.075 6.345 6.500 6.834 6.920 7.200 7.500 7.690 7.900 8.050 64.939 3.000 3.300 3.460 3.600 3.710 3.900 4.050 4.200 4.550 33.770 tot. 17.859 18.600 19.774 20.720 21.740 22.570 23.280 24.150 25.325 194.018 9.000 8.000 7.000 6.000 5.000 4.000 3.000 2.000 1.000 0 EUROPA ASIA AFRICA AMERICA OCEANIA 1991 1992 1993 1994 1995 1996 1997 1998 1999 ANNI * Ogni continente è rappresentato da una serie. Questo è necessario trattandosi di tab.a doppia entr. 5.4.Diagrammi in coordinate polari (grafico Radar) 17 Prof. Daniele ATTAMPATO Il sistema di riferimento in coordinate polari, a differenza del sistema cartesiano, è caratterizzato da un punto O del piano, detto polo, e una semiretta di origine O, detta asse polare. Un qualunque punto P del piano può essere individuato conoscendo la sua distanza OP dal polo e l’angolo α, che la semiretta di origine O e passante per P forma con l’asse polare (per la misura dell’angolo si considerano, per convenzione, rotazioni in senso antiorario). α I diagrammi in coordinate polari sono utilizzati per rappresentare particolari serie storiche, dette cicliche, dove le modalità del carattere si ripetono dopo un certo periodo di tempo (es. i giorni della settimana, i mesi dell’anno…). Si tracciano tante semirette, con origine nel polo O, quante sono le modalità del carattere, in modo che gli angoli tra le varie semirette siano uguali e sulle semirette, a partire dal polo O, si riportano i dati. I punti così ottenuti si collegano con una spezzata (grafico radar). MESE ORDINI 20 Gennaio 24 Febbraio 25 Marzo 23 Aprile 27 Maggio 30 Giugno 43 Luglio 39 Agosto 25 Settembre 22 Ottobre 19 Novembre 10 Dicembre ORDINI EFFETTUATI Dicembre Novembre Gennaio 60 40 Febbraio Marzo 20 Ottobre 0 Settembre Aprile Maggio Agosto Giugno Luglio 5.4.Settori circolari (grafico a Torta) 18 Prof. Daniele ATTAMPATO I settori di un cerchio vengono utilizzati in statistica per rappresentare distribuzioni di frequenza nelle quali la totalità del fenomeno viene ripartita in modalità rappresentate da settori i cui angoli al centro sono proporzionali alle intensità del fenomeno. Excel indica questo tipo di grafico col nome di grafico a torta. Es. Sport praticati dagli alunni dell’Istituto “G.Marconi” di Latina. Tipo di Sport N. Alunni (F.A.) F.R. F.% Calcio 295 0,457 45,7 Pallacanestro 80 0,124 12,4 Pallavolo 92 0,143 14,3 Nuoto 54 0,084 8,4 Tennis 27 0,042 4,2 Atletica 34 0,053 5,3 Ciclismo 12 0,019 1,9 Equitazione 7 0,011 1,1 Sci / Snow 29 0,045 4,5 Altro 15 0,023 2,3 Tot. 645 1,000 100,0 Attività sportive praticate Calcio Pallacanestro Pallavolo Nuoto Tennis Atletica Ciclismo Equitazione Sci / Snow Altro 19 Prof. Daniele ATTAMPATO Es. Data la seguente distribuzione degli studenti italiani secondo il grado delle scuole (a.s.1998/99), completare la tabella e graficare l’andamento delle F.A., F.% e frequenze cumulate. Grado delle scuole N.alunni iscritti F.A. Scuole materne 1.577.696 Scuole elementari 2.859.379 Scuole medie 1.775.009 Scuole superiori 2.543.750 Tot. 8.755.834 F.R. F.% F.C.A. F.C.R. Svolgimento: N.alunni iscritti F.A. F.R. F.% Scuole materne 1.577.696 0,18 18,0 1.577.696 0,18 Scuole elementari 2.859.379 0,33 32,7 4.437.075 0,51 Scuole medie 1.775.009 0,20 20,3 6.212.084 0,71 Scuole superiori 2.543.750 0,29 29,1 8.755.834 1,00 Tot. 8.755.834 1,00 100,0 Grado delle scuole F.C.A. F.C.R. Si tratta di una serie (carattere qualitativo) e le modalità del carattere indicano i vari gradi delle scuole. Il grafico delle F.A. deve riuscire a mettere in evidenza le diverse modalità allo scopo di poter effettuare un confronto, in modo chiaro ed evidente. La scelta ideale ricade quindi sull’ortogramma o sul grafico a barre. N.Alunni Iscritti a.s.98/99 grado Scuole superiori Scuole medie Scuole elementari Scuole materne 0 500000 1000000 1500000 2000000 2500000 3000000 3500000 n.alunni (F.A.) 20 Prof. Daniele ATTAMPATO Per graficare le frequenze percentuali la scelta ideale è il grafico a torta. N.alunni iscritti a.s. 98/99 18,0 29,1 Scuole materne Scuole elementari Scuole medie Scuole superiori 32,7 20,3 21 Prof. Daniele ATTAMPATO