Appunti di Statistica

Transcript

Appunti di Statistica
 Renato Agati – Appunti di Statistica Pagina 2 CONTENUTI LA STATISTICA 
La Statistica  Le fasi di un’indagine statistica o Definizione del fenomeno o Individuazione della popolazione o Le variabili statistiche o Le scale di misurazione o Rilevamento dei dati 
Elaborazione e rappresentazione dei dati o Costruzione delle tabelle delle frequenze o Rappresentazione grafica  Gli indicatori statistici: indici di posizione o Moda o media aritmetica o Mediana o Quantili  Gli indicatori statistici: indici di dispersione o Campo di variazione o Scarto semplice medio o Varianza o Deviazione standard Renato Agati – Appunti di Statistica Pagina 3 Renato Agati – Appunti di Statistica Pagina 4 LA STATISTICA La statistica è una scienza nata per analizzare e descrivere i fenomeni d’importanza sociale che riguardano uno Stato. Oggi viene applicata in tutti quei campi dove intervengono fenomeni collettivi del tutto casuali, la cui mancanza di ripetitività ne rende impossibile lo studio attraverso la sperimentazione scientifica. Sono fenomeni collettivi quei fatti, avvenimenti o situazioni che abbracciano un numero sufficientemente grande di fenomeni individuali fra loro uguali o simili. Ad esempio, il fatto che Antonio è alto cm 145 è un fenomeno individuale mentre l’altezza dei ragazzi della stessa età di Antonio di tutte le scuole di un paese è un fenomeno collettivo. Il fatto che io vengo a scuola in auto è fenomeno individuale. Il mezzo utilizzato da tutti i docenti e alunni della mia scuola è un fenomeno collettivo. L’aumento della popolazione di uno stato, la comparsa di una certa malattia in un determinato ambiente, la diminuzione dei posti di lavoro in un particolare settore, sono quindi fenomeni collettivi, e la conoscenza delle caratteristiche o dell’andamento di un fenomeno collettivo può avvenire solo attraverso la statistica: La statistica è la scienza che studia i fenomeni collettivi di vario genere. Essa raccoglie, analizza e interpreta (utilizzando metodi e strumenti matematici) le informazioni riguardanti il particolare fenomeno considerato, ne misura e studia certe caratteristiche e permette di fare previsioni sul futuro o sull’andamento del fenomeno stesso. Renato Agati – Appunti di Statistica Pagina 5 E’ da precisare che, nel suo complesso, la statistica non dà risultati certi, ma arriva solo a fare delle previsioni su determinati fenomeni, previsioni che – teoricamente – sono certe ma anche quasi sicuramente certe: occorre quindi fare le valutazioni con la dovuta attenzione. La statistica dà quindi delle previsioni permettendo di programmare soluzioni o interventi adatti. (es. l’aumento di una malattia). Renato Agati – Appunti di Statistica Pagina 6 FASI DI UN’INDAGINE STATISTICA Un’indagine statistica, seppur ben definita nel fenomeno preso in considerazione, può essere resa non appropriata o può essere totalmente vanificata da una raccolta dei dati non corretta o una loro presentazione inadeguata. Per evitare ciò, è bene seguire uno schema preciso che, in linea di massima, è basato sullo sviluppo di quattro FASI essenziali che sono:  definire in maniera esatta e completa il fenomeno su cui si vuole indagare;  individuare la popolazione interessata al fenomeno su cui si indaga;  rilevare e raccogliere in maniera appropriata i dati;  elaborare e interpretare i dati raccolti e rappresentarli graficamente. Queste fasi devono essere affrontate nella sequenza indicata: raccogliere dati prima di aver chiaramente espresso le finalità dell’indagine può facilmente condurre a analisi e interpretazione dei dati non adeguati e quindi a risultati poco attendibili. DEFINIZIONE DEL FENOMENO Il primo passo è la definizione del fenomeno su cui vogliamo indagare precisando anche, con accuratezza, i particolari aspetti che si vogliono analizzare. E’ la fase iniziale e più importante ai fini di un più preciso proseguimento dell’indagine stessa, in quanto bisogna predisporre, logicamente e praticamente, il tipo di indagine più adatta al conseguimento dei nostri obiettivi. Se per esempio vogliamo prendere in esame il fenomeno “distribuzione demografica in una città” sarà opportuno precisare se vogliamo un esame che riguardi:  la caratteristica numerica complessiva (numero di abitanti) Renato Agati – Appunti di Statistica Pagina 7  la caratteristica numerica per sesso (numero maschi e numero femmine)  la caratteristica numerica secondo il reddito  la caratteristica numerica secondo l’attività lavorativa  ecc. INDIVIDUAZIONE DELLA POPOLAZIONE Definito il fenomeno, va indicata chiaramente la collettività a cui il fenomeno si riferisce e sulla quale verrà quindi svolta l’indagine. Tale collettività in termini statistici si chiama popolazione statistica o, semplicemente, popolazione; ogni singolo elemento della popolazione si chiama unità statistica. Si definisce popolazione qualsiasi insieme di elementi, reale o virtuale, che forma oggetto di studio. Costituiscono una popolazione, ad esempio: 
gli alunni di una classe; 
gli impiegati di un’azienda; 
tutti i residenti nel comune di Torino il 31/12/2007; 
le malattie tipiche di una certa regione. E’ di fondamentale importanza (nonché indicatore di serietà della ricerca) definire esattamente la popolazione di riferimento dell’indagine. Renato Agati – Appunti di Statistica Pagina 8 LE VARIABILI STATISTICHE Se consideriamo una popolazione statistica, es. gli impiegati di un’azienda, ogni unità statistica (ogni impiegato) differisce da un’altra unità per una o più caratteristiche: il sesso, l’attività svolta, il mezzo di trasporto per recarsi in azienda, lo stato civile, il numero di figli, ecc. Queste caratteristiche prendono il nome di variabili statistiche ed è rispetto ad una o più di queste variabili che si effettua l’indagine statistica. Le variabili statistiche possono essere: variabili quantitative, se espresse da un numero variabili qualitative, se non possono essere espresse da un numero (stato civile, il sesso, mezzo di trasporto, attività svolta,..) Sono pertanto variabili quantitative: 
l’età 
il numero figli 
lo stipendio percepito mentre le variabili qualitative possono essere : 
lo stato civile 
il sesso 
il mezzo di trasporto 
l’attività svolta Possiamo quindi dire che: L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio consiste nell’analizzare come una popolazione statistica si distribuisce rispetto ad una certa variabile statistica. Renato Agati – Appunti di Statistica Pagina 9 RILEVAMENTO DEI DATI Il fenomeno, la popolazione e la/le variabili statistiche su cui vogliamo indagare ci suggeriranno come meglio procedere nella fase di rilevamento dati. Il rilevamento dati può essere diretto o completo se viene eseguito direttamente su tutte le unità statistiche che formano la popolazione interessata al fenomeno. Ciò è possibile quando la popolazione è formata da un numero non eccessivo di unità e ogni unità statistica può quindi essere contattata e intervistata. Fanno eccezione i censimenti e le indagini su nascite, morti, matrimoni (attraverso gli archivi statali). Spesso però l’intera popolazione è talmente vasta da non permettere il rilevamento diretto per vari motivi (costi, tempi, disponibilità di tutte le unità statistiche). Si deve pertanto scegliere al suo interno una parte ridotta di unità statistiche, ovvero un opportuno campione rappresentativo, su cui si eseguirà l’indagine. In questo caso si parla di rilevamento indiretto o per campione, perchè viene eseguito solo su una parte più o meno estesa della popolazione. La scelta del campione rappresentativo è un momento molto importante e delicato, che deve tenere conto di alcuni fattori:  il numero di campioni deve essere tale da rendere attendibili i risultati;  la scelta dei campioni non deve rendere selettiva l’indagine stessa;  i risultati ottenuti sul campione non devono provocare errori di valutazione quando vengono estesi a tutta la popolazione. Per il numero dei campioni in genere si decide per una percentuale veramente rappresentativa, che non sia né ristretta né inutilmente vasta. Per la scelta del campione si ricorre in genere a: rilevamento casuale: si effettua estraendo a caso i campioni dall’intera popolazione; se non esiste alcun vincolo di convenienza (economica, sociale, ecc.) che potrebbe imporre la scelta ragionata di uno o dell’altro campione, i campioni vengono decisi dal caso. Renato Agati – Appunti di Statistica Pagina 10 rilevamento stratificato: si effettua suddividendo la popolazione in più strati, o classi, e scegliendo a caso, in ognuno di essi, singoli campioni che complessivamente formano i campioni dell’indagine. In ogni strato il numero dei campioni da scegliere sarà proporzionale al numero totale degli elementi della classe stessa. Se per esempio si vuole indagare sul fenomeno “reddito degli abitanti di una regione”, è opportuno fare il campionamento stratificato in quanto il reddito varia secondo alcuni strati o classi della popolazione, strati che in questo caso sono le diverse attività lavorative. Per una corretta e completa raccolta dati dobbiamo definire non solo il metodo di rilevamento (diretto o per campionamento) e le variabili statistiche (quantitative e qualitative) già descritte in precedenza, ma anche altri criteri di classificazione quali le cosiddette scale di misurazione. LE SCALE DI MISURAZIONE Le variabili possono essere classificate anche in base alla scala di misurazione o, in altre parole, alle operazioni che si possono fare con le loro modalità. Esistono quattro scale: la scala nominale, la scala ordinale, la scala per intervallo, la scala per rapporto. Scala nominale Le modalità non hanno un ordinamento (è il caso delle variabili qualitative) Esempi:  giudizio su un film: bello / brutto;  si / no;  colore degli occhi; Renato Agati – Appunti di Statistica Pagina 11 Scala ordinale Le modalità sono attributi non numerici ma logicamente ordinabili Esempi:  titolo di studio;  livello di soddisfazione per un prodotto (per niente, poco, abbastanza, ecc..); Scala per intervallo Sono le variabili quantitative che consentono confronti solo per differenza ma non per rapporto. Per esempio, se misuriamo un giorno la temperatura minima e massima a Torino e a New York potremmo ottenere i seguenti valori: Temp. massime Temp. minime Torino New York 25 17 16 8 Se vogliamo confrontare le temperature di Torino e di New York, ha senso dire che l’escursione termica è la stessa nelle due città, ma non ha senso dire che la minima a New York è la metà della minima a Torino.
Scala per rapporto Sono variabili numeriche per le quali è intrinseca la definizione dello zero. Esempi sono il peso, l’altezza, la lunghezza, la concentrazione. In questo caso le modalità possono essere confrontate per rapporto. Per esempio, si può affermare che la concentrazione di cloro in un campione di acqua è doppia rispetto a quella di un altro campione. Renato Agati – Appunti di Statistica Pagina 12 GLI STRUMENTI Scelto il metodo per il rilevamento dati, diretto o per campionamento, si passa alla raccolta delle informazioni che può avvenire tramite:  interviste: si pongono a ciascuna unità statistica delle precise domande in merito al fenomeno e si registrano le relative risposte;  questionari: si distribuisce a ciascuna unità statistica un questionario che successivamente viene ritirato con le risposte;  consultazione di archivi o pubblicazioni specializzate. Sarà pertanto necessario preparare gli opportuni strumenti per registrare facilmente i dati che dovremo raccogliere. I moduli per l’intervista dovranno consentirci di segnare velocemente le risposte che otteniamo: un modulo già organizzato “a crocette” ci farà risparmiare tempo sia durante l’intervista, sia dopo, quando dovremo elaborare i dati raccolti. Di contro, un modulo che ci obbliga a scrivere ciò che ci risponde la persona intervistata farà solamente spazientire la persona stessa. Nella creazione e definizione di un questionario si deve invece porre attenzione a come la domanda viene formulata, affinché chi lo compila possa poter rispondere senza possibilità di equivoci. E’ superfluo precisare che i questionari, essendo compilati senza la presenza e assistenza di chi sta conducendo l’indagine statistica, sono generalmente basati su risposte predefinite da crocettare. Nelle pagine seguenti viene riportato, come esempio, il questionario che la casa automobilistica SEAT invia ai suoi clienti per indagare sulla qualità del servizio di assistenza. Renato Agati – Appunti di Statistica Pagina 13 Renato Agati – Appunti di Statistica Pagina 14 Renato Agati – Appunti di Statistica Pagina 15 Renato Agati – Appunti di Statistica Pagina 16 ELABORAZIONE E RAPPRESENTAZIONE DATI Questa fase, nel suo complesso, abbraccia diversi momenti: 
si va dal riscontro delle informazioni al loro spoglio per ricavare i veri dati statistici; 
si passa alla loro trascrizione in apposite tabelle; 
dall’esame di queste tabelle si arriva all’elaborazione vera e propria dei dati; 
si conclude con la rappresentazione dei risultati dell’indagine mediante opportuni grafici. Si dice dato statistico una qualsiasi informazione di cui si conosce il numero di volte con cui si ripete in un’indagine. A seconda dei dati statistici raccolti e dell’elaborazione che intendiamo effettuare – elaborazione che dipende anche dagli obiettivi della nostra indagine statistica – possiamo creare vari tipi di tabelle: 
tabella semplice o tabella di frequenza assoluta 
tabella delle frequenze relative 
tabella multipla e tabella a doppia entrata 
tabella per classi. Renato Agati – Appunti di Statistica Pagina 17 LE TABELLE Tabella semplice (tabella di frequenza assoluta) Nome Altezza Maria 145 Giulio 148 Mario 149 Ernesto 151 Giorgio 140 Elena 148 Vittorio 149 Marco 151 Eleonora 145 Fabio 140 Ettore 149 Massimo 151 Cristian 145 Rossana 149 Elisabetta 138 Roberto 145 Walter 140 Nicoletta 152 Sara 145 Nicola 148 Supponiamo di aver indagato sul fenomeno “altezza dei ragazzi della classe III di una scuola media” e di avere raccolto informazioni relative a 20 campioni scelti, come da tabella qui a sinistra: Eseguiamo successivamente lo spoglio delle informazioni realizzando una tabella dove nella prima colonna scriveremo tutte le altezze registrate e nella seconda colonna, sulla stessa riga, il numero dei ragazzi che presentano quell’altezza. La tabella che otteniamo è riportata qui a destra: Altezza 138 140 145 148 149 151 152 TOTALE Numero ragazzi 1 3 5 3 4 3 1 20 Abbiamo ottenuto una tabella semplice di dati statistici, in grado di fornirci già in’immagine del fenomeno. I dati riportati nella seconda colonna (numero dei ragazzi) rappresentano la frequenza assoluta di ciascun dato (altezza), ovvero il numero di volte con cui il dato si presenta nell’indagine. Renato Agati – Appunti di Statistica Pagina 18 Tabella delle frequenze Nel paragrafo precedente abbiamo realizzato una tabella con indicato il numero di volte con cui un dato si presenta nell’indagine, ovvero abbiamo indicato per ciascun dato la sua frequenza assoluta. Può essere a volte opportuno indicare per ciascun dato il rapporto tra la sua frequenza assoluta e il totale dei casi esaminati. In tal caso si parla di frequenza relativa di un dato, che viene espressa in percentuale. Per ottenere la frequenza relativa di un dato si applica la seguente formula: frequenza relativa = (frequenza assoluta / totale casi) * 100 Applicando tale formula alla nostra tabella delle altezze di 20 ragazzi otteniamo quanto segue: Altezza 138 140 145 148 149 151 152 TOTALE Numero ragazzi 1 (1 / 20)*100 = 5 3 (3 / 20)*100 = 15 5 (5 / 20)*100 = 25 3 (3 / 20)*100 = 15 (4 / 20)*100 = 20 4 (3 / 20)*100 = 15 3 (1 / 20)*100 = 5 1 20 Altezza 138 140 145 148 149 151 152 TOTALE Frequenza Frequenza assoluta relativa 1 3 5 3 4 3 1 20 5% 15% 25% 15% 20% 15% 5% 100% Renato Agati – Appunti di Statistica Pagina 19 Tabella multipla e tabella a doppia entrata Negli esempi fin qui riportati non abbiamo preso in considerazione il fatto che gli alunni del campione selezionato sono sia maschi che femmine e che il fenomeno altezza può essere influenzato dalla variabile statistica del sesso. E’ opportuno prevedere ciò in fase di definizione dell’indagine, per raccogliere i dati in maniera opportuna e realizzare, pertanto una tabella multipla come la seguente: Altezza 138 140 145 148 149 151 152 TOTALE Numero Numero ragazzi ragazze 0 3 2 2 3 3 0 13 1 0 3 1 1 0 1 7 Anche in questo caso posiamo, oltre alle frequenze assolute, calcolare e riportare in tabella le frequenze relative: Altezza Numero ragazzi totale % 138 140 145 148 149 151 152 TOTALE 0 3 2 2 3 3 0 13 0,0 23,1 15,4 15,4 23,1 23,1 0,0 100,0 Numero ragazze totale % 1 0 3 1 1 0 1 7 14,3 0,0 42,9 14,3 14,3 0,0 14,3 100,0 Questa tabella è detta tabella multipla a doppia entrata: 
multipla perché il fenomeno “altezza” è stato suddiviso in due entrate (ragazzi e ragazze); 
a doppia entrata perché per ogni entrata abbiamo una suddivisione in due colonne, quella delle frequenze assolute e quella delle frequenze relative. Renato Agati – Appunti di Statistica Pagina 20 Tabella per classi Supponiamo di eseguire un’indagine sul fenomeno “altezza dei ragazzi delle classi quinte di un liceo” e di raccogliere i seguenti valori: 1,50 1,61 1,72 1,65 1,80 1,72 1,60 1,76 1,57 1,78 1,69 1,64 1,65 1,58 1,62 1,66 1,81 1,73 1,70 1,77 1,68 1,61 1,59 1,68 1,66 1,62 1,85 1,71 1,68 1,82 1,57 1,79 1,65 1,54 1,81 1,63 1,71 1,70 1,85 1,70 1,61 1,69 1,67 1,55 1,73 1,54 1,65 1,69 1,67 1,78 1,58 1,68 1,60 1,82 1,75 1,74 1,73 1,74 1,80 1,85 Come si può prevedere, l’elaborazione di questi dati potrebbe non essere semplice in quanto le informazioni sono numeri completamente diversi tra loro. Calcolare la frequenza o la percentuale di frequenza risulterebbe non solo laborioso, ma sopratutto poco significativo. In casi del genere si procede compattando i risultati in gruppi e realizzando tabelle suddivise per classi. Vediamo come procedere. Innanzitutto dobbiamo riscrivere i dati in ordine crescente: 1,50 1,60 1,65 1,69 1,73 1,79 1,54 1,61 1,65 1,69 1,73 1,80 1,54 1,61 1,66 1,69 1,73 1,80 1,55 1,61 1,66 1,70 1,74 1,81 1,57 1,62 1,67 1,70 1,74 1,81 1,57 1,62 1,67 1,70 1,75 1,82 1,58 1,63 1,68 1,71 1,76 1,85 1,58 1,64 1,68 1,71 1,77 1,82 1,59 1,65 1,68 1,72 1,78 1,85 1,60 1,65 1,68 1,72 1,78 1,85 Consideriamo l’intervallo numerico tra il dato più piccolo e quello più grande, cioè 1,50 ÷ 1,85; esso rappresenta il campo di variazione della variabile statistica considerata. Consideriamo gli estremi del campo di variazione e eseguiamo la loro differenza che vale 0,35 m (1,85 – 1,50 = 0,35). Questa differenza è detta ampiezza del campo di variazione, cioè è l’ampiezza del raggruppamento di tutti i dati. Suddividiamo l’ampiezza in opportuni intervalli uguali, ad esempio otto, ottenendo che l’ampiezza di ciascun intervallo vale 0,04 m (0,35 / 8 = 0,04) Renato Agati – Appunti di Statistica Pagina 21 Possiamo a questo punto definire le otto classi di altezza che sono: 1a classe : 1,50 ÷ 1,54 (da 1,50 a 1,50 + 0,04) 2a classe : 1,55 ÷ 1,59 (da 1,55 a 1,55 + 0,04) 3a classe : 1,60 ÷ 1,64 (da 1,60 a 1,60 + 0,04) 4a classe : 1,65 ÷ 1,69 (da 1,65 a 1,65 + 0,04) 5a classe : 1,70 ÷ 1,74 (da 1,70 a 1,70 + 0,04) 6a classe : 1,75 ÷ 1,79 (da 1,75 a 1,75 + 0,04) 7a classe : 1,80 ÷ 1,84 (da 1,80 a 1,80 + 0,04) 8a classe : 1,85 ÷ 1,89 (da 1,85 a 1,85 + 0,04) In queste otto classi sistemiamo la nostra popolazione: basterà considerare gli alunni appartenenti ad ogni classe per avere la frequenza della classe, ovvero la distribuzione di frequenza del raggruppamento dati. Frequenza Frequenza Classi di assoluta relativa altezza 1,50 ÷ 1,54 3 5 1,55 ÷ 1,59 6 10 1,60 ÷ 1,64 9 15 1,65 ÷ 1,69 15 25 1,70 ÷ 1,74 12 20 1,75 ÷ 1,79 6 10 1,80 ÷ 1,84 6 10 1,85 ÷ 1,89 3 5 TOTALE 60 100 Renato Agati – Appunti di Statistica Pagina 22 LE RAPPRESENTAZIONI GRAFICHE I dati raccolti nelle tabelle possono essere rappresentati graficamente. I grafici più utilizzati sono gli istogrammi, i grafici a barre, i grafici a torta e i grafici a linea. La scelta del grafico dipende dal tipo di tabelle che abbiamo creato. Esistono vari programmi software che, partendo dalla serie dei dati raccolti in tabella, realizzano automaticamente il grafico desiderato. Generalmente sono i programmi per l’elaborazione dei cosiddetti fogli elettronici. I più popolari sono Microsoft Excel (contenuto nel pacchetto Microsoft Office, a pagamento) e OpenOffice Calc (software di tipo “open source”, totalmente gratuito). Tabella semplice (tabella di frequenza assoluta) In questo caso il grafico più opportuno è l’istogramma, serie di barre verticali la cui altezza è proporzionale al valore della frequenza. Altezza 138 140 145 148 149 151 152 TOTALE Numero ragazzi 1 3 5 3 4 3 1 20 Renato Agati – Appunti di Statistica Pagina 23 Tabella delle frequenze relative In questo caso il grafico più opportuno è la torta che dà un immediato messaggio visivo di come i dati statistici sono distribuiti l’uno rispetto agli altri. Altezza Frequenza Frequenza assoluta relativa 138 140 145 148 149 151 152 TOTALE 1 3 5 3 4 3 1 20 5% 15% 25% 15% 20% 15% 5% 100% Tabella multipla Anche per le tabelle multiple l’istogramma rappresenta il grafico più adatto. Si possono realizzare due tipi di istogrammi, a barre affiancate e a barre sovrapposte. Altezza 138 140 145 148 149 151 152 TOTALE Numero Numero ragazzi ragazze 0 3 2 2 3 3 0 13 1 0 3 1 1 0 1 7 Renato Agati – Appunti di Statistica Pagina 24 Tabella multipla e tabella a doppia entrata Non esiste un unico grafico che possa rappresentare tutti i dati di una tabella multipla e a doppia entrata. Altezza Numero ragazzi totale % 138 140 145 148 149 151 152 TOTALE 0 3 2 2 3 3 0 13 Numero ragazze totale % 0,0 23,1 15,4 15,4 23,1 23,1 0,0 100,0 1 0 3 1 1 0 1 7 14,3 0,0 42,9 14,3 14,3 0,0 14,3 100,0 In tal caso si ricorre a più di un grafico, come ad esempio un istogramma per rappresentare le frequenze assolute dei ragazzi e delle ragazze e due grafici a torta per la distribuzione relativa dei ragazzi (un grafico) e delle ragazze (secondo grafico). Tabella per classi Una tabella per classi differisce da una tabella semplice solo per il fatto che l’evento è rappresentato non da un valore singolo ma da un intervallo di valori. Classi di altezza Frequenza Frequenza assoluta relativa Una tabella per classi può pertanto essere ben rappresentata 1,50 ÷ 1,54 3 5 1,55 ÷ 1,59 6 10 1,60 ÷ 1,64 9 15 1,65 ÷ 1,69 15 25 1,70 ÷ 1,74 12 20 1,75 ÷ 1,79 6 10 1,80 ÷ 1,84 6 10 1,85 ÷ 1,89 3 5 TOTALE 60 100 Renato Agati – Appunti di Statistica da istogrammi. Pagina 25 Grafici a linea Può capitare che i dati in nostro possesso siano dati che rappresentano l’evoluzione nel tempo dell’evento osservato, come l’andamento giornaliero delle quotazioni in borsa di un titolo azionario o le temperature rilevate nello stesso posto ad intervalli regolari. In questo caso i grafici a linea costituiscono la rappresentazione ideale in quanto danno immediatamente un messaggio “visivo” sull’andamento del fenomeno, oltre a rappresentarne i valori. Nell’esempio qui riportato sono indicate le temperature minime e massime rilevate a Torino nel periodo 1/10/2006 – 1/09/2007 (per semplicità sono state riportate le temperature del primo del mese). Data Temp. minima T 1/09/2007 15,8 27,4 1/08/2007 15,7 28,3 1/07/2007 19,8 29,2 1/06/2007 12,4 19,8 1/05/2007 14,3 21,8 1/04/2007 7,3 11,0 1/03/2007 4,3 13,9 1/02/2007 ‐1,7 11,8 1/01/2007 0,2 8,6 1/12/2006 3,1 13,2 1/11/2006 7,1 20,4 1/10/2006 17,1 22,4 Renato Agati – Appunti di Statistica Pagina 26 GLI INDICATORI STATISTICI : INDICI DI POSIZIONE Gli indici, o indicatori statistici, sono i risultati di funzioni matematiche che vengono utilizzati per effettuare una sintesi dei dati. Gli indici più frequentemente utilizzati sono: 
gli indici di posizione: danno un’idea approssimata dell’ordine di grandezza dei valori esistenti. I più utilizzati sono la moda, la media, la mediana e i quantili. 
gli indici di dispersione: vengono utilizzati per descrivere sinteticamente come i valori di una distribuzione sono distanti da un valore centrale (identificato solitamente con la media o con la mediana) MODA Si chiama MODA di un’indagine statistica il dato o la classe di dati che ha maggiore frequenza. Altezza 138 140 145 148 149 151 152 TOTALE Numero ragazzi 1 3 5 3 4 3 1 20 In questo caso la frequenza maggiore è 5 e corrisponde al numero di ragazzi alti 145 cm. Pertanto, la moda è 145. In una distribuzione può esserci un solo valore avente la maggiore frequenza, oppure due valori o più: in tal caso si parla di distribuzione unimodale, bimodale, trimodale, e così via. Renato Agati – Appunti di Statistica Pagina 27 MEDIA ARITMETICA In un insieme di dati statistici numerici la MEDIA ARITMETICA viene utilizzata per riassumere un insieme di dati con un solo valore. Per calcolare la media di una distribuzione semplice si devono sommare tutti i dati e dividere tale somma per il numero dei dati. In presenza di una tabella di frequenza si calcola la media aritmetica ponderata ( o pesata). I singoli valori prima di essere sommati vengono moltiplicati con il peso (ponderazione) a loro assegnato, ovvero al numero di volte (frequenza) in cui i valori compaiono. La somma ottenuta deve poi essere divisa non con il numero di valori ma con la somma dei pesi. Renato Agati – Appunti di Statistica Pagina 28 E’ possibile calcolare la media aritmetica ponderata anche nel caso di distribuzioni per classi, ma bisogna prima sostituire le classi con il loro valore medio, come nell’esempio che segue: A questo punto si può calcolare la media aritmetica ponderata. MEDIANA Si dice MEDIANA di un insieme di dati statistici numerici, disposti in ordine crescente, il dato che occupa il posto centrale. Per determinare la mediana si procede in modi differenti secondo che abbiamo una distribuzione semplice, una distribuzione ponderata o una per classi. Caso 1 – Distribuzione semplice Scrivendo i dati in ordine crescente, se i dati sono in numero dispari la mediana è il termine che occupa il posto centrale; se i dati sono in numero pari, la mediana è rappresentata dalla media aritmetica tra i due valori centrali. Per calcolare in maniera semplice qual è / quali sono i termini centrali, basta dividere per due il numero totale dei dati. Esempio: se abbiamo una serie di 49 dati, poiché 49 / 2 = 24 con il resto di 1, il termine di mezzo è il 25esimo (che avrà 24 dati a destra e 24 dati a sinistra). Renato Agati – Appunti di Statistica Pagina 29 Se abbiamo una serie di 150 dati, poiché 150 / 2 = 75, i due termini centrali sono il 75esimo e il 76esimo. La mediana è data dalla media aritmetica di questi due valori, ottenibile sommandoli tra loro e dividendo il risultato per 2. Caso 2 – Distribuzione ponderata Si calcolano anzitutto le frequenze cumulate. A questo scopo si scrivono ordinatamente la prima frequenza, la somma delle prime due, la somma delle prime tre, e così via Valore 20 21 22 23 26 30 TOTALE Frequenza Frequenza Operando come nel caso di una distribuzione semplice, si cumulata 12 19 18 7 2 1 59 12 31 49 56 58 59 Renato Agati – Appunti di Statistica calcola che la mediana è il 30esimo termine. Nella colonna delle frequenze cumulate si ricava che il 30esimo termine vale 21: pertanto la mediana è 21. Pagina 30 Caso 3 – Distribuzione per classi Consideriamo la seguente distribuzione per classi (età di 400 persone): Età 20 ‐ 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 Frequenza Frequenza
cumulata 60 92 114 86 40 8 60 152 266 352 392 400 Calcoliamo la metà della frequenza cumulata complessiva ottenendo 200 (400/2); ciò vuol dire che per arrivare all’età mediana dobbiamo contare le prime 200 persone disposte in ordine di età; ciò vuole anche dire che la 200esima persona ha un’età tra i 40 e i 50 anni. La mediana cade quindi nella classe 40‐50 ed è precisamente: 40 + x, ove x rappresenta una frazione dell’ampiezza 10 della classe. Per calcolare x si nota che le frequenze cumulate fino a 40 sono 152. Poiché l’età mediana è la 200esima, essa è la 48esima età nella classe 40‐50 (200 – 152 = 48). Calcoliamo quindi x applicando il criterio di proporzionalità: 48 : 114 = x : 10 Dove 114 è il numero di elementi della classe 40‐50. Quindi: x = ( 48 * 10 ) / 114 = 4,21 In definitiva la mediana della distribuzione per classi è: 40 + 4,21 = 44,21 Renato Agati – Appunti di Statistica Pagina 31 QUANTILI Si può reinterpretare la mediana come la più piccola modalità che divide la serie dei dati in due parti uguali, lasciando il 50% delle unità statistiche alla sua sinistra e il 50% alla sua destra. Se invece divido la serie delle unità statistiche in più di due parti uguali, allora si parla di quantili. I quantili sono modalità del carattere che suddividono la distribuzione dei dati in q distribuzioni parziali ciascuna contenente 1/q della numerosità totale. In questo senso la mediana diventa il quantile di ordine q=1/2. Se q=4, allora si parla di quartili. I quartili ripartiscono la distribuzione in quattro parti caratterizzate dalla stessa numerosità, pari al 25% della numerosità totale. Il primo quartile è il valore o l’insieme dei valori per cui la frequenza cumulata vale 0,25 (pari al 25% ), il secondo quartile coincide con la mediana, il terzo quartile è il valore o l’insieme dei valori per cui la frequenza cumulata vale 0,75 (pari al 75% ). Renato Agati – Appunti di Statistica Pagina 32 GLI INDICATORI STATISTICI : INDICI DI DISPERSIONE Consideriamo i seguenti dati: Tre studenti, nel primo quadrimestre, hanno riportato le seguenti successioni di voti nelle prove scritte di matematica: Studente Anna Giovanni Giuseppe Voti 5 4 3 6 5 4 6 7 8 7 8 9 Se calcoliamo le medie aritmetiche e le mediane dei voti di ogni studente, vediamo che esse coincidono: Studente Media Mediana Anna Giovanni Giuseppe 6 6 6 6 6 6 Nonostante ciò, è evidente che le tre successioni di voti sono diverse tra loro. Per evidenziare queste differenze si deve introdurre il concetto di variabilità: La variabilità è l’attitudine che la grandezza in oggetto ha di assumere valori più o meno diversi tra loro. Se i dati sono vicini al loro valore medio, allora la variabilità è bassa. Se i dati si discostano fortemente dal loro valore medio allora la variabilità è alta. La variabilità dei dati viene misurata attraverso nuovi indici, detti indici di variabilità o indici di dispersione, che sono il campo di variazione, lo scarto semplice medio, lo scarto quadratico, la varianza e lo scarto quadratico medio. Renato Agati – Appunti di Statistica Pagina 33 Campo di variazione E’ l’indice di variabilità più semplice. E’ dato dalla differenza tra il dato massimo e il dato minimo ed equivale all’ampiezza dell’intervallo che contiene tutti i dati. Con riferimento all’esempio precedente abbiamo: il campo di variabilità dei voti di Anna è : 7 – 5 = 2 il campo di variabilità dei voti di Giovanni è : 8 – 4 = 4 il campo di variabilità dei voti di Giuseppe è : 9 – 3 = 6 Pertanto si può dedurre che i voti di Anna sono pressoché costanti, mentre quelli di Giuseppe sono molto diversi tra loro. Il campo di variazione non è però un buon indice di variabilità: se consideriamo, ad esempio, un quarto studente, Mario, i cui voti sono 4, 4, 8, 8, è evidente che il campo di variazione è lo stesso di quello di Giovanni, ma la variabilità (ovvero l’attitudine che la grandezza in oggetto ha di assumere valori diversi tra loro) è diversa. Pertanto, il campo di variazione non è sufficiente e si deve ricorrere a nuovi indici di variabilità più sensibili. Scarto semplice medio Per calcolare lo scarto semplice medio si procede nel seguente modo. Si calcola innanzitutto lo scarto semplice, rappresentato dalla differenza del singolo valore dalla media (Xi – M). Gli scarti semplici possono essere sia positivi che negativi, e la loro somma è uguale a zero. Infatti, se consideriamo per esempio i voti di Giuseppe (3, 4, 8, 9, la cui media vale 6) e calcoliamo la somma degli scarti semplici abbiamo: (3 – 6) + (4 – 6) + (8 – 6) + (9 – 6) = (‐ 3) + (‐ 2) + (+ 2) + (+ 3) = 0 Si ricorre pertanto allo scarto semplice medio ottenuto calcolando la media aritmetica dei valori assoluti degli scarti semplici, ovvero la media degli scarti semplici presi con il segno positivo: ( |3 – 6| + |4 – 6| + |8 – 6| + |9 – 6| ) / 4 = ( (+ 3) + (+ 2) + (+ 2) + (+ 3) ) / 4 = 10 / 4 = 2,5 Renato Agati – Appunti di Statistica Pagina 34 Varianza Lo scarto semplice medio, sebbene dia indicazioni su come i valori della distribuzione differiscono tra loro, risulta insufficiente quando i campi di variazione sono minimi. Si ricorre pertanto alla varianza, indicatore di dispersione che vale zero solo nei casi in cui tutti i valori sono uguali tra di loro (e pertanto uguali alla loro media) e che cresce con il crescere delle differenze reciproche dei valori. La varianza viene calcolata nel seguente modo: si calcolano gli scarti quadratici che sono i quadrati degli scarti semplici, e se ne calcola la media aritmetica. Considerando anche stavolta i voti di Giuseppe abbiamo: ( (3 – 6)2 + (4 – 6)2 + (8 – 6)2 + (9 – 6)2 ) / 4 = ( (‐ 3)2 + (‐ 2)2 + (+ 2)2 + (+ 3)2 ) / 4 = ( 9 + 4 + 4 + 9 ) / 4 = 26 / 4 = 6,5 Se calcoliamo anche la varianza dei voti di Anna e di Giovanni avremo: Deviazione standard La varianza esprime meglio la distribuzione dei valori ma l’elevamento al quadrato rappresenta un’anomalia che può essere recuperata solo con un’operazione inversa, l’estrazione della radice quadrata. Il valore che otteniamo è la deviazione standard, indicata con la lettera σ (sigma), ed è l’indice di variabilità più utilizzato per misurare la dispersione dei dati intorno al valore atteso. Nella tabella che segue sono indicati i vari indici di variabilità calcolati sui voti di Anna, Giovanni e Giuseppe: Studente Campo di Scarto variazione semplice medio Anna 2 0,5 Giovanni 4 1,5 Giuseppe 6 2,5 Renato Agati – Appunti di Statistica Varianza 0,5 2,5 6,5 Scarto quadratico medio 0,70 1,58 2,54 Pagina 35 GLI INDICATORI STATISTICI : QUANDO, COME, PERCHE’ Quando è preferibile utilizzare la MODA? •
La moda è calcolabile sia con variabili qualitative, sia con quelle quantitative, ciò che conta è la frequenza dei dati. •
La moda diventa importante quando tra tutti i dati ne spicca uno con frequenza massima •
Se tra i dati parecchi hanno la stessa frequenza o frequenze simili, e non ne spicca uno in particolare, la moda non dà grandi soddisfazioni •
Se i dati hanno tutti frequenza 1 (cioè tutti diversi tra loro) la moda non esiste. Quando è preferibile utilizzare la MEDIA? •
La media è calcolabile solo se i dati sono numerici. •
La media è più utile (più significativa) quando la distribuzione dei dati è abbastanza uniforme •
La media permette di confrontare due sequenze di dati anche se il numero di dati raccolti nelle due sequenze è diverso Quando è preferibile utilizzare la MEDIANA? •
La mediana è calcolabile solo se i dati sono riferiti a variabili quantitative o qualitative ordinate. •
La mediana, a differenza della media, non è influenzata dal fatto che i dati non siano uniformi, ma dipende solo dalla loro distribuzione. Renato Agati – Appunti di Statistica Pagina 36 Renato Agati http://www.renatoagati.com Renato Agati – Appunti di Statistica Pagina 37