Introduzione alla statistica_lezione2 - UniFI
Transcript
Introduzione alla statistica_lezione2 - UniFI
Dipartimento di Statistica Regione Toscana Comune di Firenze Progetto di diffusione della cultura Statistica Introduzione alla statistica descrittiva Carla Rampichini Dipartimento di Statistica “G. Parenti” Università di Firenze Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/ Tipi di variabili Riprendiamo in esame le domande contenute nel questionario e osserviamo che raccolgono informazioni di vario tipo: quantitative e qualitative Le variabili QUANTITATIVE misurano caratteristiche numeriche: p.e. il peso e l’altezza di una persona Le variabili QUALITATIVE misurano delle qualità: p.e. il colore degli occhi e dei capelli Le variabili dicotomiche sono variabili qualitative con due sole modalità: p.e. la variabile genere assume le modalità maschio e femmina Codici Osserviamo che accanto alle modalità delle variabili qualitative compaiono dei numeri Questi numeri NON sono quantità ma sono dei CODICI che facilitano il lavoro di registrazione dei dati Classi di modalità Confrontiamo la dom. 8 e la dom. 9 del questionario: entrambe chiedono di indicare un orario in termini di ore e minuti Nella Dom. 8 l’orario va indicato per esteso (ore, minuti)? |__|__|:__|__| Mentre nella Dom. 9 vi è stato chiesto di CLASSIFICARVI in una delle possibili modalità di risposta 1 Prima delle 6.00 4 Dalle 7.00 alle 7.29 2 Dalle 6.00 alle 6.29 5 Dalle 7.30 in poi 3 Dalle 6.30 alle 6.59 Osservate che le modalità di risposta sono ESAUSTIVE e MUTUALMENTE esclusive quali sono secondo voi vantaggi e svantaggi di questi due modi di presentare la risposta? Pro e contro domande a risposta aperta e chiusa Dom.8 A che ora vai a dormire la sera ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 21:00:00 1 21:30:00 1 22:00:00 2 22:15:00 2 22:30:00 6 22:45:00 1 22:49:00 1 23:00:00 6 23:15:00 3 23:30:00 12 23:45:00 4 23:47:00 1 0:00:00 11 0:50:00 1 1:00:00 3 1:30:00 1 Dom. 9 A che ora ti svegli al mattino ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 prima delle 6.00 1 2 6.00-6.29 3 3 6.30-6.59 12 4 7.00-7.29 29 5 7.30 e oltre 11 risposte informazione dispersione errori misura Domande a risposta aperta chiusa non note note a priori più meno più meno più meno Domande ambigue Come avreste posto la domanda 13 Tu fumi? Questa domanda è posta in maniera AMBIGUA Un modo migliore per porre la domanda è Quante sigarette hai fumato nelle ultime 24 ore? Confrontare anche le dom. 14 e 15 in cosa differiscono? Consideriamo gli studenti presenti come unità di osservazione, e classifichiamo le seguenti variabili Quante ore hai dormito stanotte? Quantitativa: 1,2, …, 12 Hai dormito almeno 7 ore stanotte? Qualitativa, dicotomica: sì, no Quanti stati esteri hai visitato? Quantitativa: 0,1, … Sei mancino? Qualitativa, dicotomica: sì, no In quale giorno della settimana sei nato? Qualitativa: lun, mar, mer,gio,ven,sab,dom Hai studiato ieri pomeriggio ? Qualitativa, dicotomica: sì, no Per quanto tempo hai studiato ieri pomeriggio? Quantitativa: ore, minuti Ricordate… La distinzione tra variabili qualitative e quantitative è importante per scegliere il metodo da utilizzare Molto spesso la classificazione di una variabile dipende da come viene misurata Una variabile che assume valori numerici corrispondenti a codici (p.e. CAP) è qualitativa Validità e affidabilità di una misura (1) alla domanda 8 A che ora vai a dormire abitualmente la sera? avete probabilmente risposto con sincerità, e quindi questa domanda fornisce risposte affidabili Secondo voi, in base ai risultati della rilevazione, si possono fare affermazioni del tipo “Qualche studente studia poco perché dorme troppo poco?” In altri termini, secondo voi la dom. 8 dà indicazioni valide per analizzare il rendimento nello studio? Validità e affidabilità di una misura (2) Il modo in cui abbiamo misurato il numero di battiti cardiaci è molto approssimato e quindi probabilmente i dati che abbiamo rilevato non sono molto affidabili Potete fare una verifica misurando per 2 volte i vostri battiti e osservare se avete ottenete la stessa misura Secondo voi, l’informazione sul numero di battiti cardiaci ci dà indicazioni valide per lo studio del vostro stato di salute? Osservazioni sulla variabilità La variabilità nei dati si riscontra: in due misurazioni dello stesso oggetto (errore di misura: p.e. due misurazioni del battito cardiaco) misurazione di due oggetti diversi (p.e. variabilità ‘biologica’: il battito cardiaco a riposo per un adulto dovrebbe variare tra 60 e 100, come nei i vostri dati) nei processi casuali (p.e. due estrazioni con reintroduzione da un’urna contenente palline numerate da 1 a 20) Statistica descrittiva scopo principale sintetizzare e descrivere i dati attraverso grafici (diagrammi a barre, a torta, boxplot, ecc.) tabelle indici sugli aspetti più importanti posizione, come la media variabilità, come la varianza concentrazione relazione tra variabili Distribuzione e sintesi dei dati I dati sono un lungo elenco di valori ed è difficile trovare una regolarità: ecco i dati raccolti in classe Se volete confrontare la vostra altezza con quella dei compagni come fate? La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi dei valori raccolti: il 50% centrale dei valori è compreso tra 168 e 180 cm la metà delle altezze è superiore a 175 cm e l’altra metà è inferiore a questo valore Distribuzione e sintesi dei dati Se siete alti p.e. 178 cm, in base a questa sintesi sapete subito che la vostra altezza si trova nella parte centrale della distribuzione, non lontana dal valore centrale Notate che questa sintesi vi fornisce due informazioni: il valore centrale è 175 cm e le altezze si distribuiscono intorno a questo valore, variando tra 170 e 180 cm nella parte centrale (50% delle altezze) della distribuzione Spesso questo tipo di sintesi fornisce tutte le informazioni necessarie per capire l’andamento del fenomeno, soprattutto quando la forma della distribuzione è una di quelle tipiche Matrice dei dati I dati sono di solito raccolti in forma RETTANGOLARE: matrice righe ×colonne ogni riga della matrice corrisponde ad una unità di osservazione ogni colonna della matrice corrisponde ad una variabile Esempio dati raccolti in classe: 56 oss × 16 var Esempio dati mammiferi: 39 osserv × 6 variabili Distribuzioni L’insieme dei valori assunti da una variabile e la frequenza con cui ogni valore si presenta tra le unità di osservazione produce la DISTRIBUZIONE dei dati selvaggio distribuzione dei mammiferi in base alla variabile SELVAGGIO 112 205 3000259 4000258 50 6 70 1 0 TOT 29 10 39 Tabella modalità e frequenze distribuzione dei mammiferi in base alla velocità Steam-and-leaf-plot Distribuzione degli studenti altezza Stem Leaf 192 0 190 188 00 186 184 00 182 000 180 00000000 178 0000000 176 0000 174 000 172 0000 170 00000 168 00000000 166 0 164 00 162 000 160 000 ----+----+----+----+ Mezzo di trasporto utilizzato mezzo cod freq % a piedi 1 4 7.14 bici 2 1 1.79 motorino 3 23 41.07 auto 4 16 28.57 bus 5 6 10.71 bus+altro 6 6 10.71 Totale 56 100.00 Come si esplorano i dati? Ogni analisi esplorativa dovrebbe seguire questi passi grafico → forma → centro → dispersione 1. 2. 3. 4. Tracciare il grafico più appropriato Descrivere la forma della distribuzione in base al grafico e indici di forma Calcolare una misura del centro della distribuzione, appropriata in base alla forma della distribuzione Calcolare un indice di dispersione appropriato in base alla forma della distribuzione e coerente con la misura di centro utilizzata UTILIZZARE GRAFICI E INDICI APPROPRIATI IN BASE AL TIPO DI VARIABILE Aspetti notevoli delle distribuzioni centro Coda sinistra Coda destra Aspetti caratterizzanti le distribuzioni: posizione e variabilità Posizione Più a sinistra Variabilità Più a destra Meno variabile più variabile Aspetti caratterizzanti le distribuzioni: forma asimmetrica simmetrica Grafici per variabili quantitative Per capire come sintetizzare una distribuzione è utile conoscere la sua forma La forma di una distribuzione può essere vista attraverso un grafico Grafici più utilizzati ● Dotplot ● Istogramma ● Boxplot ● Steam and leaf plot ● Plot frequenze cumulate Esempio mammiferi i gatti domestici vivono circa 12 anni, ma possono vivere anche fino a 28 anni. Questa durata è tipica di altri carnivori domestici? Cosa si può dire per i mammiferi domestici che non sono predatori, come le mucche e i maiali? E per i mammiferi che vivono allo stato selvaggio? I rinoceronti, mammiferi non predatori, vivono in media 15 anni, con una durata massima di 45 anni. Mentre l’orso grizzly, che è un predatore, vive in media 25 anni, con una durata di vita massima di circa 50 anni. Possiamo affermare che tra i mammiferi selvaggi i carnivori vivono più a lungo dei vegetariani? Possiamo rispondere ad alcune di queste domande osservando i grafici dei dati raccolti DOTPLOT mostra i singoli casi osservati come punti dal dotplot possiamo vedere la forma, il centro e la dispersione dei dati 5 15 25 35 45 55 65 velocità (mph) Il dot plot è utile quando: •si hanno pochi casi •si vogliono vedere i singoli valori •si vuole vedere qual è la forma della distribuzione •si vogliono confrontare pochi gruppi Quando leggete un dot plot, tenete presente che software diversi fanno dot plot diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati 75 dotplot studenti per genere e altezza (cm) 15 10 5 0 157 162 167 172 177 182 187 192 197 femmine, maschi Altezza in classi di 5cm ( valori centrali di classe p.e. 162 ÍÎ[160,164]) Alcuni approfondimenti … Classifichiamo ogni variabile che compare nella matrice dei dati dei mammiferi come quantitativa o qualitativa ► Consideriamo la variabile velocità dei mammiferi Contiamo con 0 o 5 il numero di mammiferi la cui velocità finisce sono 12 su 18, cioè i 2/3 Quanti valori pensate sarebbero finiti per 0 o 5 per il solo effetto del caso? 2/10 di 18 cioè 3.6 Quali sono le spiegazioni possibili del fatto che le risposte ai due quesiti precedenti sono così diverse? Vedi risposta R1 Dotplot per durata della gestazione Costruiamo il dotplot (vedi foglio di lavoro) Osservando il dotplot proviamo a descrivere la forma, il centro e la dispersione Quali mammiferi presentano la gestazione più lunga? Quelli più grandi! risposte R1 La spiegazione più plausibile è che le velocità sono stime per gli animali selvaggi Chi andrebbe a misurare la velocità di un grizzly in natura? Le velocità che non finiscono per 0 o 5 sono quelle relative ad animali domestici: cane, volpe, giraffa, cavallo, maiale e scoiattolo. Per questi mammiferi, ad eccezione della giraffa, la velocità può essere misurata in maniera accurata: sicuramente nel caso di gare di corsa per cavalli e cani! La distribuzione è centrata R2 verso i valori più bassi, senza gruppi o buchi particolari C’è una sorta di ‘muro’ a 0 giorni, perché nessun mammifero può avere un periodo di gestazione più piccolo! elefante 0 100 160 200 300 400 500 durata gestazione (giorni) L’elefante è l’unico mammifero fuori norma (outlier) Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breve La metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni. 600 700 Tipo variabili mammiferi Mammifero Periodo di gestazione Durata vita media Durata vita max Velocità Selvaggio Predatore È un’etichetta Quantitativa gg Quantitativa anni Quantitativa anni Quantitativa mph Qualitativa sì/no Qualitativa sì/no Istogramma altezza