Esercizio 1A (24.02.2009, circa 3 ore)
Transcript
Esercizio 1A (24.02.2009, circa 3 ore)
Laboratorio di Didattica di elaborazione dati – 1A Medie analitiche: aritmetica, geometrica, armonica, quadratica e la media di potenze. Formule in modalità array Vital® è un preparato vitaminico-minerale per le persone più anziane, che gli permette di stare in buona salute. È stato determinato che il preparato deve contenere circa il 5% di alcol – che facilita l'assorbimento degli principi attivi (e anche facilita il rilassamento del paziente). Per determinare la concentrazione precisa di alcol, viene estratto un campione di 150 bottiglie di Vital® e la concentrazione è stata misurata. La tabella sotto mostra i risultati: Tabella 1 – concentrazione di alcol in 150 bottiglie di Vital®. L'esattezza di misura: 0.001 1. Digita i valori dalla tabella nelle celle in un nuovo foglio (Occhio: la versione italiana di Excel solitamente usa "," invece di "." per il punto/virgola decimale). Puoi anche scaricare la tabella dal nostro sito Web: http://www.tiny.pl/lr45. 2. I risultati nella tabella sono dati con tre cifre decimali e vogliamo avere tale precisione. Purtroppo, ogni tanto il risultato ha '0' per la cifra ultima, Excel mostra il numero con due cifre decimali. Seleziona le celle (clicca sulla prima e trascina fino all'ultima) e dopo scegli Formato/Celle, scheda Numero, categoria Numero, numero di cifre decimali: 3. Invece di usare il menu, puoi anche premere il shortcut (tasto di scelta rapida) CTRL-1. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 3. Per cominciare contiamo i nostri valori. Invece di contarli a mano, usa la funzione CONTA.NUMERI(), che prende un argomento – un intervallo fra celle (o matrice) matrice che contiene i valori. È possibile selezionare questo intervallo usando il mouse (più facile), o digitarlo (più veloce) – ad esempio un intervallo che inizia da B3 e termina con la cella D8 è B3:D8. Un intervallo fra celle ("matrice") B3:D8. 4. Digita la formula in una celle vuota sotto la nostra tabella. Ad esempio, se i valori sono contenuti nell'intervallo C5:L19, digita una formula =CONTA.NUMERI(C5:L19) nella cella B21. Occhio: Tutte le formule devono iniziare col simbolo "=". Modifica il formato della cella (0 cifre decimali) perché il valore è sempre integrante. Nella cella a sinistra digita "numero di valori" o un testo simile che descrive il valore a destra. Hai ottenuto un foglio simile a questo sotto? numero di valori 5. Nella riga seguente, cerchi di calcolare la somma dei valori. Usa la funzione SOMMA() che anche prende un intervallo come il argomento. Descrive il valore con un testo immesso nella cella a sinistra. Per la somma io ho ottenuto 771.290. 6. Usando la somma ed il numero dei valori, nella riga seguente calcola la media aritmetica. aritmetica Usa il menu Formato/Celle oppure il shortcut CTRL-1 per visualizzare il valore con 6 cifre decimali. NB: Normalmente non abbiamo voglia di usare tale precisione (ed i valori misurati hanno solo 3 cifre decimali), ma più tardi paragoneremo le medie diverse – per questo motivo dovremo essere straordinariamente precisi. N La media aritmetica: aritmetica x + x + ... + x N x= 1 2 = N ∑ i= 1 xi N Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 7. Naturalmente di solito non si calcola la media in modo manuale – esiste una funzione MEDIA() la quale è più comoda. Usala nella riga seguente e verfica se hai ottenuto lo stesso risultato. L'argomento è, ovviamente, un intervallo fra celle. Visualizza il valore con 6 cifre decimali. Quando vuoi cambiare una formula contenuta in una cella, basta cliccare sulla cella e dopo sulla barra della formula ... oppure premere F2. La media aritmetica è solo una delle misure di tendenza centrale. centrale Le misure di tendenza centrale mirano a sintetizzare la posizione del "centro ideale" sul quale tendono a gravitare gli elementi della distribuzione e devono fornire, in relazione al fenomeno che si considera, una visione d'insieme di tutti gli elementi. Poiché i fenomeni sono molto disparati e le distribuzioni possono presentare forme molto diverse, non è possibile definire un'unica misura di tendenza centrale – infatti, come si vedrà nei prossimi esercizi, sovente la definizione del "centro ideale" della distribuzione è strettamente connessa al tipo di fenomeno studiato. Le misure di tendenza centrale più communi sono: • media aritmetica, • media geometrica, Medie analitiche o medie ferme. • media armonica, Tengono conto di tutti valori della distribuzione. • media quadratica, • media di potenza, • moda, Medie di posizione o medie lasche. • mediana. Si ottengono scegliendo particolari elementi della distribuzione. La media geometrica: geometrica ... viene usata per sintetizzare dati che riferiscono a caratteri moltiplicativi e per riassumere distribuzioni i cui dati variano in progressione pressoché geometrica, in quanto gode della proprietà dell'equipartizione del prodotto. La media geometrica di un insieme di N valori è quel valore G che sostituito a ciascun valore xi ne lascia invariato il prodotto. Tutti i valori xi devono essere positivi e maggiori di zero. G= N x1 ⋅ x2 ⋅ ... ⋅ x N 8. Cerchiamo di calcolare la media geometrica dei valori nella nostra tabella. Prima calcola il prodotto delle misure – usa la funzione PRODOTTO(). Il risultato sarà un valore molto grande, circa 5150. 9. Avendo il prodotto, calcola la media geometrica. Per calcolare la radice N-esima usa la funzione POTENZA(), la quale eleva il suo primo argomento alla potenza data con il secondo argomento. Occhio: non digita il valore 150 a mano – usa il risultato di CONTA.NUMERI() che hai già ottenuto. Il risultato dovrebbe essere vicino alla media aritmetica. Se no, verifica la potenza a cui elevi e l'intervallo per il prodotto. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 10. Ovviamente, Excel può calcolare la media geometrica automaticamente. La funzione si chiama MEDIA.GEOMETRICA(). Usala nella riga seguente e verifica se il risultato è lo stesso. Visualizza i valori con 6 cifre decimali. La media armonica: armonica H= ( 1 1 x1 + 1 x2 + ... + = 1 xN ) N1 ∑ N N i= 1 1 xi ... e uquale al reciproco della media aritmetica dei reciproci dei numeri. Viene generalmente utilizzata per determiare il potere di acquisto medio della moneta, per conoscere la velocità media, cioè in tutti quei casi in cui i dati variano in progressione armonica. Tutti i valori xi devono essere maggiori di zero. 11. Ora ci occupiamo con la media armonica. armonica Prima dobbiamo calcolare la somma dei reciproci dei nostri valori. Purtroppo, quando si digita =SOMMA(1/C5:L19) (letteralmente: somma dei reciproci dei valori compresi in un intervallo) Excel non lo comprenderà. Per Excel è impossibile dividere un valore (1) per un intervallo (C5:L19). Quando abbiamo voglia di effettuare la stessa operazione per tutte le celle in un intervallo (qua: calcolare un reciproco), dobbiamo usare cosiddetta array formula ("formula "formula in modalità array" o "formula in forma di matrice"). matrice" Dopo l'immisione della formula in modalità array sempre occorre premere CTRLSHIFT-INVIO invece di INVIO. Nota che nella barra della formula, una formula in modalità array è racchiusa tra due parentesi graffe (non si deve digitarle). Somma dei reciproci come un esempio della formula in modalità array. array → È sempre racchiusa tra due parentesi graffe nella barra della formula. → Per inserire la formula in modalità array tenendo premuti i tasti CTRL-SHIFT-INVIO invece di solo INVIO. (Non è sufficiente aggiungere le parentesi graffe manualmente, sempre occorre premere CTRL-SHIFT-INVIO ). 12. Allora, dopo aver calcolato la somma dei reciproci, calcola la media armonica. Se il risultato è vicino alle medie precedenti, bravi! 13. Ovviamente, anche la media armonica può esser calcolata automaticamente usando la funzione MEDIA.ARMONICA(). Calcolala nella riga seguente e verifica se il risultato è d'accordo. N La media quadratica: quadratica Q= x + x + ... + x = N 2 1 2 2 2 N ∑ i= 1 xi2 N ... si usa quando vogliamo conoscere il valore medio dei quadrati dei valori in una grandezza. Le medie quadratiche sono per lo più usate in fisica nella teoria degli errori di osservazione. 14. Ora ci occupiamo con la media quadratica. quadratica Questo tipo di media non è possibile ottenere direttamente usando qualsiasi funzione e dovremo usare la nostra conoscenza delle formule in modalità array. La radice puoi calcolare usando la funzione RADQ() o elevando la somma dei quadrati alla potenza 1/2 con la funzione POTENZA(). Ma come si ottiene la somma dei quadrati? Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 15. Un modo più facile è usare la funzione SOMMA.Q(), la quale fa precisamente questo – calcola la somma dei quadrati degli argomenti (accepta anche un intervallo fra celle). Calcola la somma dei quadrati salvando il risultato in una cella. Dopo usa RADQ() o POTENZA() e calcola la media quadratica. 16. Adesso proviamo a calcolare la media quadratica senza usare la funzione SOMMA.Q(), fingiamo che SOMMA.Q() non esista. Nota che la somma dei quadrati può essere calcolata in un modo simile alla somma dei reciproci – invece di calcolare 1/C5:L19 si deve calcolare C5:L19*C5:L19 (un quadrato del intervallo, che significa che vogliamo calcolare il quadrato per ogni valori in un intervallo). Non dimenticare di premere CTRL-SHIFT-INVIO ! Hai ottenuto lo stesso? N La media di potenza: potenza Ph = h x + x + ... + x = N h 1 h 2 h N h ∑ i= 1 xih N 17. L'ultima media analitica con cui ci occupiamo è la media di potenza. potenza È dipende da un grado o ordine, ordine h, quindi possiamo costruire medie diverse, cambiando il valore di h. Infatti, prendendo h = 1, si ottiene la media aritmetica, prendendo h = 2, si ottiene la media quadratica e prendendo h = -1, si ottiene la media armonica. Calcola la media di potenza per qualsiasi valore di h – digita una formula, che dipende a un valore (h) il quale si trova in una colonna seguente. In questo modo, quando il valore di h cambia, la media cambia automaticamente. Ovviamente, devi usare una (un po' ardua) formula in modalità array. Verifica se per h =1, -1, 2 hai ottenuto le medie rispettive. Ora ci occupiamo con le medie di posizione – si ottengono scegliendo particolari elementi della distribuzione. Medie di posizione: mediana e moda La mediana – dato un insieme i cui elementi sono ordinati in senso crescente o decrescente si definisce la mediana, quel valore che lascia tanti elementi a sinistre quanti a destra. Se il numero delle osservazioni è dispari, la mediana coincide con il valore della graduatoria che occupa la posizione centrale, ossia con il valore che occupa il posto (n+1)/2-esimo. Se il numero di osservazioni è pari la mediana si assume uguale alla semisomma dei due valori che occupano le posizioni centrali, ossia dei valori che occupano i posti (n/2)-esimo e (n/2+1)-esimo. La moda – è il valore che si presenta con la frequenza maggiore; la valore dominante. La moda può non esistere quando tutti i valori hanno la stessa frequenza e se esiste può non essere unica. Se esiste ed è unica, si parla di distribuzione unimodale, se invece non è unica la distribuzione è detta plurimodale. 18. Calcolare la mediana e la moda è facile – possiamo semplicemente usare le funzioni MEDIANA() e MODA(), le quali prendono l'intervallo come un argomento. 19. Verifica come si comportano tutte le medie in una presenza di un outlier. outlier Un outlier è un valore che rappresenta un errore grave nella misurazione o un errore di battitura. Introduco un outlier, cambiando per un attimo uno dei valori da "5" a "55". Quale delle medie sono cambiate notevolmente? Puoi anullare il cambiamento premendo CTRL-Z (undo), e dopo eseguire "rifai" (CTRL-Y), osservando come cambiano le medie. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic Misure di variabità È possibile utilizzare i valori medi allo scopo di condensare l'insieme dei dati in un unico valore che possa rappresentarli tutti. Tale valore viene spesso indicato come centro della distribuzione. Purtroppo, un valore medio, comunque calcolato, non è sufficiente a rappresentare l'insieme delle osservazioni effettuate; è necessario quindi affiancare ad esso altri indici che siano in grado di fornire delle informazioni sulla dispersione, cioè sulla distanza delle varie osservazioni dal valore medio che rappresenta, appunto, il centro della distribuzione. Semplicemente le misure di tendenza centrale non sono sufficienti a caratterizzare completamente una distribuzione, come dimostra il caso seguente: Qua entrambe le distribuzioni hanno la stessa media, moda e mediana. Analizzando la figura sopra si comprende, come le misure di tendenza centrale non siano sufficienti, da sole, a caratterizzare un collettivo statistico: sono necessarie altre misure per dire con quale precisione i valori medi sono rappresentativi della distribuzione, in altri termini sono ncessarei parametri atti a misurare la variabilità dei dati. Cominciamo con una misura di variabilità che non comporta difficoltà di calcolo – il campo di variazione. Il campo di variazione è la differenza tra l'osservazione più grande e l'osservazione più piccola di un insieme di dati: ω = xmax – xmin. 20. Usando le funzioni MIN()e MAX() calcola il campo di variazione dei nostri valori. Un'altra misura che è molto semplice da calcolare è lo scarto semplice medio assoluto. Lo scarto semplice medio assoluto di una distribuzione dalla media aritmetica è uguale alla media aritmetica degli scarti assoluti (d i) dei singoli dati dalla loro media. N D= ∑ i= 1 di N N = ∑ i= 1 xi − x N 21. Il valore assolute puoi calcolare usando la funzione ASS(). Usando una formula in modalità array, calcola lo scarto semplice medio assoluto – usa il valore della media aritmetica che hai già ottenuto, devi sottrarre la media dall'intervallo. 22. Verfica il tuo risultato – lo stesso puoi calcolare automaticamente usando la funzione MEDIA.DEV(). Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic La misura di variabilità più usata è lo scarto quadratico medio. Tale misura gode di alcune proprietà che la rendono particolarmente utilizzabile nelle elaborazioni matematiche dei dati. Lo scarto quadratico medio (o deviazione standard) standard di una distribuzione è la media quadratica degli scarti dei singoli dati dalla loro media aritmetica: N σS = ∑ ( x − x) i= 1 2 i N 23. Prima, cerchi di calcolare lo scarto quadratico medio usando una formula in modalità array. Se vuoi, puoi modificare la formula per lo scarto semplice medio assoluto. Ricordi, non digitare il numero dei valori in modo manuale! 24. Ora, usa una funzione DEV.ST(). Dovrei ottenere un risultato simile, ma non uguale, perché Excel usa un'altra formula. Infatti, ci sono due formule per la deviazione standard! Quando i dati rappresentano l'intera popolazione, si usa la formula sopra. Quando si lavora con un campione della popolazione (come qua, abbiamo estratto solo un campione di 150 bottiglie), la formula cambia – si prende N-1 invece di N. Il valore per l'intera popolazione si può ottenere usando DEV.ST.POP(). Corregge la tua formula in modalità array, usando N-1 invece di N. La varianza è il quadrato dello scarto quadratico medio (S2). Il coefficiente di variazione di una distribuzione è una misura relativa di variabilità – lo si calcola come il rapporto tra lo scarto quadratico medio e la media artitmetica della distribuzione. In genere, per evitare troppe cifre decimali il coefficiente di variazione viene espresso in forma percentuale. 25. Calcola la varianza ed il coefficiente di variazione. variazione Per esprimere il coefficiente di variazione in forma percentuale non è necessario moltiplicarlo per cento – è abbastanza selezionare la cella e scegliere Formato/Celle, scheda Numero, categoria Percentuale. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic Misure di forma Per caratterizzare in modo esauriente una distribuzione sono utili, oltre alle misure di tendenza centrale e di variabilità, anche altre misure che mettono in evidenza se una distribuzione è simmetrica rispetto ad un determinato valore e se risulta più o meno appiattita. Osservando la rappresentazione grafica di una distribuzione ci si rende facilmente conto se la distribuzione è simmetrica o meno; se è simmetrica esiste un punto dell'ascissa tale che, tracciando un asse verticale passante per quel punto, la curva risulta speculare rispetto a tale asse, detto asse di simetria. Quando invece la distribuzione presenta code di lunghezza diversa come nella figura sotto non esiste alcun asse di simmetria e la distribuzione si dice asimmetrica. asimmetrica In particolare si parla di asimmetria positiva (o asimmetria destra) destra quando il ramo destro della curva è più lungo di quello di sinistra. Si parla di asimmetria negativa (o asimmetria sinistra) sinistra quando il ramo sinistro della curva è più lungo di quello di destra. una distribuzione simmetrica asimmetria positiva (destra) asimmetria negativa (sinistra) Una misura attendibile, utilizzabile sopratutto quando si ha a disposizione un foglio elettronico, data la mole di calcoli richiesta, è il coefficiente di asimmetria di Fischer. Il coefficiente di asimmetria di Fisher αF = F= ∑ x i− x 3 S3 N La prima formula viene usata quando si lavora con un campione della popolazione. La seconda – se i dati rappresentano l'intera popolazione. Excel usa la prima formula. Quando αF =0, la distribuzione è simmetrica alla media aritmetica. Quando αF >0, la distribuzione è assimmetrica a destra. Quando αF <0, la distribuzione è assimmetrica a sinistra. 26. Calcola il coefficiente di asimmetria di Fisher (skewness skewness) usando una formula in modalità array e il valore di deviazione standard che hai già ottenuto. La formula sarà ardua, ma non preocuparti. Usando la prima formula io ho ottenuto 0.0727, usando la seconda – 0.0720. 27. Adesso utilizza la funzione ASIMMETRIA(). Excel usa la prima formula. 28. La nostra distribuzione ha una asimmetria positiva o negativa? Dove si trova la "coda" a destra o a sinistra? E la "vetta" della curva? Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic L'ultimo indice di forma che viene preso in considerazione, valido per curve unimodali tendenzialmente simmetriche è la curtosi. La curtosi – fa riferimento alla maggiore o minore gibbosità di una distribuzione in prossimtà del suo massimo e, quindi, alla maggiore o minore lunghezza delle code. Per valutare l'aspetto della forma della curva, la stessa viene paragonata ad una curva normale (detta mesocurtica) mesocurtica avente la stessa frequenza complessiva, la stessa media e la stessa deviazione standard, precisamente si dice, che la curva è... - platicurtica o iponormale se è più piatta della curva normale (la curtosi negativo), - leptocurtica o ipernormale se è più appuntita della curva normale (la curtosi positivo), Per calcolare la curtosi Excel usa ... la quale viene usata quando si lavora con un campione della popolazione. Se i dati rappresentano l'intera popolazione si semplicemente usa ∑ x i −x 4 −3 S4 N 29. Calcola la curtosi usando una formula in modalità array, cambiando la formula per il coefficiente di Fischer. La seconda formula è più semplice ed il risultato è quasi lo stesso, puoi usarla. Poi usa la funzione CURTOSI(). Excel usa la prima, complicata formula. Infatti Excel ha ragione, perchè lavoriamo con un campione, ma la differenza non è grande. Usando la formula semplice io ho ottenuto -0.499, usando CURTOSI() io ho ottenuto -0.475. Che tipo di curva (iponormale o ipernormale) abbiamo? Bravi! Facciamo una pausa! Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic