Esercizio 1A (24.02.2009, circa 3 ore)

Transcript

Esercizio 1A (24.02.2009, circa 3 ore)
Laboratorio di Didattica di elaborazione dati – 1A
Medie analitiche: aritmetica, geometrica, armonica, quadratica e la media di potenze.
Formule in modalità array
Vital® è un preparato vitaminico-minerale per le persone più anziane, che gli permette di
stare in buona salute. È stato determinato che il preparato deve contenere circa il 5% di alcol
– che facilita l'assorbimento degli principi attivi (e anche facilita il rilassamento del paziente).
Per determinare la concentrazione precisa di alcol, viene estratto un campione di 150 bottiglie
di Vital® e la concentrazione è stata misurata.
La tabella sotto mostra i risultati:
Tabella 1 – concentrazione di alcol in 150 bottiglie di Vital®.
L'esattezza di misura: 0.001
1. Digita i valori dalla tabella nelle celle in un nuovo foglio (Occhio: la versione italiana di Excel
solitamente usa "," invece di "." per il punto/virgola decimale). Puoi anche scaricare la tabella dal
nostro sito Web: http://www.tiny.pl/lr45.
2. I risultati nella tabella sono dati con tre cifre decimali e vogliamo avere tale precisione.
Purtroppo, ogni tanto il risultato ha '0' per la cifra ultima, Excel mostra il numero con due
cifre decimali. Seleziona le celle (clicca sulla prima e trascina fino all'ultima) e dopo scegli
Formato/Celle, scheda Numero, categoria Numero, numero di cifre decimali: 3. Invece di
usare il menu, puoi anche premere il shortcut (tasto di scelta rapida) CTRL-1.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
3. Per cominciare contiamo i nostri valori. Invece di contarli a mano, usa la funzione
CONTA.NUMERI(), che prende un argomento – un intervallo fra celle (o matrice)
matrice che contiene
i valori. È possibile selezionare questo intervallo usando il mouse (più facile), o digitarlo (più
veloce) – ad esempio un intervallo che inizia da B3 e termina con la cella D8
è B3:D8.
Un intervallo fra celle ("matrice") B3:D8.
4. Digita la formula in una celle vuota sotto la nostra tabella. Ad esempio, se i valori sono
contenuti nell'intervallo C5:L19, digita una formula =CONTA.NUMERI(C5:L19) nella cella
B21. Occhio: Tutte le formule devono iniziare col simbolo "=". Modifica il formato della
cella (0 cifre decimali) perché il valore è sempre integrante. Nella cella a sinistra digita
"numero di valori" o un testo simile che descrive il valore a destra. Hai ottenuto un foglio
simile a questo sotto?
numero di valori
5. Nella riga seguente, cerchi di calcolare la somma dei valori. Usa la funzione SOMMA() che
anche prende un intervallo come il argomento. Descrive il valore con un testo immesso nella
cella a sinistra. Per la somma io ho ottenuto 771.290.
6. Usando la somma ed il numero dei valori, nella riga seguente calcola la media aritmetica.
aritmetica
Usa il menu Formato/Celle oppure il shortcut CTRL-1 per visualizzare il valore con 6 cifre
decimali. NB: Normalmente non abbiamo voglia di usare tale precisione (ed i valori misurati hanno solo 3
cifre decimali), ma più tardi paragoneremo le medie diverse – per questo motivo dovremo essere
straordinariamente precisi.
N
La media aritmetica:
aritmetica
x + x + ... + x N
x= 1 2
=
N
∑
i= 1
xi
N
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
7. Naturalmente di solito non si calcola la media in modo manuale – esiste una funzione
MEDIA() la quale è più comoda. Usala nella riga seguente e verfica se hai ottenuto lo stesso
risultato. L'argomento è, ovviamente, un intervallo fra celle. Visualizza il valore con 6 cifre
decimali.
Quando vuoi cambiare una formula contenuta in una cella, basta cliccare sulla cella e dopo
sulla barra della formula
... oppure premere F2.
La media aritmetica è solo una delle misure di tendenza centrale.
centrale Le misure di tendenza centrale
mirano a sintetizzare la posizione del "centro ideale" sul quale tendono a gravitare gli elementi
della distribuzione e devono fornire, in relazione al fenomeno che si considera, una visione
d'insieme di tutti gli elementi. Poiché i fenomeni sono molto disparati e le distribuzioni possono
presentare forme molto diverse, non è possibile definire un'unica misura di tendenza centrale –
infatti, come si vedrà nei prossimi esercizi, sovente la definizione del "centro ideale" della
distribuzione è strettamente connessa al tipo di fenomeno studiato.
Le misure di tendenza centrale più communi sono:
•
media aritmetica,
•
media geometrica,
Medie analitiche o medie ferme.
•
media armonica,
Tengono conto di tutti valori della distribuzione.
•
media quadratica,
•
media di potenza,
•
moda,
Medie di posizione o medie lasche.
•
mediana.
Si ottengono scegliendo particolari elementi della distribuzione.
La media geometrica:
geometrica
... viene usata per sintetizzare dati che riferiscono a caratteri moltiplicativi e per riassumere
distribuzioni i cui dati variano in progressione pressoché geometrica, in quanto gode della proprietà
dell'equipartizione del prodotto. La media geometrica di un insieme di N valori è quel valore G che
sostituito a ciascun valore xi ne lascia invariato il prodotto. Tutti i valori xi devono essere positivi e
maggiori di zero.
G=
N
x1 ⋅ x2 ⋅ ... ⋅ x N
8. Cerchiamo di calcolare la media geometrica dei valori nella nostra tabella. Prima calcola il
prodotto delle misure – usa la funzione PRODOTTO(). Il risultato sarà un valore molto grande,
circa 5150.
9. Avendo il prodotto, calcola la media geometrica. Per calcolare la radice N-esima usa la
funzione POTENZA(), la quale eleva il suo primo argomento alla potenza data con il secondo
argomento. Occhio: non digita il valore 150 a mano – usa il risultato di CONTA.NUMERI() che
hai già ottenuto. Il risultato dovrebbe essere vicino alla media aritmetica. Se no, verifica la
potenza a cui elevi e l'intervallo per il prodotto.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
10. Ovviamente, Excel può calcolare la media geometrica automaticamente. La funzione si
chiama MEDIA.GEOMETRICA(). Usala nella riga seguente e verifica se il risultato è lo stesso.
Visualizza i valori con 6 cifre decimali.
La media armonica:
armonica
H=
(
1
1
x1
+
1
x2
+ ... +
=
1
xN
) N1 ∑
N
N
i= 1
1
xi
... e uquale al reciproco della media aritmetica dei reciproci dei numeri. Viene generalmente
utilizzata per determiare il potere di acquisto medio della moneta, per conoscere la velocità media,
cioè in tutti quei casi in cui i dati variano in progressione armonica. Tutti i valori xi devono essere
maggiori di zero.
11. Ora ci occupiamo con la media armonica.
armonica Prima dobbiamo calcolare la somma dei reciproci
dei nostri valori. Purtroppo, quando si digita =SOMMA(1/C5:L19) (letteralmente: somma dei
reciproci dei valori compresi in un intervallo) Excel non lo comprenderà. Per Excel è
impossibile dividere un valore (1) per un intervallo (C5:L19). Quando abbiamo voglia di
effettuare la stessa operazione per tutte le celle in un intervallo (qua: calcolare un reciproco),
dobbiamo usare cosiddetta array formula ("formula
"formula in modalità array" o "formula in forma di
matrice").
matrice" Dopo l'immisione della formula in modalità array sempre occorre premere CTRLSHIFT-INVIO invece di INVIO. Nota che nella barra della formula, una formula in modalità array è
racchiusa tra due parentesi graffe (non si deve digitarle).
Somma dei reciproci come un esempio della formula in modalità array.
array
→ È sempre racchiusa tra due parentesi graffe nella barra della formula.
→ Per inserire la formula in modalità array tenendo premuti i tasti CTRL-SHIFT-INVIO invece di
solo INVIO. (Non è sufficiente aggiungere le parentesi graffe manualmente, sempre occorre
premere CTRL-SHIFT-INVIO ).
12. Allora, dopo aver calcolato la somma dei reciproci, calcola la media armonica. Se il risultato
è vicino alle medie precedenti, bravi!
13. Ovviamente, anche la media armonica può esser calcolata automaticamente usando la
funzione MEDIA.ARMONICA(). Calcolala nella riga seguente e verifica se il risultato è
d'accordo.
N
La media quadratica:
quadratica
Q=
x + x + ... + x
=
N
2
1
2
2
2
N
∑
i= 1
xi2
N
... si usa quando vogliamo conoscere il valore medio dei quadrati dei valori in una grandezza. Le
medie quadratiche sono per lo più usate in fisica nella teoria degli errori di osservazione.
14. Ora ci occupiamo con la media quadratica.
quadratica Questo tipo di media non è possibile ottenere
direttamente usando qualsiasi funzione e dovremo usare la nostra conoscenza delle formule in
modalità array. La radice puoi calcolare usando la funzione RADQ() o elevando la somma dei
quadrati alla potenza 1/2 con la funzione POTENZA(). Ma come si ottiene la somma dei
quadrati?
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
15. Un modo più facile è usare la funzione SOMMA.Q(), la quale fa precisamente questo – calcola
la somma dei quadrati degli argomenti (accepta anche un intervallo fra celle). Calcola la
somma dei quadrati salvando il risultato in una cella. Dopo usa RADQ() o POTENZA() e
calcola la media quadratica.
16. Adesso proviamo a calcolare la media quadratica senza usare la funzione SOMMA.Q(),
fingiamo che SOMMA.Q() non esista. Nota che la somma dei quadrati può essere calcolata in
un modo simile alla somma dei reciproci – invece di calcolare 1/C5:L19 si deve calcolare
C5:L19*C5:L19 (un quadrato del intervallo, che significa che vogliamo calcolare il quadrato
per ogni valori in un intervallo). Non dimenticare di premere CTRL-SHIFT-INVIO ! Hai ottenuto lo
stesso?
N
La media di potenza:
potenza
Ph =
h
x + x + ... + x
=
N
h
1
h
2
h
N
h
∑
i= 1
xih
N
17. L'ultima media analitica con cui ci occupiamo è la media di potenza.
potenza È dipende da un grado o
ordine,
ordine h, quindi possiamo costruire medie diverse, cambiando il valore di h. Infatti,
prendendo h = 1, si ottiene la media aritmetica, prendendo h = 2, si ottiene la media
quadratica e prendendo h = -1, si ottiene la media armonica. Calcola la media di potenza per
qualsiasi valore di h – digita una formula, che dipende a un valore (h) il quale si trova in una
colonna seguente. In questo modo, quando il valore di h cambia, la media cambia
automaticamente. Ovviamente, devi usare una (un po' ardua) formula in modalità array.
Verifica se per h =1, -1, 2 hai ottenuto le medie rispettive.
Ora ci occupiamo con le medie di posizione – si ottengono scegliendo particolari elementi
della distribuzione.
Medie di posizione: mediana e moda
La mediana – dato un insieme i cui elementi sono ordinati in senso crescente o decrescente si
definisce la mediana, quel valore che lascia tanti elementi a sinistre quanti a destra. Se il
numero delle osservazioni è dispari, la mediana coincide con il valore della graduatoria che
occupa la posizione centrale, ossia con il valore che occupa il posto (n+1)/2-esimo. Se il
numero di osservazioni è pari la mediana si assume uguale alla semisomma dei due valori
che occupano le posizioni centrali, ossia dei valori che occupano i posti (n/2)-esimo e
(n/2+1)-esimo.
La moda – è il valore che si presenta con la frequenza maggiore; la valore dominante. La
moda può non esistere quando tutti i valori hanno la stessa frequenza e se esiste può non
essere unica. Se esiste ed è unica, si parla di distribuzione unimodale, se invece non è unica
la distribuzione è detta plurimodale.
18. Calcolare la mediana e la moda è facile – possiamo semplicemente usare le funzioni
MEDIANA() e MODA(), le quali prendono l'intervallo come un argomento.
19. Verifica come si comportano tutte le medie in una presenza di un outlier.
outlier Un outlier è un
valore che rappresenta un errore grave nella misurazione o un errore di battitura. Introduco un
outlier, cambiando per un attimo uno dei valori da "5" a "55". Quale delle medie sono
cambiate notevolmente? Puoi anullare il cambiamento premendo CTRL-Z (undo), e dopo
eseguire "rifai" (CTRL-Y), osservando come cambiano le medie.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
Misure di variabità
È possibile utilizzare i valori medi allo scopo di condensare l'insieme dei dati in un unico valore che
possa rappresentarli tutti. Tale valore viene spesso indicato come centro della distribuzione.
Purtroppo, un valore medio, comunque calcolato, non è sufficiente a rappresentare l'insieme delle
osservazioni effettuate; è necessario quindi affiancare ad esso altri indici che siano in grado di
fornire delle informazioni sulla dispersione, cioè sulla distanza delle varie osservazioni dal valore
medio che rappresenta, appunto, il centro della distribuzione. Semplicemente le misure di tendenza
centrale non sono sufficienti a caratterizzare completamente una distribuzione, come dimostra il
caso seguente:
Qua entrambe le distribuzioni hanno la stessa media, moda e mediana.
Analizzando la figura sopra si comprende, come le misure di tendenza centrale non siano sufficienti,
da sole, a caratterizzare un collettivo statistico: sono necessarie altre misure per dire con quale
precisione i valori medi sono rappresentativi della distribuzione, in altri termini sono ncessarei
parametri atti a misurare la variabilità dei dati.
Cominciamo con una misura di variabilità che non comporta difficoltà di calcolo – il campo
di variazione.
Il campo di variazione è la differenza tra l'osservazione più grande e l'osservazione più
piccola di un insieme di dati: ω = xmax – xmin.
20. Usando le funzioni MIN()e MAX() calcola il campo di variazione dei nostri valori.
Un'altra misura che è molto semplice da calcolare è lo scarto semplice medio assoluto.
Lo scarto semplice medio assoluto di una distribuzione dalla media aritmetica è uguale alla
media aritmetica degli scarti assoluti (d i) dei singoli dati dalla loro media.
N
D=
∑
i= 1
di
N
N
=
∑
i= 1
xi − x
N
21. Il valore assolute puoi calcolare usando la funzione ASS(). Usando una formula in modalità
array, calcola lo scarto semplice medio assoluto – usa il valore della media aritmetica che hai
già ottenuto, devi sottrarre la media dall'intervallo.
22. Verfica il tuo risultato – lo stesso puoi calcolare automaticamente usando la funzione
MEDIA.DEV().
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
La misura di variabilità più usata è lo scarto quadratico medio. Tale misura gode di alcune
proprietà che la rendono particolarmente utilizzabile nelle elaborazioni matematiche dei dati.
Lo scarto quadratico medio (o deviazione standard)
standard di una distribuzione è la media
quadratica degli scarti dei singoli dati dalla loro media aritmetica:
N
σS =
∑ ( x − x)
i= 1
2
i
N
23. Prima, cerchi di calcolare lo scarto quadratico medio usando una formula in modalità array.
Se vuoi, puoi modificare la formula per lo scarto semplice medio assoluto. Ricordi, non
digitare il numero dei valori in modo manuale!
24. Ora, usa una funzione DEV.ST(). Dovrei ottenere un risultato simile, ma non uguale, perché
Excel usa un'altra formula. Infatti, ci sono due formule per la deviazione standard! Quando i
dati rappresentano l'intera popolazione, si usa la formula sopra. Quando si lavora con un
campione della popolazione (come qua, abbiamo estratto solo un campione di 150 bottiglie),
la formula cambia – si prende N-1 invece di N. Il valore per l'intera popolazione si può
ottenere usando DEV.ST.POP(). Corregge la tua formula in modalità array, usando N-1
invece di N.
La varianza è il quadrato dello scarto quadratico medio (S2).
Il coefficiente di variazione di una distribuzione è una misura relativa di variabilità – lo si
calcola come il rapporto tra lo scarto quadratico medio e la media artitmetica della
distribuzione. In genere, per evitare troppe cifre decimali il coefficiente di variazione viene
espresso in forma percentuale.
25. Calcola la varianza ed il coefficiente di variazione.
variazione Per esprimere il coefficiente di variazione
in forma percentuale non è necessario moltiplicarlo per cento – è abbastanza selezionare la
cella e scegliere Formato/Celle, scheda Numero, categoria Percentuale.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
Misure di forma
Per caratterizzare in modo esauriente una distribuzione sono utili, oltre alle misure di tendenza
centrale e di variabilità, anche altre misure che mettono in evidenza se una distribuzione è
simmetrica rispetto ad un determinato valore e se risulta più o meno appiattita. Osservando la
rappresentazione grafica di una distribuzione ci si rende facilmente conto se la distribuzione è
simmetrica o meno; se è simmetrica esiste un punto dell'ascissa tale che, tracciando un asse
verticale passante per quel punto, la curva risulta speculare rispetto a tale asse, detto asse di
simetria. Quando invece la distribuzione presenta code di lunghezza diversa come nella figura sotto
non esiste alcun asse di simmetria e la distribuzione si dice asimmetrica.
asimmetrica In particolare si parla di
asimmetria positiva (o asimmetria destra)
destra quando il ramo destro della curva è più lungo di quello di
sinistra. Si parla di asimmetria negativa (o asimmetria sinistra)
sinistra quando il ramo sinistro della curva
è più lungo di quello di destra.
una distribuzione simmetrica
asimmetria positiva (destra) asimmetria negativa (sinistra)
Una misura attendibile, utilizzabile sopratutto quando si ha a disposizione un foglio
elettronico, data la mole di calcoli richiesta, è il coefficiente di asimmetria di Fischer.
Il coefficiente di asimmetria di Fisher αF =
 F=
∑  x i− x 3
S3 N
La prima formula viene usata quando si lavora con un campione della popolazione.
La seconda – se i dati rappresentano l'intera popolazione. Excel usa la prima formula.
Quando αF =0, la distribuzione è simmetrica alla media aritmetica.
Quando αF >0, la distribuzione è assimmetrica a destra.
Quando αF <0, la distribuzione è assimmetrica a sinistra.
26. Calcola il coefficiente di asimmetria di Fisher (skewness
skewness) usando una formula in modalità
array e il valore di deviazione standard che hai già ottenuto. La formula sarà ardua, ma non
preocuparti. Usando la prima formula io ho ottenuto 0.0727, usando la seconda – 0.0720.
27. Adesso utilizza la funzione ASIMMETRIA(). Excel usa la prima formula.
28. La nostra distribuzione ha una asimmetria positiva o negativa? Dove si trova la "coda" a
destra o a sinistra? E la "vetta" della curva?
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
L'ultimo indice di forma che viene preso in considerazione, valido per curve unimodali
tendenzialmente simmetriche è la curtosi.
La curtosi – fa riferimento alla maggiore o minore gibbosità di una distribuzione in
prossimtà del suo massimo e, quindi, alla maggiore o minore lunghezza delle code. Per
valutare l'aspetto della forma della curva, la stessa viene paragonata ad una curva normale
(detta mesocurtica)
mesocurtica avente la stessa frequenza complessiva, la stessa media e la stessa
deviazione standard, precisamente si dice, che la curva è...
- platicurtica o iponormale se è più piatta della curva normale (la curtosi negativo),
- leptocurtica o ipernormale se è più appuntita della curva normale (la curtosi positivo),
Per calcolare la curtosi Excel usa
... la quale viene usata quando si lavora con un campione della popolazione. Se i dati
rappresentano l'intera popolazione si semplicemente usa
∑  x i −x 4 −3
S4 N
29. Calcola la curtosi usando una formula in modalità array, cambiando la formula per il
coefficiente di Fischer. La seconda formula è più semplice ed il risultato è quasi lo stesso,
puoi usarla. Poi usa la funzione CURTOSI(). Excel usa la prima, complicata formula. Infatti
Excel ha ragione, perchè lavoriamo con un campione, ma la differenza non è grande. Usando
la formula semplice io ho ottenuto -0.499, usando CURTOSI() io ho ottenuto -0.475. Che tipo
di curva (iponormale o ipernormale) abbiamo?
Bravi!
Facciamo una pausa!
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic