LEZIONI DI STATISTCA - Home SCIENZE AMBIENTALI

Transcript

LEZIONI DI STATISTICA APPLICATA
Parte 1
Statistica descrittiva
____________________________________
Alessandro Valbonesi
SARRF di Scienze ambientali
Anno accademico 2010-11
INTRODUZIONE
In un corso completo di statistica applicata, è importante avere in ogni momento una visione
complessiva degli argomenti. Il loro elenco è utile anche per comprendere le diverse parti in cui
viene distinta la statistica, nel percorso di apprendimento dei concetti e delle procedure.
La statistica moderna può essere distinta in tre parti: descrittiva, matematica, inferenziale.
1 - La statistica descrittiva spiega come i dati raccolti devono essere riportati in tabella,
rappresentati in grafici e sintetizzati in indici matematici, allo scopo di individuare le
caratteristiche fondamentali del campione.
2 - La statistica matematica presenta le distribuzioni teoriche sia per misure discrete sia per
misure continue, allo scopo di illustrarne le caratteristiche fondamentali, le relazioni che esistono
tra esse, gli usi possibili.
3 - L’inferenza statistica, la parte nettamente prevalente del corso, serve per la verifica delle
ipotesi. Essa può essere distinta in vari capitoli, in rapporto:
- alle caratteristiche dei dati (se permettono o meno il ricorso alla distribuzione normale: statistica
parametrica e non parametrica);
- al numero di variabili (se una, due o più: statistica univariata, bivariata, multivariata).
La prima parte dell’inferenza, di solito affrontata in un corso, è la statistica univariata
parametrica. Come argomenti, essa comprende il test t di Student e il test F di Fisher-Snedecor
o analisi della varianza:
- il primo serve sia per confrontare la media di un campione con una media attesa o teorica, sia
per confrontare le medie di due campioni;
- il secondo rappresenta la sua generalizzazione e permette il confronto simultaneo tra più medie,
considerando uno solo oppure più fattori di variabilità.
Appunto perché fondati sulla distribuzione normale, questi test richiedono condizioni di validità
restrittive (discusse nei capitoli seguenti), che non sempre i dati raccolti e la misura utilizzata
permettono di rispettare.
E’ una situazione che si presenta con frequenza elevata nella ricerca applicata, a causa della
estrema variabilità dei dati e della presenza di valori anomali. In queste condizioni si ricorre alla
statistica univariata non parametrica, che è formata da una serie innumerevole di test.
Di norma essi sono raggruppati sulla base dei campioni ai quali viene applicata: test per un
campione, per due campioni dipendenti e indipendenti, test per k campioni dipendenti e
indipendenti.
Quando per ogni individuo o situazione si raccolgono informazioni relative a due variabili, è
possibile analizzare le relazioni che intercorrono tra esse, mediante sia la regressione e la
correlazione parametriche, sia la regressione e la correlazione non parametriche. Si parla allora di
statistica bivariata parametrica e di statistica bivariata non parametrica.
Quando i dati raccolti sono relativi a più variabili, si deve ricorrere alla statistica multivariata che,
per molte analisi, è solamente parametrica. Più recentemente sono stati proposti metodi, detti di
ricampionamento, che sono definiti test di statistica non parametrica.
In questo corso, verranno presentati i metodi relativi alla statistica univariata e bivariata sia
parametrica che non parametrica. Alla fine sono presentati anche il bootstrap e il jackknife, test non
parametrici applicabili sia a distribuzioni univariate, sia bivariate sia multivariate.
La serie completa degli argomenti e il loro ordine sono riportati nell'indice del testo, organizzato
in capitoli e, entro capitoli, in paragrafi.
2
Questi concetti possono essere schematizzati nella seguente tabella, che riporta le finalità dei tre tipi
di statistica.
A conclusione di queste dispense è previsto un allegato con le principali tabelle statistiche e con
fogli excel dove vengono riportati esempi applicativi con la relativa analisi statistica eseguibile
fruendo delle opzioni previste da questo software.
3
Discrete
Likelihood
Odd ratio
4
CAPITOLO 1 – I DATI
1.1. DISEGNO SPERIMENTALE
Ogni ricercatore ha un suo progetto di ricerca a cui è associata un ipotesi che si vuole verificare
attraverso dati sperimentali ottenuti con indagini di laboratorio o con osservazioni in natura. Già
nella prima fase della ricerca, chiamata con termine tecnico appunto “disegno sperimentale”
(dall’inglese experimental design e tradotto più correttamente in italiano con programmazione
dell’esperimento), occorre avere chiara la formulazione dell'ipotesi che si intende verificare ed il
modello statistico che, tenendo conto del tipo di dati raccolti, ci permette la corretta verifica
dell’ipotesi. Il disegno sperimentale è quindi necessario per scegliere e programmare le
osservazioni in natura e le ripetizioni in laboratorio, in funzione della ricerca e delle ipotesi
esplicative.
Raccogliere i dati prima di aver chiaramente espresso le finalità della ricerca conduce spesso ad
analisi non adeguate e quindi a risultati poco attendibili.
Con la formulazione dell’ipotesi, si deve rispondere alle domande:
- “Le eventuali differenze riscontrate tra due o più gruppi di dati, oppure le differenze tra una serie
di osservazioni e quanto è atteso in base all’ipotesi formulata, possono essere imputabili a fattori
causali specifici o solamente a fattori casuali ignoti?
- Le differenze riscontrate sono generate dalla naturale variabilità delle misure e del materiale
utilizzato oppure più probabilmente esiste una causa specifica che le ha determinate?”
Il modello statistico, ovvero i test statistici devono essere già programmati nella fase del
disegno sperimentale, poiché è da essi che dipende il tipo di campionamento.
5
1.2. RILEVAZIONE DEI DATI ED INFERENZA (dal campione variabile all’universo)
La rilevazione dei dati avviene attraverso il campionamento che ci permette di raccogliere i dati
in funzione dello scopo della ricerca, rispettando le caratteristiche della popolazione oggetto di
studio. In altre parole, occorre che il campionamento sia rappresentativo della popolazione o
universo dei dati.
Uno dei problemi fondamentali della statistica è come raccogliere solamente un numero
limitato di dati (per motivi economici, di tempo, di oggetti effettivamente disponibili, cioè per
limiti oggettivi che quasi sempre esistono in qualsiasi ricerca sperimentale), ma attraverso la
loro analisi pervenire ugualmente a conclusioni generali, che possano essere estese a tutta la
popolazione. Per giungere a queste conclusioni si deve ricorrere all’inferenza, che può essere
definita come la capacità di trarre conclusioni generali (sulla popolazione od universo)
utilizzando solo un numero limitato di dati variabili (campione).
Si supponga di voler conoscere la velocità d'accrescimento somatico di una determinata specie
animale o vegetale. E’ ovvio che non è possibile rintracciare e misurare tutti gli individui di quella
specie, la popolazione od universo, se non altro per il tempo e le risorse che sono richiesti da
questa operazione, oltre alla difficoltà teorica rappresentata dal suo continuo rinnovarsi per effetto
di nuove nascite e delle morti. Occorre, pertanto, utilizzare solamente alcune unità, una frazione
limitatissima della popolazione: in termini tecnici, un campione.
Quando poi si trattasse di misurare rapporti tra organi di una specie animale, è ovvio che non è
possibile sezionare tutti gli individui della specie. Nello stesso modo, per contare i globuli rossi o
quelli bianchi di una persona, non è possibile estrarre tutto il sangue per un conteggio totale, ma si
effettua un prelievo limitato a pochi centimetri cubici.
Tuttavia le conclusioni non devono essere limitate ai pochi (o anche molti) casi realmente
raccolti, misurati ed analizzati, ma devono essere generali, estese a tutti gli individui della
specie o a tutto l’organismo.
Ricoprono effettivo interesse non le conclusioni che restano limitate al caso del campione, ai
dati utilizzati, ma quelle che sono estese a tutta la popolazione o universo. Solo in questo
modo, la ricerca riveste una importanza generale e contribuisce alla costruzione di teorie
scientifiche, di modelli o semplicemente di ipotesi che possono essere universalmente valide.
Una condizione essenziale e preliminare all’uso dei metodi di statistica inferenziale è che il
campione sia corretto, che non riporti in modo distorto od alterato la frequenza delle
caratteristiche presenti nella popolazione.
Il disegno sperimentale ed il campionamento sono quindi le due fasi preliminari
- sia alla raccolta dei dati in natura,
- sia per una corretta impostazione degli esperimenti in laboratorio.
Tuttavia, la presentazione didattica e la corretta comprensione di questi argomenti, come ad
esempio la dimensione appropriata di un campione (sample size) richiedono
concetti complessi e, a volte, metodologie sofisticate, non sempre facili né intuitive. Per questi
motivi, il disegno sperimentale e il campionamento saranno trattati quando si sarà raggiunta una
sufficiente familiarità con la terminologia, con i concetti e i metodi fondamentali dell’inferenza
6
1.3.VERIFICA DEGLI ERRORI
La procedura dell’inferenza statistica è semplice, nelle linee logiche generali, tuttavia, le analisi e
le conclusioni trovano complicazioni per l’elevata variabilità dei dati, a motivo soprattutto di
tre cause che, in ordine crescente d’importanza, sono:
- gli errori di misurazione, generati da strumenti e da differenze nell'abilità dei ricercatori;
- l'operare su campioni, per cui i dati utilizzati in una ricerca non sono mai identici a quelli
rilevati in qualsiasi altra;
- la presenza di vari fattori contingenti di disturbo, come il tempo e la località, che possono
incidere diversamente sul fenomeno in osservazione, con intensità e direzioni ignote.
Per quest’ultima tipologia di errore è possibile utilizzare particolari disegni sperimentali
(campionamenti a quadrato latino, a blocchi randomizzati, split-plot ecc…) che ci consentano si
individuare e separare le varie sorgenti di variabilità che interferiscono sulla variabilità del
parametro oggetto di studio.
Esistono poi banali errori di trascrizione dei dati che possono essere evidenziati attraverso
l’analisi descrittiva dei dati, che generalmente si esegue prima di passare ai veri e propri test
statistici.
1.4. TIPOLOGIA DELLE VARIABILI
Possiamo classificare le variabili in base alla possibilità di essere misurate oppure no.
-Variabili misurabili o quantitative richiedono risposte numeriche, e quindi sono espresse su
una scala numerica continua o discreta. Queste variabili e le relative scale numeriche possono
essere:
 Continue quando la misurazione può assumere (almeno in linea teorica) infiniti valori tra
due punti fissi dipendendo dalla precisione con cui sono state prese; ad esempio l’altezza, il
peso, la temperatura ecc….
 Discontinue (dette anche meristiche o discrete) quando possono assumere solo certi valori
numerici fissi, numero di segmenti di un appendice, di figli ecc….
In entrambe le tipologie di variabili la descrizione dei dati è fatta utilizzando un appropriato
parametro che ci dia una misura della tendenza centrale (media, mediana, moda) a cui é bene
aggiungere anche l’informazione sulle relative misure di: i) variabilità (varianza, deviazione
standard, ecc…); ii) precisione (intervallo di confidenza); iii) distribuzione (simmetria, curtosi).
Tutte queste informazioni vanno a costituire una branca della statistica che prende il nome di
statistica descrittiva.
I quesiti statistici che possono essere posti correttamente riguardano l’utilizzo di test parametrici,
qualora siano soddisfatti alcuni requisiti (es., la distribuzione normale dei dati) o di test non
parametrici se tali requisiti non sono soddisfatti.
-Variabili non misurabili o qualitative dette anche attributi sono quantificate con conteggi,
ossia con numeri interi. Ad esempio, per valutare gli effetti di un tossico è possibile contare quante
cavie muoiono o sopravvivono; con un farmaco, quanti pazienti guariscono o restano ammalati,
entro un tempo prefissato; con esperimenti sulle leggi di Mendel, quante piante hanno fiori rossi o
bianchi. Queste variabili e le relative scale numeriche possono essere:
7
 Categoriali (dette anche nominali), quando le osservazioni sono caratterizzate dalla
presenza o assenza di una certa proprietà. Il caso più semplice è quella dei dati binari
(maschio o femmina, morte sopravvivenza) ma ci possono essere anche più di due criteri di
classificazione (esempio, gruppi sanguigni). Nella scala nominale esiste una sola relazione,
quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre
tutti quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata
nella classificazione.
 Ordinali quando alle osservazioni si assegna un valore numerico o un punteggio
arbitrale. In questo caso il valore o il punteggio pur non rappresentando la vera grandezza
della caratteristica studiata rispetta un ordine nella classificazione. Esempio i risultati di
un test o gli effetti di un farmaco (scarso, insufficiente, sufficiente, discreto, buono, ottimo,
eccellente) possano essere trasformati in punteggi (0 = scarso…….6= eccellente)
L'attribuzione di numeri per identificare categorie nominali, come avviene per individuare i
giocatori nei giochi di squadra, è solamente un artificio che non può certamente autorizzare
ad elaborare quei numeri come se fossero reali, ad esempio calcolandone la media, e ciò
ovviamente non implica che le differenze tra due punteggi (es., tra 1 e 2) sia identica o
proporzionale a quella riportata per un’altra coppia di punteggi (es., tra 3 e 4). Quando per la
classificazione dei gruppi al posto di nomi vengono usati numeri, si utilizza solo la funzione
di identificazione degli elementi numerici come se fossero simboli.
In tutti questi casi la descrizione dei dati è fornita come proporzione (o percentuale) degli
elementi che presentano l’attributo. I quesiti statistici che possono essere posti correttamente
riguardano pertanto l’analisi delle frequenze, sia assolute che relative.
1.5. SERIE STATISTICA
Un insieme di misure è detto serie statistica o serie dei dati. Una sua prima ed elementare
elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente,
detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare
immediatamente il campo (od intervallo) di variazione.
Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità
statistiche appartengono ad ogni gruppo o categoria.
Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente
distribuzione.
Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta
da un conteggio del numero di foglie, germogliate su 45 rami di lunghezza uguale.
Tabella 1. Numero di foglie contate su 45 rami.
Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi:
- è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9),
- contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un
numero di foglie uguali).
Queste informazioni di norma sono presentate in una tabella impostata come la seguente:
8
Tabella 2. Distribuzione di frequenze assolute, relative e cumulate delle foglie in 45 rami.
in cui:
- la classe è una modalità di espressione (in questo caso un valore o conteggio);
- la frequenza assoluta della classe è il numero di volte con la quale compare ogni valore;
- la frequenza relativa della classe è la sua frequenza assoluta divisa per il numero totale (es., la
classe 0 compare 3 volte su 45);
- la frequenza cumulata di una classe è la somma di tutte le frequenze delle classi minori con
quella della classe stessa.
La trasformazione da frequenza assoluta a frequenza relativa risulta utile quando si vogliono
confrontare due o più distribuzioni, che hanno un differente numero complessivo di osservazioni.
La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale di
osservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% dei rami ha meno di 5
foglie; il 56% ha un massimo di 3 foglie).
La distribuzione dei dati e la distribuzione delle frequenze cumulate forniscono informazioni non
dissimili, essendo possibile passare con facilità dall’una all’altra. Sono diverse nella loro forma,
come si vedrà con maggiore evidenza nelle rappresentazioni grafiche. La prima ha una forma a
campana, la seconda una forma a S, di tipo asintotico; si prestano ad analisi differenti e la
scelta è fatta sulla base del loro uso statistico.
La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti
della serie di dati. Nella tabella precedente, il ramo “tipico” ha 3 foglie; se dovessimo sintetizzare
con un solo valore il numero di foglie presenti sui rami raccolti diremmo 3, che rappresenta la
tendenza centrale, detta anche moda (ovvero la classe con la frequenza più alta). Altra
caratteristica importante è il numero minimo e il numero massimo, 0 e 9,
che insieme forniscono il campo di variazione, una indicazione della variabilità o dispersione.
La distribuzione del numero di foglie tende ad diminuire in modo simile allontanandosi da 3,
seppure mantenga frequenze più alte nelle classi con un numero maggiore di foglie: sono
indicazioni sulla forma della distribuzione, che in questo esempio non è simmetrica (ma
asimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei valori più alti.
Nella costruzione di tabelle sintetiche (come la tabella 2 rispetto alla 1) spesso si ricorre a
raggruppare i valori per intervalli di classe. In questo caso uno dei problemi più rilevanti è quante
classi di frequenza costruire. La scelta dipende strettamente dal numero totale N di osservazioni e,
in misura minore, dalla variabilità dei dati.
Se, in riferimento alla dimostrazione precedente, i dati fossero stati in numero inferiore ai 45
presentati (ad esempio i 15 valori della prima riga), il campo di variazione sarebbe stato più
ridotto (non più da 0 a 9, ma da 2 a 9). Le classi non sarebbero state 10 come prima, ma solamente
8. Tuttavia, come si può osservare dai dati, 8 classi per 15 osservazioni sarebbero ugualmente un
numero troppo alto, per riuscire ad evidenziare e rappresentare in modo corretto le caratteristiche
principali e la forma reale della distribuzione.
Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo
9
quando è possibile utilizzare un numero sufficientemente elevato di osservazioni.
L’esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5
(con N = 10-15) ad un massimo di 15-20 (con N > 100), in funzione del numero complessivo
di osservazioni.
Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di
informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che
una o due sole classi determinano l’impossibilità di evidenziare qualunque caratteristica della
distribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi
disperde i valori e non rende manifesta la forma della distribuzione.
Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile
ricordarne due:
1 - quello di H. Sturges che nel 1926, sulla base del numero di osservazioni N, ha indicato il
numero ottimale di classi C con
2 - quello di D. Scott che nel 1979 ha determinato l’ampiezza ottimale h delle classi (dalla
quale ovviamente dipende direttamente anche il numero di classi C), mediante la relazione
dove
- S è la deviazione standard, che sarà presentata più avanti tra le misure di variabilità dei dati.
3- C’è infine una regola euristica che prevede che il numero di classi sia uguale al valore
arrotondato di n , e l’intervallo delle classi viene calcolato dividendo la differenza tra i valori
estremi per il numero di classi (che in caso di variabile discreta viene anch’esso arrotondato).
Nella costruzione di distribuzioni di frequenza, non è strettamente obbligatorio utilizzare intervalli
uguali, anche se è prassi consolidata per una lettura più semplice. Nel caso di classi di ampiezza
diversa, la rappresentazione grafica ed il calcolo dei parametri fondamentali esigono alcune
avvertenze, non sempre intuitive (di seguito presentate). In altri casi ci potrebbero essere invece dei
valori predeterminati (o soglia) che potrebbero costituire valori di demarcazione per individuare
le classi (es., per analisi clinico-mediche come la pressione sanguigna ci potrebbe essere dei valori
bassi che implicano un rischio per il paziente, dei valori normali, dei valori leggermente alti e dei
valori molto alti che ugualmente possono indicare situazioni di rischio).
Nel caso di una variabile continua, il raggruppamento in classi richiede alcuni accorgimenti
ulteriori rispetto a quelli utilizzati per una variabile discreta. Si supponga che sia stata misurata
l’altezza in cm. di 40 giovani piante della stessa specie, arrotondata all’unità per semplificazione.
Tabella 3. Altezza in cm. di 40 giovani piante.
10
E’ evidente come non sia conveniente fare una classe per ogni cm., in analogia a quanto fatto con
i dati della tabella 1. In questo caso, il numero di classi sarebbe nettamente superiore al numero
di osservazioni, anche se il campione avesse un numero di osservazioni doppio o triplo. Di
conseguenza, si impone la necessità di un raggruppamento in classi, che comprendano più
modalità di espressione.
Una volta individuato il valore minimo e quello massimo (64 e 198), si stabilisce l'intervallo di
variazione (198 - 64 = 134). Nella formazione delle classi, il limite inferiore della prima classe ed
il limite superiore dell’ultima classe non devono essere necessariamente i valori osservati, ma li
devono ovviamente comprendere. E quindi possibile costruire un campo di variazione, ad
esempio di 140 cm. (sempre più ampio di quello calcolato), partendo da cm. 60 e arrivando a cm.
199 compresi. Sulla base del numero di dati (40), si decide il numero di classi. Nel caso specifico,
potrebbero essere 7 classi, con un’ampiezza di 20 cm. ognuna.
E’ necessario definire con precisione il valore minimo e quello massimo di ogni classe, onde
evitare incertezze nell'attribuzione di un singolo dato tra due classi contigue. Con i dati
dell’esempio, le classi possono essere 60-79 la prima, 80-99 la seconda, 100-119 la terza e così
via fino a 180-199 per l’ultima. Poiché la scala è continua, i cm. riportati devono essere intesi con
almeno 2 cifre decimali, per cui nella classe 60-79 il primo numero deve essere inteso come 60,00
cm. e 79 come 79,99; nello stesso modo la classe 180-199 deve essere intesa tra i cm. 180,00 e
199,99.
Nonostante le indicazioni di massima presentate, la determinazione dei valori estremi, del numero
di classi e dell'intervallo di ogni classe è ampiamente soggettiva. Nella costruzione di una tabella,
la scelta soggettiva di una particolare serie o di un'altra può tradursi in una
rappresentazione completamente diversa degli stessi dati. Per piccoli campioni, l'alterazione e
le differenze possono essere sensibili; ma all'aumentare del numero di osservazioni, gli effetti
delle scelte soggettive, quando non siano estreme, incidono sempre meno sulla concentrazione dei
valori e sulla forma della distribuzione.
Tra le altre avvertenze importanti, è da ricordare che la classe iniziale e quella terminale non
devono essere classi aperte (come < 80 quella iniziale e ≥ 180 quella finale). Con classi estreme
aperte, si perde l'informazione del loro valore minimo o massimo e quindi del valore centrale di
quella classe, cioè quello che rappresenta il valore medio tra i valori che la delimitano (es., nella
classe 60-79 il valore centrale è 69,5). La conseguenza è la perdita di un dato indispensabile, per
calcolare la media della classe e quella totale, nonché tutti gli altri parametri da essa derivati. Come
verrà successivamente chiarito, con tabelle in cui le classi estreme sono aperte viene impedita o resa
soggettiva anche la loro rappresentazione grafica, per la quale è indispensabile conoscere con
precisione il valore iniziale e quello terminale.
I dati della tabella 3 possono essere riportati in modo più schematico e più comprensibile, come
nella seguente tabella 4.
Tabella 4. Distribuzione di frequenza assoluta e relativa (in %) dell'altezza di 40 giovani piante.
Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo più
chiaro le indicazioni elementari contenute, in particolare la loro:
11
- posizione o dimensione (già chiamata anche tendenza centrale) ;
- la variabilità o dispersione.
Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente è di
aiuto una rappresentazione grafica che mostra in modo sintetico soprattutto
- la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati.
La rappresentazione grafica , in genere , viene fatta utilizzando degli istogrammi, a cui spesso si
sovrappone una curva di frequenza.
In teoria delle probabilità una distribuzione di probabilità è simmetrica quando la sua funzione di
probabilità P (nel caso discreto) o la sua funzione di densità di probabilità (nel caso continuo) siano
simmetriche rispetto ad un valore fissato x0:
P(x0 + x) = P(x0 − x)
Esempi di distribuzioni simmetriche sono la distribuzione normale e altre distribuzioni derivate da
distribuzioni simmetriche (la distribuzione di Student).
Un indice di asimmetria (in inglese skewness) di una distribuzione è un valore che cerca di fornire
una misura della sua mancanza di simmetria. La trattazione di questi indici verrà eseguita nel
capitolo successivo.
12
10
8
6
4
2
0
1
Esempio di distribuzione asimmetrica
2
3
4
5
6
7
Esempio di distribuzione simmetrica
La curtosi (kurtosis) è uno dei parametri relativi alla forma di una distribuzione, che costituisce una
misura dello "spessore" delle code di una funzione di densità, ovvero il grado di "appiattimento" di
una distribuzione. L'interesse per questo indice è dato dal fatto che lo "spessore" delle code
influenza il comportamento di diverse statistiche. Anche in questo caso esistono degli indici di
curtosi la cui trattazione verrà eseguita nel capitolo successivo.
12
Ritornando al problema della rappresentazione tabellare dei dati riportati in tabella 3, secondo le
indicazioni di Sturges il numero di classi C avrebbe dovuto essere:
uguale a 6,34
dal quale si deduce anche un’ampiezza h = 140/6,34 ≈ 22
circa 22 centimetri.
Secondo le indicazioni di Scott, l’ampiezza h delle classi avrebbe dovuto essere
uguale a circa 16,
dalla quale si deduce un numero di classi C
uguale a circa 9.
Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato all’unità.
Secondo i due metodi proposti, con i dati della tabella 3 il numero di classi può ragionevolmente
variare da 6 a 9; si evidenzia la correttezza della scelta di fare 7 classi, suggerita dalla semplicità
di formare classi con un’ampiezza di 20 cm.
La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anche
di alcune controindicazioni. Lo svantaggio maggiore deriva da:
- non poter conoscere come sono distribuiti i dati entro ogni classe.
Per stimare i parametri della distribuzione (media, varianza, simmetria, curtosi), viene quindi
usato il valore centrale di ogni classe,
- nell’ipotesi che in quell’intervallo i dati siano distribuiti in modo uniforme.
Rispetto alla distribuzione delle singole osservazioni, questa procedura comporta
un’approssimazione, poiché tale ipotesi operativa implicita non è vera
(il concetto sarà ripreso e dimostrato in paragrafi successivi).
Il calcolo della distribuzione di frequenze può essere fatto con Excel con la seguente procedura:
Strumenti
Analisi dati
Istogrammi. Qualora l’opzione analisi dati non fosse disponibile occorre
scaricarla andando su: Strumenti
Componenti aggiuntivi
Strumenti di analisi
13
1.6. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATE
Le rappresentazioni grafiche servono per evidenziare in modo semplice, a colpo d’occhio, le
quattro caratteristiche fondamentali di una distribuzione di frequenza (tendenza centrale,
variabilità, simmetria e curtosi). Insieme con i vantaggi di fornire una visione sintetica e di essere
di facile lettura, hanno però l’inconveniente fondamentale di mancare di precisione e
soprattutto di essere soggettive, quindi di permettere letture diverse degli stessi dati. Pertanto, ai
fini di una elaborazione mediante i test e di un confronto dettagliato dei parametri, è sempre
preferibile la tabella, che riporta i dati esatti.
I motivi che ci devono spingere a costruire rappresentazioni grafiche dei suoi dati sono:
- un esame preliminare delle caratteristiche della distribuzione,
- un suggerimento per il test da scegliere, adeguato appunto ai dati raccolti,
- un aiuto alla comprensione delle conclusioni,
- senza per questo essere un test, ma solo una descrizione visiva.
Le rappresentazioni grafiche proposte sono numerose. Esse debbono essere scelte in rapporto al
tipo di dati e quindi alla scala utilizzata.
LA RAPPRESENTAZIONE GRAFICA DELLE VARIABILI QUANTITATIVE
Per dati quantitativi, riferiti a variabili continue misurate su scale ad intervalli o di rapporti, di
norma si ricorre a istogrammi o poligoni e a grafici a dispersione. Gli istogrammi sono grafici a
barre verticali (per questo detti anche diagrammi a rettangoli accostati), nei quali
- le misure della variabile casuale o di raggruppamento (classi) sono riportate lungo l'asse
orizzontale,
- mentre l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o quella
percentuale, con cui compaiono i valori di ogni classe.
La rappresentazione grafica può essere fatta con excel. Nel caso di istogrammi la distanza tra i
poligoni può essere scelta, dopo aver eseguito il grafico, evidenziando i poligoni e poi selezionando
Oggetto selezionato (formato serie dei dati)
opzioni
distanza tra basi =
I lati dei rettangoli sono costruiti in corrispondenza degli estremi di ciascuna classe.
Un istogramma deve essere inteso come una rappresentazione areale: sono le superfici dei vari
14
rettangoli che devono essere proporzionali alle frequenze corrispondenti.
Quando le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le
loro altezze risultano proporzionali alle frequenze che rappresentano. Solo quando le basi sono
uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo.
Ma se le ampiezze delle classi sono diverse, bisogna ricordare il concetto generale che
- le frequenze sono rappresentate dalle superfici e quindi è necessario rendere l'altezza
proporzionale. Tale proporzione è facilmente ottenuta dividendo il numero di osservazioni per il
numero di classi contenute nella base, prima di riportare la frequenza sull'asse verticale.
Per esempio, con i dati della precedente figura 2, si supponga di avere raggruppato in una classe
sola le frequenze della classe da 80 a 99 e da 100 a 119, per un totale di 13 osservazioni (3 + 10).
Nella successiva figura 3, tale somma è rappresentata:
- nel primo caso (istogramma di sinistra) con un grafico errato
- nel secondo caso (istogramma di destra) nella sua versione corretta, che utilizza il valore
medio delle classi raggruppate.
Un'altra avvertenza importante nella costruzione degli istogrammi è che l'asse verticale, che
riporta le frequenze, deve mostrare lo zero reale od "origine", onde non distorcere o travisare le
caratteristiche dei dati ed i rapporti tra essi. Se si deve utilizzare dati con valori con ordini di
grandezza molto diversi allora bisogna ricorrere a scale logaritmiche.
La rappresentazione grafica permette di valutare con immediatezza se il numero di classi costruite
è adeguato alle caratteristiche della distribuzione originale dei dati. Con poche eccezioni, le
variabili quantitative di fenomeni biologici od ambientali evidenziano una distribuzione
tendenzialmente normale, con caratteristiche specifiche di addensamento verso i valori centrali e
di dispersione più o meno simmetrica, ma con declino regolare verso i due estremi.
La rappresentazione grafica deve essere in grado di non alterare od interrompere la
regolarità della distribuzione, come può avvenire in particolare quando il numero di classi è
troppo alto rispetto al numero di dati. Una dimostrazione di tale caso è riportato nella figura
successiva, nella quale sono state fatte 14 classi, invece delle 7 richieste prendendo in
considerazione il numero di dati, la loro variabilità e i limiti delle singole classi.
L’istogramma che segue è una chiara dimostrazione di una suddivisione in classi eccessiva: uno o
più gruppi di misure (due nell’esempio) comprese entro gli estremi hanno frequenza zero ed
alterano la rappresentazione di una distribuzione normale.
La frequenza delle classi e l’altezza dei rettangoli ad essa proporzionali tendono a decrescere in
15
modo relativamente regolare. Quando un grafico presenta una forte alterazione dalla forma
normale, che scompare con una suddivisioni in classi meno frammentate, si ha una indicazione di
un possibile errore tecnico nella rappresentazione dei dati.
I poligoni sono figure simili agli istogrammi e sono utilizzati di norma per la rappresentazione di
valori relativi o di percentuali, in quanto è implicito che l’area totale sottesa sia uguale a 1 o
100%. Come nel caso degli istogrammi, l'asse orizzontale rappresenta il fenomeno, mentre l'asse
verticale rappresenta la proporzione o percentuale di ogni classe.
Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una linea
spezzata i punti centrali di ogni classe. La linea spezzata deve essere unita all'asse orizzontale, sia
all'inizio sia alla fine, per racchiudere l'area della distribuzione. Questo procedimento viene ottenuto
con un artificio, simulando la presenza di un istogramma con presenze uguali a 0 (zero) come punto
di partenza. Si unisce il valore centrale della prima classe con il valore centrale di questa precedente
classe fittizia di valore 0; l’ultimo segmento viene ottenuto unendo il valore centrale dell'ultima
classe reale con il valore centrale di una classe successiva, fittizia, di valore 0.
Il poligono rappresentato nella figura 5 corrisponde all’istogramma della figura 2.
E' stato costruito con i dati della tabella 4, spostando le classi sull’asse delle ascisse per
comprendere i nuovi estremi della distribuzione.
16
Le distribuzioni cumulate sono rappresentate sia con istogrammi cumulati sia con poligoni
cumulati. Non forniscono informazioni sostanzialmente differenti da quelle dei relativi istogrammi
e poligoni già descritti, poiché
- è possibile passare con facilità da una distribuzione di frequenza alla sua cumulata con semplici
operazioni di somme o di sottrazioni tra classi.
Sono solamente più convenienti, per meglio evidenziare il concetto di maggiore interesse.
La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5.
100,00%
80,00%
60,00%
40,00%
20,00%
0,00%
79
99
119
139
159
179
199
Fig. 7. Istogramma cumulato
Tuttavia, per la diversa prospettiva che essi offrono a partire dagli stessi dati, gli istogrammi ed i
poligoni cumulati sono un altro metodo utile sia per presentare le caratteristiche di dati
quantitativi riportati in tabelle, sia per facilitare l'interpretazione e l'analisi. Servono soprattutto
per evidenziare, con lettura immediata, quante sono in totale le misure che sono inferiori o
superiori ad un certo valore. Il valore dell'asse orizzontale che corrisponde al 50% dei valori
identifica la mediana (riportato come linea nella figura 7 che rappresenta un istogramma
cumulato); è un parametro di tendenza centrale estremamente importante, quando la distribuzione
non è simmetrica (il suo uso e le sue caratteristiche saranno descritte nel prossimo paragrafo).
17
Per la rappresentazione di dati numerici, è possibile ricorrere anche a diagrammi cartesiani o
grafici a dispersione. Essi saranno illustrati nel capitolo dedicato ai dati bivariati; sono utilizzati
quando per ogni individuo sono rilevati contemporaneamente 2 variabili, come il peso e l’altezza. I
punti possono anche essere uniti da una linea spezzata o da linee di tendenza
grafico a dispersione
184
182
altezza (cm)
180
178
176
174
172
170
168
0
50
100
150
Peso (kg)
Figura 8. Grafico a dispersione per due variabili
195
195
190
190
185
185
180
180
175
175
170
170
165
165
160
160
59
72
89
98
140
50
70
90
110
130
150
Fig. 9. Grafico a dispersione con linea spezzata(a sinistra ) e con linee di tendenza, lineare e
polinomiale di 2° grado (a destra)
Un’altra rappresentazione grafica per punti che ha un uso specifico per alcuni argomenti è il
diagramma polare o diagramma a coordinate polari. Serve per rappresentare le variabili
cicliche (mensili, settimanali, giornaliere), come la quantità di pioggia e la temperatura media
mensile; oppure la quantità di inquinanti presenti nell’aria in un ciclo di 24 ore. A partire da un
punto centrale, chiamato polo, si traccia una serie di cerchi concentrici, la cui distanza dal
centro misura l’intensità del fenomeno.
Figura 10. Valori medi mensili della radioattività beta totale nell’aria a livello del suolo in Italia
nell’anno 1993 (mBq per metro cubo).
18
Per rappresentare la variabile ciclica, si divide l’angolo giro in tante parti quante sono le modalità
(es.: 12 per i mesi, 24 per le ore). Si devono poi collocare punti nei vari cerchi concentrici, per
individuare insieme la modalità (es.: il mese o l’ora) e l’intensità del fenomeno (es.: la quantità di
pioggia, la temperatura, la misura d’inquinamento atmosferico o di un corso d’acqua). Il
diagramma polare è ottenuto congiungendo i vari punti e l’intensità del fenomeno è rappresentata
dalla distanza dal centro.
LA RAPPRESENTAZIONE GRAFICA DELLE VARIABILI QUALITATIVE
Per le distribuzioni di frequenza di dati qualitativi, le rappresentazioni grafiche più frequenti
sono
- i diagrammi a rettangoli distanziati (diagrammi a barre),
- gli areogrammi (tra cui i diagrammi circolari),
- i diagrammi a figure (o diagrammi simbolici).
n. votanti
I diagrammi a rettangoli distanziati, detti anche grafici a barre, sono formati da rettangoli
con basi uguali ed altezze proporzionali alle intensità (o frequenze) dei vari gruppi considerati. A
differenza degli istogrammi, i rettangoli non sono tra loro contigui, ma distaccati; di conseguenza,
sull’asse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propri
delle classificazioni qualitative. Se le classi qualitative sono composte da sottoclassi, è possibile
una rappresentazione grafica più articolata, dividendo ogni rettangolo in più parti, con altezze
proporzionali alle frequenze delle sottoclassi (figura 9).
90
80
70
60
50
40
30
20
10
0
27
donne
Uomini
35
52
21
1
2
Partiti
Figura 9. Numero di votanti, suddiviso per sesso, relativo a due partiti politici.
Per una corretta visualizzazione dei dati è importante anche tenero conto delle densità di frequenza
(assoluta o relativa che sia) delle varie classi.
30
50
100
45
25
90
40
80
35
20
70
30
60
15
25
50
20
40
10
15
30
10
5
20
5
10
0
0
1
2
0
1
2
1
2
19
Fig. 10. Rappresentazioni grafiche dei voti(%) presi da due partiti (rispettivamente il 15% e il 25%) utilizzando scale
differenti. Nella prima figura si è scelto un valore massimo pari al doppio dei voti riportati dal partito di maggioranza
relativa (rappresentazione realistica); nella seconda si è scelto un valore massimo leggermente superiore a quello
riportato dal partito di maggioranza e quindi accentua la differenza di voti tra i due patiti; nella terza si è scelto il valore
massimo di 100% per cui si appiattisce la differenza di voti tra i due partiti!
Gli areogrammi sono grafici in cui le frequenze o le quantità di una variabile qualitativa sono
rappresentate da superfici di figure piane, come quadrati, rettangoli o, più frequentemente, cerchi
oppure loro parti. La rappresentazione può essere fatta sia con più figure dello stesso tipo, aventi
superfici proporzionali alle frequenze o quantità, sia con un'unica figura suddivisa in parti
proporzionali. Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti
proporzionali alle classi di frequenza. Gli areogrammi vengono usati soprattutto per rappresentare
frequenze percentuali.
Fig. 11. Diagramma a torta su valori in percentuale
Hanno il vantaggio di fare capire con immediatezza che la somma di tutte le classi è uguale
all’unità (1 o 100%); hanno l’inconveniente che evidenziano con estrema difficoltà le differenze
che non sono molto marcate. Per differenze piccole, si dimostrano meno efficaci degli
ortogrammi. I diagrammi circolari sono utilizzati per distribuzioni di variabili nominali, al fine
di evitare di stabilire anche involontariamente un ordine, che non esiste tra variabili
qualitative. Mettono in evidenza come sono distribuite le singole parti, rispetto all’intero: il cerchio
rappresenta l’intero fenomeno ed i componenti sono rappresentati da settori che sono distinti da
tratteggi, colori o gradazioni di colore differenti. Gli angoli (a, nella formula successiva) devono
essere proporzionali alle percentuali (Y in %) che vogliono rappresentare, in accordo con la
relazione: a : 360 = Y in % : 100
Con i diagrammi a figure, detti anche diagrammi simbolici o pittogrammi, la frequenza di
ogni carattere qualitativo viene rappresentata da una figura, sovente stilizzata, oppure da simboli
che ricordano facilmente l'oggetto. E’ una specie di istogramma costruito con figure, dove
l’altezza o la larghezza della figura deve essere proporzionale alla frequenza osservata.
Questi diagrammi a figure hanno tuttavia il grave inconveniente di prestarsi a trarre in
inganno con facilità il lettore inesperto di statistica, quando siano stati costruiti con malizia;
è pure facile che un ricercatore non sufficientemente esperto li costruisca in modo sbagliato,
generando non volutamente il sospetto che egli abbia voluto fornire una impressione di
differenza tra i gruppi a confronto non supportata dai dati.
Per esempio, la produzione mensile di auto di 3 case automobilistiche: la prima ha prodotto 100
mila auto, la seconda 180 mila e la terza 320 mila. L'occhio coglie complessivamente non l’altezza
o la larghezza di ogni figura ma la superficie che essa occupa, che è il quadrato del valore che si
intende rappresentare: se ne ricava l'impressione distorta di un rapporto di 1 a 10 e non 1 a 3, come
dicono in realtà i dati, tra la produzione della prima e della terza azienda.
E’ possibile ovviare all'inconveniente, costruendo non una figura improbabile di altezza variabile
20
e con base uguale (poiché risulterebbe una figura alterata ed una rappresentazione forse
incomprensibile), ma ricorrendo all'artificio di figure identiche, ripetute tante volte quante sono
le proporzioni. Per esempio, se l'unità di misura convenuta è 100 mila auto, 320 mila auto
possono essere rappresentate in modo corretto da tre auto intere più un quinto di auto. A causa degli
inconvenienti, i diagrammi simbolici o a figure sono usati molto raramente nelle
pubblicazioni specializzate e mai in quelle scientifiche. Sono riservati a pubblicazioni divulgative,
quando è più importante l’impressione della precisione, cioè occorre evidenziare l’importanza del
fenomeno a persone che non conoscono esattamente il problema.
Figura 12. Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima ha
prodotto 100 mila auto, la seconda 180 mila e la terza 320 mila.
La parte a sinistra, fondata sulla proporzione della lunghezza, fornisce una rappresentazione errata:
è la superficie coperta dalla figura che deve essere proporzionale, non la lunghezza.
La parte a destra della figura fornisce una rappresentazione corretta.
Ad ogni modo, anche fornendo una rappresentazione corretta sotto tutti gli aspetti, gli statistici
preferiscono i dati, poiché da essi possono valutare il fenomeno e se un dato è credibile oppure
anomalo con elevata probabilità.
21
CAPITOLO 2 - STATISTICHE DESCRITTIVE - Per i caratteri qualitativi, la tabella e le rappresentazioni grafiche esauriscono quasi
completamente gli aspetti descrittivi, quando sia possibile leggere con esattezza le frequenze delle
varie classi.
- Per i caratteri quantitativi, si pone il problema di sintesi oggettive che possano essere elaborate
matematicamente e quindi che siano numeriche, al fine di un'analisi obiettiva che deve
condurre tutti i ricercatori, con gli stessi dati, alle medesime conclusioni.
Una serie di dati numerici è compiutamente descritta da 3 proprietà principali:
1) la tendenza centrale o posizione;
2) la dispersione o variabilità;
3) la forma.
Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate
- statistiche, quando sono calcolate su un campione di dati,
- parametri, quando descrivono la popolazione od universo dei dati.
I ricercatori in ecologia e nelle scienze ambientali molto raramente conoscono tutta la
popolazione; di conseguenza, i metodi statistici di norma utilizzati sono riferiti quasi
esclusivamente alla descrizione, all’analisi e al confronto di campioni.
2.1. LE MISURE DI TENDENZA CENTRALE
Le misure di tendenza centrale o posizione servono per individuare il valore intorno al
quale i dati sono raggruppati; la tendenza centrale è la misura più appropriata per sintetizzare
l'insieme delle osservazioni, se una distribuzione di dati dovesse essere descritta con un solo
valore; è la prima indicazione della dimensione del fenomeno.
Le misure proposte sono essenzialmente 3: la media, la mediana e la moda. Più raramente ed in
discipline specifiche si utilizzano altre misure, come l'intervallo medio.
La scelta della misura di tendenza centrale di una serie di dati dipende dalle caratteristiche della
distribuzione e dal tipo di scala.
 La media aritmetica semplice è la misura di tendenza centrale più comunemente utilizzata.
Quando si parla solo di media, si intende la media aritmetica semplice. Si usa la media aritmetica
quando abbiamo dati (continui o discreti) ottenuti da misure lineari. Operativamente
è definita come la somma del valore di tutte le osservazioni, diviso il numero di unità:
dove:
- x = media del campione
- xi = i-esima osservazione della variabile X
- n = numero di osservazioni del campione
= sommatoria di tutti gli xi del campione.
.
22
La media aritmetica di distribuzioni di frequenza raggruppate in classi, detta media aritmetica
ponderata, è calcolata più rapidamente con
dove:
- x = media della distribuzione in classi,
- xi = valore medio della i-esima classe di intervallo,
- fi = numero di osservazioni della classe i-esima classe,
- n = numero di classi,
- Σ = sommatoria per tutte le n classi.
ESEMPIO 1.1. Da un gruppo di 25 dati, raggruppati nella seguente distribuzione in classi
la media di tutto il campione risulta uguale a 175,4.
Le applicazioni della media aritmetica semplice e di quella ponderata sono numerose e derivano
da alcune loro proprietà:
- le grandezze additive sono le più frequenti in natura;
- la media aritmetica effettua la correzione degli errori accidentali d'osservazione, per cui essa
è la stima più precisa di misure ripetute;
- la media aritmetica è la più semplice delle medie algebriche.
 La media geometrica semplice è utilizzata quando le variabili non sono rappresentate da
valori lineari, ma ottenuti da prodotti o da rapporti di valori lineari. Serve per il confronto di
superfici o volumi, di tassi di accrescimento o di sopravvivenza, per quei valori appunto che
sono espressi da rapporti. Per il calcolo della media geometrica, è condizione necessaria che le
quantità siano tutte positive. Se alcune fossero negative, si deve ricorrere al valore assoluto.
La media geometrica di n dati è uguale alla radice di ordine n (solo positiva) del prodotto
degli n dati:
Π = prodotto
Una proprietà importante è che
- il logaritmo della media geometrica (log x ) è uguale alla media aritmetica dei logaritmi dei
dati
da cui
x g = antilog x
23
ovvero la media geometrica è uguale all’antilogaritmo della media aritmetica dei logaritmi dei dati.
E’ una proprietà che risulta utile quando abbiamo dati che presentano un elevata variabilità per cui
si deve ricorrere alla trasformazione dei dati nei loro logaritmi, allo scopo di normalizzare la
distribuzione ed applicare in modo corretto i test di inferenza. (Le trasformazioni dei dati sono
discusse nel capitolo dell’analisi della varianza).
ESEMPIO 9.1. Il numero di mosche in una popolazione di laboratorio di D. melanogaster costituita
in partenza da 100 individui, viene rilevato in tre periodo successivi ottenendo le seguenti
numerosità:
112, 196 e 369. Stabilire il tasso di incremento medio della popolazione.
Gli incrementi osservati sono: 112/100 = 1,12; 196/112 = 1,75; 369/196 =1,88
x g=
1,12 * 1,75 * 1,88 = 1,54
Quindi la popolazione ha subito un tasso di incremento medio del 54%.
3
Possiamo facilmente verificare che 100*1,54*1,54*1,154 = 369
Avremmo potuto applicare la proprietà di questa media ed avremmo ottenuto:
log x = 1/3*( log 1,12+ log 1,75+ log 1,88) = 0,188
da cui:
x g =antilog 0,188 =1,54
Questi calcoli possono essere fatti con excel tenendo conto che: se si parla di logaritmo naturale
LN(x), l’antilogaritmo è EXP(x); se si parla di logaritmo decimale LOG10(x), l’antilogaritmo è 10^x
per estrarre una radice alla n si fa : valore^1/n
1
1
In matematica una progressione aritmetica è una successione di numeri tali che la differenza tra ciascun termine e il
suo precedente sia una costante. Tale costante viene detta ragione della progressione. Per esempio, la successione 3, 5,
7, 9, 11, . è una progressione aritmetica di ragione 2. Una progressione aritmetica mostra una crescita (o una
diminuzione) lineare.
Una progressione geometrica o successione geometrica (detta talvolta, impropriamente, anche serie geometrica) è
una successione di numeri tali che il rapporto tra due elementi consecutivi è sempre costante. Tale costante è detta
ragione della successione. Una successione di ragione 2 e fattore di scala 1 è: 1, 2, 4, 8, 16, 32, .... Una progressione
geometrica non nulla mostra una crescita o un decadimento esponenziale. Si noti che i due tipi di progressione sono
strettamente connessi: applicando il logaritmo ai termini di una progressione geometrica si ottiene una progressione
aritmetica.
24
 La media armonica è la stima più corretta della tendenza centrale, per distribuzioni di dati
in cui devono essere usati gli inversi. E’ utilizzata quando i valori di X sono espressi come
rapporti di un totale costante od in misure di tempi di reazione od in titoli 2 (esami seriologici).
La media armonica è data da:
ESEMPIO 3.1.
In matematica, i numeri a, b, c formano una progressione armonica se i loro reciproci 1/ a , 1/ b , 1/ c
formano una progressione aritmetica.
2
Il titolo è l'inverso della più bassa concentrazione (o della più alta diluizione) del siero del paziente che mantiene
attività rilevabile nei confronti di un antigene noto. Nel caso della figura il titolo è 128.
25
 La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati.
E’ una misura robusta, in quanto poco influenzata dalla presenza di dati anomali. La sua
utilizzazione è indispensabile nel caso di scale ordinali o di ranghi o quando si hanno valori
numerici esterni e/o estremi.
La sue caratteristiche più importante sono due:
- è calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effetto di
valori estremi o comunque prendere in considerazione solo l’informazione fornita dai ranghi;
- in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere
inferiore o superiore alla mediana.
Come la media è la misura di tendenza centrale nella statistica parametrica, la mediana è la
misura di posizione o tendenza centrale utilizzata in quasi tutti i test non parametrici.
Per calcolare la mediana di un gruppo di dati, occorre
1 - disporre i valori in una fila ordinata in modo crescente oppure decrescente e contare il numero
totale n di dati;
2 - se il numero (n) di dati è dispari, la mediana corrisponde al valore numerico del dato centrale,
quello che occupa la posizione (n+1)/2;
3 – se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori centrali che
occupano le posizioni n/2 e n/2+1; con poche osservazioni, come mediana viene assunta la media
aritmetica di queste due osservazioni intermedie; con molte osservazioni raggruppate in classi, si
ricorre talvolta alle proporzioni.
ESEMPIO 4.1. Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2 14,5 .
Risposta: Il numero di osservazioni è pari e i due valori centrali sono 13,1 e 13,9; la mediana è
individuata dalla loro media aritmetica e quindi è uguale a 13,5.
Per meglio comprendere le differenze tra media aritmetica e mediana, con la stessa serie di 6
dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui
- la media è 12,85 e
- la mediana 13,5
la rappresentazione grafica evidenzia come la media sia il baricentro della distribuzione e la
mediana sia collocata tra i valori più addensati.
Figura 13. Rappresentazione grafica della media e della mediana di 6 dati.
Nella precedente figura 13, il grafico mostra come, nel caso di dati distribuiti in modo non
simmetrico, la mediana rappresenti in modo più adeguato della media l’addensamento dei dati, il
valore “normale o tipico“ della serie. La media infatti è maggiormente influenzata dalla presenza
dei due valori più distanti, che la allontanano dal gruppo dei valori più frequenti e la rendono
diversa da essi. Se i due valori anomali fossero più vicini (o più lontani) rispetto agli altri 4, la
media cambierebbe mentre la mediana rimarrebbe invariata.
Unitamente alla mediana, che è un indice di posizione che divide in due parti uguali l’insieme dei
dati , esistono altri indici di posizione detti anche percentili o quantili e più specificatamente
quartili quando si considerino quei valori che dividono l’insieme dei dati in 4 parti uguali. Il primo
26
quartile è quel valore in cui è compreso il 25% dei dati, il secondo il 50% (quindi il 50° percentile è
la mediana), il terzo il 75% dei dati. Questi valori di posizione sono utili per costruire un particolare
diagramma detto box-plot (and whiskers) (tradotto letteralmente diagramma a scatola (e baffi))
che ci permette di individuare la posizione di tutti i dati raccolti e vedere se esistono valori outlier
(esterni) e/o extreme (estremi). Questi valori, come vedremo meglio in seguito, hanno effetto sia
sulla variabilità che sulla distribuzione (forma) e quindi condizionano la scelta dei test statistici da
utilizzare.
ESEMPIO 5.1
Data items
121 12
14 11
15
14
12
Dati
ordinati
121*
28*
°
10
9=75%
* Extremes = values more than 3 box-lengths from 75° percentile (i.e., v > 24)
° Outliers = values more than 1.5 box-lengths from 75° percentile (i.e., 20,25< v <24)
Whiskers, vertical lines extending up and down from each box
20,25
Upper whisker hinges
17
(up to the largest value* that is not an outlier; down to the smallest one)
75° Percentile=
8
16
16
17
14
7
6=50%
15
14
Median = 14,5
28
1
16
23,5
5
4
3=25%
2
14
14
14
12
1
°
1*
14
16
16,5
(*really observed, i.e., 17 and 12, respectively)
Box compraising the 50% of cases.
The length of the box is called hspread =
2,5
25° Percentile = 14
10,25
Down whisker limit value
° Outliers = values less than 1.5 box-lengths from 25° percentile (i.e., 6,5< v <10,25)
* Extremes = values less than 3 box-lengths from 25° percentile (i.e., v <
6,5
Si noti come in una serie di dati che presenta valori estremi, specialmente se sbilanciati verso una
coda (estremo della distribuzione dei dati), la mediana sia un indice di posizione che meglio illustra
la tendenza centrale della serie , rispetto alla media (23,5) che è influenzata da questi valori estremi.
Se al posto di 121 avessimo avuto , per esempio, 18 avremmo avuto una distribuzione più bilanciata
(ovvero come vedremo in seguito più vicina ad una distribuzione normale) ed allora la media (14,9)
si sarebbe avvicinata al valore della mediana che sarebbe comunque rimasto invariato (14,5).
27
 La moda (detta più raramente anche dato prevalente) è il valore più frequente di una
distribuzione. Essa non è influenzata dalla presenza di nessun valore estremo; tuttavia viene
utilizzata solamente a scopi descrittivi, perché è meno stabile e meno oggettiva delle altre
misure di tendenza centrale. Può infatti differire nella stessa serie di dati, quando si formano
classi di distribuzione con ampiezza differente. Per individuare la moda entro una classe di
frequenza, non conoscendo come i dati sono distribuiti, si ricorre all'ipotesi della uniforme
ripartizione. Nella serie di dati riportati nell’esempio precedente la moda è 14, in quanto questo
valore è stato riscontrato in 4 items su 12 (33% dei casi, mentre il valore 16 si osserva nel 16,7% dei
casi e tutti gli akltri valori sono rappresentati ciascuno in misura del 8,3%).
Oltre alle distribuzioni di frequenza che hanno una sola moda e che si chiamano distribuzioni
unimodali, si trovano distribuzioni di frequenza che presentano due o più mode; sono
denominate distribuzioni bimodali o plurimodali.
Le distribuzioni plurimodali possono essere il risultato della scarsità di osservazioni o
dell’arrotondamento dei dati; di norma, sono dovute alla sovrapposizione di più distribuzioni con
tendenza centrale differente. Per esempio, misurando le altezze di un gruppo di giovani in cui la
parte maggiore sia formata da femmine e la minore da maschi si ottiene una distribuzione
bimodale, con una moda principale ed una secondaria, come la seguente.
150 155 160 165 170 175
Figura 14. Distribuzione bimodale ♀ e ♂
180
Quando la distribuzione dei dati evidenzia due o più mode, il ricercatore deve quindi
sospettare che i dati non siano omogenei, ma formati da altrettanti gruppi con differenti tendenze
centrali. E’ pertanto errato fondare le analisi sulla media generale della distribuzione, poiché
non è vera l’assunzione fondamentale che siano dati tratti dallo stesso universo o
popolazione con una sola tendenza centrale.
La media di una distribuzione bimodale, formata in quota pari da maschi e da femmine, sarebbe
un valore “assurdo” che non descrive né i maschi né le femmine, ma un individuo inesistente, non
essendo né maschio né femmina.
A conclusione di questa parte vorremmo ricordare un tipo di tecnica semi-grafica, che può essere
descritta come un incrocio tra un istogramma e una tabella di frequenza. E’ chiamata diagramma a
ramo e foglia (stem-and-leaf plot, stem-and-leaf display), più brevemente stem-plot o stemplot. Il
metodo è utile per una prima descrizione di una distribuzione di dati. Inoltre, può essere di aiuto
anche per valutare il livello di precisione con il quale i dati sono stati raccolti. Il grafico stem-andleaf può essere utilizzato sia per variabili discrete sia per variabili continue.
I principi di costruzione sono semplici: ogni numero è diviso in due parti, il ramo (stem) e la
foglia (leaf);
- il ramo è il numero, collocato a sinistra, che include tutte le cifre eccetto l’ultima;
28
- la foglia, collocata a destra, è sempre un numero con una cifra sola (single digit), che può
essere esclusivamente l’ultima di tutto il numero.
Anche questo grafico ha lo scopo di mostrare le caratteristiche fondamentali di una
distribuzione di dati:
- valore minimo e massimo e quindi l’intervallo di variazione,
- i valori più frequenti o più comuni,
- la presenza di uno o più picchi,
- la forma della distribuzione, in relazione soprattutto alla simmetria,
- la presenza di outlier o valori anomali, quelli troppo distanti dal gruppo principale di valori.
ESEMPIO 6.1. Si assuma di aver effettuato 30 rilevazioni della concentrazione di CO (mg/mc)
lungo una strada con traffico, riportati in modo ordinato e crescente nella tabella seguente:
Per costruire un diagramma stem-and leaf è utile seguire alcuni passaggi logici e metodologici.
1 - Dapprima nei valori rilevati si devono individuare le cifre che formano gli stem e i valori che
formano le leaf:
- i primi sono quelli che danno una misura approssimata del fenomeno, in questo caso, la parte
intera del valore rilevato;
- i secondi sono quelli che rendono la stima più precisa, in questo caso i valori decimali, poiché ne è
stato rilevato solamente uno.
2 – Successivamente, i valori stem sono ordinati modo crescente lungo un’asse verticale,
riportando anche le classi vuote.
3 – Le cifre che formano le leaf sono riportate in ordine crescente lungo l’asse orizzontale,
costruito lateralmente ai valori stem.
La disposizione dei numeri assume la forma della figura successiva, che ha l’aspetto grafico di una
tabella:
29
E’ una specie di istogramma il cui l’asse delle ascisse è verticale e quello delle ordinate, nel quale
sono riportate le frequenze, è orizzontale.
Rispetto ad esso, spesso è caratterizzato da un numero di classi differente da quello richiesto
per un istogramma corretto. Nella costruzione di un stem-and-leaf abitualmente non si pone
particolare attenzione a questo aspetto, che invece è di importanza rilevante nell’istogramma, che
dovrebbe assumere forma normale. In questa rappresentazione grafica,
- l’altezza di ogni classe è fornito dal numero di decimali riportati di fianco alla parte intera, che
corrisponde al totale delle leaves rilevati per lo stesso stem.
La lettura dettagliata della rappresentazione semigrafica ci permette di ricavare varie informazioni,
che è utile elencare in modo dettagliato:
1 - l’intervallo di variazione del fenomeno: da 6 a 22;
2 - gli stem modali: i valori 10 e 11;
3 - la mediana: tra 11,4 e 11,5 trattandosi di 30 dati (quindi un numero pari);
4 - i quantili più utili ad una descrizione dettagliata: l’80% dei valori è compreso tra 8,7 (il 10°
percentile) e 20,5 (il 90° percentile);
5 - la forma della distribuzione: fortemente asimmetrica a destra (nei valori alti) e forse bimodale;
6 - la presenza di outliers (valori anomali rispetto alla distribuzione; se essi distano molto dagli
altri stem, non è necessario riportare tutti i valori stem intermedi);
7 - la precisione con la quale i dati sono stati rilevati: gli ultimi 4 valori sembrano arrotondati alla
mezza unità (terminano infatti con 0 e 5), mentre i primi sembrano stimati con una precisione al
decimale (sono infatti presenti tutti i valori da 1 a 9).
La costruzione di un diagramma stem-and-leaf deve essere adattata alle dimensioni del campione e
alle caratteristiche dei dati raccolti. Ad esempio, sempre nella misura della qualità dell’aria, i valori
guida o livelli di attenzione sono da 100-150 mcg/mc come valore medio di 24 ore per SO2. Le
misure possono quindi essere approssimate all’unità; di conseguenza, gli stem possono essere
indicati dalle decine e le leaf dalle unità. Se i dati sono stati raccolti con troppa approssimazione, ad
esempio i dati di CO rilevati con arrotondamento dell’unità, non è più possibile costruire un
diagramma come quello presentato. Simmetricamente, se i dati sono raccolti con precisione
eccessiva rispetto alla loro variabilità, ad esempio i valori di CO alla seconda cifra decimale, risulta
necessario arrotondarli.
30
2.2. MISURE DI DISPERSIONE O VARIABILITA'
La dispersione o variabilità è la seconda importante caratteristica di una distribuzione di dati.
Essa definisce la forma più o meno raccolta della distribuzione intorno al valore centrale e
fornisce indicazioni sul tipo di test da applicare; nei capitoli successivi verrà dimostrato come per
confrontare le medie di due o più campioni sia richiesta l’omogeneità della varianza.
La prima misura ad essere stata storicamente utilizzata per descrivere la dispersione o
variabilità dei dati è il campo o intervallo di variazione, definito come la differenza tra il
valore massimo e quello minimo. L’intervallo di variazione è una misura poco efficiente della
dispersione dei dati per l'incapacità di sapere come i dati sono distribuiti entro l'intervallo, in
particolare di dedurre la presenza di valori anomali e per la sua dipendenza dal numero di
osservazioni. All’aumentare del numero dei dati, cresce anche la probabilità di trovare un valore
minore del minimo precedente ed uno maggiore di quello massimo precedente. Per un confronto
omogeneo tra distribuzioni, sarebbe necessario avere campioni delle stesse dimensioni,una
condizione operativa eccessivamente limitante per la ricerca e l’analisi dei dati.
Gli scarti dalla media sono la misura più appropriata della variabilità di un insieme di dati. Ma
poiché la loro somma è sempre nulla per definizione, in quanto la media è il baricentro della
distribuzione, è necessaria una trasformazione che potrebbe essere attuata in due modi:
a) gli scarti assoluti dalla media;
b) i quadrati degli scarti dalla media.
a) Lo scarto medio assoluto (Sm ) dalla media ( x ); per dati semplici è dato da
e per raggruppamenti in classi è ottenuto con
dove
- xi = valore dell’i-esimo dato in una distribuzione semplice,
- x = valore centrale della classe in una distribuzione di frequenza,
- n = numero totale di dati,
- ni = numero di dati della classe i in una distribuzione di frequenza.
Un indice analogo, usato nelle discipline sociali ed economiche per valutare la diversità tra due
distribuzioni di frequenze relative, è l’indice semplice di dissomiglianza (D)
dove 1 e 2 sono i due gruppi e k sono le classi.
D è uguale a 0 quando le due distribuzioni di frequenza relativa sono identiche e uguale a 1
quando la prima distribuzione è tutta concentrata in una classe e l’altra distribuzione in una classe
diversa. Ovviamente occorre che le due distribuzioni abbiano le stesse classi di frequenza
31
In alcuni test di statistica non parametrica, come misura di dispersione è utilizzato lo
scarto medio assoluto dalla mediana, che è la media degli scarti assoluti dei singoli dati dalla
mediana; le formule sono uguali alle due precedenti, sostituendo la mediana alla media.
b) La Somma dei Quadrati (SQ) degli scarti dalla media (SS = Sum of Squares, in inglese) o
devianza è la base delle misure di dispersione dei dati, utilizzate in tutta la statistica
parametrica. Tutta la statistica parametrica è fondata sulla devianza e sulle misure da essa derivate
(1 ) devianza (SQ)=
L'equazione precedente è la formula di definizione od euristica. Spesso è poco pratica, in
particolare quando la media è un valore frazionale, con vari decimali. Diviene allora conveniente
ricorrere a un'altra formula, algebricamente equivalente, che permette di effettuare i calcoli
manuali in tempi più brevi e con una sola approssimazione finale, chiamata formula empirica od
abbreviata:
(2) devianza SQ =
- Σx2 = sommatoria dei valori dopo che ogni osservazione è stata elevata al quadrato,
- (Σx)2= sommatoria di tutti i dati, elevata al quadrato,
- n = numero di osservazioni sulle quali è stata calcolata la somma.
ESEMPIO 7.1. Calcolare con la formula euristica (1) e con quella abbreviata (2) la devianza (SQ)
dei 6 numeri seguenti: 5, 6, 7, 7, 8, 10.
Risposta.
1. Con la formula euristica, si deve calcolare dapprima la media:
ed in seguito la devianza (SQ), intesa come Somma dei Quadrati degli scarti di ogni valore dalla
media: devianza SQ =
2. Con la formula abbreviata, calcolare direttamente il valore della devianza (SQ), dopo aver
fatto sia la somma dei dati precedentemente elevati al quadrato, sia il quadrato della somma dei
dati, secondo l’annotazione algebrica seguente: devianza SQ =
I due valori della devianza spesso non risultano identici, in particolare quando stimati con più
cifre decimali, a causa dell’approssimazione con la quale è calcolata la media, se non risulta un
valore esatto. In questi casi, è da ritenersi corretta la stima fornita dalla formula abbreviata, che
non richiede approssimazioni nei calcoli intermedi.
32
E’ utile ricordare che, per distribuzioni di dati raggruppati in classi, la formula euristica
diventa:
devianza SQ =
dove
- x i è il valore centrale di ogni classe
- x è la media generale della distribuzione
- ni = numero di dati della classe i in una distribuzione di frequenza.
Il valore della devianza dipende da due caratteristiche della distribuzione: gli scarti di ogni valore
dalla media ed il numero di dati. La prima è una misura della dispersione o variabilità dei dati ed è
l’effetto che si intende stimare; la seconda è un fattore limitante per l’uso della devianza, in
quanto un confronto tra due o più devianze richiederebbe campioni con lo stesso numero di dati.
Pertanto, per una misura di dispersione dei dati che sia indipendente dal numero di osservazioni,
si ricorre alla varianza.
 La varianza o Quadrato Medio (QM, in italiano; MS da Mean Square, in inglese) è una
devianza media o devianza rapportata al numero di osservazioni. Questo parametro è usato in uno
delle più comuni test parametrici, ovvero l’analisi della varianza detta (dall’inglese) ANOVA.
La varianza di una popolazione 3 , il cui simbolo è σ2 , è ottenuta dividendo la devianza per n,
il numero di osservazioni.
La varianza di un campione , il cui simbolo è s2 , è ottenuta dividendo la devianza per n-1, che è il
numero di gradi di libertà.
Ovviamente, quando n è grande le differenze tra varianza della popolazione e varianza del
campione sono minime; quando n è piccolo, le differenze sono sensibili. E' importante ricordare che
quando si parla di inferenza, cioè quando si utilizzano i dati di un campione per conoscere le
caratteristiche della popolazione, si usa sempre la varianza campionaria.
Le giustificazioni logiche dell'uso di dividere la devianza per n-1, detta anche correzione di
Student, sono lunghe e complesse: la più semplice si basa sul fatto che n-1 è il numero di
osservazioni indipendenti, chiamato gradi di libertà, abbreviato abitualmente in gdl o df (da
degree of freedom). Poiché la somma degli scarti dalla media è uguale a 0, l'ultimo valore di una
serie è conosciuto a priori, non è libero di assumere qualsiasi valore, quando siano già noti i
precedenti n-1 valori. Come concetto generale introduttivo, si può dire che il numero di gradi di
libertà è uguale al numero di dati meno il numero di costanti che sono già state calcolate o di
informazioni che siano già state estratte dai dati. Nel caso specifico della varianza, la costante
utilizzata per calcolare gli scarti è la media: quindi i gradi di libertà sono n-1.
Utilizzando i dati dell’esempio precedente risulta: s2= 14,84/(6 -1) = 2,96
3
Per i parametri (media, varianza, ecc..) che si riferiscono all’intera popolazione si usano lettere greche, per quelli
che si riferiscono a campioni di una popolazione si usano le lettere romane.
33
 Lo scarto quadratico medio o deviazione standard
Mentre la media è un valore lineare, la varianza è un valore al quadrato; per stime associate
alla media o per confronti con essa, è necessario ricondurla a un valore lineare.
Lo scarto quadratico medio o deviazione standard 4 , il cui simbolo è σ nel caso della
popolazione ed s nel caso di un campione, spesso abbreviato con sd, è la radice quadrata della
varianza: deviazione standard sd o s =
s2
E' una misura della dispersione della variabile casuale (dei dati) intorno alla media e quindi ha
sempre un valore positivo.
Utilizzando i dati dell’esempio precedente risulta: sd=
2,96 = 1,72
 Il coefficiente di variazione (coefficient of variation oppure coefficient of variability) è
una misura relativa di variabilità (o dispersione) svincolata da ogni scala di misurazione,
mentre le precedenti erano tutte misure assolute, espresse nella stessa unità di misura della variabile
originaria. E' quindi particolarmente utile ricorrere ad esso, quando si intende confrontare la
variabilità di due o più gruppi con medie molto diverse oppure con dati espressi in scale
diverse. Consideriamo come esempio il confronto tra la variabilità di due specie animali con
dimensioni medie sensibilmente diverse, come tra i cani e i cavalli. La varianza tra cavalli di razze
diverse è superiore a quella esistente tra i cani, perché gli scarti assoluti dalla media della specie
sono maggiori. Analogamente se volessimo paragonare la variabilità di peso che esiste in scrofe alla
nascita e alla maturità sessuale
Il Coefficiente di Variazione (CV oppure semplicemente con V in molti testi recenti), ovvero la
misura della dispersione percentuale in rapporto alla media, si ottiene nel seguente modo:
dove
- s = deviazione standard del campione
- x = media del campione
Quando è calcolato su dati campionari, in particolare se il numero di osservazioni è limitato, il
coefficiente di variazione CV deve essere corretto di una quantità 1/4N, dove N è il numero di
osservazioni del campione. Di conseguenza, il coefficiente di variazione corretto V’ diventa
Per meglio chiarire il significato del CV, rispetto ad altre misure di variabilità come per esempio la
sd, vediamo il seguente esempio:
A
8
7
B
80
78
C
60
78
4
Il termine standard deviation e il suo simbolo σ (la lettera greca sigma minuscola) sono attribuiti al grande
statistico inglese Karl Pearson (1867 – 1936) che l’avrebbe coniato nel 1893; in precedenza era chiamato mean error.
In alcuni testi di statistica è chiamato rootmean square deviation oppure root mean square,
34
media
ds
CV
9
6
8
5
7,2
1,5
20,5
82
78
80
79
79,5
1,5
1,9
92
78
50
75
72,2
14,9
20,6
I due campioni A e B hanno la stessa ds (almeno alla prima cifra decimale), ma questo non vuole
assolutamente dire che hanno la stessa variabilità. Avere una ds di 1,5 su una media di 7,2 è
completamente differente da avere una ds di 1,5 su una media di 79,5. Se ragioniamo in termini di
intervallo di variazione (differenza tra valore minimo e valore massimo) il concetto forse è ancora
più immediato. Anche in questo caso il range è lo stesso (A: 9-5 = 4; B: 82-78 = 4) e questo porta
ad avere uguali valori di ds (che è una misura di variabilità intorno al valore medio) ma, anche qui,
un intervallo di variazione di 4 unità su una media di 7,2 non ha lo stesso significato di 4 unità su
una media di 79,5. Per fare un’analogia mi sembra ovvio che nessuno direbbe mai che un aumento
di 400 euro su uno stipendio di 600 euro è uguale ad un aumento di 400 euro su uno stipendio di
6.000 euro! E’ chiaro quindi che: i valori di ds vanno sempre interpretati in rapporto al ordine
di grandezza della media che li ha generati. Diversamente, i valori di CV, essendo dei valori in
percentuale e “normalizzati”, ovvero ottenuti rapportando la variabilità (espressa come ds) al
valore della media che l’ha generata (CV = ds/media * 100) sono svincolati da questa grandezza e
quindi utilizzabili senza errori di interpretazione per fare confronti. Risulta pertanto che il
campione A, pur avendo la stessa ds (1,5) di B, è circa 10 volte più variabile del campione B (CVA
= 20,5 vs. CVB = 1,9). In effetti il campione A, dal punto di vista della variabilità (e quindi
dell’omogeneità), è paragonabile al campione C. In termini di intervallo di variazione, questo
equivale a dire che le 4 unità (differenza tra valore minimo e massimo) di A equivalgono alle 42
unità (92 –50 = 42) del campione C. Come vedi, in questo caso l’ordine di grandezza delle due
medie, pur differendo sempre di un fattore 10 (A= 7,2; C= 72,2) non influenza il valore del CV
(essendo appunto un valore di variabilità normalizzato sulla media). Il confronto tra due valori di
CV, pertanto, è immediato e senza possibilità di cattive interpretazioni.
Se volessimo, invece, paragonare due o più gruppi sulla base dei loro ds bisognerebbe tenere conto
dei valori medi che li hanno generati. In questo esempio, dato che le medie di A e di B differiscono
di un fattore 10, per dire che i due gruppi hanno la stessa omogeneità non devono avere lo stesso
valore di ds ma occorre che B abbia un valore di ds 10 volte più grande di quello di A (che è poi
quello osservato in C: CVC = 14,9; CVA=1,5).
35
2.3. INDICI DI FORMA: SIMMETRIA E CURTOSI
Gli indici di forma di una distribuzione riguardano due caratteristiche:
a) la simmetria (skewness);
b) la curtosi (kurtosis).
l’uso degli indici di forma non rientra nei test d’inferenza, ma è bene calcolare sempre questi
indici prima di eseguire i test statistici che prevedono, tra le assunzioni, una distribuzione
normale dei dati.
Una variabile continua , che per definizione può assumere infiniti valori di R o all’interno
dell’intervallo in cui è definita, avrà una distribuzione normale quando a ciascun valore è possibile
associare una densità di probabilità 5 che è data dalla seguente funzione:
dove  e  sono rispettivamente la media di popolazione e la deviazione standard
Senza entrare nel merito dello sviluppo di questa funzione, ci limiteremo ad elencare alcune delle
proprietà della distribuzione normale:
 le misure di tendenza centrale, media, moda e mediana, coincidono;
 i valori osservati mostrano percentuali comprese nei seguenti intervalli:
media+ 1ds= 0,6826
media+ 2ds= 0,9544
media+ 3ds= 0,9974
68,26%
95,44%
99,74%
oppure
media+ 0,67d s=
media+ 1,96ds=
media+ 2,57ds=
0,5
0,95
0,99
50,0%
95,0%
99,0%
5
Data la difficoltà di calcolare questa densità di probabilità, si può ricorrere all’uso di valori già tabulati riportati in
apposite tabelle. Occorre comunque considerare che, essendo questa funzione definita da  e  esistono tante
distribuzioni normali quante sono le combinazioni dei possibili valori di questi due parametri per cui si ricorre all’uso
della distribuzione normale standardizzata che è caratterizzata da avere  e  =1. Per fare questo occorre quindi
standardizzare la variabile oggetto di studio e ciò si ottiene sottraendo ad ogni dato il valore medio e dividendo per la
relativa deviazione standard. I dati così ottenuti non saranno più espressi con le unità di misura originarie ma in unità di
deviazioni standard.
36
a) Simmetria (skewness)
In teoria delle probabilità una distribuzione di probabilità è simmetrica quando la sua funzione di
probabilità P (nel caso discreto) o la sua funzione di densità di probabilità (nel caso continuo) siano
simmetriche rispetto ad un valore fissato x0:
P(x0 + x) = P(x0 − x)
Una distribuzione normale risulta pertanto essere simmetrica rispetto ai valori di tendenza
centrale. Deviazioni dalla distribuzione normale producono distribuzioni asimmetriche.
Poiché difficilmente dati desunti da osservazioni biologiche sono distribuiti normalmente è
necessario valutare, attraverso opportuni indici e test, di quanto i nostri dati si discostano da un
ipotetica distribuzione normale. Esistono diversi indici di asimmetria; per ognuno di essi il valore 0
fornisce una condizione necessaria, ma non sufficiente, affinché una distribuzione sia simmetrica.
(Ogni distribuzione simmetrica ha indice 0, ma esistono anche distribuzioni non simmetriche con
indice 0).
Gli indici di simmetria possono essere raggruppati in due tipologie:
a) indici dell'asimmetria assoluta
b) indici di asimmetria relativa.
Gli indici di asimmetria assoluta si esprimono con le distanze tra la media e la moda o la
mediana. Una misura assoluta, usata frequentemente, è la differenza (d) tra la media e la moda:
d = media - moda
La differenza è:
d = 0, se la curva è simmetrica;
d > 0, se la curva ha asimmetria positiva (o destra : media > mediana > moda);
d < 0, se la curva ha asimmetria negativa (o sinistra : media < mediana < moda).
- l'asimmetria è detta destra (più correttamente, a destra) quando i valori che si allontanano
maggiormente dalla media sono quelli più elevati, collocate a destra dei valori centrali (figura
15); nell’asimmetria destra, la successione delle 3 misure di tendenza centrale da sinistra a
destra è: moda, mediana, media;
- l'asimmetria è detta sinistra (o a sinistra) quando i valori estremi, quelli più distanti dalla
media, sono quelli minori (figura 15). Nell’asimmetria sinistra, la successione delle tre misure
di tendenza centrale da sinistra a destra è invertita rispetto all'ordine precedente: media,
mediana, moda.
Figura15. Asimmetria destra o positiva (d>0)
Figura 16. Asimmetria sinistra o negativa (d<0)
E' possibile valutare in modo molto semplice ed empirico il grado d’asimmetria di una
distribuzione; essa è ritenuta moderata se Moda = Media - 3(Media - Mediana)
ed è ritenuta forte se è sensibilmente maggiore di tale valore.
Per ottenere una misura del grado di asimmetria, che possa essere confrontato con quello di
37
qualsiasi altra distribuzione in quanto indipendente dalle dimensioni delle misure, occorre
utilizzare indici relativi, quali: skewness di Pearson;γ1 di Fisher; β1 di Pearson.
L’indice attualmente più usato è il γ1 di Fisher che si basa sul momento 6 centrale di ordine 3 (m3)
standardizzato, ovvero diviso per la deviazione standard elevata al cubo.
Esso è nullo per distribuzioni simmetriche 7 e differiscono da zero quando le distribuzioni non
sono simmetriche; quanto maggiore è l'asimmetria, tanto più il valore del momento centrale è
grande. Inoltre, in distribuzioni con asimmetria destra ha un valore positivo ed in quelle con
asimmetria sinistra ha un valore negativo.
Quando la simmetria è stimate non sulla popolazione (γ1 ) ma su un campione (quindi indicata
con il corrispondente simbolo latino g1 ), g1 , in valore assoluto, tende a sottostimare γ1 ( |g1| < |γ1|
).
Tenendo anche conto che i dati campionari sono spesso raggruppati in classi, il momento centrale
di 3 ordine risulta:
dove
- k = numero di classi di frequenza
- f i = frequenza della classe i,
- x i = valore centrale della classe i
- x = media generale del campione
- s = deviazione standard del campione
Nel caso i dati non siano raggruppati in classi si considerano gli scarti dei singoli valori dalla media generale.
Il calcolo dell’indice risulta pertanto essere:
Per valutare il grado di asimmetria, è convenzione che si abbia una distribuzione ad asimmetria
forte 8 , quando |γ1| o g1 > 1;
moderata, quando ½ < |γ1| o g1 < 1;
trascurabile, quando 0 < |γ1| o g1 < 1/2.
6
Il momento (m) di ordine k rispetto ad un punto c (origine) è definito come la media della k-esima potenza dello scarto
dal punto c ed è quindi uguale a
Si dice momento centrale quando il punto è la media μ .
Il momento centrale di ordine 1 (k=1) é la somma degli scarti dalla media, quindi è uguale a 0.
Il momento centrale di ordine 2 (k = 2) è la varianza.
I momenti centrali di ordine dispari (m3, m5,...) sono utilizzati per indici di simmetria.
7
Non sempre vale l'inverso, ovvero non sempre un indice di asimmetria uguale a 0 caratterizza la simmetria perfetta di
una distribuzione di dati.
8
In questo caso si rigetta l’assunzione di normalità della distribuzione dei dati.
38
Esistono infine diversi test statistici che valutano in modo più accurato quanto una serie di dati si
discosti da una distribuzione normale. Tra questi il più diffuso è il test di Kolmogorov-Smirnov
Per la trattazione di questo test si può consultare:Biometry (S. Sokal & J. Rohlf). Altri test utilizzati
sono quelli proposti da Snedecor e Cochran nel loro testo Statistical Methods, per valutare la
significatività di g1 in campioni di grandi dimensioni (oltre 100 dati) e riportati sul manuale di
statistica di Soliani.
Esistono in statistica altre curve di distribuzione delle variabili, collegate con la distribuzione
normale, quali la distribuzione del  2 (chi quadrato), del t di Student e del F di Fisher, la cui
funzione di probabilità viene utilizzata nei test di verifica delle ipotesi e nei confronti tra medie
ottenute da differenti popolazioni campionarie. La loro trattazione verrà fatta pertanto nel prossimo
capitolo.
b) Curtosi (kurtosis)
Quando si descrive la forma delle curve unimodali 9 simmetriche, con il termine curtosi (dal
greco kurtos, che significa curvo o convesso) si intende il grado di appiattimento, rispetto alla
curva normale o gaussiana.
Nella valutazione della curtosi, una distribuzione unimodale simmetrica è detta:
- mesocurtica , quando ha forma uguale alla distribuzione normale;
- leptocurtica (figura 23), quando ha un eccesso di frequenza delle classi centrali, una frequenza
minore delle classi intermedie ed una presenza maggiore delle classi estreme; è quindi una
distribuzione più alta al centro (appuntita) e agli estremi e più bassa ai fianchi; la caratteristica più
evidente è l'eccesso di frequenza dei valori centrali. Una curva di frequenza più alta significa che
l'aumento della varianza è dovuto non a frequenti deviazioni modeste ma a deviazioni rare estreme
- platicurtica (figura 24), quando rispetto alla normale presenta una frequenza minore delle
classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie; è quindi
una distribuzione più bassa al centro (piatta) e agli estremi mentre è più alta ai fianchi; la
caratteristica più evidente è il numero più ridotto di valori centrali.
Figura 17. Distribuzione leptocurtica
rispetto alla mesocurtica
Figura 18. Distribuzione platicurtica
rispetto alla mesocurtica
L'indice di curtosi è il risultato di un confronto, è un rapporto; quindi, è una misura
adimensionale.
9
Il calcolo del coefficiente di curtosi ha senso solo nelle distribuzioni monomodali.
39
I due indici di curtosi più utilizzati sono analoghi a quelli di asimmetria: l'indice γ2 di Fisher (g2
in una distruzione di dati osservati); l'indice β2 di Pearson (b2.in una distribuzione di dati
osservati); l'indice γ2 di Fisher (g2.in una distribuzione di dati osservati)
L'indice γ2 di Fisher è fondato sul momento centrale di ordine 4 (m4) standardizzato, ovvero
diviso per la deviazione standard elevata alla quarta
Se la distribuzione è perfettamente normale, il risultato del calcolo è uguale a 3; è maggiore di 3 se
la distribuzione è leptocurtica, mentre è minore di 3 se la distribuzione è platicurtica. Per spostare la
variazione attorno allo 0, l'indice di curtosi di Fisher è scritto come
Ovviamente, il risultato diviene:
0, se la distribuzione è normale o mesocurtica,
positivo, se la distribuzione è leptocurtica o ipernormale,
negativo, se la distribuzione è platicurtica o iponormale
Mentre l’indice γ1 (asimmetria) può variare tra ± ∞, l’indice γ2 può variare tra - 2 e + ∞; non è
quindi possibile associare ad esso una gradazione in valore assoluto che valuti l’intensità della
curtosi.Come già precedentemente discusso, le condizioni che γ1 e γ2 = 0 sono necessarie ma non
sufficienti, affinché la curva sia simmetrica e mesocurtica.
Analogamente per quanto avveniva per l’indice di simmetria, quando la curtosi è stimata non sulla
popolazione (γ2) ma su un campione (quindi indicata con il corrispondenei simbolo latino g2),
g2 in valore assoluto tende a sottostimare γ2 ( |g2| < |γ2| ); quindi la formula viene corretta nel
seguente modo:
Dove x4 è il momento centrale di ordine 4 calcolato da una distribuzione di dati in classi
Tutti gli indici presentati, dalle misure di tendenza centrale a quelle di dispersione e di
forma, sono validi sia per variabili discrete che continue, con l'ovvia approssimazione data
dall’eventuale raggruppamento in classi.
I valori di g1 e g2 sono adimensionali: in altri termini, il risultato è identico, qualunque sia la
misura utilizzata o la trasformazione applicata alla variabile X.
Ricordiamo infine che l’indice di curtosi, così come quello di simmetria, non rappresenta una buona
stima del corrispondente parametro della popolazione se calcolato su piccoli campioni. Ciò
nonostante, anche in presenza di piccoli campioni, valori elevati di tali indicatori devono far
insorgere nel ricercatore il dubbio che le eventuali ipotesi di normalità non siano verificate.
40
2.4. MISURE DI DISPERSIONE O VARIABILITA' DI PARAMETRI CAMPIONARI
Abbiamo già detto che quando studiamo una determinata variabile il nostro interesse è quello di
stabilirne alcuni valori parametrici che definisco quella variabile all’interno di tutta la popolazione
esistente. Dato che questa rilevazione è pressoché impossibile nella quasi totalità dei casi, si ricorre
a stime di questi parametri utilizzando dati derivanti da campionamenti (ovvero da una porzione
limitata dell’intera popolazione). Nel fare questo lo sperimentatore è sempre soggetto a commettere
delle approssimazioni dovute ad errori statistici 10 .

L’errore standard (standard error, in inglese) della media. Come la deviazione standard è
una misura di dispersione dei dati intorno alla loro media, l’errore standard è la misura della
dispersione delle varie medie campionarie ( x ), calcolate su un numero n di osservazioni,
intorno alla media parametrica o di popolazione ().
Se volessimo, per esempio, stabilire l’altezza media di bambini di 8 anni dovremmo ricorrere ad
una serie di campionamenti i quali ci daranno tutti dei valori medi differenti, che rappresentano una
stima più o meno precisa della reale media parametrica, in quanto soggetti ad un errore statistico.
Risulta pertanto evidente che tale errore sarà tanto maggiore quanto più grande è la variabilità dei
dati che caratterizza una determinata variabile (l’altezza del nostro esempio) e quanto più piccolo è
il numero di individui utilizzati nel campionamento. L’errore standard es viene quindi calcolato in
base alla seguente formula:
Utilizzando i dati dell’esempio 7.1. risulta: es = 1,72 /
6 = 0,70.
L’errore standard, che non si limita solo alla media ma anche ad altri parametri, è una misura
importante usata spesso per definire la relativa precisione dei parametri investigati (esempio,
l’intervallo di confidenza di una media) e per eseguire il confronto tra parametri desunti da
differenti popolazioni.

Intervallo di confidenza IC (o limite fiduciale) della media è una misura della
precisione con cui si è ottenuta una determinata media campionaria, in quanto più ampio è
l’intervallo di confidenza e meno precisa è la stima della media parametrica ottenibile tramite
il computo della media campionaria. Per stimare questa grandezza bisogna ricorre al teorema
del limite centrale, che sta alla base di tutta la statistica inferenziale. Questo teorema dimostra che
la distribuzione campionaria delle medie si approssima ad una distribuzione normale,
qualunque sia la forma della distribuzione della popolazione (quando si considera campioni di
ampiezza>30). E’ quindi possibile sfruttare le proprietà della distribuzione normale per la stima
dei parametri o per la verifica delle ipotesi. In particolare se consideriamo il fatto che in una
distribuzione normale il 95% dei dati è compreso in un intervallo definito dalla media parametrica
() e da ±1,96 unità di deviazione standard (che è una misura della dispersione dei dati intorno
alla media), possiamo traslare questa proprietà dai dati alle medie campionare e dire che in una
distribuzione campionaria di medie, il 95% delle medie è compreso in un intervallo definito dalla
media parametrica () e da ±1,96 unità di errore standard (esche è una misura della dispersione dei
dati intorno alla media). In altre parole si potrebbe anche dire che data una media campionaria ( x ),
10
Col termine errore statistico si intende tutto ciò che non è sotto controllo dello sperimentatore ma dovuto
esclusivamente al caso, ovvero quella parte di variabilità intrinseca in tutte le variabili biologiche.
41
abbiamo una probabilità del 95% che la vera media ( ,media parametrica) sia compresa in un
intervallo x ±1,96*es. Quando però si opera su medie campionarie il ricorso alla distribuzione
normale presenta due limitazioni: i) spesso i campioni sono di piccole dimensioni (la curva della
distribuzione normale è definita per - < x < + ; ii) non si conosce l’errore standard della media
parametrica ma solo una sua stima in quanto calcolato sulla deviazione standard campionaria (s).
In questi casi si ricorre pertanto alla distribuzione t di Student (pseudonimo del chimico inglese
Gosset che ne propose l’applicazione al confronto tra medie campionarie), che è una curva
simmetrica, leggermente più bassa della normale e con frequenze maggiori agli estremi,
quando il numero di gradi di libertà (ν= n - 1) è molto piccolo 11 . Ovviamente per ν che tende
all’infinito, la curva tende alla normale, in quanto la stima dei parametri campionari coincide con i
valori dei parametri di popolazione.
Fig. 19. Distribuzione di t per ν= 1, 9 e 
Come si può osservare non esiste un'unica curva ma una famiglia di curve definite dal rispettivo
valore di ν.
Il calcolo dell’intervallo di confidenza di una media diventa pertanto
IC =
x
± t(, v)*es
dove t(, v) è il valore di t tabulato, per una determinato livello di probabilità   ed un
determinato valore di ν
Utilizzando i dati dell’esempio 7.1., dove abbiamo: x = 7,16; n = 6, da cui ν= 5; es = 0,70; il
calcolo dell’intervallo di confidenza è il seguente:
95% IC = 7,16 ± 2,571* 0,70 = 7,16 ± 1,7797
99% IC = 7,16 ± 4,032* 0,70 = 7,16 ± 2,8224
11
Si ricorda che aggiungendo (sottraendo, moltiplicando o dividendo) una costante alle medie la distribuzione
simmetrica non cambia, per cui anche le differenze delle medie dalla media parametrica ( Y -), come pure la relativa
standardizzazione ([ Y -), è una curva simmetrica. La nuova distribuzione è più ampia della corrispondente
distribuzione normale standardizzata, in quanto il denominatore è l’errore standard delle medie campionarie invece che
l’errore standard parametrico, per cui sarà a volte più piccolo, a volte più grande rispetto al valore atteso.
12
In genere si scelgono valori di  = 0,05 oppure = 0,01, nel caso si voglia un risultato più conservativo.
42
Possiamo quindi dire che la vera media della variabile oggetto di studio è compresa, con una
probabilità del 95%, tra 5,36 e 8,96; oppure tra 4,34 e 9,98, se vogliamo essere più cauti
(conservativi)e scegliamo quindi un livello di probabilità del 99%.
43
CAPITOLO 3 - LA VERIFICA DELL’IPOTESI
3.1. Il test statistico della verifica dell’ipotesi è un processo logico-matematico che porta alla
conclusione di non poter respingere oppure di poter respingere l'ipotesi della casualità, mediante il
calcolo di probabilità specifiche di commettere un errore con queste affermazioni.
L’ipotesi che il risultato ottenuto con i dati sperimentali raccolti sia dovuto solo al caso è
chiamata ipotesi nulla ed è indicata con H0. Di norma, con essa si afferma che le differenze tra due
o più gruppi, quelle tra un gruppo e il valore atteso oppure le tendenze riscontrate siano imputabili
essenzialmente al caso.
Per esempio, confrontando il tempo di guarigione tra due gruppi di ammalati ai quali siano stati
somministrati due farmaci differenti, con l’ipotesi nulla H0 si sostiene che il risultato ottenuto non
dipende da una effettiva differenza tra i due principi attivi, ma che esso è dovuto al caso. Se
nell’esperimento il farmaco A è risultato migliore del farmaco B, se si accetta l’ipotesi nulla
implicitamente si afferma che, con un nuovo esperimento nelle stesse condizioni, si potrebbe
ottenere il risultato opposto.
Nell’apprendimento e nell’uso della statistica, il primo passo è comprendere come solamente una
corretta applicazione del campionamento e una scelta appropriata dei test permettano di
rispondere alla domanda inferenziale di verifica dell'ipotesi nulla. Con essa si pone il seguente
quesito:
" Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano dovute a fattori
esclusivamente casuali, quale è la probabilità che fra tutte le alternative possibili si presenti
proprio la situazione descritta dai dati raccolti o una ancora più estrema?"
Se tale probabilità risulta alta, convenzionalmente uguale o superiore al 5%, si imputeranno le
differenze a fattori puramente casuali (accettazione dell’ipotesi nulla).
Al contrario, se la probabilità risulta bassa, inferiore al valore prefissato, si accetta come
verosimile che le differenze siano dovute a fattori non casuali (non accettazione dell’ipotesi
nulla), rientranti tra i criteri che distinguono i gruppi di dati (esempio, animali trattati e non
trattati).
Per chiarire questo concetto è bene fare un esempio. Se gettiamo in aria una moneta per 10 volte
consecutivamente abbiamo le seguenti probabilità che esca testa:
testa
croce
tot. lanci
P (%)
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
10
10
10
10
10
10
10
10
10
10
10
0,10
0,98
4,39
11,72
20,51
24,61
20,51
11,72
4,39
0,98
0,10
100
Ipotesi nulla respinta
Ipotesi nulla accettata
Ipotesi nulla respinta
La probabilità è stata calcolata in base alla distribuzione binomiale dei dati 13
13
In biologia esistono molti casi in cui i dati seguono una distribuzione binaria, ad esempio la segregazione di caratteri
mendeliani che presentano due classi fenotipiche (il sesso).
44
La nostra ipotesi nulla è: in una moneta regolare entrambe le facce hanno la stessa probabilità di
comparire, per cui su 10 lanci dovremmo aspettarci 5 volte testa e 5 volte croce. Alla verifica
sperimentale di questa ipotesi se testa esce un numero di volte comprese tra 3 e 7 possiamo
affermare che la differenza osservata tra il dato sperimentale e quello atteso in base all’ipotesi è
imputabile solo al caso e quindi accettiamo l’ipotesi nulla che si tratti di una moneta regolare.
Diversamente se testa esce un numero di volte compreso tra 8 e 10, oppure tra 2 e 0, dovremmo
respingere l’ipotesi nulla e dire che la differenza tra il dato sperimentale e quello atteso non è
imputabile solo al caso ma ad un fattore causale, ovvero la moneta non è regolare.
Deve essere comunque chiaro che quando si fa una verifica statistica di un ipotesi non si afferma
mai una verità assoluta ma solo la probabilità che i dati osservati siano imputabili ad una
determinata causa e non al caso. Infatti se testa fosse uscita 2 volte (oppure 8) avremmo avuto
ugualmente una probabilità, seppur bassa ovvero inferiore al limite convenzionale del 5%, che
questo risultato potesse essere dovuto al caso e quindi l’ipotesi nulla potrebbe essere ugualmente
vera! Questo implica che nell’accettare o respingere un ipotesi è sempre possibile commettere un
errore. Nell’utilizzare i test statistici per la verifica dell’ipotesi esistono pertanto due tipologie
di errore:
Accettata
Respinta
Ipotesi nulla (H0)
Decisione corretta
Vera
Errore di tipo I
livello di protezione
livello di significatività
P = (1 - )
P=
Decisione corretta
Falsa
Errore di tipo II
livello di significatività potenza
P=
P = (1 - )
Si commette un errore di tipo I, quando si respinge un ipotesi nulla che in effetti è vera;
si commette un errore di tipo II, quando si accetta un ipotesi nulla che in effetti è falsa.
La probabilità di commettere un errore di tipo I viene indicata con e quindi la situazione
complementare (ovvero di non sbagliare, accettando un ipotesi nulla che è vera) ha probabilità
(1 - ). La probabilità di commettere un errore di tipo II, viene invece indicata con  e quindi la
situazione complementare (ovvero di non sbagliare, scartando un ipotesi nulla che è falsa) ha
probabilità (1 - ). Se l’ipotesi nulla è falsa allora qualche altra ipotesi, H1, deve essere vera, ma a
meno che non siamo in grado di specificare questa ipotesi alternativa non è possibile determinare la
probabilità di commetter un errore di tipo II. Spesso, però, non è possibile individuare una semplice
ed unica ipotesi alternativa per cui si considera semplicemente il livello di significatività  , senza
fissare , in quanto si ritiene più opportuno cautelarsi anzitutto nei confronti del tipo di errore che
viene giudicato più grave, ovvero quello di tipo I. Questo valutazione è motivata dal fatto che
mentre il rifiuto di H0 implica che sia vera l’ipotesi alternativa, la sua accettazione implica che
“non ci sono elementi sufficienti per rifiutarla”. Per questo motivo, quando si commentano i dati
osservati sulla base del risultato scaturito dai test di verifica di un ipotesi, sarebbe opportuno non
parlare di ipotesi vera o falsa, ma di evidenze (scarse, insufficienti, discrete, forti…) a favore di una
determinata ipotesi. Infatti nessun risultato è in assoluto impossibile nei confronti di H0 (ma solo
più o meno probabile), quindi ogni volta che la si rifiuta si corre il rischio di fare un errore di tipo I
con una probabilità , o livello di significatività di solito fissato al 5% (0,05) o al 1% (0,01), e per la
stessa ragione ogni volta che si accetta si corre il rischio opposto (errore di tipo II). I test di verifica
dell’ipotesi ci consentono, quindi, di prendere una decisione con una predeterminata probabilità di
sbagliare (livello di significatività , o di non sbagliare, livello di protezione 1 -  ). Test con alto
livello di protezione sono anche detti più conservativi. Per chiarire meglio questi concetti
possiamo ricorrere ad una rappresentazione grafica basata su una distribuzione di probabilità
appropriata alla tipologia dei dati. Assumiamo ora che i dati abbiano una distribuzione binomiale,
esempio, il rapporto dei i due sessi in mammiferi dove H0 è 1: 1 ovvero  = 0,5, e di volere
verificare questa ipotesi utilizzando un campione di n =17 animali.
45
Ciò significa suddividere la distribuzione di probabilità in due aree: area di accettazione, che
comprende tutti i valori accettabili, ovvero quelli che hanno una probabilità > del 2,5% (ovvero del
5% distribuito ugualmente sulle due code della distribuzione), e l’area di rifiuto o regione critica
delimitata da un valore critico. Inoltre potremmo anche postulare un ipotesi alternativa H1 che
preveda uno sbilanciamento a favore di un sesso assumendo un rapporto di 2:1.
Maschi
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
P% di H0
0,000763
0,01297
0,10376
0,518799
1,815796
4,721069
9,442139
14,83765
18,54706
18,54706
14,83765
9,442139
4,721069
1,815796
0,518799
0,10376
0,01297
0,000763

P% di H1
0,099784227
0,850712972
3,413070661
8,558300305
15,02200159
19,58724651
19,64606707
15,4825505
9,705652903
4,867399504
1,952806528
0,62321344
0,156271238
0,030142408
0,004318989
0,000433196
0,00002716
0,00000080
69,28891649
Distribuzione binomiale n = 17
distribuzione di frequenze %
Femmine
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

H0
1-
H1
1-
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
numero di femmine
½
L’area di accettazione include pertanto tutte quelle segregazioni compatibili con H0, ovvero tutte
quelle che possono essere ottenute per caso come scostamento dalla combinazione attesa di 1 a 1
(nel nostro caso quindi 8 o 9 individui di un sesso sul totale di 17 individui). Queste segregazioni
vanno, quale che sia il sesso considerato, da un minimo di 5 ad un massimo di 12 individui; mentre
nell’area di rifiuto si osservano tutte quelle segregazioni che presentano un numero> di 12 o < a 5
(valori critici) individui di uno stesso sesso. Il test che cade nell’intervallo di rifiuto e detto
“significativo” al 5 o al 1% (a seconda del livello di  prescelto), sottintendendo che il campione si
è rilevato in “significato contrasto” con i dati attesi in accordo all’ipotesi fatta. Ad ogni modo anche
se consideriamo le segregazioni che includono valori che vanno da 8 a 12 femmine, ovvero che
sono in accordo con H0, non potremmo dire ugualmente che questa è vera perché avendo avuto
modo di formulare un ipotesi alternativa di un rapporto 2 a 1, ci accorgiamo che questi valori
rientrano tra quelli che mi danno una probabilità di fare un errore di tipo II (accettazione di un
ipotesi falsa) essendo inclusi nell’area di accettazione di questa ipotesi alternativa. La potenza di
questo test (1-), ovvero la possibilità di mettere in evidenza una differenza significativa tra
le due distribuzioni di probabilità relative alle due ipotesi, risulta bassa essendo  (probabilità di
compiere un errore di tipo II) elevato (69,28). Ecco perché, nel caso di una segregazione compresa
in questo intervallo non è corretto dire che H0 è vera, ma certamente possiamo dire che non ci sono
sufficienti motivi per rigettarla, oppure che ci sono buone evidenze a sostegno di questa ipotesi. In
questi casi se si desidera essere molto protetti circa la probabilità di sbagliare rifiutando H0 (errore
di tipo I) ci si dovrà accontentare di un test poco potente, dato che  e  sono interdipendenti.
Diminuire  ovvero passare da una significatività di 0,05 (5%) ad una di 0,01 (1%) quindi
aumentare il livello di protezione (1-significa aumentare (la probabilità di commettere un
errore di tipo II accettando in ipotesi H0 falsa) per cui diminuisce la potenza del test (1-cioè la
probabilità di non sbagliare rifiutando l’ipotesi H0. La sola possibilità di minimizzare sia che ,
ovvero utilizzare un test potente senza perdita di protezione consiste nel distanziare le due
46
distribuzioni definite da H0 e H1, in modo da eliminare o comunque ridurre la regione di
sovrapposizione. Ciò significa diminuire la dispersione delle due distribuzioni, aumentando la
dimensione del campione o adottando una opportuna pianificazione dell’esperimento. Per esempio
se estendiamo lo studio di segregazione a 100 individui otteniamo che le distribuzioni delle due
ipotesi sono completamente separate per quando concerne le rispettive aree di accettazione.
Distribuziome binomiale n = 100
9
distribuzione di probabilità %
8
7
6
5
H0
4
H1
3
2
1
0
0
20
40
60
80
100
120
numero di femmine
E’ lapalissiano che un test statistico aumenta la sua affidabilità in relazione alla grandezza del
campione, però questo ha un costo in termini di tempo e di spesa, senza considerare che spesso
esistono situazioni contingenti che ne limitano le dimensioni. Stabilire la dimensione minima di un
campione, il livello di protezione e la potenza di un test sono comunque procedure importanti per
una corretta analisi di verifica delle ipotesi. Abbiamo già detto che  è usualmente fissato intorno
al 5% o 1%, senza che ciò implichi nessun altra procedura mentre  dipende dalla possibilità di
individuare un ipotesi alternativa. In assenza di tale possibilità si può comunque fissare a priori
anche un livello di e di solito si considera un valore del 20%, che corrisponde quindi ad una
potenza del test del 80%. La dimensione minima invece non può essere fissata a priori ma dipende
dal tipo di indagine che si vuole eseguire, ovvero dalla variabilità intrinseca del campione oggetto di
studio. Ad ogni modo esistono, a seconda del tipo di distribuzione che caratterizza una certa
tipologia di dati, delle dimensioni minime sotto alle quali non è possibile eseguire il test di
verifica dell’ipotesi. Per esempio per una distribuzione binomiale in cui le due possibili situazioni
hanno la stessa possibilità di realizzarsi la numerosità (n) del campione non può essere < 5. Con
4 osservazioni, nessuna combinazione cade al di fuori della regione critica ( per 0 : 4 o viceversa P
= 6,25%) per cui l’ipotesi nulla è sempre vera!
Il calcolo della dimensione ottimale di un campione, su cui si siano eseguite misurazioni di variabili
continue, richiede spesso procedure di calcolo iterativo che comportano passaggi matematici
laboriosi, per cui è meglio affidarsi ad alcuni software in commercio e scaricabili gratuitamente. Un
calcolatore di potenza e delle dimensioni di un campione si trova su:
http://www.dssresearch.com/toolkit/spcalc/power_p1.asp
Tutte le statistiche descrittive illustrate in questi capitoli possono essere eseguite con excel
selezionando dal menù strumenti l’opzione Analisi dati e indi l’opzione Statistica descrittiva.
47
Lo schema seguente riassume i vari passaggi logici che sono necessari nello svolgimento di un test
d’inferenza
PROCEDURA PER UN TEST D’INFERENZA
Dal Campione variabile all’Universo. La logica o filosofia scientifica per la scoperta delle leggi
della natura
I – IPOTESI
Ipotesi nulla, ipotesi alternativa
II - RACCOLTA DEI DATI
Tipo di scala; caratteristiche della distribuzione dei dati
III - SCELTA DEL TEST
Sulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei dati
IV - RISULTATO DEL TEST- PROBABILITA'
Probabilità di ottenere quel risultato, nella condizione espressa dall'ipotesi nulla
V – DECISIONE - SCELTA TRA LE DUE IPOTESI
Probabilità α
VI – ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTO
Potenza a posteriori e a priori, probabilità β
48

LEZIONI DI STATISTCA - Home SCIENZE AMBIENTALI

Transcript

Documenti analoghi

Statistica con R - Dipartimento di Matematica e Informatica

Cenni di Statistica NON parametrica

Palazzo della Borsa

tab. 1. Test di Cochran tè/assenza: socializzazione

metodi quantitativi per le decisioni aziendali

Analisi dei dati. Tecniche multivariate per la ricerca psicologica e

Elementi di Statistica

1. elementi di statistica descrittiva per distribuzioni univariate

Statistica - DSE - Università degli Studi di Verona

Nasce in Cattolica il Laboratorio di Statistica Applicata alle decisioni

pdf (it, 55 KB, 2/23/10) - DSE - Università degli Studi di Verona

Variabili e scale di misura