Slide distribuzioni teoriche - Dipartimento di Scienze Sociali ed

Transcript

Slide distribuzioni teoriche - Dipartimento di Scienze Sociali ed
Slide Cerbara parte1 5
Le distribuzioni teoriche
Le distribuzioni teoriche
I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto
della statistica, non sono retti da leggi matematiche. Però dalle rilevazioni statistiche
sui collettivi reali si ottengono spesso distribuzioni i cui grafici presentano andamenti
molto regolari che ricordano quelli di funzioni matematiche ben note. Queste funzioni
possono costituire soltanto degli strumenti utili che, con le loro proprietà, possono far
luce sulle caratteri- stiche dei fenomeni oggetto di studio. Perciò compito dello
statistico è quello di determinare funzioni matematiche che si adattino
soddisfacentemente alle distribuzioni osservate e che possano dare informazioni
aggiuntive rispetto a quelle che sono fornite dalle sintesi delle distribuzioni osservate.
Le distribuzioni teoriche
Distinguiamo tra distribuzione empirica e distribuzione teorica.
Diciamo empirica ogni distribuzione che è il risultato dell’osservazione di un
collettivo empirico, ossia di un collettivo che è costituito da unità che possono
essere effettivamente osservate in pratica.
Diciamo invece distribuzione teorica o modello matematico una distribuzione che
sia espressa da una funzione matematica.
Una distribuzione teorica è espressa generalmente da una funzione, reale di variabile
reale, per lo più nella forma esplicita y=f(x)
Una differenza fondamentale tra le distribuzioni empiriche e le distribuzioni teoriche
sta nel fatto che si può osservare solo un numero finito di unità, per cui le
distribuzioni empiriche non possono che essere finite, mentre quelle teoriche
generalmente sono infinite.
Le distribuzioni teoriche
Quando abbiamo trattato delle rappresentazioni grafiche, abbiamo visto che una
distribuzione secondo un carattere quantitativo continuo, le cui modalità sono
classi, va rappresentata mediante un istogramma, ossia mediante un insieme di
rettangoli, ognuno dei quali ha per base un segmento di lunghezza proporzionale
all’ampiezza della classe e altezza tale che l’area del rettangolo sia uguale alla
frequenza che nella distribuzione è associata a quella classe.
Dunque l’altezza del generico rettangolo che costituisce l’istogramma è il rapporto fra
la frequenza assoluta della classe e l’ampiezza della classe stessa.
yi è il numero di unità che competono ad ogni
sottoclasse di ampiezza unitaria
Le distribuzioni teoriche
Esempio. Una distribuzione di stature
Le distribuzioni teoriche
Osserviamo che l’area dell’istogramma è data della somma delle aree dei singoli
rettangoli. Ogni rettangolo ha area ni per cui la somma è la somma delle
frequenze, quindi vale n.
Le ordinate yi sono chiamate densità della frequenza assoluta del carattere X nella
classe i-ma.
Osserviamo che quando parliamo di densità della frequenza assoluta del carattere X in
una classe, supponiamo che le unità in tale classe siano uniformemente distribuite
nella classe (ipotesi che abbiamo fatto anche altre volte quando abbiamo parlato
di classi)
Se consideriamo classi sempre più piccole, fino ad arrivare ad una dimensione della
classe che è molto vicino allo zero, la successione dei rettangoli diventa sempre più
fine, fino a disegnare una vera e propria curva.
Le distribuzioni teoriche
Allora, sia y=n(x) l’equazione di tale curva (con n(x)≥0); essa è detta funzione di
densità delle frequenze assolute e la curva che la rappresenta graficamente è
chiamata curva di densità delle frequenze assolute.
Le distribuzioni teoriche
Indicando con dx l’ampiezza
delle classi e con n(x)dx
l’area dei rettangoli e
dunque la frequenza assoluta
di quella classe, si ottiene la
curva di densità. dx è un valore
talmente piccolo che è detto
infinitesimo. Se l e L sono gli
estremi del carattere
quantitativo, entrambi finiti o infiniti, o uno finito e l’altro infinito, il numero
complessivo delle unità osservate è dato dalla misura della superficie delimitata
dalla curva di densità, dall’asse x, e dalle due rette parallele x=l e x=L.
Le distribuzioni teoriche
Tale area può essere considerata (grossolanamente) data dalla somma delle infinite
aree infinitesime dei rettangoli di altezze n(x) e larghezza dx. Questa area è detta
integrale definito fra l e L della funzione n(x) ed è indicata nel modo seguente
Se invece di usare nella trattazione le frequenze assolute, avessimo fatto ricorso alle
frequenze relative, saremmo giunti alla curva y=f(x) dove f(x), che deve assumere
valori non negativi, è la funzione di densità delle frequenze relative.
Le distribuzioni teoriche
Dalla proporzionalità ni=nfi segue la stessa proporzionalità fra n(x) e f(x) e quindi
abbiamo
E quindi
Questa f(x) è chiamata funzione di densità
Così come abbiamo visto per le distribuzioni empiriche, possiamo fare riferimento alle
frequenze cumulate, sia assolute che relative, e anche le funzioni teoriche possono
essere espresse in forma cumulata.
Le distribuzioni teoriche
Definiamo funzione cumulativa o funzione di ripartizione per le frequenze assolute la
funzione:
Per le frequenze relative la funzione di ripartizione o cumulativa F(x) è definita da:
e indica l’aliquota sul totale dei casi in cui il carattere assume valori compresi fra l e x.
Abbiamo anche che F(l)=0 e F(L)=1
Le distribuzioni teoriche
Anche per queste distribuzioni teoriche si possono calcolare i valori caratteristici,
come media aritmetica e varianza. Ricordando che
si può scrivere la media aritmetica come:
Ricordiamo anche le formule dello scostamento quadratico medio e della varianza
anche nel caso delle distribuzioni teoriche si può scrivere
Le distribuzioni teoriche
La più importante distribuzione teorica è la distribuzione normale
Essa rappresenta tutti quei casi, che troviamo spesso empiricamente, in cui valori
estremi sono i più rari, quelli centrali sono i più numerosi e, man mano che si passa
dai valori più lontani ai valori più vicini a quelli centrali, la frequenza di questi valori
va crescendo.
Esistono anche altre distribuzioni teoriche che si comportano in questo modo, ma
quella più usata è stata individuata per primo dal de Moivre nel 1733 e ritrovata
nel 1809 dal Gauss nell’ambito della teoria degli errori. Essa perciò è chiamata
anche curva di Gauss, o gaussiana o curva degli errori accidentali. La
denominazione di curva degli errori accidentali deriva dall’ipotesi che essa
rappresenti la distribuzione degli errori accidentali commessi nelle misure ripetute
un gran numero di volte di una medesima grandezza.
Esempio. Ha questo andamento la
distribuzione, secondo la statura
(misurata in centimetri), di 6.080
alunni delle scuole del Lazio, di 8
anni nel 1999 (Fonte: Inran. Istituto
Nazionale di Ricerca per gli Alimenti
e la Nutrizione).
Le distribuzioni teoriche
Esempio. Ha questo
andamento la
distribuzione,
secondo la statura
(misurata in
centimetri), di 6.080
alunni delle scuole del
Lazio, di 8
anni nel 1999 (Fonte:
Inran).
Le distribuzioni teoriche
Il numero delle curve normali è infinitamente grande, tante quante sono coppie di
valori della media e dello scostamento quadratico medio.
Per ognuna di queste curve normali,
la funzione di densità delle frequenze relative è
che è definita in tutto l’asse reale
e quindi, dal momento che la funzione
rappresenta le frequenze relative, si ha che
La funzione di ripartizione o cumulativa della è
Le distribuzioni teoriche
Per la distribuzione normale valgono alcune proprietà fondamentali:
● è asintotica all’asse x nei
valori estremi del suo
campo di definizione,
● è simmetrica rispetto al
valore centrale
● cresce fino al valore
centrale e poi decresce
fino allo zero
● moda, mediana e media
aritmetica coincidono
● ha due flessi, uno ascendente e uno discendente, in corrispondenza di due valori
che dipendono dalla media e dallo scostamento quadratico medio.
Le distribuzioni teoriche
Abbiamo detto che la normale è caratterizzata dalla media e dallo scostamento
quadratico medio. Se variamo solo la media, otteniamo una serie di normali il cui
valore centrale dipende dalla media, ma la forma di ciascuna normale rimane
invariata
Le distribuzioni teoriche
Se invece la media rimane costante
e varia σ, tutte le infinite curve che
possiamo avere al variare di σ hanno
lo stesso asse di simmetria, ma sono
più o meno appiattite, e il loro
appiattimento cresce al crescere
di σ
Le distribuzioni teoriche
Vari sono i problemi che si risolvono usando le distribuzioni normali.
Un primo problema, che possiamo risolvere, è quello di calcolare la frequenza relativa
delle unità che, per una distribuzione normale N(x;σ) di media aritmetica x e
scostamento quadratico medio σ, presentano valori del carattere X compresi fra x1
e x2, dove x1 e x2 (x1<x2) sono due valori qualunque, finiti o infiniti, dell’asse x.
Tale frequenza è
Oppure determinare il punto x’ dell’asse x per il quale la frequenza relativa è pari ad
un numero α
dove α è un numero non negativo e non superiore ad 1
Le distribuzioni teoriche
Un ruolo molto importante fra le infinite distribuzioni normali è svolto dalla
distribuzione normale standardizzata che ha media aritmetica uguale a 0 e
scostamento quadratico medio uguale a 1, ossia dalla distribuzione N(0;1)
La relativa funzione di ripartizione è
Dato che la distribuzione normale standardizzata ha media 0 e varianza 1, essa ha
media, moda e mediana coincidenti con l’origine, mentre i flessi della funzione di
densità sono assunti in ±1.
Le distribuzioni teoriche
Quando i computer e tutti gli elaboratori elettronici di cui disponiamo oggi non
esistevano, la curva normale standardizzata era l’unica utilizzata, perché il calcolo
degli integrali delle
curve normali qualunque
risultavano troppo complicati,
mentre della curva N(0,1)
esistevano delle apposite
tavole numeriche che
aiutavano nei calcoli
senza veramente
effettuarli.
Es. G(0.12)=0.54380
G(v)=1-G(|v|) per v<0
Le distribuzioni teoriche
Questa tabella aiuta a
trovare v in corrispondenza
dei valori di G superiori
a 0,5.
Es. a G=0.543
corrisponde v=0,105