Slide distribuzioni teoriche - Dipartimento di Scienze Sociali ed
Transcript
Slide distribuzioni teoriche - Dipartimento di Scienze Sociali ed
Slide Cerbara parte1 5 Le distribuzioni teoriche Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle rilevazioni statistiche sui collettivi reali si ottengono spesso distribuzioni i cui grafici presentano andamenti molto regolari che ricordano quelli di funzioni matematiche ben note. Queste funzioni possono costituire soltanto degli strumenti utili che, con le loro proprietà, possono far luce sulle caratteri- stiche dei fenomeni oggetto di studio. Perciò compito dello statistico è quello di determinare funzioni matematiche che si adattino soddisfacentemente alle distribuzioni osservate e che possano dare informazioni aggiuntive rispetto a quelle che sono fornite dalle sintesi delle distribuzioni osservate. Le distribuzioni teoriche Distinguiamo tra distribuzione empirica e distribuzione teorica. Diciamo empirica ogni distribuzione che è il risultato dell’osservazione di un collettivo empirico, ossia di un collettivo che è costituito da unità che possono essere effettivamente osservate in pratica. Diciamo invece distribuzione teorica o modello matematico una distribuzione che sia espressa da una funzione matematica. Una distribuzione teorica è espressa generalmente da una funzione, reale di variabile reale, per lo più nella forma esplicita y=f(x) Una differenza fondamentale tra le distribuzioni empiriche e le distribuzioni teoriche sta nel fatto che si può osservare solo un numero finito di unità, per cui le distribuzioni empiriche non possono che essere finite, mentre quelle teoriche generalmente sono infinite. Le distribuzioni teoriche Quando abbiamo trattato delle rappresentazioni grafiche, abbiamo visto che una distribuzione secondo un carattere quantitativo continuo, le cui modalità sono classi, va rappresentata mediante un istogramma, ossia mediante un insieme di rettangoli, ognuno dei quali ha per base un segmento di lunghezza proporzionale all’ampiezza della classe e altezza tale che l’area del rettangolo sia uguale alla frequenza che nella distribuzione è associata a quella classe. Dunque l’altezza del generico rettangolo che costituisce l’istogramma è il rapporto fra la frequenza assoluta della classe e l’ampiezza della classe stessa. yi è il numero di unità che competono ad ogni sottoclasse di ampiezza unitaria Le distribuzioni teoriche Esempio. Una distribuzione di stature Le distribuzioni teoriche Osserviamo che l’area dell’istogramma è data della somma delle aree dei singoli rettangoli. Ogni rettangolo ha area ni per cui la somma è la somma delle frequenze, quindi vale n. Le ordinate yi sono chiamate densità della frequenza assoluta del carattere X nella classe i-ma. Osserviamo che quando parliamo di densità della frequenza assoluta del carattere X in una classe, supponiamo che le unità in tale classe siano uniformemente distribuite nella classe (ipotesi che abbiamo fatto anche altre volte quando abbiamo parlato di classi) Se consideriamo classi sempre più piccole, fino ad arrivare ad una dimensione della classe che è molto vicino allo zero, la successione dei rettangoli diventa sempre più fine, fino a disegnare una vera e propria curva. Le distribuzioni teoriche Allora, sia y=n(x) l’equazione di tale curva (con n(x)≥0); essa è detta funzione di densità delle frequenze assolute e la curva che la rappresenta graficamente è chiamata curva di densità delle frequenze assolute. Le distribuzioni teoriche Indicando con dx l’ampiezza delle classi e con n(x)dx l’area dei rettangoli e dunque la frequenza assoluta di quella classe, si ottiene la curva di densità. dx è un valore talmente piccolo che è detto infinitesimo. Se l e L sono gli estremi del carattere quantitativo, entrambi finiti o infiniti, o uno finito e l’altro infinito, il numero complessivo delle unità osservate è dato dalla misura della superficie delimitata dalla curva di densità, dall’asse x, e dalle due rette parallele x=l e x=L. Le distribuzioni teoriche Tale area può essere considerata (grossolanamente) data dalla somma delle infinite aree infinitesime dei rettangoli di altezze n(x) e larghezza dx. Questa area è detta integrale definito fra l e L della funzione n(x) ed è indicata nel modo seguente Se invece di usare nella trattazione le frequenze assolute, avessimo fatto ricorso alle frequenze relative, saremmo giunti alla curva y=f(x) dove f(x), che deve assumere valori non negativi, è la funzione di densità delle frequenze relative. Le distribuzioni teoriche Dalla proporzionalità ni=nfi segue la stessa proporzionalità fra n(x) e f(x) e quindi abbiamo E quindi Questa f(x) è chiamata funzione di densità Così come abbiamo visto per le distribuzioni empiriche, possiamo fare riferimento alle frequenze cumulate, sia assolute che relative, e anche le funzioni teoriche possono essere espresse in forma cumulata. Le distribuzioni teoriche Definiamo funzione cumulativa o funzione di ripartizione per le frequenze assolute la funzione: Per le frequenze relative la funzione di ripartizione o cumulativa F(x) è definita da: e indica l’aliquota sul totale dei casi in cui il carattere assume valori compresi fra l e x. Abbiamo anche che F(l)=0 e F(L)=1 Le distribuzioni teoriche Anche per queste distribuzioni teoriche si possono calcolare i valori caratteristici, come media aritmetica e varianza. Ricordando che si può scrivere la media aritmetica come: Ricordiamo anche le formule dello scostamento quadratico medio e della varianza anche nel caso delle distribuzioni teoriche si può scrivere Le distribuzioni teoriche La più importante distribuzione teorica è la distribuzione normale Essa rappresenta tutti quei casi, che troviamo spesso empiricamente, in cui valori estremi sono i più rari, quelli centrali sono i più numerosi e, man mano che si passa dai valori più lontani ai valori più vicini a quelli centrali, la frequenza di questi valori va crescendo. Esistono anche altre distribuzioni teoriche che si comportano in questo modo, ma quella più usata è stata individuata per primo dal de Moivre nel 1733 e ritrovata nel 1809 dal Gauss nell’ambito della teoria degli errori. Essa perciò è chiamata anche curva di Gauss, o gaussiana o curva degli errori accidentali. La denominazione di curva degli errori accidentali deriva dall’ipotesi che essa rappresenti la distribuzione degli errori accidentali commessi nelle misure ripetute un gran numero di volte di una medesima grandezza. Esempio. Ha questo andamento la distribuzione, secondo la statura (misurata in centimetri), di 6.080 alunni delle scuole del Lazio, di 8 anni nel 1999 (Fonte: Inran. Istituto Nazionale di Ricerca per gli Alimenti e la Nutrizione). Le distribuzioni teoriche Esempio. Ha questo andamento la distribuzione, secondo la statura (misurata in centimetri), di 6.080 alunni delle scuole del Lazio, di 8 anni nel 1999 (Fonte: Inran). Le distribuzioni teoriche Il numero delle curve normali è infinitamente grande, tante quante sono coppie di valori della media e dello scostamento quadratico medio. Per ognuna di queste curve normali, la funzione di densità delle frequenze relative è che è definita in tutto l’asse reale e quindi, dal momento che la funzione rappresenta le frequenze relative, si ha che La funzione di ripartizione o cumulativa della è Le distribuzioni teoriche Per la distribuzione normale valgono alcune proprietà fondamentali: ● è asintotica all’asse x nei valori estremi del suo campo di definizione, ● è simmetrica rispetto al valore centrale ● cresce fino al valore centrale e poi decresce fino allo zero ● moda, mediana e media aritmetica coincidono ● ha due flessi, uno ascendente e uno discendente, in corrispondenza di due valori che dipendono dalla media e dallo scostamento quadratico medio. Le distribuzioni teoriche Abbiamo detto che la normale è caratterizzata dalla media e dallo scostamento quadratico medio. Se variamo solo la media, otteniamo una serie di normali il cui valore centrale dipende dalla media, ma la forma di ciascuna normale rimane invariata Le distribuzioni teoriche Se invece la media rimane costante e varia σ, tutte le infinite curve che possiamo avere al variare di σ hanno lo stesso asse di simmetria, ma sono più o meno appiattite, e il loro appiattimento cresce al crescere di σ Le distribuzioni teoriche Vari sono i problemi che si risolvono usando le distribuzioni normali. Un primo problema, che possiamo risolvere, è quello di calcolare la frequenza relativa delle unità che, per una distribuzione normale N(x;σ) di media aritmetica x e scostamento quadratico medio σ, presentano valori del carattere X compresi fra x1 e x2, dove x1 e x2 (x1<x2) sono due valori qualunque, finiti o infiniti, dell’asse x. Tale frequenza è Oppure determinare il punto x’ dell’asse x per il quale la frequenza relativa è pari ad un numero α dove α è un numero non negativo e non superiore ad 1 Le distribuzioni teoriche Un ruolo molto importante fra le infinite distribuzioni normali è svolto dalla distribuzione normale standardizzata che ha media aritmetica uguale a 0 e scostamento quadratico medio uguale a 1, ossia dalla distribuzione N(0;1) La relativa funzione di ripartizione è Dato che la distribuzione normale standardizzata ha media 0 e varianza 1, essa ha media, moda e mediana coincidenti con l’origine, mentre i flessi della funzione di densità sono assunti in ±1. Le distribuzioni teoriche Quando i computer e tutti gli elaboratori elettronici di cui disponiamo oggi non esistevano, la curva normale standardizzata era l’unica utilizzata, perché il calcolo degli integrali delle curve normali qualunque risultavano troppo complicati, mentre della curva N(0,1) esistevano delle apposite tavole numeriche che aiutavano nei calcoli senza veramente effettuarli. Es. G(0.12)=0.54380 G(v)=1-G(|v|) per v<0 Le distribuzioni teoriche Questa tabella aiuta a trovare v in corrispondenza dei valori di G superiori a 0,5. Es. a G=0.543 corrisponde v=0,105