Distribuzione Gaussiana o Normale 1 Distribuzione Normale come
Transcript
Distribuzione Gaussiana o Normale 1 Distribuzione Normale come
Statistica e analisi dei dati Data: 16 Maggio 2016 Distribuzione Gaussiana o Normale Docente: Prof. Giuseppe Boccignone 1 Scriba: Matteo Gandossi Distribuzione Normale come limite della Binomiale Data una distribuzione binomiale Bin(k | n, p), se n → ∞ e p → 0 allora la distribuzione diventa una distribuzione Poissoniana P oisson(k | µ = n · p). Se invece n → ∞ e p ha valore finito, la distribuzione si risolve mediante il teorema di DeMoivre-Laplace che é un caso particolare del teorema centrale. Teorema 1 (De Moivre - Laplace). Sia Bin(k | n, p) = nk pk q n−k una distribuzione binomiale con | k−np 2npq | ≤ A = cost. Allora: Bin(k | n, p) ' √ Accenno di dimostrazione (dimostrato piú avanti) (k−np)2 1 ·(1+O( √1n )) − · e 2npq . 2π · npq (1) Il risultato si ottiene come caso particolare del Teorema Limite Centrale Il teorema (1) implica che se µ = np e σ = p(x1 ≤ X ≤ x2 ) = lim n→∞ x2 X x1 √ √ npq, usando la variabile continua x al posto di quella discreta k (x−np)2 1 · e− 2npq = 2π · npq Z x2 x1 (x−µ)2 1 √ · e− 2σ2 dx. 2 2π · σ {z } | f (x) La f (x) integrata é allora una funzione di densitá di probabilitá continua che definiamo come distribuzione normale Gaussiana N (x | µ, σ) = √ 1 2π · σ 2 · e− (x−µ)2 2σ 2 , (2) dove i parametri µ, σ 2 sono rispettivamente la media e la varianza della distribuzione. La PDF della Normale é riportata in figura 1 Per poter “manipolare” matematicamente la Gaussiana, é necessario saper risolvere l’integrale di Gauss: Z +∞ 2 e−x dx. I= −∞ Per calcolarlo, si sviluppa I 2 : 1 2 Distribuzione Gaussiana o Normale Figura 1: Distribuzione normale Gaussiana Z 2 +∞ I = e −∞ +∞ Z −x2 −∞ +∞ 2 e−y dy dx · −∞ Z +∞ −∞ +∞ Z e−(x = −∞ 2 2 e−x · e−y dxdy = Z +∞ Z 2 +y 2 ) dxdy −∞ Si passa poi in coordinate polari (r, θ) dove x = r cos θ y = r sin θ corrisponde a θ. Figura 2: Coordinate polari Nella trasformazione, l’elemento infinitesimo di area dA deve conservarsi, ovvero: dA = dxdy = |J|drdθ dove |J| é il determinante della matrice J detta matrice jacobiana. ∂x J= ∂r ∂y ∂r ∂x ∂θ ∂y ∂θ . Gli elementi della matrice jacobiana sono le derivate prime parziali di x = x(r, θ), y = y(r, θ) rispetto alle nuove coordinate (r, θ). Ricordando la definzione di derivata parziale di una generica funzione f = f (x, y) Distribuzione Gaussiana o Normale 3 ∂f f (x + h, y) − f (x, y) = lim . ∂x h→0 h ∂f f (x, y + h) − f (x, y) = lim . h→0 ∂y h applicandola al nostro caso otteniamo ∂x = cos θ. ∂r ∂x = −r sin θ. ∂θ ∂y = sin θ. ∂r ∂y = r cos θ. ∂θ La matrice Jacobiana diventa: J= cos θ sin θ −r sin θ . r cos θ Calcoliamo il determinante: |J| = rcosθ sin θ − (−r sin θ) sin θ = r cos2 θ + r sin2 θ = r(cos2 θ + sin2 θ) | {z } 1 =r Quindi: dxdy = rdrdθ Ora possiamo completare il calcolo dell’integrale di Gauss. Consideriamo il dominio di r e θ: 0 ≤ r ≤ +∞ e 0 ≤ θ ≤ 2π: 4 Distribuzione Gaussiana o Normale I2 = Z +∞ −∞ Z +∞ Z +∞ e−(x −∞ Z 2π = = +y 2 ) dxdy 2 e−r rdrdθ 0 0 Z 2 2π Z dθ · | 0 {z } +∞ 2 r · e−r dr 0 2π Z +∞ 2 2r · e−r dr =π· =π· 0 2 [e−r ]0+∞ = π · (1 − 0) =π Infine: Z +∞ 2 e−x dx = I= √ π −∞ Analogamente (con sostituzione di variabili) si calcola il seguente integrale: Z +∞ e− x2 2 dx = √ 2π (3) −∞ 2 Normalizzazione e standardizzazione delle variabili Per dimostrare che la distribuzione N (x | µ, σ) gode della proprietá di essere normalizzata, 1, standardizzeremo le variabile aleatoria X. R +∞ −∞ N (x | µ, σ)dx = La standardizzazione é un procedimento che riconduce una variabile aleatoria X distribuita secondo una media µ e varianza σ 2 , ad una variabile aleatoria Z con distribuzione standard, ossia di media zero e varianza pari a 1: Z= X −µ σ (4) Per la dimostrazione di normalizzazione é sufficiente standardizzare X come in (4) e usare l’integrale di Gauss nella forma posta in Equazione (3): Distribuzione Gaussiana o Normale 5 Z +∞ N (x | µ, σ)dx −∞ Z +∞ (x−µ)2 1 · e 2σ2 dx 2πσ 1 2 1 √ · e− 2 z σdz 2π σ 1 2 1 √ · e− 2 z 2π {z } | √ = −∞ +∞ Z = −∞ +∞ Z = −∞ dz Forma Normale Standard Z +∞ 1 2 1 =√ · e− 2 z dz 2π −∞ √ 1 · 2π = √ 2π =1 La funzione di densitá di probabilitá che abbiamo ottenuto dopo aver standardizzato le variabili, cioé 1 2 1 f (z) = √ · e− 2 z 2π (5) é detta distribuzione normale standard o ridotta, ed é indicata come N (z | µ = 0, σ = 1) o semplicemente N (0, 1). Figura 3: Distribuzione Normale standardizzata dove σ = 1 Calcoliamo ora la speranza matematica usando la standardizzazione (4) da cui x = σ · z + µ ⇒ dz = dx e procedendo per sostituzione di variabile: 6 Distribuzione Gaussiana o Normale Z +∞ x· √ E[X] = −∞ Z +∞ 1 2πσ 2 · e− (x−µ)2 2σ 2 dx 1 2 1 · e− 2 z σdz 2π σ −∞ Z +∞ Z +∞ 1 2 1 2 µ σ z · e− 2 z dz + e− 2 z dz =√ · 2π −∞ 2π −∞ {z } {z } | | = (σz + µ) · √ √ 0 √ µ2π = √ 2π =µ 2π Procedendo analogamente per calcolare la varianza si ottiene var(X) = σ 2 , e ovviamente la deviazione standard. p var(X) = σ é Si noti che la PDF della normale é simmetrica e unimodale con il massimo centrato su µ (su x = 0 nel caso ridotto) , dunque moda e mediana coincidono con la media µ. 3 Proprietá della CDF (Cumulative Density Function) della distribuzione normale Per definizione, la CDF e la funzione di sopravvivenza S(z) si possono formalmente scrivere: Z z FZ (z) = PZ (Z ≤ z) = Z −∞ Z SZ (z) = PZ (Z > z) = z f (t)dt = +∞ −∞ Z f (t)dt = z z +∞ 1 2 1 √ e− 2 t dt, 2π 1 2 1 √ e− 2 t dt = 1 − FZ (z). 2π (6) (7) Ricordiamo che FZ (z) e SZ (z) calcolano la probabilitá corrispondente all’area ombreggiata della densitá f (z) come rappresentato in Figura 4. Figura 4: A sinistra, PZ (Z ≤ z), a destra, PZ (Z ≥ z) Come abbiamo giá notato la f (z) é una funzione pari: Distribuzione Gaussiana o Normale 7 f (z) = f (−z). (8) Usando la paritá é possibile ricavare le seguenti proprietá di cui gode la PDF normale: Z −z Z z f (t)dt = − RZ (z) = PZ (Z ≤ −z) = Z ∞ −∞ ∞ f (t)dt = 1 − FZ (z), f (−t)dt = (9) z dove si é utilizzata la sostituzione t → −t ⇒ dt → −dt e la paritá di f . Vale dunque la seguente: FZ (−z) = 1 − FZ (z). (10) WZ (z) = PZ (−z ≤ Z ≤ +z) = FZ (z) − FZ (−z) = FZ (z) − 1 + FZ (z) = 2FZ (z) − 1. (11) Inoltre possiamo ricavare le seguenti: 2RZ (z) = PZ (|Z| ≥ z) = PZ (Z ≤ −z) + PZ (Z ≥ z) = 1 − FZ (z) + 1 − FZ (z) = 2(1 − FZ (z)). (12) Queste calcolano la probabilitá corrispondente all’area ombreggiata della densitá f (z) come rappresentato in Figura 5. Figura 5: A sinistra, WZ (z) = PZ (−z ≤ Z ≤ z), a destra, 2RZ (z) = PZ (|Z| ≥ z) SZ (z), RZ (z), FZ (−z), WZ (z), 2RZ (z) definiscono nella pratica le probabilitá di interesse per qualsiasi problema che riguardi la distribuzione normale. In buona sostanza tutte sono calcolabili facilmente a partire da FZ (z). Nella forma piú generale la CDF FZ (z) della normale ridotta viene spesso denotata FZ (z) = Φ(z) e in generale: FX (x) = Φ x−µ σ (13) Abbiamo un ultimo rilevante problema: la Φ(z) come scritta in equazione (6) non é calcolabile analiticamente! Soluzioni possibili: • se stiamo lavorando in simulazione software, usiamo qualche funzione basata su approssimazione numerica dell’integrale 8 Distribuzione Gaussiana o Normale • se stiamo lavorando “carta e penna”, utilizziamo le tabelle della forma normale standard. Un esempio semplificato di tabella della normale standard é mostrato in Figura 6 Se usiamo come “entry point” nella tabella i valori z = 1, 2, 3 (x ,nella tabella in Figura 6) e leggiamo i corrispondenti valori di WZ (z) = PZ (−z ≤ Z ≤ +z), tenendo presente che per la normale standard σ = 1 e dunque z = zσ, ne risulta che : 1. i valori di z compresi tra −1σ ≤ z ≤ 1σ corrispondono a ≈ 68, 3% della distribuzione; 2. i valori di z compresi tra −2σ ≤ z ≤ 2σ corrispondono a ≈ 95, 6% della distribuzione; 3. i valori di z compresi tra −3σ ≤ z ≤ 3σ corrispondono a ≈ 99, 7% della distribuzione. Questa proprietá della distribuzione normale viene detta Legge 3σ, che riprenderemo in seguito. Si noti che sarebbe bastato avere la colonna relativa a FZ (z), per ottenere WZ (z) = 2FZ (z) − 1. Anzi, tipicamente le tabelle utilizzate di solito riportano solo il valore compreso tra Z = 0 e Z = z essendo per simmetria della distribuzione PZ (−∞ ≤ Z ≤ 0) = 0.5. Nelle tabelle complete sulle righe (in prima colonna) si accede al valore di FZ (z) al primo decimale (FZ (z = 0.1), FZ (z = 0.2) · · · ecc.).; sulla stessa riga, nelle colonne successive si considerano con maggiore precisione i valori di z = 0.01, 0.02, 0.03, · · · da comporre con il primo decimale per poter calcolare valori piṕrecisi, quali FZ (z = 1.63), ecc. Un esempio é riportato in Figura 7, dove, ad esempio FZ (z = 1.63) si ricava 1. accedendo per riga in z = 1.6 2. posizionandosi sulla colonna indicizzata da z = 0.03 3. leggendo il valore PZ (0 ≤ Z ≤ z = 1.63) = 0.4484 4. calcolando FZ (z = 1.63) = PZ (−∞ ≤ Z ≤ 0) + PZ (0 ≤ Z ≤ z = 1.63) = 0.5 + 0.4484 = 0.9484 Distribuzione Gaussiana o Normale Figura 6: Tabella semplificata della normale ridotta 9 10 Distribuzione Gaussiana o Normale Appendice I I -i Tabella A.4 Aree della distribuzionenormale standard Questatabellacontieneivalori dell'areasotto la curva della distribuzionenor_ male standardrelativaall'intervallodi estremi0 e z (l,areaombreggiatain figu_ ra), dovez rappresenta il valorespecificodellavariabilenormalestandardZ. 0.00 0 .0 1 0.02 0.03 0.04 0.05 0.06 0.0 7 0.08 0.09 0.0 0 .1 0.2 0.3 0.4 0.0000 0.0398 0.0793 0. 1f 79 0. 155 4 0.0040 0.0438 0.0832 0. t2 1 7 0. 159| 0.0080 0.0478 0 .0 8 71 0 .1 2 55 0 .1 6 28 0.0120 0.0517 0 . 09 1 0 0 . 12 9 3 0 .1 6 64 0 .0160 0.0557 0.0948 0 .13 31 0 .t700 0 .019 9 0.0596 0.0987 0.1368 0.1736 0.0239 0.0636 0.1 026 0.1 40ó 0.1 772 0.02't9 0.0675 0.1064 0.14 43 0.18 08 0.0 319 0.0'tt4 0.110 3 0.148 0 0 .r844 0.0359 0.0754 0.1141 0 .15 17 0 .18 79 0 .5 0.6 0.7 0.8 0.9 0. 1915 0.2258 0. 2580 0 .2 8 81 0 .3 1 59 0. 1950 0.2291 0 .2 6 t2 0 .2 9 10 0 .3 1 86 0.t985 0.2324 0.2642 0.2939 0.3212 0.2019 0.2357 0.2673 0.296'l 0.3238 0.2054 0.2389 0.2704 0.2996 0.3264 0.2088 0.2422 0.2734 0.3023 0.3289 0.2123 0.2454 0.2764 0.3051 0.33r 5 0.2157 0.2486 0.2'794 0.3078 0.3340 0.2190 0.25l8 0.2823 0 .3r06 0.3365 0.2224 0.2549 0.2852 0.3t33 0.3389 t .0 t. l t. 2 1 .3 1 .4 0 .3 4 r3 0.3643 0.3849 0.4032 0.4192 0 .3 4 38 0.3665 0.3869 0.4049 0.4207 0.34ór 0.3686 0.3888 0.4066 0.4222 0.3485 0.3708 0.3907 0.4082 0.4236 0.3508 o.3'/29 0.3925 0.4099 0.4251 0.3531 0.3749 0.3944 0.41l5 0.4265 0.3 554 0.3770 0.3962 0.413r 0.4279 0.35 77 0.3790 0.3980 0.4t47 0.4292 0.3599 0.3810 0.3997 0.4162 0 .43 06 0 .36 21 0 .38 30 0.40t5 0.41',77 0.4319 1 .5 1 .6 t.'1 1.8 t. 9 0.4332 0.4452 0.4554 0.4641 0.47l3 0.4345 0.4463 0.4564 0.4649 0.47t9 0.4357 0.4474 0.4573 0.4656 0.4726 0.43'10 0.4484 0.4582 0.4664 0.4't32 o.4382 o.4495 0.4591 0.4671 0.4738 o.4394 0.4505 0.4599 0.4678 0.4'144 0.4406 0.45r 5 0.4608 0.4686 0.4'750 0.4418 0.452s 0.4616 0.4ó93 0.4756 0.1429 0.4535 0.4625 0.4699 0 .4't61 0.4441 0.4545 0.4633 0.1706 0.4767 2.0 2 .1 2 .2 2 .3 2 .4 0.47't2 0.4821 0.4861 0.4893 0.49t 8 0.4778 0.4826 0.4864 0.4896 0.4920 0.4783 0.4830 0.4868 0.4898 0.4922 0.4788 0.4834 0.4871 0.4901 0.4925 0.4'193 0.4838 0.4875 0.4904 0.4927 0.4'798 0.4842 0.4878 0.4906 0.4929 0.4803 0.4846 0.4881 0.4909 0.4931 0.4808 0.4850 0.4884 0.491I 0.1932 0 .48 12 0.4854 0.4887 0.4913 0.4934 0.481 7 0.4857 0.4890 0.4 916 0.4936 2_ 5 2. 6 2. 7 2. 8 2.9 0.4938 0.4953 0 .4965 0.49't4 0.4981 0.4940 0.4955 0.4966 0.4975 0.4982 o.494t 0.4956 0.4967 0.4976 0.4982 0.4943 0.4945 0.495',1 0.4959 0.4968 0.4969 0.4971 0.49'17 0.4983 0.4984 0.4946 0.4960 0.49',70 0.49'78 0.4984 0.4948 0.4961 0.19',7 | 0.19'19 0..1985 0.4949 0.4962 0.49't2 0.19'79 0..1935 0.495r 0.4952 0.4963 0.4964 0.4913 0.4974 0.:1980 0.,1981 0.,19lJ6 0..1986 3.0 3.1 3.2 3.3 0.498'7 0.4990 0.4993 0.4995 0.499'7 0.498',7 0.4991 0.4993 0.4995 0.4997 0.4987 0.4991 0.4994 0.4995 0.499't 0.4988 0.4991 0.4994 0.4996 0.4997 0.4988 0.4992 0.4994 0.4996 0.4997 0.4989 0.1992 0.4994 0.499ó 0.4997 0.4989 0.4992 0.4994 0.4996 0.4997 0.4989 0.4992 0.4995 0.4996 0.199',t 0.1990 0.,199t 0..1995 0..1q96 0.4991 0.-199t) 0..1991 0.,1995 0.,1997 0.t998 3.5 3.ó 3.7 3. 8 3. 9 0.4998 0.4998 0.4999 0.4999 0.5000 0.4998 0.4998 0.4999 0.4999 0.5000 0.4998 0.4999 0.4999 0.1999 0.5000 0.4998 0.4999 o.4999 o.4999 0.5000 0.4998 0.4999 0.4999 0.4999 0.5000 0.,1998 0.4999 0.4999 0.4999 0.5000 0.4998 0.4999 0.4999 0.4999 0.5000 0.4998 0.4999 0.4999 0.4999 0.5000 0.499S 0.4999 0.4999 o.4999 0.5000 0.,1s9f 0.499e 0.19e9 0.1q99 0.50rxl Fonre:M ur ay R Spi es cl,S.h.tu ù tsO tnl itu o lT h eo ^ ah d Pro bl en sol stat ìl ri .s(seco nda edi zi on e).M ccra w- Hj l t,N cwyo i [-l q.Jè ,.. p rodonocon i l pe rm $soJr ll I \4 (ù ra $ I I ll ' nn rp d nr (,. Figura 7: Tabella completa della normale ridotta