Distribuzione Gaussiana o Normale 1 Distribuzione Normale come

Transcript

Distribuzione Gaussiana o Normale 1 Distribuzione Normale come
Statistica e analisi dei dati
Data: 16 Maggio 2016
Distribuzione Gaussiana o Normale
Docente: Prof. Giuseppe Boccignone
1
Scriba: Matteo Gandossi
Distribuzione Normale come limite della Binomiale
Data una distribuzione binomiale Bin(k | n, p), se n → ∞ e p → 0 allora la distribuzione diventa una
distribuzione Poissoniana P oisson(k | µ = n · p).
Se invece n → ∞ e p ha valore finito, la distribuzione si risolve mediante il teorema di DeMoivre-Laplace
che é un caso particolare del teorema centrale.
Teorema 1 (De Moivre - Laplace). Sia Bin(k | n, p) = nk pk q n−k una distribuzione binomiale con | k−np
2npq | ≤
A = cost. Allora:
Bin(k | n, p) ' √
Accenno di dimostrazione
(dimostrato piú avanti)
(k−np)2
1
·(1+O( √1n ))
−
· e 2npq
.
2π · npq
(1)
Il risultato si ottiene come caso particolare del Teorema Limite Centrale
Il teorema (1) implica che se µ = np e σ =
p(x1 ≤ X ≤ x2 ) = lim
n→∞
x2
X
x1
√
√
npq, usando la variabile continua x al posto di quella discreta k
(x−np)2
1
· e− 2npq =
2π · npq
Z
x2
x1
(x−µ)2
1
√
· e− 2σ2 dx.
2
2π · σ
{z
}
|
f (x)
La f (x) integrata é allora una funzione di densitá di probabilitá continua che definiamo come distribuzione
normale Gaussiana
N (x | µ, σ) = √
1
2π · σ 2
· e−
(x−µ)2
2σ 2
,
(2)
dove i parametri µ, σ 2 sono rispettivamente la media e la varianza della distribuzione. La PDF della Normale
é riportata in figura 1
Per poter “manipolare” matematicamente la Gaussiana, é necessario saper risolvere l’integrale di Gauss:
Z
+∞
2
e−x dx.
I=
−∞
Per calcolarlo, si sviluppa I 2 :
1
2
Distribuzione Gaussiana o Normale
Figura 1: Distribuzione normale Gaussiana
Z
2
+∞
I =
e
−∞
+∞
Z
−x2
−∞
+∞
2
e−y dy
dx ·
−∞
Z
+∞
−∞
+∞
Z
e−(x
=
−∞
2
2
e−x · e−y dxdy
=
Z
+∞
Z
2
+y 2 )
dxdy
−∞
Si passa poi in coordinate polari (r, θ) dove x = r cos θ y = r sin θ corrisponde a θ.
Figura 2: Coordinate polari
Nella trasformazione, l’elemento infinitesimo di area dA deve conservarsi, ovvero:
dA = dxdy = |J|drdθ
dove |J| é il determinante della matrice J detta matrice jacobiana.
∂x
J=
∂r
∂y
∂r
∂x
∂θ
∂y
∂θ
.
Gli elementi della matrice jacobiana sono le derivate prime parziali di x = x(r, θ), y = y(r, θ) rispetto alle
nuove coordinate (r, θ). Ricordando la definzione di derivata parziale di una generica funzione f = f (x, y)
Distribuzione Gaussiana o Normale
3
∂f
f (x + h, y) − f (x, y)
= lim
.
∂x h→0
h
∂f
f (x, y + h) − f (x, y)
= lim
.
h→0
∂y
h
applicandola al nostro caso otteniamo
∂x
= cos θ.
∂r
∂x
= −r sin θ.
∂θ
∂y
= sin θ.
∂r
∂y
= r cos θ.
∂θ
La matrice Jacobiana diventa:
J=
cos θ
sin θ
−r sin θ
.
r cos θ
Calcoliamo il determinante:
|J| = rcosθ sin θ − (−r sin θ) sin θ
= r cos2 θ + r sin2 θ
= r(cos2 θ + sin2 θ)
|
{z
}
1
=r
Quindi:
dxdy = rdrdθ
Ora possiamo completare il calcolo dell’integrale di Gauss. Consideriamo il dominio di r e θ: 0 ≤ r ≤ +∞ e
0 ≤ θ ≤ 2π:
4
Distribuzione Gaussiana o Normale
I2 =
Z
+∞
−∞
Z +∞
Z
+∞
e−(x
−∞
Z 2π
=
=
+y 2 )
dxdy
2
e−r rdrdθ
0
0
Z
2
2π
Z
dθ ·
| 0 {z }
+∞
2
r · e−r dr
0
2π
Z
+∞
2
2r · e−r dr
=π·
=π·
0
2
[e−r ]0+∞
= π · (1 − 0)
=π
Infine:
Z
+∞
2
e−x dx =
I=
√
π
−∞
Analogamente (con sostituzione di variabili) si calcola il seguente integrale:
Z
+∞
e−
x2
2
dx =
√
2π
(3)
−∞
2
Normalizzazione e standardizzazione delle variabili
Per dimostrare che la distribuzione N (x | µ, σ) gode della proprietá di essere normalizzata,
1, standardizzeremo le variabile aleatoria X.
R +∞
−∞
N (x | µ, σ)dx =
La standardizzazione é un procedimento che riconduce una variabile aleatoria X distribuita secondo una
media µ e varianza σ 2 , ad una variabile aleatoria Z con distribuzione standard, ossia di media zero e
varianza pari a 1:
Z=
X −µ
σ
(4)
Per la dimostrazione di normalizzazione é sufficiente standardizzare X come in (4) e usare l’integrale di
Gauss nella forma posta in Equazione (3):
Distribuzione Gaussiana o Normale
5
Z
+∞
N (x | µ, σ)dx
−∞
Z
+∞
(x−µ)2
1
· e 2σ2 dx
2πσ
1 2
1
√
· e− 2 z σdz
2π
σ
1 2
1
√ · e− 2 z
2π
{z
}
|
√
=
−∞
+∞
Z
=
−∞
+∞
Z
=
−∞
dz
Forma Normale Standard
Z +∞
1 2
1
=√ ·
e− 2 z dz
2π −∞
√
1
· 2π
= √
2π
=1
La funzione di densitá di probabilitá che abbiamo ottenuto dopo aver standardizzato le variabili, cioé
1 2
1
f (z) = √ · e− 2 z
2π
(5)
é detta distribuzione normale standard o ridotta, ed é indicata come N (z | µ = 0, σ = 1) o semplicemente
N (0, 1).
Figura 3: Distribuzione Normale standardizzata dove σ = 1
Calcoliamo ora la speranza matematica usando la standardizzazione (4) da cui x = σ · z + µ ⇒ dz = dx e
procedendo per sostituzione di variabile:
6
Distribuzione Gaussiana o Normale
Z
+∞
x· √
E[X] =
−∞
Z +∞
1
2πσ 2
· e−
(x−µ)2
2σ 2
dx
1 2
1
· e− 2 z σdz
2π
σ
−∞
Z +∞
Z +∞
1 2
1 2
µ
σ
z · e− 2 z dz +
e− 2 z dz
=√ ·
2π −∞
2π −∞
{z
}
{z
}
|
|
=
(σz + µ) · √
√
0
√
µ2π
= √
2π
=µ
2π
Procedendo analogamente per calcolare la varianza si ottiene var(X) = σ 2 , e ovviamente
la deviazione standard.
p
var(X) = σ é
Si noti che la PDF della normale é simmetrica e unimodale con il massimo centrato su µ (su x = 0 nel caso
ridotto) , dunque moda e mediana coincidono con la media µ.
3
Proprietá della CDF (Cumulative Density Function) della distribuzione normale
Per definizione, la CDF e la funzione di sopravvivenza S(z) si possono formalmente scrivere:
Z
z
FZ (z) = PZ (Z ≤ z) =
Z
−∞
Z
SZ (z) = PZ (Z > z) =
z
f (t)dt =
+∞
−∞
Z
f (t)dt =
z
z
+∞
1 2
1
√ e− 2 t dt,
2π
1 2
1
√ e− 2 t dt = 1 − FZ (z).
2π
(6)
(7)
Ricordiamo che FZ (z) e SZ (z) calcolano la probabilitá corrispondente all’area ombreggiata della densitá f (z)
come rappresentato in Figura 4.
Figura 4: A sinistra, PZ (Z ≤ z), a destra, PZ (Z ≥ z)
Come abbiamo giá notato la f (z) é una funzione pari:
Distribuzione Gaussiana o Normale
7
f (z) = f (−z).
(8)
Usando la paritá é possibile ricavare le seguenti proprietá di cui gode la PDF normale:
Z
−z
Z
z
f (t)dt = −
RZ (z) = PZ (Z ≤ −z) =
Z
∞
−∞
∞
f (t)dt = 1 − FZ (z),
f (−t)dt =
(9)
z
dove si é utilizzata la sostituzione t → −t ⇒ dt → −dt e la paritá di f . Vale dunque la seguente:
FZ (−z) = 1 − FZ (z).
(10)
WZ (z) = PZ (−z ≤ Z ≤ +z) = FZ (z) − FZ (−z) = FZ (z) − 1 + FZ (z) = 2FZ (z) − 1.
(11)
Inoltre possiamo ricavare le seguenti:
2RZ (z) = PZ (|Z| ≥ z) = PZ (Z ≤ −z) + PZ (Z ≥ z) = 1 − FZ (z) + 1 − FZ (z) = 2(1 − FZ (z)).
(12)
Queste calcolano la probabilitá corrispondente all’area ombreggiata della densitá f (z) come rappresentato
in Figura 5.
Figura 5: A sinistra, WZ (z) = PZ (−z ≤ Z ≤ z), a destra, 2RZ (z) = PZ (|Z| ≥ z)
SZ (z), RZ (z), FZ (−z), WZ (z), 2RZ (z) definiscono nella pratica le probabilitá di interesse per qualsiasi problema che riguardi la distribuzione normale.
In buona sostanza tutte sono calcolabili facilmente a partire da FZ (z). Nella forma piú generale la CDF
FZ (z) della normale ridotta viene spesso denotata FZ (z) = Φ(z) e in generale:
FX (x) = Φ
x−µ
σ
(13)
Abbiamo un ultimo rilevante problema: la Φ(z) come scritta in equazione (6) non é calcolabile analiticamente!
Soluzioni possibili:
• se stiamo lavorando in simulazione software, usiamo qualche funzione basata su approssimazione
numerica dell’integrale
8
Distribuzione Gaussiana o Normale
• se stiamo lavorando “carta e penna”, utilizziamo le tabelle della forma normale standard.
Un esempio semplificato di tabella della normale standard é mostrato in Figura 6
Se usiamo come “entry point” nella tabella i valori z = 1, 2, 3 (x ,nella tabella in Figura 6) e leggiamo i
corrispondenti valori di WZ (z) = PZ (−z ≤ Z ≤ +z), tenendo presente che per la normale standard σ = 1 e
dunque z = zσ, ne risulta che :
1. i valori di z compresi tra −1σ ≤ z ≤ 1σ corrispondono a ≈ 68, 3% della distribuzione;
2. i valori di z compresi tra −2σ ≤ z ≤ 2σ corrispondono a ≈ 95, 6% della distribuzione;
3. i valori di z compresi tra −3σ ≤ z ≤ 3σ corrispondono a ≈ 99, 7% della distribuzione.
Questa proprietá della distribuzione normale viene detta Legge 3σ, che riprenderemo in seguito.
Si noti che sarebbe bastato avere la colonna relativa a FZ (z), per ottenere WZ (z) = 2FZ (z) − 1. Anzi,
tipicamente le tabelle utilizzate di solito riportano solo il valore compreso tra Z = 0 e Z = z essendo per
simmetria della distribuzione PZ (−∞ ≤ Z ≤ 0) = 0.5. Nelle tabelle complete sulle righe (in prima colonna)
si accede al valore di FZ (z) al primo decimale (FZ (z = 0.1), FZ (z = 0.2) · · · ecc.).; sulla stessa riga, nelle
colonne successive si considerano con maggiore precisione i valori di z = 0.01, 0.02, 0.03, · · · da comporre con
il primo decimale per poter calcolare valori piṕrecisi, quali FZ (z = 1.63), ecc.
Un esempio é riportato in Figura 7, dove, ad esempio FZ (z = 1.63) si ricava
1. accedendo per riga in z = 1.6
2. posizionandosi sulla colonna indicizzata da z = 0.03
3. leggendo il valore PZ (0 ≤ Z ≤ z = 1.63) = 0.4484
4. calcolando FZ (z = 1.63) = PZ (−∞ ≤ Z ≤ 0) + PZ (0 ≤ Z ≤ z = 1.63) = 0.5 + 0.4484 = 0.9484
Distribuzione Gaussiana o Normale
Figura 6: Tabella semplificata della normale ridotta
9
10
Distribuzione Gaussiana o Normale
Appendice I I -i
Tabella A.4
Aree della distribuzionenormale standard
Questatabellacontieneivalori dell'areasotto la curva della distribuzionenor_
male standardrelativaall'intervallodi estremi0 e z (l,areaombreggiatain figu_
ra), dovez rappresenta
il valorespecificodellavariabilenormalestandardZ.
0.00
0 .0 1
0.02
0.03
0.04
0.05
0.06
0.0 7
0.08
0.09
0.0
0 .1
0.2
0.3
0.4
0.0000
0.0398
0.0793
0. 1f 79
0. 155 4
0.0040
0.0438
0.0832
0. t2 1 7
0. 159|
0.0080
0.0478
0 .0 8 71
0 .1 2 55
0 .1 6 28
0.0120
0.0517
0 . 09 1 0
0 . 12 9 3
0 .1 6 64
0 .0160
0.0557
0.0948
0 .13 31
0 .t700
0 .019 9
0.0596
0.0987
0.1368
0.1736
0.0239
0.0636
0.1 026
0.1 40ó
0.1 772
0.02't9
0.0675
0.1064
0.14 43
0.18 08
0.0 319
0.0'tt4
0.110 3
0.148 0
0 .r844
0.0359
0.0754
0.1141
0 .15 17
0 .18 79
0 .5
0.6
0.7
0.8
0.9
0. 1915
0.2258
0. 2580
0 .2 8 81
0 .3 1 59
0. 1950
0.2291
0 .2 6 t2
0 .2 9 10
0 .3 1 86
0.t985
0.2324
0.2642
0.2939
0.3212
0.2019
0.2357
0.2673
0.296'l
0.3238
0.2054
0.2389
0.2704
0.2996
0.3264
0.2088
0.2422
0.2734
0.3023
0.3289
0.2123
0.2454
0.2764
0.3051
0.33r 5
0.2157
0.2486
0.2'794
0.3078
0.3340
0.2190
0.25l8
0.2823
0 .3r06
0.3365
0.2224
0.2549
0.2852
0.3t33
0.3389
t .0
t. l
t. 2
1 .3
1 .4
0 .3 4 r3
0.3643
0.3849
0.4032
0.4192
0 .3 4 38
0.3665
0.3869
0.4049
0.4207
0.34ór
0.3686
0.3888
0.4066
0.4222
0.3485
0.3708
0.3907
0.4082
0.4236
0.3508
o.3'/29
0.3925
0.4099
0.4251
0.3531
0.3749
0.3944
0.41l5
0.4265
0.3 554
0.3770
0.3962
0.413r
0.4279
0.35 77
0.3790
0.3980
0.4t47
0.4292
0.3599
0.3810
0.3997
0.4162
0 .43 06
0 .36 21
0 .38 30
0.40t5
0.41',77
0.4319
1 .5
1 .6
t.'1
1.8
t. 9
0.4332
0.4452
0.4554
0.4641
0.47l3
0.4345
0.4463
0.4564
0.4649
0.47t9
0.4357
0.4474
0.4573
0.4656
0.4726
0.43'10
0.4484
0.4582
0.4664
0.4't32
o.4382
o.4495
0.4591
0.4671
0.4738
o.4394
0.4505
0.4599
0.4678
0.4'144
0.4406
0.45r 5
0.4608
0.4686
0.4'750
0.4418
0.452s
0.4616
0.4ó93
0.4756
0.1429
0.4535
0.4625
0.4699
0 .4't61
0.4441
0.4545
0.4633
0.1706
0.4767
2.0
2 .1
2 .2
2 .3
2 .4
0.47't2
0.4821
0.4861
0.4893
0.49t 8
0.4778
0.4826
0.4864
0.4896
0.4920
0.4783
0.4830
0.4868
0.4898
0.4922
0.4788
0.4834
0.4871
0.4901
0.4925
0.4'193
0.4838
0.4875
0.4904
0.4927
0.4'798
0.4842
0.4878
0.4906
0.4929
0.4803
0.4846
0.4881
0.4909
0.4931
0.4808
0.4850
0.4884
0.491I
0.1932
0 .48 12
0.4854
0.4887
0.4913
0.4934
0.481 7
0.4857
0.4890
0.4 916
0.4936
2_ 5
2. 6
2. 7
2. 8
2.9
0.4938
0.4953
0 .4965
0.49't4
0.4981
0.4940
0.4955
0.4966
0.4975
0.4982
o.494t
0.4956
0.4967
0.4976
0.4982
0.4943 0.4945
0.495',1 0.4959
0.4968 0.4969
0.4971 0.49'17
0.4983 0.4984
0.4946
0.4960
0.49',70
0.49'78
0.4984
0.4948
0.4961
0.19',7
|
0.19'19
0..1985
0.4949
0.4962
0.49't2
0.19'79
0..1935
0.495r 0.4952
0.4963 0.4964
0.4913 0.4974
0.:1980 0.,1981
0.,19lJ6 0..1986
3.0
3.1
3.2
3.3
0.498'7
0.4990
0.4993
0.4995
0.499'7
0.498',7
0.4991
0.4993
0.4995
0.4997
0.4987
0.4991
0.4994
0.4995
0.499't
0.4988
0.4991
0.4994
0.4996
0.4997
0.4988
0.4992
0.4994
0.4996
0.4997
0.4989
0.1992
0.4994
0.499ó
0.4997
0.4989
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4995
0.4996
0.199',t
0.1990
0.,199t
0..1995
0..1q96
0.4991
0.-199t)
0..1991
0.,1995
0.,1997
0.t998
3.5
3.ó
3.7
3. 8
3. 9
0.4998
0.4998
0.4999
0.4999
0.5000
0.4998
0.4998
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.1999
0.5000
0.4998
0.4999
o.4999
o.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.,1998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.499S
0.4999
0.4999
o.4999
0.5000
0.,1s9f
0.499e
0.19e9
0.1q99
0.50rxl
Fonre:M ur ay R Spi es cl,S.h.tu ù tsO tnl itu o lT h eo ^ ah d Pro bl en sol stat ìl ri .s(seco nda edi zi on e).M ccra w- Hj l t,N cwyo i [-l q.Jè ,..
p rodonocon i l pe rm $soJr ll I \4 (ù ra $ I I ll ' nn rp d nr (,.
Figura 7: Tabella completa della normale ridotta