IL TEOREMA CENTRALE DEL LIMITE Questo teorema `e senza

Transcript

IL TEOREMA CENTRALE DEL LIMITE Questo teorema `e senza
IL TEOREMA CENTRALE DEL LIMITE
E. DI NARDO
Questo teorema è senza dubbio uno dei più semplici teoremi asintotici che in più
ha notevoli risvolti applicativi: sotto opportune condizioni, la somma di variabili
aleatorie indipendenti tende a distribuirsi secondo una legge gaussiana per numero
di addendi che va all’infinito. In altre parole, non è necessario avere molte informazioni sulla natura di queste variabili se lo scopo ultimo è lavorare con la loro
somma.
La storia di questo teorema comincia con Laplace alla fine del diciottesimo secolo.
Prima del 1810, qualche indagine sulla somma di variabili aleatorie indipendenti
con specifiche leggi di probabilità era stata già effettuata, ma senza portare alcun
contributo alla teoria dal punto di vista generale. Tra queste, segnaliamo il risultato ottenuto in prima battuta da De Moivre (1732) e poi completato da Laplace
(1801): siano X1 , X2 , . . . v.a. indipendenti e distribuite con legge di Bernoulli di
parametro p; indicata con Sn = X1 + · · · + Xn risulta
Ã
!
Sn − np
(0.1)
lim P p
≤ x = φ(x)
n→∞
np(1 − p)
dove
1
φ(x) = √
2π
Z
x
½
z2
exp −
2
−∞
¾
dz.
Osserviamo che quando si verifica la (0.1), si dice che la successione delle v.a.
Un , ottenute standardizzando le v.a. Sn , converge in distribuzione alla variabile
aleatoria gaussiana standard e si scrive
Un ⇒ Z.
Qui presentiamo il teorema centrale del limite nella sua versione più semplice (ed
anche meno generale) relativa a variabili aleatorie somiglianti.
Teorema 0.1. Siano X1 , X2 , . . . v.a. indipendenti ed identicamente distribuite con
media E[Xi ] = µ < ∞ e V ar[Xi ] = σ 2 < ∞. La v.a. Un ottenuta per standardizzazione da Sn = X1 +X2 +· · ·+Xn converge in distribuzione ad una v.a. gaussiana
standard.
Per la dimostrazione del teorema ci serviamo di uno strumento molto simile a
quello della funzione generatrice, ma che a differenza di questa ultima, esiste sempre
finita: la funzione caratteristica.
Ad integrazione della Lezione 15 - Calcolo delle Probabilità e Statistica Matematica II.
1
2
E. DI NARDO
1. Richiami sulla funzione caratteristica
Definizione 1.1. Sia X una v.a. con funzione di ripartizione F (x). Si definisce
funzione caratteristica della v.a. X la trasformata
Z
φ(t) = E[exp(itX)] =
exp(itx)dF (x).
R
Questa definizione non differisce molto da quella della funzione generatrice dei
momenti, se non per la presenza dell’unità immaginaria. L’introduzione però di
questa costante, garantisce l’esistenza della funzione caratteristica a differenza della
funzione generatrice dei momenti. È facile infatti provare che
|φ(t)| ≤ 1
essendo
∀t ∈ R
¯Z
¯ Z
¯
¯
¯ exp(itx)dF (x)¯ ≤
| exp(itx)|dF (x)
¯
¯
R
e
R
| exp(itx)| = | sin(tx) + i cos(tx)| =
q
sin2 (tx) + cos2 (tx) = 1.
Per la funzione caratteristica sussistono molti dei risultati che abbiamo provato per
la funzione generatrice dei momenti e che si dimostrano seguendo le stesse linee. Ad
esempio la funzione caratteristica di una somma di v.a. indipendenti corrisponde
al prodotto delle funzioni caratteristiche corrispondenti agli addensi
φX1 +···+Xn (t) = φX1 (t) · · · + φXn (t)
ed in particolare
φX1 +···+Xn (t) = [φX1 (t)]n
se le v.a. Xi sono identicamente distribuite. Inoltre si ha
φaX+b (t) = exp(itb)φX (at).
Se esiste finito il momento di ordine r della v.a. X, si ha
"
#
k
d
ik E[X k ] =
φ(t)
k≤r
dtk
t=0
cosa che avveniva anche per la funzione geratrice dei momenti, ma una volta certi
che esistesse in un opportuno intorno dell’origine. In particolare, se esiste il momento di ordine r della v.a. X, allora la funzione caratteristica ammette derivata
r−esima continua e quindi può essere rappresentata come polinomio di Taylor più
un resto:
i2
ir
φ(t) = 1 + iµ1 t + µ2 t2 + · · · + µr tr + Rr (t)
2!
r!
con R(t) = o(tr ) infinitesimo di ordine superiore a tr . Altra proprietà della funzione
caratteristica è quella di individuare univocamente la funzione di riportazione della
v.a. ad essa associata (dimostrazione omessa) ed inoltre vale il seguente teorema
(dimostrazione omessa)
Proposizione 1.2. Sia {Xn } una successione di v.a. con funzione di ripartizione
Fn (x) e funzione caratteristica φn (t). Sia poi X una v.a. con funzione di ripartizione F (x) e funzione caratteristica φ(t). Si ha
Xn ⇒ X ⇔ lim φn (t) = φ(t)
n
∀t ∈ R.
IL TEOREMA CENTRALE DEL LIMITE
3
2. Dimostrazione del teorema centrale del limite
Ricordiamo se se Xn ha finiti momento primo e secondo, allora si ha
φXn −µ (t) = 1 −
e quindi
σ2 2
t + R2 (t)
2!
µ
¶n
σ2 2
φSn −nµ (t) = [φXn −µ (t)] = 1 −
t + R2 (t) .
2!
n
Pertanto si ha
φUn (t)
¶
µ
t
√
= φSn −nµ
σ n
·
µ
¶¸n ½
·
µ
¶¸¾n
2
t σ2
t
t2 1
n
t
√
√
=
1− 2
+ R2
+ R2
= 1−
σ n 2!
n 2! t2
σ n
σ n
Effettuando il limite per n → ∞ si osservi che
³
´
¡ ¢
µ
¶
R2 σ√t n
R2 σy
n
t
√
lim
R2
= lim ³ ´2 = lim
=0
n→∞ t2
n→∞
y→0
y2
σ n
√t
n
da cui
µ 2¶
t
lim φUn (t) = exp −
n→∞
2
dove questa ultima è la funzione caratteristica di una v.a. gaussiana standard, come
si può facilmente ricavare dalla funzione generatrice dei momenti con al posto di t
la variabile it. L’asserto segue dalla proposizione 1.3.
Si vede facilmente come da questa versione dell’enunciato del teorema centrale del
limite segua il teorema di De Moivre-Laplace.
3. Cenni alle generalizzazioni
Il teorema centrale del limite può essere formulato anche per v.a. non identicamante distribuite. La formulazione del teorema di seguito riportata è dovuta a
Liapunov, nel 1901. Dagli storici questo risultato è considerato la prima rigorosa
formulazione del teorema centrale del limite.
Teorema 3.1 (teorema di Liapunov). Siano X1 , X2 , . . . v.a. indipendenti con media E[Xn ] = µn < ∞, V ar(Xn ) < ∞ e tale che per qualche δ > 0 sia E[|Xn −
µn |2+δ ] < ∞ per ogni n. Se vale che
(3.1)
E[|X1 − µ1 |2+δ + · · · + |Xn − µn |2+δ ]
=0
n→∞
s2+δ
n
lim
con s2n = σ12 + · · · + σn2 allora
Un ⇒ Z
con Z gaussiana standard e Un standardizzata della v.a. Sn .
Qualche anno più tardi, e precisamente nel 1922, Linderberg pubblicò una dimostrazione del teorema centrale del limite senza ricorrere all’uso della funzione
caratteristica, ed in condizioni più generali di quelle di Liapunov.
4
E. DI NARDO
Teorema 3.2 (teorema di Linderberg). Siano X1 , X2 , . . . v.a. indipendenti con
media E[Xn ] = µn < ∞, V ar(Xn ) < ∞. Se per ogni ² > 0 vale che
Z
n
X
1
(3.2)
lim
(x − µi )2 dFi (x) = 0
2
n→∞
s
|x−µ
|≥²s
n
i
n
i=1
con s2n = σ12 + · · · + σn2 e Fi funzione di ripartizione di Xi allora
Un ⇒ Z
con Z gaussiana standard e Un standardizzata della v.a. Sn .
Nella condizione (3.2) è implicito che almeno una delle v.a. Xn ha varianza non
nulla: d’altra parte v.a. con varianze nulle, sono quasi certamente degeneri e non
portano alcun contributo nè al numeratore nè al denominatore. Osserviamo che
Z
σi2 =
(x − µi )2 dFi (x)
ZR
Z
=
(x − µi )2 dFi (x) +
(x − µi )2 dFi (x)
|x−µi |≥²sn
|x−µi |<²sn
Z
< ²2 s2n +
(x − µi )2 dFi (x)
|x−µi |≥²sn
e quindi
e
(3.3)
1
σi2
< ²2 + 2
s2n
sn
Z
(x − µi )2 dFi (x)
|x−µi |≥²sn
σi2
= 0.
n→∞ 1≤i≤n s2
n
lim max
La condizione (3.3) esprime l’importante condizione che nessuna delle v.a. Xn abbia
una variabilità preponderante rispetto alle altre, in altre parole le singole v.a. Xn
devono essere uniformemente trascurabili asintoticamente rispetto alle somma delle
stesse. Si può dimostrare che se {Xn } è una successione di v.a. indipendenti tali
che Un → Z affinchè valga la condizione di Linderberg, deve essere verificata la
(3.3). Inoltre la condizione di Linderberg implica quella di Liapunov
Z
Z
1
1
|x − µi |2+δ
2
(x
−
µ
)
dF
(x)
≤
dFi (x)
i
i
s2n |x−µi |≥²sn
s2n |x−µi |≥²sn
²δ sδn
£
¤
1 E |Xi − µi |2+δ
≤
²δ
s2+δ
n
Fu poi Levy nel 1935 a fornire delle condizioni necessarie e sufficienti perchè sussista
il teorema centrale del limite nel caso di successioni di v.a. indipendenti. Nello
stesso lavoro diede condizioni necessarie e sufficienti anche nel caso di una classe di
v.a. dipendenti, le martingale.