Capitolo 3 Le rilevazioni campionarie

Transcript

Capitolo 3 Le rilevazioni campionarie
Capitolo 3
Le rilevazioni campionarie
La popolazione di studio di una ricerca di mercato varia a seconda degli obiettivi che la
medesima si pone. Essa può essere rappresentata dalle famiglie o da individui singoli
a in relazione all’agente a cui va riferito l’atto di consumo; dai punti di vendita, se si è
interessati agli acquisti. La definizione della popolazione si arricchisce di connotazioni
temporali, spaziali, e socio-economiche (ad. esempio, le famiglie con figli residenti nella
provincia di Belluno al 31/12/2002).
Una volta individuata la popolazione di studio, si desidera estrarre un campione rappresentativo di quella popolazione al fine di stimare alcune caratteristiche di interesse.
La metodologia statistica offre un ventaglio di soluzioni che poggiano sulla essenziale
nozione che le unità della popolazione hanno una probabilità nota e non nulla di entrare a
fare parte del campione.
3.1
Campionamento casuale semplice senza ripetizione
Si consideri una popolazione costituita da N elementi, a cui è associato il valore di una
caratteristica Y , ad esempio il consumo di un particolare bene. La popolazione può essere
descritta dalla seguente tabella:
Unità
Valori di Y
U1
Y1
U2
Y2
···
···
Ui
Yi
···
···
UN
YN
dove le unità della popolazione sono contraddistinte dalle etichette Ui , i = 1, . . . , N, ed i
valori della caratteristica associati alle unità sono denotati Yi .
La distribuzione del carattere Y può essere sintetizzata mediante la media e la varianza:
N
N
1 X
1 X
Ȳ =
Yi ,
S2 =
(Yi − Ȳ )2 ;
(3.1)
N i=1
N − 1 i=1
28
si noti che l’espressione della varianza utilizza il divisore N − 1 in luogo di N ; questa
definizione, alternativa a quella tradizionale, risulterà utile al fine di semplificare alcune
espressioni.
Il campionamento casuale semplice (CCS) costituisce il metodo di campionamento
più elementare; può avere valenza autonoma, ma viene più frequentemente utilizzato in
congiunzione ad altre tecniche. Esso seleziona dalla popolazione un campione di numerosità n, senza ripetizione, in modo tale che ogni possibile campione abbia uguale
probabilità di essere estratto. L’assenza di ripetizione sta a significare che un’unità non
può entrare a far parte dello stesso campione più di una volta; pertanto, l’unità selezionata
viene rimossa dalla popolazione e non può essere più estratta.
Il CCS si caratterizza per i seguenti elementi:
1. le unità statistiche coincidono con le unità di rilevazione (Ui contrassegna entrambe
- più avanti considereremo piani di campionamento per i quali si ha la dissociazione
delle due unità);
2. ciascuna unità possiede la stessa probabilità di inclusione nel campione (ciò darà
luogo ad un metodo autoponderante, nel senso che le determinazioni campionarie
vengono combinate utilizzando il medesimo peso);
3. qualsiasi sotto insieme di n elementi ha la stessa probabilità di estrazione.
Con riferimento all’ultimo punto, il numero dei campioni distinti1 che possono essere
estratti risulta pari al numero delle combinazioni di N elementi presi n alla volta:
Ã
CN,n =
N
n
!
=
N!
,
n!(N − n)!
dove la notazione k!, per k intero, denota il fattoriale di k: k! = k · (k − 1) · (k − 2) · · · 2 · 1.
Ad esempio, data una popolazione composta da N = 10 individui, da essa possono essere
estratti C10,3 = 120 campioni di tre unità.
Ciascun campione ha una probabilità costante, pari a 1/CN,n di essere estratto.
Dimostrazione *. Questo risultato può essere dimostrato ipotizzando che le unità facenti
parte del campione vengano selezionate sequenzialmente, vale a dire una alla volta.
Supponiamo di aver numerato le unità della popolazione da 1 a N e chiediamoci quale
sia la probabilità di estrarre una sequenza ordinata di n unità,
{u1 , u2 , . . . , un }.
La prima unità viene estratta con probabilità 1/N e, dal momento che il campione è senza
ripetizione, la seconda unità viene estratta con probabilità 1/(N − 1), e cosı̀ via fino ad
1
Si dice che due campioni sono distinti se differiscono per almeno una unità.
29
arrivare all’n-esima estrazione che viene effettuata con probabilità 1/(N −n+1). Pertanto,
la probabilità della sequenza {u1 , u2 , . . . , un } risulta:
1
1
1
1
(N − n)!
·
·
···
=
.
N N −1 N −2
N −n+1
N!
Poiché è irrilevante l’ordinamento delle unità, vale a dire che le unità della popolazione
possono presentarsi in qualunque ordine nel campione, ogni permutazione delle unità dà
luogo ad un campione contenente le stesse unità, seppure in qualsiasi ordine. Quindi,
essendo il numero complessivo delle permutazioni pari a n!, si conclude che la probabilità
di estrarre un particolare campione di numerosità n, denominato S, è pari a
P (S) =
n!(N − n)!
= 1/CN,n .
N!
A fini esemplificativi, si consideri il campione di tre unità {u1 = U4 , u2 = U5 , u3 =
U2 } tratto da una popolazione di numerosità 6. Se ci chiediamo quale sia la probabilità di
selezionare gli elementi U2 , U4 , U5 in qualunque ordine, avremo 3!=6 possibili campioni,
ciascuno dei quali è selezionato con probabilità
1 1 1
· · .
6 5 4
Pertanto, la probabilità di selezionare un campione contenente le suddette unità risulta
1/20.
In pratica la selezione delle unità viene effettuata mediante la generazione di numeri
casuali distribuiti uniformemente tra 0 e 1, che vengono moltiplicati per N e arrotondati all’intero più prossimo. Il software R ha una funzione specifica per l’estrazione
di un campione senza ripetizione (o con ripetizione, cambiando le opzioni di default),
sample(1:N,n), il cui impiego verrà illustrato nel seguito.
Generazione di numeri pseudocasuali*. Un generatore di numeri pseudocausali è un
meccanismo deterministico che produce sequenze di numeri che possono essere considerate realizzazioni indipendenti di una variabile casuale nota. L’indipendenza implica che la conoscenza delle generazioni precedenti non aiuta a prevedere quelle future,
mentre la variabile causale indica il modello statistico di riferimento.
I generatori modulari (congruenziali) lineari sono formule ricorsive che consentono
di generare numeri casuali distribuiti uniformemente nell’intervallo di valori [0,1]. Essi si
configurano come segue:
uj = (a · uj−1 + c) mod M
dove mod è l’operatore modulare tale che c mod d fornisce il resto della divisione di c
per d; il valore iniziale u0 è detto seme (seed, spesso impostato come l’istante di tempo
millisecondi in cui si effettua la generazione); M −1 rappresenta il periodo del generatore,
nel senso che esso genera la medesima sequenza dopo M − 1 iterazioni della formula.
30
Per questo motivo M viene preso molto grande (ad es. M = 231 − 1, a = 397204094,
c = 0). Il generatore in quesione fornisce sequenze di numeri uniformemente distribuiti
tra 1 e m, da cui consegue che u∗i = ui /m ha distribuzione uniforme tra 0 e 1, mentre
[u∗i · N ] + 1, dove l’espressione tra parentesi quadra è arrotondata all’intero più prossimo,
rappresenta un numero intero tra 1 e N estratto con probabilità 1/N .
Il CCS è tale che ogni unità della popolazione ha una probabilità di inclusione nel
campione costante, pari alla cosiddetta frazione di campionamento:
P (Ui ∈ S) =
n
.
N
Dimostrazione *. La probabilità richiesta risulta dalla somma delle probabilità di selezionare l’unità Ui al primo tentativo, ovvero al secondo, e cosı̀ via fino all’n-esimo tentativo, ciascuna delle quali è uguale a 1/N . Quanto asserito risulta evidente per la prima
estrazione; con riferimento al secondo tentativo, occorre considerare la probabilità che
Ui sia selezionata alla seconda estrazione e che non sia stata estratta nella selezione
precedente: questa risulta dal prodotto:
µ
1
1
1−
N −1
N
¶
1
N
=
dove il primo fattore costituisce la probabilità di estrarre l’unità condizionata al fatto che
non sia stata estratta precedentemente e il secondo fornisce semplicemente la probabilità
che non sia stata estratta alla prima estrazione. In generale, la probabilità di estrarre Ui
alla j-esima estrazione risulta:
µ
1
1
1−
N −j+1
N
¶µ
¶
1−
µ
1
1
··· 1 −
N −1
N −j+2
¶
=
1
,
N
dove i fattori in parentesi forniscono la probabilità che l’unità non sia stata estratta nelle
precedenti estrazioni.
La struttura del campione può essere schematizzata dalla seguente tabella
Unità
Valori di Y
u1
y1
u2
y2
···
···
uj
yj
···
···
un
yn
si noti che i valori della caratteristica sono contrassegnati da una lettera minuscola, al fine
di mettere in luce che y1 non corrisponde necessariamente al valore della caratteristica
nella prima unità della popolazione, Y1 . Si noti, inoltre, che, alla luce dei precedenti
risultati,
P (Ui ∈ S) = P (uj = Ui , j = 1, . . . , n) = P (yj = Yi , i = 1, . . . , n) =
31
n
,
N
1
.
N
L’ultimo risultato attesta pertanto che l’esito della j-esima estrazione, yj , costituisce una
variabile casuale che può assumere ciascuno dei valori Y1 , . . . , YN , con probabilità pari
a 1/N . Nel seguito faremo uso del valore atteso e della varianza di questa distribuzione,
forniti rispettivamente da:
P (uj = Ui ) = P (yj = Yi ) =
E(yj )
=
Var(yj ) =
N
P
i=1
N
P
Yi P (yj = Yi ) = Ȳ ,
(Yi − Ȳ )2 P (yj = Yi ) =
i=1
N −1 2
S .
N
3.1.1 La stima della media della popolazione
Si supponga di essere interessati alla stima della media della popolazione, Ȳ . Uno stimatore abbastanza ovvio è la media campionaria:
n
1X
ȳ =
yj
n j=1
(3.2)
Quando lo stimatore viene applicato ad un particolare campione, il corrispondente valore numerico viene detto stima, ed in effetti, mediante l’estrazione di un campione noi
desideriamo pervenire ad una stima della media della caratteristica di interesse.
Al fine di analizzare le proprietà dello stimatore (3.2), occorre tuttavia riflettere sulla
distribuzione dei possibili risultati: infatti, dal momento che CN,n campioni possono essere estratti, ȳ sarà caratterizzato da una certa variabilità di risultati; in particolare, esso
può assumere CN,n valori ciascuno con probabilità pari a 1/CN,n . Assumono particolare rilievo la media e la varianza di questa distribuzione: la prima fornisce indicazioni
circa la presenza di eventuali distorsioni sistematiche nella stima, qualora non risultasse
coincidente con Ȳ ; la seconda circa la dispersione dei risultati attorno al valore medio.
Dimostreremo ora che ȳ gode della proprietà di correttezza, vale a dire che la media
della distribuzione dei valori che può assumere coincide con la media della popolazione,
ovvero E(ȳ) = Ȳ . A tal fine, va tenuto presente che il valore di ciascuna unità del
campione, yj , costituisce una variabile casuale che assume valore Yi con probabilità 1/N ,
e pertanto il suo valore atteso risulterà pari a Ȳ . Pertanto,
E(ȳ) =
n
1X
E(yj ) = Ȳ
n j=1
Leggermente più complicata è la derivazione della varianza dello stimatore; nell’appendice al presente capitolo si dimostra che
Var(ȳ) = (1 − f )
32
S2
n
, f= .
n
N
(3.3)
L’espressione mostra che la varianza dello stimatore diminuisce al crescere della numerosità del campione. Essa, inoltre, dipende dal parametro strutturale della popolazione
S 2 : quanto più la popolazione presenta forte variabilità nelle manifestazioni del carattere,
tanto minore sarà la precisione dello stimatore. Il fattore (1 − f ) prende il nome di fattore di correzione per popolazioni finite, dal momento che se il campionamento fosse con
ripetizione da una popolazione infinita, risulterebbe identicamente pari ad 1, valore a cui
tende, nel caso di popolazioni finite, per N molto grande.
Un’ulteriore proprietà dello stimatore (3.2) è quella della consistenza: per n = N la
media campionaria coincide con il valore della popolazione.
3.1.2 Esempio illustrativo
Consideriamo, a fini illustrativi, la popolazione di N = 180 unità del settore della ristorazione, contenuta nel file Ristoranti.txt. Le variabili disponibili sono:
1. Fatturato (migl. di dollari)
2. Investimenti effettuati nell’anno precedente
3. Valore di mercato
4. Costi di esercizio (in percentuale sul fatturato)
5. Spese per il personale (in percentuale sul fatturato)
6. Spese pubblicitarie (in percentuale sul fatturato)
7. Tipologia (1=fast food, 2=supper club, 3=altro)
8. Numero di coperti
9. Proprietà (1=individuale, 2=soc.di persone, 3=soc. di capitale)
10. Personale a tempo pieno
11. Personale a tempo parziale
12. Classe dimensionale (1=1-9 unità di lavoro, 2=10-20 u.l., 3=più di 20 u.l)
Concentriamo la nostra attenzione sul fatturato e sul numero dei coperti, supponendo che una ricerca di mercato desideri stimare la media di queste due grandezze, la cui
distribuzione nella popolazione è rappresentata nella figura 3.1, sulla base di un campione di numerosità n = 18. La frazione di campionamento risulta quindi pari al 10%. Si
noti l’asimmetria delle due distribuzioni, nettamente più pronunciata nel caso del fatturato e la presenza di alcune unità caratterizzate da una dimensione del fenomeno molto più
33
Figura 3.1: Distribuzione del fatturato e dei coperti in una popolazione di 180 ristoranti.
6000
0.0020
4000
0.0015
2000
4000
6000
8000
0
0.0000
0.0005
2000
0.0010
0.0010
0.0005
0.0000
0
2000
4000
6000
8000
Fatturato
N = 180 Bandwidth = 73.76
Istogramma Coperti
Stima non param. della densità
Boxplot Coperti
0
100
200
300
Coperti
400
500
400
300
200
100
0
0.000
0.000
0.002
0.002
0.004
0.004
0.006
0.006
0.008
500
0
Boxplot Fatturato
8000
Stima non param. della densità
0.0015
Istogramma Fatturato
0
100
200
300
400
500
N = 180 Bandwidth = 16.28
34
600
elevata delle rimanenti unità. I valori medi delle due distribuzioni sono rispettivamente
ȲF = 351.8 e ȲC = 75.6, mentre le varianze sono SF2 = 515673.1 e SC2 = 4320.9.
L’estrazione di un campione fornisce i seguenti risultati:
> s<- sample(1:180,18)
> s
[1] 128 149 141 116 75
> mean(Fatturato[s])
[1] 377.7222
> mean(Coperti[s])
[1] 80.5
> var(Fatturato[s])
[1] 128032.2
> var(Coperti[s])
[1] 3547.912
34 174 105
58
69
92
57
19 132 156 118
73
e pertanto ȳF = 377.3, ȳF = 80.5, Supponiamo ora di ripetere l’operazione 1000 volte e
di guardare alla distribuzione delle stime ȳF e ȳC (cfr. figura 3.2). Il programma utilizzato
è riportato nella tabella 3.1. L’esperimento, consistente nel replicare la selezione del
campione un numero prefissato di volte, ha una natura parziale, dal momento che non
tiene conto di tutte le possibili stime che si possono ottenere estraendo tutti i possibili
campioni, che ammontano ad un numero eccezionalmente grande, C180,18 . Tuttavia, è
utile ad illustrare la variabilità dei risultati campionari. In particolare, la figura 3.2 mostra
che la distribuzione di ȳF è ancora asimmetrica, ma questa caratteristica si è fortemente
ridotta; inoltre, la moda e la mediana (297.6) della distribuzione sono abbastanza distanti
dal valore vero della popolazione, ȲF , in corrispondenza del quale è stata tracciata una
retta verticale. La media della distribuzione è comunque pari a 345.1 e, se fossimo in
grado di generare tutti i possibili campioni coinciderebbe con ȲF . Nel caso dei coperti, si
noti che la distribuzione di ȳC è abbastanza simmetrica, malgrado l’evidente asimmetria
della distribuzione di YC , e centrata attorno al valore vero della popolazione.
Un problema interpretativo è posto dal fatto che alcune unità della popolazione presentano un valore strutturalmente nullo del numero dei coperti, trattandosi di unità che
effettuano il servizio con consumazione al banco o da asporto. Queste unità forse non
andrebbero considerate nella costruzione della media della popolazione e nella relativa
stima.
3.1.3 La stima della varianza della media campionaria
La varianza della media campionaria, fornita dall’espressione (3.3), dipende dalla varianza del carattere nella popolazione, S 2 , che è solitamente sconosciuta. Sarebbe desiderabile stimare questa quantità sulla base del medesimo campione; a tale proposito appare
naturale considerare la varianza campionaria:
n
1 X
(yj − ȳ)2 .
s =
n − 1 j=1
2
35
99
Figura 3.2: Distribuzione delle medie campionarie del fatturato e dei coperti in 1000
campioni di dimensione n = 18.
Fatturato: densità media campionaria
0
0.000
40
0.003
80
120
Fatturato: istog. m. camp.
200
400
600
800
1000
200
600
800
1000
Coperti: densità media campionaria
0
0.000
20
0.015
40
60
Coperti: istog. m. camp.
400
40
60
80
100
120
20
36
40
60
80
100
120
Tabella 3.1: Campionamento casuale semplice: programma R per la generazione della
figure 3.1 e 3.2
Ristoranti <- read.table("Ristoranti.txt", header=T)
attach(Ristoranti)
summary(Fatturato)
summary(Coperti)
par(mfrow=c(2,3))
hist(Fatturato, 20, main= "Istogramma Fatturato", freq=FALSE, ylab = "")
plot(density(Fatturato), main="Stima non param. della densit", ylab="")
boxplot(Fatturato, main = "Boxplot Fatturato")
hist(Coperti, 20, main= "Istogramma Coperti", freq=FALSE, ylab = "")
plot(density(Coperti), main="Stima non param. della densit", ylab="")
boxplot(Coperti, main = "Boxplot Coperti")
n.campioni <- 1000
dim.campione <- 18
media.fatt <- rep(0,n.campioni)
media.cop <- rep(0,n.campioni)
for (i in 1:n.campioni)
{ media.fatt[i] <- mean(sample(Fatturato,dim.campione))
media.cop[i] <- mean(sample(Coperti,dim.campione))
}
par(mfrow=c(2,2))
hist(media.fatt,50, main="Fatturato: istog. m. camp.", ylab="", xlab="")
abline(v=mean(Fatturato))
plot(density(media.fatt), main="Fatturato: densit media campionaria",
ylab="", xlab="")
abline(v=mean(Fatturato))
mean(media.fatt)
hist(media.cop,50, main="Coperti: istog. m. camp.", ylab="", xlab="")
abline(v=mean(Coperti))
plot(density(media.cop), main="Coperti: densit media campionaria",
ylab="", xlab="")
abline(v=mean(Coperti))
mean(media.cop)
37
Ebbene, si dimostra [8] che s2 costituisce una stimatore corretto di S 2 . Questo può essere
sostituito nell’espressione (3.3) al fine di ottenere una stima della varianza della media
campionaria:
s2
ˆ
Var(ȳ) = (1 − f )
n
Questo risultato viene utilizzato al fine di costruire un intervallo di confidenza per
la media campionaria, sotto l’assunzione di normalità. Nella sezione precedente è stato
osservato che la media campionaria ha una distribuzione meno asimmetrica della distribuzione del carattere nella popolazione. L’asimmetria, inoltre, diminuisce ulteriormente al crescere di n, come evidenzia la figura 3.3, che presenta la distribuzione di 10000
campioni di numerosità pari a 60 (la frazione di campionamento risulta ora pari a 1/3). In
conclusione, se la distribuzione del carattere nella popolazione non è molto asimmetrica
(circostanza che non viene verificata con riferimento al fatturato) e n è sufficientemente
elevato, si può assumere che la distribuzione di ȳ sia approssimativamente normale con
media Ȳ e varianza (1 − f )S 2 /n, stimabile mediante (1 − f )s2 /n.
Ciò consente di fare asserzioni del tipo:
s
ȳ − zα/2
s
s2
s2
(1 − f ) ≤ Ȳ ≤ ȳ + zα/2 (1 − f )
n
n
con probabilità pari a (1 − α), dove zα/2 rappresenta il percentile della variabile casuale
normale standardizzata corrispondente a α/2. In altre
q parole, se alla media campionaria
2
osservata, aggiungiamo e sottraiamo la quantità zα/2 (1 − f ) sn , (1 − α) × 100 volte su
100 l’intervallo di valori cosı̀ determinato include la media della popolazione. Nel caso
della sezione precedente si aveva per il fatturato ȳ = 377.7, s2 = 128032.2, f = 0.1,
per cui, se si pone α = 0.05 (e pertanto z0.025 = 1.96), si potrebbe affermare che ȲF sia
compreso tra 220.9 e 534.5 con probabilità pari al 95%.
Per valori di n inferiori a 50 si suggerisce di sostituire zα/2 con tα/2 , il percentile di
una variabile t di Student con n − 1 gradi di libertà.
3.1.4 Stima di un totale
Nel caso in cui l’interesse si appunti sul totale del carattere,
T =
N
X
Yi = N Ȳ ,
i=1
si utilizza lo stimatore t = N ȳ, che risulta corretto. Inoltre,
Var(t) = N 2 (1 − f )
38
S2
.
n
Figura 3.3: Distribuzione delle medie campionarie del fatturato e dei coperti in 10000
campioni di dimensione n = 60.
Fatturato: densità media campionaria
0
0.000
0.003
200 400 600
0.006
Fatturato: istog. m. camp.
200
300
400
500
200
400
500
600
Coperti: densità media campionaria
0
0.00
200
0.02
400
0.04
Coperti: istog. m. camp.
300
50
60
70
80
90
100
50
39
60
70
80
90
100
3.1.5 Stima di una frequenza relativa o percentuale
Nell’ambito delle ricerche di mercato, potremmo essere interessati a stimare la percentuale
di consumatori intenzionati ad acquistare una certa configurazione di prodotto.
In generale, il problema della stima della frequenza relativa o percentuale con cui
un carattere nominale dicotomico è presente nella popolazione, ovvero del numero complessivo degli individui che posseggono una certa caratteristica, può essere opportunamente
ricondotto al caso della stima della media e del totale della caratteristica definita da
(
Yi =
1 se il carattere è presente
0 se il carattere è assente
La somma dei valori Yi fornisce pertanto il numero totale degli individui che presentano
il carattere, mentre la media fornisce la frequenza relativa, P :
T =
N
X
Yi = N P, Ȳ =
i=1
N
1 X
Yi = P.
N i=1
Inoltre, è semplice verificare che
S2 =
N
1 X
N
(Yi − Ȳ )2 =
P Q,
N − 1 i=1
N −1
dove Q = 1 − P .
A corollario dei risultati ottenuti nel caso in cui Y è una variabile quantitativa si ha che
P
la frequenza relativa del campione, p = j yj /n, è una stima corretta di P , con varianza
Var(p) = (1 − f )
S2
PQ N − n
=
.
n
n N −1
(3.4)
Si osservi che, a parità di n, la varianza dello stimatore è massima per P = .5. Quest’ultima dipende dalla varianza del carattere nella popolazione, la quale può essere stimata
da
P
(yj − p)2
n
2
s = j
=
pq, q = 1 − p.
n−1
n−1
con E(s2 ) = S 2 . Si perviene dunque alla stima della varianza della frequenza relativa del
campione:
pq
ˆ
.
Var(p)
= (1 − f )
n−1
Lo stimatore del totale è t = N p, con E(t) = N P = T e Var(t) = N 2 Var(p). Per
quanto riguarda la costruzione degli intervalli di confidenza si rimanda a [8], cap. 3.
40
3.1.6 Determinazione della numerosità campionaria
Nel caso di un carattere misurato su una scala ad intervallo o di rapporti, risulta solitamente più agevole prefissare un margine di variazione ritenuto ammissibile per l’errore
relativo o percentuale nella stima della caratteristica della popolazione, e desumere il valore di n che consente di conseguire un margine di errore non superiore al limite massimo
individuato.
Se α denota un livello di probabilità sufficientemente piccolo (ad es. 0.05 o 0.01),
ed r il margine relativo di errore (ad es. r = 0.1 indica che l’errore relativo non deve
superare il 10% della media della popolazione), il problema della scelta di n può essere
formalizzato richiedendo che
(¯
¯ ȳ − Ȳ
¯
P ¯¯
Ȳ
¯
)
¯
n
o
¯
¯ ≥ r = P |ȳ − Ȳ | ≥ r Ȳ = α.
¯
(3.5)
Ora, sotto l’assunzione di normalità,
Ã
!
S2
,
ȳ ∼ N Ȳ , (1 − f )
n
(
q
P |ȳ − Ȳ | ≥ zα/2
S
1−f√
n
)
= α,
per cui la dimensione campionaria che soddisfa (3.5) è definita implicitamente dall’identità:
q
S
zα/2 1 − f √ = rȲ .
n
Risolvendo rispetto a n, si ottiene
"
2
2
zα/2
1 zα/2
n = 2 CV2 1 +
CV2
r
N r2
#−1
, CV =
S
,
Ȳ
(3.6)
dove CV denota il coefficiente di variazione della caratteristica Y della popolazione.
Con riferimento alla (3.6) occorre osservare che per N molto grande si può impie2
gare la formula approssimata n ≈ zα/2
CV2 /r2 , la quale mette in luce la dipendenza di
n dal coefficiente di variazione della popolazione e dai parametri α e r. Gli ultimi due
sono sotto il nostro controllo (anche se l’assunzione di normalità potrebbe essere non
verificata, cfr. il caso del fatturato nella sezione 3.1.2), mentre il primo rappresenta una
caratteristica strutturale della popolazione solitamente incognita. Pertanto, affiché la formula (3.6) abbia un contenuto operativo, occorre sostituire a CV una stima, che potrebbe
essere desunta da una precedente rilevazione campionaria. Si noti infine che per la stima
del totale si ottengono i medesimi risultati.
Con riferimento alla stima del numero medio dei coperti, il seguente codice R:
41
CV.Coperti <- sqrt(var(Coperti))/mean(Coperti)
r <- seq(0.01, 0.30, by= 0.01)
alpha <- seq(0.01, 0.30, by= 0.01)
z <- qnorm(alpha/2)
N <- length(Coperti)
n.Coperti <- outer(CV.Copertiˆ2 * zˆ2, 1/(rˆ2)) /
(1+outer(CV.Copertiˆ2 * zˆ2, 1/(rˆ2))/N)
filled.contour(alpha,r,n.Coperti, levels = seq(0,180,20),
plot.title = title(main = "Dim. campione per Coperti",
xlab = "alpha", ylab = "r"), col = gray(rev(0:10 / 10)), asp=1)
è stato impiegato per produrre la figura 3.4, che mostra la dimensione del campione desunta dalla formula (3.6) per diversi valori di α e r. Il coefficiente di variazione nella popolazione risulta pari a 0.87. Si osservi che dimensioni campionarie non superiori alle 40
unità si ottengono per valori relativamente elevati di α e r. Se si pone α = r = 0.05, vale
a dire se si desidera che la probabilità di commettere un errore di stima non superiore al
5% non ecceda il 5%, occorre considerare un campione di 140 unità!
Nel caso della stima di frequenze relative o percentuali, che hanno un campo di variazione ben definito, può risultare più agevole fissare un margine assoluto di errore, e, tale
che, per α sufficientemente piccolo,
P {|p − P | ≥ e} = α.
Ora, se si assume che p sia distribuito normalmente, il che è accettabile se P assume
valori compresi tra .3 e .7, con media P e varianza (3.4), si ottiene:
"
2
2
zα/2
1 zα/2
n = 2 PQ 1 +
PQ
e
N e2
#−1
.
Come nel caso precedente occorre sostituire a P una stima; tuttavia, una soluzione conservativa si ottiene ponendo P = .5, in corrispondenza del quale si ottiene la dimensione
campionaria massima.
3.2
Il campionamento sistematico
Nel campionamento sistematico le unità della popolazione sono messe in sequenza, e
si associa, almeno in linea di principio, un numero da 1 a N . Al fine di selezionare
un campione di n unità, si seleziona casualmente la prima unità estraendo un numero
compreso tra 1 e k, dove k = N/n = 1/f è detto passo di campionamento, e di seguito
si seleziona una unità ogni k. Se N è multiplo di n. Se l’ordinamento delle unità della
popolazione è casuale, tale tecnica fornisce gli stessi risultati del campionamento casuale
semplice senza ripetizione.
42
Figura 3.4: Determinazione della numerosità del campione per la stima della media della
variabile Coperti.
Dim. campione per Coperti
0.30
150
0.25
0.20
r
100
0.15
0.10
50
0.05
0.00
0.05
0.10
0.15
0.20
alpha
43
0.25
3.3
Il campionamento stratificato
Nel campionamento stratificato la popolazione è suddivisa in sottogruppi mutualmente
esclusivi, detti strati, in base ad una o più variabili ausiliarie o di classificazione. L’hesimo strato, con h = 1, . . . , H, contiene Nh elementi e la struttura della popolazione
viene sintetizzata nella tabella 3.2. Da ciascun sottogruppo viene estratto in maniera
indipendente un campione di numerosità nh ed il risultato finale viene sintetizzato nella
tabella 3.3, dove si è posto:
Ȳh =
Strato
1
2
..
.
Nh
Nh
1 X
1 X
Yih , Sh2 =
(Yih − Ȳh )2 ,
Nh i=1
Nh − 1 i=1
Tabella 3.2: Descrizione di una popolazione stratificata
Elementi
Numerosità Media Varianza
Y11 · · · Y1i · · · Y1N1
N1
Ȳ1
S12
Y21 · · · Y2i · · · Y2N2
N2
Ȳ2
S22
..
..
..
..
..
..
.
···
.
.
.
.
···
.
h
..
.
Yh1
..
.
H
YH1
···
···
···
Yhi
..
.
YHi
···
···
···
YhNh
..
.
Nh
..
.
Ȳh
..
.
Sh2
..
.
YHNH
NH
ȲH
2
SH
La stratificazione ha i seguenti obiettivi:
• aumentare la precisione delle stime rispetto al CCS, qualora i sottogruppi siano
omogenei al loro interno e disomogenei tra di loro;
• facilitare e razionalizzare il campionamento, che può presentare problematiche diverse nei vari sottogruppi, come nel caso del campionamento della popolazione
residente in zone urbane o rurali;
• conseguire stime per suddivisioni di interesse della popolazione.
Solitamente, queste variabili sono collegate alla caratteristica oggetto di indagine; nel
seguito dimostreremo che questo tipo di campionamento risulta tanto più efficace quanto
maggiore è la dipendenza di Y dalle variabili di classificazione.
3.3.1 Stima della media della popolazione
Si supponga di essere interessati alla stima della media del carattere nella popolazione,
Ȳ =
Nh
H X
H
1 X
1 X
Yhi =
Nh Ȳh .
N h=1 i=1
N h=1
44
h
..
.
Tabella 3.3: Descrizione di un campione stratificato.
Elementi
Numerosità Media Varianza
y11 · · · y1j · · · y1n1
n1
ȳ1
s21
y21 · · · y2j · · · y2n2
n2
ȳ2
s22
..
..
..
..
..
..
.
···
.
.
.
.
···
.
yh1 · · · yhj · · · yhnh
nh
ȳh
s2h
..
..
..
..
..
..
.
···
.
···
.
.
.
.
H
yH1
Strato
1
2
..
.
···
yHj
Note: ȳh =
1
nh
···
yHnH
j=1
yjh , s2h =
Pnh
Lo stimatore
ȳst =
nH
1
nh −1
Pnh
j=1 (yjh
ȳH
s2H
− ȳh )2
H
H
X
1 X
Nh ȳh =
Wh ȳh
N h=1
h=1
(3.7)
dove Wh = Nh /N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione Ȳ . Questo risultato consegue
dal fatto che le medie campionarie di strato, ȳh , sono stimatori corretti delle medie di
strato Ȳh .
P
Si noti che ȳst è diverso dalla media campionaria ȳ = n1 H
h=1 nh ȳh e che coincide con
essa solo nel caso di allocazione proporzionale delle unità del campione:
nh
Nh
=
.
n
N
Questa circostanza giustifica la dicitura che l’allocazione proporzionale dà luogo ad un
campione autoponderante. Quando l’allocazione non è proporzionale ciascuna unità della popolazione ha una probabilità di inclusione del campione dipendente dalla dimensione dello strato a cui appartiene; si può facilmente mostrare che questa risulta pari
alla frazione di campionamento utilizzata nello strato di pertinenza, vale a dire fh =
P P
nh /Nh . Lo stimatore (3.7) può essere scritto come N −1 h j yhj /fh , dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di selezione.
La circostanza che la probabilità di selezione sia costante semplifica gli stimatori dal
punto di vista computazionale, ma non è assolutamente vincolante: ciò che rileva è che
le unità della popolazione abbiano una probabilità nota e non nulla di appartenere al
campione.
La varianza dello stimatore (3.7) consegue immediatamente dall’assunzione che l’estrazione dei campioni in ciascuno strato avvenga in maniera indipendente:
Var(ȳst ) =
H
H
X
1 X
Sh2
Sh2
2
N
(N
−
n
)
=
W
(1
−
f
)
,
h
h
h
h
N 2 h=1
nh h=1 h
nh
45
(3.8)
dove fh = nh /Nh rappresenta la frazione di campionamento nell’h-esimo strato. Nel
caso di allocazione proporzionale (f = fh ) l’espressione della varianza si semplifica
come segue:
H
1−f X
Var(ȳst ) =
Wh Sh2 .
(3.9)
n h=1
L’espressione (3.8) dipende dalle varianze di strato, che sono generalmente incognite.
Possiamo, tuttavia, applicare i risultati del CCS, per cui
s2h =
nh
1 X
(yhj − ȳh )2
nh − 1 j=1
è uno stimatore corretto di Sh2 . Sostituendo in (3.8) si ottiene una stima di Var(ȳst ), che
può essere utilizzata per costruire intervalli di confidenza per la media della popolazione.
3.3.2 Esempio illustrativo
Nel caso della popolazione di unità di ristorazione utilizzato nella sezione 3.1.2 una variabile di stratificazione potrebbe essere la dimensione, che presenta tre categorie. Il fatturato ed i coperti sono naturalmente correlati alla dimensione (come è dato osservare
dalla tabella 3.4, che mostra come il numero medio - e la varianza - dei coperti cresca al
crescere della dimensione) per cui ci si può attendere che il campionamento stratificato
consenta notevoli guadagni di precisione.
Tabella 3.4: Stratificazione della popolazione nel data set Ristoranti: il numero dei coperti
Strato (h) Nh
Ȳh
Sh2 nh
ȳh
s2h
1
90 46.5 1411.4
9
45.1
954.4
2
48 74.9 1634.2
5
87.2 1621.7
3
42 138.8 7970.5
4 111.5 7403.7
Si supponga di effettuare un’allocazione proporzionale di n = 18 unità; la tabella 3.4
mostra i risultati ottenuti mediante:
Dim <- factor(Dimensione)
table(Dim)
tapply(Coperti, Dim, mean)
tapply(Coperti, Dim, var)
n <- 18
f <- n / 180
all.prop <- round(n*table(Dim)/180)
s1 <- sample(Coperti[Dim==1],all.prop[1])
s2 <- sample(Coperti[Dim==2],all.prop[2])
46
s3 <- sample(Coperti[Dim==3],all.prop[3])
m1 <- mean(s1); v1 <- var(s1)
m2 <- mean(s2); v2 <- var(s2)
m3 <- mean(s3); v3 <- var(s3)
W <- as.matrix(table(Dim)/180)
m.st <- W[1] * m1 + W[2] * m2 + W[3] * m3
v.st.hat <- ((1-f)/n) * (W[1] * s1 + W[2] * s2 + W[3] * s3)
ˆ st ) = 150.34; dal momento
La stima della media della popolazione ȳst = 71.8 e Var(ȳ
che la varianza dello stimatore è più piccola di quella che si consegue con il campionamento casuale semplice, l’intervallo di confidenza ottenuto in corrispondenza del livello
di probabilità α risulta molto più ridotto.
La figura 3.5 mostra la distribuzione dello stimatore (3.7) in 1000 campioni stratificati
per il fatturato medio e il numero medio di coperti. Il confronto con la figura 3.2 mette
in evidenza la minore dispersione delle stime, che risulta particolarmente rilevante nella
seconda fattispecie.
3.3.3 L’allocazione del campione negli strati
Una volta fissata la numerosità campionaria, occorre decidere come allocare le n unità
all’interno degli strati. Nelle sezioni precedenti abbiamo considerato una particolare forma di allocazione, effettuata in proporzione alla numerosità degli strati, Nh (allocazione
proporzionale). Questa strategia ha il vantaggio di essere facilmente implementabile,
utilizzando tra l’altro un’informazione solitamente già disponibile sulla struttura della
popolazione.
In questa sezione introduciamo per la prima volta il vincolo economico, rappresentato
da una funzione di costo del tipo:
C = C0 +
X
ch nh ,
h
la quale postula che il costo complessivo del campionamento risulta da una componente
fissa, C0 , legata all’impiego di infrastrutture, mezzi tecnici (elaboratori elettronici), personale (formazione degli intervistatori), etc., e di una componente variabile in relazione al
numero delle unità (spese di trasporto, telefoniche, di intervista, etc.). Si suppone inoltre
che il costo marginale vari da strato a strato.
Solitamente, il campionamento viene effettuato utilizzando delle risorse date, rispettando cioè un budget assegnato e pertanto ha senso chiedersi quale sia il modo ottimale
di ripartire il campione di n unità all’interno degli H strati. Pare logico, per n fissato,
scegliere nh , h = 1, . . . , H, in modo da minimizzare la varianza dello stimatore ȳst a
partità di costo; ciò da luogo al problema di ottimo vincolato:
min Var(ȳst ) s.v. C = C0 +
X
h
47
ch nh ,
Figura 3.5: Distribuzione della media stratificata in 1000 campioni di dimensione n = 18,
allocati proporzionalmente.
Fatturato: densità media campionaria
0
0.000
50
0.004
100
150
Fatturato: istog. m. camp.
200
400
600
800 1000
200 400 600 800
Coperti: densità media campionaria
0
0.00
0.02
20 40 60 80
Coperti: istog. m. camp.
40
60
80
100
120
40
48
60
80
100
la cui soluzione fornisce (si veda l’appendice B al presente capitolo)
√
(C − C0 )Wh Sh / ch
nh =
,
P
√
h Wh Sh ch
che suggerisce che l’allocazione ottimale dipende dalla dimensione dello strato, rappresentata dal termine Wh , dalla variabilità del carattere all’interno dello strato (a parit à
di altre condizioni, quanto minore l’omogeneità interna dello strato tanto maggiore sarà
il numero di unità da selezionare per ottenere un campione rappresentativo), nonchè dal
costo marginale, ch . Si noti che l’allocazione ottimale garantisce il soddisfacimento del
P
vincolo di bilancio h ch nh = C − C0 .
Nel caso particolare in cui il costo marginale sia invariante rispetto allo strato (ch = c)
si ottiene l’allocazione di Neyman
Wh Sh
.
(3.10)
nh = n P
h Wh Sh
P
Questa minimizza la varianza dello stimatore stratificato sotto il vincolo h nh = n. Con
riferimento all’esempio riportato nella tabella 3.4, assumendo di dover ripartire n = 18
unità nei tre strati, si ha:
√
(90/180) · 1411.4
√
√
√
n1 = 18 ·
≈ 7,
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
√
(48/180) · 1634.2
√
√
√
n2 = 18 ·
≈ 4,
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
√
(42/180) · 7970.5
√
√
√
n3 = 18 ·
≈ 7.
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
Il problema posto dall’allocazione ottimale e di Neyman riguarda il fatto che richiedono
informazioni solitamente non disponibili circa la dispersione del fenomeno all’interno
degli strati.
3.3.4 Vantaggi comparati della stratificazione
Il guadagno nella precisione degli stimatori che consegue dalla stratificazione rispetto al
campionamento casuale semplice verrà illustrato con riferimento alla stima della media
della popolazione. Il primo risultato che dimostreremo è che lo stimatore stratificato
della media con allocazione proporzionale presenta una varianza più piccola di quella del
CCS. La dimostrazione fa ricorso alla scomposizione della somma dei quadrati totale in
componente entro gli strati e tra gli strati:
P
P
Nh
H
(N − 1)S 2 =
(Y − Ȳ )2
Ph=1
P i=1 hi
=
[(Yhi − Ȳh ) + (Ȳh − Ȳ )]2
Ph Pi
P
P P
=
(Y − Ȳh )2 + h Nh (Ȳh − Ȳ )2 + 2 h i (Yhi − Ȳh )(Ȳh − Ȳ )
P
Ph i hi
2
2
=
h Nh (Ȳh − Ȳ ) ,
h (Nh − 1)Sh +
49
dove il primo addendo è una somma ponderata delle varianze all’interno degli strati,
mentre il secondo dipende dalle differenze tra le medie di strato e la media globale.
Dividendo per N − 1 ambo i membri e utilizzando le approssimazioni (Nh − 1)/(N −
1) ≈ Nh /(N − 1) ≈ Wh si riscrive:
S2 =
X
Wh Sh2 +
X
h
Wh (Ȳh − Ȳ )2
h
e, moltiplicando per (1 − f )/n, si ottiene, alla luce delle espressioni (3.3) e (3.9):
p
Var(ȳ) = Var(ȳst
)+
1−f X
Wh (Ȳh − Ȳ )2
n
h
(3.11)
p
dove ȳst
è lo stimatore della media con allocazione proporzionale. Dal momento che
il secondo addendo è comunque non negativo, la (3.11) mette in luce che Var(ȳ) ≥
p
Var(ȳst
), vale a dire lo stimatore stratificato con allocazione proporzionale consente un
guadagno di precisione che è tanto maggiore quanto più le medie di strato differiscono tra
di loro e dalla media globale. Soltanto nel caso in cui le medie di strato sono tutte uguali
le due varianze coincidono. Questo risultato consente di affermare che i benefici del campionamento stratificato dipendono dalla capacità delle variabili di stratificazione di individuare sottogruppi della popolazione che sono disomogenei rispetto alla caratteristica di
studio.
Il rapporto
P
p
2
Var(ȳst
)
h Wh Sh
=
Var(ȳ)
S2
misura la riduzione proporzionale della varianza che consegue dalla stratificazione con
allocazione proporzionale e prende il nome di Effetto del disegno (campionario), o Design
Effect (Deff). Per la popolazione illustrata nella tabella 3.4 con riferimento al numero dei
coperti, il Deff ammonta a
p
Def f (ȳst
)=
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
= 0.69
4320.9
ed indica che la stessa precisione che si ottiene da un campione casuale semplice di numerosità n può essere conseguita con campione stratificato (con allocazione proporzionale)
di numerosità circa pari a 0.7n (ovvero che la precisione del secondo, a parità di n, è del
44% superiore a quella del primo).
Ulteriori guadagni di precisione possono conseguire da un’allocazione effettuata in
base ad un criterio che tenga congiuntamente conto del peso relativo degli strati e della
varianza interna agli strati. E’ infatti intuitivo che, a parità di numerosità, negli strati più
omogenei sia necessario osservare meno unità per ottenere un campione rappresentativo.
Ci accingiamo a mostrare che l’allocazione ottimale di Neyman (3.10) consente un’ulteriore riduzione della varianza dello stimatore rispetto all’allocazione proporzionale.
50
In primo luogo, dalla (3.8) segue che la varianza dello stimatore della media con
o
allocazione di Neyman, denotato ȳst
, risulta
o
Var(ȳst
) =
=
=
P
h
P
−1
−1
2
Wh2 (n
Ph − Nh )Sh
W S
P
h h
h
Sh2 − N1 h Wh Sh2
Wh2 nW
S
h
h
P
1 P
( h Wh Sh )2 − N1 h Wh Sh2 .
n
h
Inoltre, riscrivendo
p
Var(ȳst
)=
si ha:
1−f X
1X
1 X
Wh Sh2 =
Wh Sh2 −
Wh Sh2 ,
n
n h
N h
h
p
o
Var(ȳst
) − Var(ȳst
) =
=
P
1
n
1
n
P
P
Wh Sh2 − n1 ( h Wh Sh )2
h
P
2
h
Wh (Sh − S̄)
dove S̄ = h Wh Sh è la media ponderata degli scarti quadratici medi di strato. Questo
risultato consente di concludere che la varianza dello stimatore con allocazione di Neyman
è più piccola di quella che si consegue con l’allocazione proporzionale. Il guadagno di
precisione è tanto più elevato quanto più variabile si presenta la dispersione del carattere
tra gli strati.
3.4
Il questionario
Il questionario costituisce una successione ordinata di quesiti e rappresenta lo strumento
principale per ottenere informazioni nel campo delle ricerche di mercato. La propensione a fornire informazioni dipende, tra l’altro, dalla presentazione del quesito e da altre
circostanze, alcune delle quali controllabili dal piano dell’indagine (preparazione e sensibilizzazione degli intervistatori, specificazione degli obiettivi dell’indagine). L’esperienza
mostra, si veda l’eccellente rassegna di Kalton e Schuman [9], che elementi quali la verbalizzazione dei quesiti, il loro formato e posizione all’interno del questionario, l’ordine
delle alternative presentate, il loro bilanciamento, la presenza di assunzioni implicite, la
scelta tra domande aperte e chiuse, costituiscono fonti (indesiderate) di variabilità dei
risultati, soprattutto nel campo della misurazione attitudinale.
Con riferimento al contenuto sostanziale dei quesiti occorre valutare:
• la rilevanza dell’informazione tratta da ciascun quesito. Il tasso di rifiuto cresce in
misura più che proporzionale al crescere della durata dell’intervista, per cui occorre
concentrarsi soltanto sull’informazione essenziale (necessaria).
• Capacità del quesito di produrre l’informazione richiesta: il quesito è sufficiente o
deve essere accompagnato da altri quesiti? (sufficienza).
51
• Capacità del rispondente di rispondere accuratamente. L’incapacità potrebbe essere
causata da:
1. Mancanza di informazione (disinformazione) su quel particolare aspetto. Un
problema viene posto dalla cosiddetta spurious awareness, che si ha quando
non è socialmente desiderabile mostrarsi disinformati su alcuni aspetti delle
vita quotidiana. Un possibile rimedio è inserire un quesito di verifica o una
domanda filtro. Ad esempio il quesito rivolto ad uno studente Quanto spende
la sua famiglia in prodotti ortofrutticoli ogni settimana? potrebbe essere preceduto da Chi provvede alla spesa per prodotti ortofrutticoli in famiglia?
2. Memoria; la difficoltà a richiamare eventi passati dà luogo essenzialmente a
tre effetti indesiderati: (i) omissione, consistente nella mancata rilevazione
dell’evento medesimo; (ii) effetto telescopico o di ingigantimento - si dichiara
che l’evento ha avuto luogo più recentemente rispetto a quando è effettivamente occorso, producendo una distorsione nella collocazione temporale dello stesso; (iii) invenzione. Il ricordo di un particolare evento (la marca del
prodotto X acquistato l’ultima volta, il programma televisivo guardato 3 giorni
fa alle ore 21) dipende dal tempo trascorso dal momento in cui ha avuto luogo.
Al fine di attenuare le distorsioni indotte dalla memoria si possono utilizzare
tecniche di Unaided recall, mediante la presentazione di tutte le alternative
plausibili: queste tuttavia tendono a produrre una sottostima di specifici eventi,
quali il consumo di marche meno note e meno pubblicizzate nell’insieme delle
scelte. Le tecniche di Aided recall forniscono soltanto un numero limitato di
alternative e riducono le omissioni, ma aumentano il rischio delle invenzioni
e dell’ingigantimento.
3. Impossibilità di verbalizzare una risposta (attitudini)
• Volontà del rispondente di rispondere (con l’accuratezza desiderata). Di fronte a
domande personali o imbarazzanti l’intervistato può opporre il rifiuto a rispondere;
nel caso più estremo si configura una mancata risposta totale, concernente l’intero questionario. In altre circostanze il rispondente distorce l’informazione - un
fenomeno abbastanza diffuso è la sottodichiarazione del reddito. I possibili rimedi
riguardano: 1. l’impiego di counterbiasing statements, miranti a spersonalizzare
il tipo di informazione richiesta: in una rilevazione che cerca di quantificare la dimensione del mercato per cosmetici da uomo si può utilizzare un’affermazione del
tipo studi recenti hanno mostrato come sia sempre più frequente l’uso di prodotti
cosmetici tra gli uomini nella sua classe d’età. Si confronti la domanda diretta ha
mai evaso il fisco? con l’affermazione Ritiene che l’evasione fiscale sia diffuso tra
i contribuenti? Per quale motivo la gente evade le tasse?. 2. Impiego di tecniche di
rilevazione casualizzate (randomized response techniques).
Con riferimento al contenuto verbale ovvero alla presentazione formale dei quesiti:
52
• Esplicitare sempre il significato delle parole e del quesito. es. numero componenti
la famiglia. Evitare l’impiego di parole ambigue e di difficile comprensione. Notare
che spesso, qualche volta, occasionalmente hanno un contenuto prossimo e non
sempre costituiscono valide alternative nella costruzione di una scala.
• Evitare parole biased che interferiscono con il meccanismo di risposta poiché implicano già una connotazione positiva o negativa.
• Valutare se tutte le alternative sono elencate. L’esclusione di alternative rilevanti
porta alla sovrarappresentazione del fenomeno per quelle previste.
• Valutare la presenza di assunzioni implicite? La mancata specificazione di assunzioni essenziali generalmente inflaziona la domanda di alcuni prodotti o servizi, o
la preferenza verso determinate scelte. E’ favorevole alla riduzione dell’orario di lavoro - alla razionalizzazione del settore pubblico (assunzione: anche se ciò implica
una riduzione dello stipendio - una forte riduzione del personale)?
Anche il formato dei quesiti può risultare non neutrale: Le domande a risposta aperta hanno il pregio di non influenzare il rispondente tramite un insieme di alternative già
predisposto. Lasciando aperta la possibilità ad un vasto ambito di risposte, si prestano
bene per le indagini esplorative. Risultano tuttavia problematiche poiché dipendono dalla capacità del rispondente di esprimere e verbalizzare la propria risposta; esse risultano
pertanto esposte in alto grado all’effetto dell’intervistatore; esse inoltre pongono un problema di codifica delle risposte (si rende spesso necessaria una precodifica delle risposte
possibili).
Le domande a risposta chiusa facilitano sia l’intervistatore che il rispondente, conseguendo una maggiore standardizzazione e, a volte, una maggiore obbiettività (ponendo
un limite all’interazione dell’intervistatore). Tuttavia, la lista delle alternative non e’ sempre agevole o possibile (es. motivo principale per cui ha scelto la marca x di televisore), e
forzare la scelta genera possibili distorsioni; in alcuni casi il problema è aggirato mediante
l’introduzione di una categoria residuale (Altro: Specificare....); ciononostante esiste una
spiccata tendenza a selezionare una delle alternative proposte, anche se non direttamente
rilevante. A volte una categoria modale potrebbe essere volontariamente esclusa per non
nascondere altre informazioni: ad es. Oltre all’onestà, quale altra dote dovrebbe essere
importante per un politico.
La presenza di alternative bilanciate o sbilanciate e l’ordine delle alternative sono anche esse fonte di variabilità dei risultati di una rilevazione; con riferimento al secondo
punto si ha luogo ad un cosiddetto bias di posizione che riguarda la prima delle alternative presentate contemporaneamente e l’ultima di una serie di alternativa complesse
(soprattutto nel caso dell’intervista telefonica).
La successione dei quesiti costituisce una delle potenziali fonti di errore. Alcune
linee guida per minimizzare questa fonte sono: iniziare con domande semplici obiettive
53
e interessanti per limitare al massimo i rifiuti. Le domande più difficili o personali alla
fine, quando un rapporto di fiducia con l’intervistatore si è già instaurato. In un contesto
logico, partire dal generale per approdare al particolare.
Infine, le caratteristiche fisiche del questionario devono essere tali di minimizzare la
possibilità di errori di trascrizione e realizzare una chiara segnaletica sulle ramificazioni
dei quesiti.
3.5
Le tecniche di intervista
E’ possibile categorizzare le tecniche in relazione a: i) il grado di libertà lasciato all’intervistatore nel formulare le domande: interviste strutturate, semi strutturate e non strutturate. Nelle ultime due l’intervistatore può alterare le domande, modificare la successione delle parole al fine di ottenere i risultati desiderati; ii) il metodo di comunicazione:
1. Intervista personale
2. Intervista telefonica
3. Indagine postale
4. Intervista computerizzata
Al fine di effettuare una scelta tra le diverse opzioni disponibili occorrerà valutare
diversi criteri:
• Capacità di gestire questionari lunghi. Questa risulta decisamente minima per i
sondaggi postali: il rispondente può essere confuso dal numero delle alternative
elencate e dai rinvii ad altri quesiti (se NO vai al quesito n. 9). Massima per le
interviste personali, dove l’intervistatore offre la sua assistenza al rispondente.
• Accuratezza della misurazione. A proposito delle interviste personali si parla dell’effetto intervistatore come possibile fonte di errore non campionario. Se il quesito
riguarda temi imbarazzanti o domande personali, risulta più probabile che l’unità
fornisca la risposta vera in un sondaggio postale, che consente l’anonimato.
• Controllo sulla numerosità campionaria. Risulta estremamente elevato per le interviste telefoniche effettuate con la tecnica del random digit dialing. Tuttavia, il
problema delle unità assenti, che rifiutano l’intervista e della copertura della lista è
comune a tutte le tecniche.
• Tempestività e rapidità di elaborazione. Massime per le interviste telefoniche;
problematiche per le interviste postali.
• Costo.
54
Appendice A: la varianza della media campionaria nel
campionamento casuale semplice
Dimostreremo l’espressione della varianza della media campionaria nel CCS senza
ripetizione.
Var(ȳ) = Var
=
=
1
n2
1
n2
S2
n
=
= (1
h P
n
1
i
y
hPn j=1 j
i
P P
n
Var(y
)
+
Cov(y
,
y
)
j
h
k
h
k6=h i
h j=1
n NN−1 S 2 − n(n − 1)S 2 /N
h
i
N −1
n−1
−
N
N
2
− f ) Sn
Nel corso della derivazione sono stati utilizzati i seguenti risultati:
Var(yj ) = E[(yj − Ȳ )2 ] =
N
X
(Yi − Ȳ )2 P (yj = Yi ) =
i=1
e
N
N −1 2
1 X
(Yi − Ȳ )2 =
S
N i=1
N
Cov(yh , yk ) = E[(yh − Ȳ )(yk − Ȳ )]
PN PN
=
i − Ȳ )(Yj − Ȳ )P (yh = Yi , yk = Yj )
i=1 P
j6=i (YP
N
= N1 N 1−1 N
j6=i (Yi − Ȳ )(Yj − Ȳ )
i=1
dal momento che P (yh = Yi , yk = Yj ) = P (yh = Yi |yk = Yj )P (yh = Yi ) = (1/N )[1/(N −
1)]. Inoltre,
P
PN PN
(Yj − Ȳ )2
Ȳ )(Yj − Ȳ ) − N
j=1 (Yi −
Pj=1
P
Pi=1
N
N
N
(Yi − Ȳ ) j=1 (Yj − Ȳ ) − j=1 (Yj − Ȳ )2
=
i=1
PN
2
PN PN
j6=i (Yi − Ȳ )(Yj − Ȳ ) =
i=1
= − j=1 (Yj − Ȳ )
= −(N − 1)S 2
e pertanto,
Cov(yh , yk ) = −
55
S2
.
N
Appendice B: allocazione ottimale nel campionamento
stratificato
Riscrivendo
Var(ȳst ) =
H
X
h=1
Wh2 (1 − fh )
H
H
X
X Sh2
Sh2
1 X
=
Wh2
− 2
Nh Sh2 ,
nh h=1
n
N
h
h
h=1
si ha
∂
Var(ȳst ) = −Wh2 Sh2 /n2h .
∂nh
Si consideri ora il lagrangiano per il problema di minimizzare la varianza dello stimatore
ȳst condizionatamente al rispetto del vincolo di bilancio:
φ(n1 , . . . , nh , λ) = Var(ȳst ) − λ(C − C0 −
X
ch nh ).
h
Le condizioni del primo ordine forniscono:
∂φ
∂nh
∂φ
∂λ
= −Wh2 Sh2 /n2h + λch ≡ 0,
h = 1, . . . , H
;
P
= −(C − C0 − h ch nh ) ≡ 0
pertanto, risolvendo rispetto a nh le prime H equazioni, si ottiene:
Wh Sh
nh = √
.
λch
Sostituendo nell’ultima equazione e risolvendo rispetto a
P
√
√
h Wh Sh ch
λ=
,
C − C0
(3.12)
√
λ si ha
che sostituita a sua volta nella (3.12) fornisce la soluzione al problema di allocazione
ottimale:
√
(C − C0 )Wh Sh / ch
nh =
.
P
√
h Wh Sh ch
56