La stima del numero degli occupati in un`economia sommersa

Transcript

La stima del numero degli occupati in un`economia sommersa
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
Capitolo 9
La stima del numero degli occupati in un’economia
sommersa tramite il campionamento da popolazioni elusive
Introduzione
Con il termine economia sommersa si intendono, in generale, tutte le attività
economiche (ad eccezione di quelle criminali) di un paese che, pur contribuendo alla
formazione del PIL, si svolgono in violazione di un obbligo di legge o di un regolamento e,
pertanto, risultano sconosciute ai pubblici poteri.
A seconda della tipologia dei soggetti economici che esplicano tali attività, si distingue
più propriamente tra sommerso di lavoro e sommerso d’impresa.
Nel primo caso manca un rapporto formalizzato tra il lavoratore e il datore di lavoro,
oppure vi è regolarità formale a fronte di una remunerazione e di condizioni contrattuali
differenti da quelle in vigore a livello nazionale. Nel secondo caso è l’impresa che è
sconosciuta alle istituzioni. In particolare, l’impresa può essere completamente sommersa se
non esiste come forma giuridica, non produce reddito visibile, non ha bilancio, utilizza
lavoratori in nero, o parzialmente sommersa se evade parzialmente gli obblighi fiscali e /o
previdenziali, occulta una parte del suo reddito e ricorre anche la lavoro nero.
Ai fini di una maggiore comprensione del mondo del sommerso occorre considerare,
accanto all’economia sommersa vera e propria, che riguarda la produzione legale di cui la
pubblica amministrazione non è a conoscenza a causa di evasione fiscale e contributiva, di
mancato rispetto della normativa sul lavoro (non rispetto del salario minimo, del numero di
ore, ecc.), anche l’economia informale e quella illegale.
L’economia informale fa riferimento, generalmente, a rapporti di lavoro occasionali
basati su relazioni personali o familiari. Le attività produttive che concorrono alla formazione
di questa forma di economia sono da attribuire ad individui che svolgono prestazioni nel
commercio ambulante, nell’artigianato, nell’agricoltura e nei servizi alle persone
(collaborazione domestica, assistenza anziani, baby-sitting, ecc.)
L’economia criminale (o illegale) si riferisce alle attività esercitate in violazione di
norme penali, quali traffico di stupefacenti e di armi, sequestri di persona, furti, rapine,
contrabbando, ecc.
Come è facile intuire i tre fenomeni, che derivano dalla deliberata volontà di non
rispettare le leggi, sfuggono ad ogni tentativo di misurazione diretta da parte delle statistiche
ufficiali e costituiscono quella che viene definita in gergo l’economia non (direttamente)
osservata. A ciò si aggiunge un quarto fenomeno che va sotto il nome di sommerso statistico
che include tutte le attività produttive non registrate a causa delle inefficienze del sistema
statistico di raccolta delle informazioni (mancata compilazione di questionari o di altri modelli
amministrativi).
In linea teorica, le quattro tipologie di sommerso potrebbero essere oggetto di stima e
di inclusione negli aggregati di contabilità nazionale. Tuttavia, in sede europea, si è convenuto
di escludere l’economia illegale in quanto la disomogeneità in tema di materia penale
potrebbe rendere le stime dei diversi paesi non direttamente confrontabili.
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
203
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
L’analisi delle dinamiche del sommerso riveste particolare interesse per governi e
organismi internazionali. L’economia non dichiarata ha infatti riflessi negativi sulla finanza
pubblica in quanto la mancata riscossione del gettito fiscale e dei contributi previdenziali, se
da una parte pregiudica la copertura dei costi dello stato sociale e dell’erogazione dei servizi
pubblici, dall’altra determina un aumento della pressione fiscale verso i cittadini e le imprese,
innescando una spirale perversa che induce i soggetti economici a non permanere
nell’economia legale.
1
Il problema della stima
Come fa rilevare Zizza (2002), i metodi di stima del sommerso impiegati nella analisi
economiche possono essere distinti in metodi diretti e metodi indiretti
I primi, di tipo microeconomico, si basano fondamentalmente su indagini svolte presso
famiglie e imprese e su dati scaturiti dall’attività di vigilanza tributaria. I secondi deducono
l’entità del sommerso dal confronto tra indicatori macroeconomici quali, ad esempio, il
reddito prodotto e utilizzato per consumi, investimenti e risparmi, consumo di energia
elettrica e produzione industriale, ecc.
Esiste un terzo approccio, noto come model approach, che considera il sommerso
come una variabile non osservabile legata da un lato ad un set di indicatori osservabili che ne
riflettono i cambiamenti e dall’altro ad un set di variabili, anch’esse osservabili, che si
ritengono causa del fenomeno. La metodologia comunemente impiegata con questo approccio
è di natura statistica e si basa sulla teoria delle variabili latenti.
Vi sono essenzialmente tre componenti che concorrono alla formazione del sommerso:
l’occultamento di tutta la filiera di produzione (omissione della dichiarazione degli acquisti e
del fatturato); la sottodichiarazione del fatturato (corretta dichiarazione degli acquisti a fronte
di una sottovalutazione del fatturato); la sovradichiarazione dei costi (corretta dichiarazione
del fatturato a fronte di una sopravvalutazione degli acquisti). La prima coincide con il ricorso
al lavoro irregolare, le altre due con l’evasione fiscale.
Al fine di stimare la componente di lavoro nero, in sede Eurostat sono stati proposti i
seguenti approcci diretti:
•
•
Demographic employment approch (approccio dell’input di lavoro), nel quale si
assume che l’offerta di lavoro rilevata tramite il censimento e tramite l’indagine
campionaria sulle Forze di Lavoro sia inclusiva anche del lavoro nero. Questo
metodo è adottato sistematicamente in Italia.
Sensitivity method, nel quale si ritiene che alcune attività ricorrano con maggiore
probabilità al lavoro nero.
Sempre in ambito Eurostat, per la stima della componente legata alla frode tributaria è
possibile ricorrere a diversi metodi diretti, fra i quali segnaliamo:
Il metodo basato sulle ispezioni effettuate dalle autorità fiscali in cui i risultati dei
controlli svolti sono estesi a tutte le imprese (o percettori di reddito) con
caratteristiche simili;
Il metodo che consiste nello stimare l’evasione da parte delle piccole imprese
(meno di 20 addetti) confrontando il reddito percepito dai lavoratori autonomi
(imprenditori) con quello medio dei lavoratori dipendenti in imprese con
caratteristiche simili, e assumendo che gli introiti dell’imprenditore non possano
mai scendere al di sotto della media dei redditi percepiti dai dipendenti (è adottato
in Italia).
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
204
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
L’approccio tradizionale nella quantificazione, nell’analisi e nell’interpretazione
dell’economia sommersa ha privilegiato sia i metodi diretti che quelli indiretti. Tuttavia, come
fa rilevare Marino (2002), “nessuno di questi metodi appare in grado di fornire delle risposte
adeguate alle domande di interpretazione e soprattutto nessuno di questi è in grado di fornire
indicazioni utili alle politiche. La ragione di ciò è connessa con la natura del fenomeno
oggetto di studio. Si indaga su un fenomeno di cui non si conoscono gli effettivi ordini di
grandezza e ogni analisi statistica contiene in sé, come peccato originale, l’impossibilità a
definire esattamente l’universo da analizzare”.
In realtà, la complessità del fenomeno e le diverse connotazioni che esso assume,
creano, anche a nostro avviso, non pochi problemi di acquisizione delle informazioni e di
stima di taluni aspetti del sommerso. Appare pertanto sensata la necessità di analizzare singoli
aspetti del fenomeno utilizzando un’opportuna metodologia che possa, al contempo, essere
facilmente adattata a situazioni simili.
La nostra attenzione sarà rivolta, in particolare, allo sviluppo di una metodologia
campionaria finalizzata all’acquisizione di informazioni sul lavoro sommerso.
2
Il problema della valutazione degli effetti del POR sull’occupazione
L’impatto sui livelli di occupazione e sulle opportunità di inserimento nel mercato del
lavoro è una delle finalità principali dell’intervento delle politiche territoriali nelle aree che
rientrano nell’Obiettivo 1. Come tale, esso risulta di primaria importanza per le attività di
valutazione degli effetti degli interventi del POR Calabria.
Il criterio per l’assegnazione della riserva di premialità del 4% segnala che l’analisi
degli effetti sull’occupazione può riguardare aspetti quantitativi e qualitativi relativi sia agli
occupati, sia alle imprese, sia agli effetti potenziali di medio lungo termine sulle opportunità
di occupazione. In particolare, il criterio segnala l’importanza di tenere conto delle modalità
in cui il lavoro è erogato (lavoro sommerso o regolare), delle modalità di impiego
(caratteristiche dei rapporti di lavoro) e della partecipazione femminile.
Le informazioni rilevanti ai fini dell’analisi degli effetti sull’occupazione possono
essere ottenute tramite fonti ufficiali (statistiche elaborate dall’Istat, dati provenienti da
archivi amministrativi come quelli dell’Inps, dell’Inail e delle Camere di Commercio, ecc.) e
attraverso rilevazioni sul campo. Queste ultime, al fine di continuo, tempestivo e puntuale
monitoraggio in itinere degli interventi finanziati, non potranno che essere di natura
campionaria.
In tutte le aree dell’Obiettivo 1, l’occupazione è sia regolare che sommersa: si passa da
lavoro non regolare a lavoro regolare lungo un continuum di forme di occupazione.1 Il lavoro
non dichiarato (o dichiarato solo in parte) è solo una sfaccettatura di un fenomeno che
coinvolge l’intera attività economica del Mezzogiorno, dove i soggetti (lavoratori e imprese)
operano in un contesto di relazioni informali, in cui la regolarizzazione è decisa volta per
volta.
In un contesto economico-sociale di questo tipo, al fine di cogliere gli effetti
occupazionali degli interventi occorre, innanzitutto,
1
Si passa, infatti, dal lavoro completamente sommerso (persone che svolgono attività lavorative completamente
non rilevate, e quindi risultano disoccupate o non attive) o dall’alterazione delle dichiarazioni di lavoro (per
esempio, in campo agricolo persone che dichiarano di lavorare per un numero di giornate superiore a quelle
lavorate e svolgono un’attività remunerata al nero in un altro settore) a forme di lavoro solo parzialmente non
regolare (le ore di straordinario lavorate sono sottodichiarate oppure i salari effettivi sono più bassi di quelli
dichiarati) e a forme in cui i contratti utilizzati non corrispondono all’effettiva funzione svolta nell’impresa
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
205
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
1.
2.
formulare idonee domande di valutazione;
definire un appropriato disegno di valutazione.
Una domanda fondamentale è quella che riguarda la qualità del lavoro e le tipologie
contrattuali utilizzate (prestazione occasionale, contratto di collaborazione coordinata e
continuativa, ecc.). L’acquisizione di informazioni su questi due aspetti mira ad accertare se
vi è una giusta corrispondenza fra le mansioni svolte dal lavoratore, le sue caratteristiche
(grado di qualifica, titolo di studio, professionalità acquisita, ecc.) e la tipologia contrattuale
(dipendente part-time, a tempo determinato/indeterminato, collaborazione coordinata e
continuativa, collaborazione occasionale, ecc.)
Ai fini di una corretta valutazione dell’impatto sull’occupazione dei POR occorre
individuare anche le caratteristiche dei lavoratori che rischiano di restare marginali: lavoratori
clandestini che hanno difficoltà a regolarizzare la propria posizione, lavoratori soggetti a
discriminazioni per ragioni razziali e culturali, persone non più giovani per le quali non
valgono sgravi fiscali e facilitazioni, ecc.
Un altro elemento importante per cogliere gli effetti occupazionali è quello di
includere nell’osservazione gli addensamenti di imprese anche piccole e piccolissime che
sono quelle maggiormente esposte al rischio di persistenza nel sommerso se non addirittura di
immersione. Lo sviluppo di tali addensamenti è in grado di creare occupazione eliminando
gradualmente la povertà. La valutazione dovrà, quindi, individuare se e come l’intervento
raggiunge queste imprese e scaturire in suggerimenti su come accentuare l’impatto sugli
addensamenti di imprese piccole e piccolissime.
2.1
Alcuni problemi metodologici
Per avere una visione complessiva del fenomeno sembra importante, a nostro avviso,
quantificare l’impatto dei POR sull’occupazione anche in termini di incremento/decremento
del numero di lavoratori (o imprese) che operano nel sommerso o che emergono
regolarizzando la propria posizione nei confronti della pubblica amministrazione. Se
l’obiettivo principale degli interventi sull’occupazione è la creazione di nuove opportunità di
lavoro e l’emersione dal sommerso, è chiaro che gli interventi in materia risulteranno tanto
più efficaci quanto più numerosi saranno i soggetti che emergeranno dal sommerso.
Un’analisi quantitativa di questo genere si può realizzare, a nostro avviso, con
opportuna indagine campionaria che, riducendo i costi e i tempi di esecuzione, permetta un
costante monitoraggio degli effetti degli interventi sul numero degli occupati, e in particolare
sui lavoratori in nero o su quelli emersi. Una tale indagine, a ben intendere, non ha la pretesa
di sostituire la tradizionale rilevazione Istat sulle Forze di Lavoro, ma vuole rappresentare il
tentativo di mettere in luce ulteriori aspetti che possono sfuggire all’indagine ufficiale e che,
in qualche senso, conducono ad una sottostima dell’offerta di lavoro sul territorio calabrese.
Così, ad esempio, oltre a stimare il numero di occupati in nero residenti in regione, si
potrebbero ottenere informazioni anche sul numero di immigrati regolari o clandestini che
operano nel sommerso.
Una volta chiarito l’obiettivo dell’indagine bisogna individuare i soggetti da rilevare ai
quali dovranno essere rivolte le domande ritenute idonee ad ottenere le informazioni
desiderate. A questo punto sorgono due difficoltà, relative:
1.
2.
alla natura “delicata” degli aspetti intorno ai quali si cerca di indagare;
alla scelta della metodologia campionaria da utilizzare.
In genere, la collaborazione dei soggetti da intervistare è condizionata dalla natura
delle caratteristiche intorno alle quali si indaga nel senso che, quanto più l’indagine riguarda
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
206
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
aspetti considerati riservati, tanto più si riscontra nei soggetti un atteggiamento ostile che si
concretizza nel rifiutare l’indagine o nell’accettarla dando risposte vaghe e/o non veritiere. Si
intuiscono facilmente, quindi, le difficoltà che possono sorgere quando ad un individuo si
chiede direttamente se svolge un’attività lavorativa senza un normale contratto di lavoro, o la
svolge a condizioni diverse da quelle stabilite dai contratti nazionali, oppure se svolge un
secondo lavoro non dichiarato, ecc.
Appare del tutto evidente come, senza opportuni incentivi e correttivi, la scarsa qualità
dei dati raccolti, attribuibile alle risposte poco attendibili e al fenomeno delle mancate
risposte, possa produrre effetti distorsivi sulle stime, inficiando seriamente l’intera analisi.
La metodologia statistica fornisce strumenti idonei alla trattazione dei temi delicati ai
quali, certamente, il fenomeno del sommerso può essere assimilato. Considerata l’importanza
del problema, nell’ultimo paragrafo del capitolo dedicheremo uno spazio alla tecnica delle
risposte casualizzate con la quale si possono ottenere risposte su caratteristiche ritenute “non
dichiarabili” o “dichiarabili con difficoltà”, offrendo agli intervistati la garanzia
dell’anonimato.
Per quanto riguarda la selezione del campione e le procedure di stima da utilizzare, le
tecniche di campionamento probabilistico (Cochran, 1977) normalmente adottate nelle
indagini sulla popolazione, si rivelano poco opportune per il tipo di fenomeno da analizzare.
Infatti, garantire la rappresentatività del campione appare compito di difficile soluzione dal
momento che una parte dell’universo dei soggetti economici (lavoratori e imprese), operando
nel sommerso, risulta “elusiva”. Pertanto, può risultare estremamente difficile disporre di una
lista2 o base di campionamento della popolazione oggetto di studio da cui estrarre un
campione rappresentativo.
In merito a questo aspetto, ci proponiamo di presentare la metodologia campionaria
che riteniamo possa essere impiegata per trattare due tipi di questioni:
1.
2.
la predisposizione di una lista di campionamento e la selezione di un campione di
rappresentativo da una popolazione elusiva;
la stima del numero di lavoratori che operano nel sommerso.
2
Nella pratica campionaria per lista si intende l’elenco ordinato degli elementi che costituiscono la popolazione
oggetto di studio e rappresenta la base per la scelta delle unità da inserire nel campione. Generalmente, si
presenta come un elenco ordinato etichette che identificano le unità della popolazione. Esempi di lista sono
l’elenco delle famiglie disponibili presso l’ufficio di stato civile di un comune, l’elenco degli abbonati al
telefono, l’elenco degli iscritti all’Università, ecc. Idealmente la lista dovrebbe riprodurre esattamente la
popolazione oggetto di studio. Ciò, normalmente, non si verifica per una serie di motivi ascrivibili, in buona
parte, al fenomeno della nati/mortalità e alla lentezza con cui gli elenchi vengono aggiornati. La lista, pertanto,
identifica una tipologia di popolazione detta di selezione che, generalmente, differisce da quella oggetto di
studio, per effetto del cosiddetto errore di copertura (incompletezza della lista, unità duplicate, errata
identificazione delle unità, ecc).
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
207
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
3
Il campionamento da popolazioni rare ed elusive
L’attuale teoria dei campioni da popolazioni finite considera non solo insiemi di unità
di prefissata ampiezza, ma si estende anche a popolazioni delle quali non si conosce la
dimensione e/o la dislocazione; le cosiddette popolazioni rare e/o elusive, potendo accadere
che una popolazione sia al contempo l’una e l’altra. Esempi tipici sono gli insiemi costituiti
da:
soggetti affetti da una rara malattia (popolazione rara);
famiglie con un componente scomparso (popolazione rara);
immigrati senza regolare permesso di soggiorno (popolazione elusiva);
individui che non hanno una dimora fissa (popolazione elusiva);
lavoratori in nero (popolazione elusiva);
aziende che operano nel sommerso (popolazione elusiva);
individui di una minoranza etnica in via di estinzione (popolazione rara ed elusiva).
Il problema connesso con dette popolazioni riguarda principalmente la lista delle unità.
Per le popolazioni rare, possono essere disponibili liste complete ma risultano di difficile
impiego perché contenute in liste più ampie a cui appartengono molte unità che non sono
d’interesse per l’indagine; di conseguenza occorre esaminare un elevato numero di unità
prima di selezionarne un numero sufficiente con le caratteristiche considerate. Tuttavia, se la
lista è ritenuta valida, nulla impedisce di impiegare i metodi di campionamento probabilistico.
Per le popolazioni elusive il problema si configura in maniera leggermente diversa in
quanto il più delle volte o non è disponibile alcuna lista o si dispone di una o più liste
incomplete che possono presentare unità in comune. Tale aspetto rende necessaria la
definizione di una metodologia campionaria diversa da quella comunemente utilizzata nelle
indagini parziali (Cochran, 1977). In tal senso, la progettazione di un efficiente piano di
campionamento costituisce un compito impegnativo, ma certamente stimolante, per lo
statistico che si occupa di campionamento da popolazioni finite.
Il campionamento da popolazione elusive offre non poche possibilità di analisi di
alcuni aspetti relativi al fenomeno del sommerso. La metodologia che ci accingiamo a
presentare può essere utilizzata sia per selezionare, attraverso procedure non probabilistiche,
un campione rappresentativo dell’universo dei soggetti che operano nel sommerso sia per
stimare la diffusione di una determinata caratteristica, ovvero per stimare il numero (o la
proporzione) di soggetti che presentano un determinato attributo. In particolare, come già
anticipato, la nostra attenzione sarà indirizzata principalmente al tentativo di stimare il
numero di individui che, a diverso titolo, svolgono attività lavorativa in nero. Segnaliamo,
tuttavia, che tutto ciò che diremo per i lavoratori in nero può essere esteso, con le dovute
modifiche, anche alle imprese che operano nel sommerso.
Nelle sezioni che seguono presenteremo alcune strategie campionarie che negli ultimi
anni sono state applicate in situazioni analoghe a quella da noi considerata: il network
sampling, il snowball sampling e il metodo di cattura-ricattura. Questi metodi non esauriscono
il ventaglio delle possibilità che offre il campionamento da popolazioni rare e/o elusive, ma
rappresentano quelli che meglio si prestano alla trattazione del problema da noi posto.
Un’ampia trattazione dei metodi non presentati può essere rinvenuta in Borchers et al. (2002),
Kalton & Anderson (1986), Seber (1986).
1.1
Il network sampling
Il network sampling (campionamento a rete) è una procedura campionaria che trova
impiego nello studio di alcune caratteristiche che si manifestano su particolari gruppi di unità.
In particolare, viene largamente utilizzato in indagini finalizzate alla stima della diffusione
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
208
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
(prevalence) di determinati aspetti in popolazione rare e/o elusive. Il campionamento da
queste popolazioni richiederebbe, infatti, un elevato numero di contatti prima di ottenere un
campione rappresentativo della caratteristica (spesso rara) da investigare. Il campionamento a
rete conduce, in genere, ad una significativa riduzione dei contatti richiesti consentendo al
contempo, tramite il ricorso ad una rete di legami sociali, l’identificazione dei componenti di
una popolazione che altrimenti risulterebbero difficili da “scoprire” (tossicodipendenti,
alcolisti, immigrati clandestini, lavoratori in nero, ecc.). La tecnica consente così di costruire
ex novo una lista, ricostruirne una più ampia oppure valutare la qualità di una lista già
disponile.
Il campionamento a rete si articola in due fasi:
1.
2.
fissato uno schema di campionamento probabilistico (Cochran, 1977) si procede
all’estrazione casuale di un campione di n unità, dette unità di selezione;
si osservano (direttamente) non solo le unità che formano l’unità di selezione estratta ma
anche tutte quelle che, in base un predefinito legame, risultano collegate a quelle facenti
parte dell’unità di selezione.
Il campione finale risulta così di dimensione non inferiore e quello inizialmente
formato dalle sole unità componenti quelle di selezione. Tutte le unità che formano il
campione finale rappresentano le cosiddette unità di osservazione. In particolare, quelle legate
direttamente dal legame stabilito danno luogo ad un sottoinsieme detto network. Come è
facile intuire, può accadere che una medesima unità di osservazione sia collegata a più unità
di selezione. Il numero delle unità di selezione a cui ogni unita di osservazione costituente il
network è associata si definisce molteplicità (dell’unità o del network in cui l’unità si trova).
La metodologia per stimare il numero dei lavoratori in nero
Il disegno di campionamento può essere utilizzato per stimare efficientemente il totale
(o la media) di una carattere oggetto di studio. Per potere analizzare tale aspetto è opportuno
introdurre la notazione di base necessaria alla trattazione. Indicata con Y la variabile oggetto
di studio, sia yi il valore che questa assume sulla i-ma unità di osservazione della
popolazione.
Ai fini della nostra analisi volta a stimare in numero di lavoratori in nero, yi si
configura come una variabile indicatore che assume valore pari ad uno se la i-ma unità
presenta l’attributo di “lavoratore in nero”, valore pari a zero in caso contrario. Sia N la
numerosità della popolazione3 oggetto di studio. Allora il totale del carattere Y nella
popolazione è dato da
τy =
N
i =1
yi
e costituisce, nel nostro caso, il parametro incognito da stimare.
Supponiamo, inizialmente, di formare il campione iniziale costituito da n unità di
selezione tramite il campionamento casuale semplice senza reimmissione e che ogni unità di
osservazione legata ad una qualsiasi unita di selezione estratta venga inclusa nel campione
finale su cui sarà effettuata l’indagine.
Sia mi la molteplicità relativa alla i-ma unità di osservazione e sia M il numero di unità di
selezione nella popolazione. Inoltre, sia pi la probabilità di selezionare la i-ma unità di
osservazione ad una generica estrazione. Tale probabilità è pari alla probabilità di selezionare
3
La popolazione potrebbe essere costituita da tutte gli individui che, potenzialmente, rientrano nella Forze di
Lavoro.
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
209
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
una qualunque delle mi unità di selezione a cui è collegata ovvero, tenendo conto che il
campionamento è senza reimmissione, a pi = mi / M .
Uno stimatore corretto del totale τ è definito come:
yi
1
τˆm =
(1)
n i∈s pi
dove s é il campione delle unità di osservazione - alcune delle quali possono anche ripetersi mentre yi è il valore di Y rilevato sulla i-ma unita di osservazione inserita nel campione
finale.
Lo stimatore, detto multiplicity estimator4, può essere espresso in una forma semplificata che
ne evidenzia le caratteristiche. A tal fine, per la j-ma unità di selezione della popolazione
(j=1,2,…,M) definiamo una nuova variabile, w j , come somma dei rapporti yi / mi relativi a
tutte le unità di osservazione legate alla j-ma unità di selezione, cioè,
yi
(2)
wj =
i∈ A j mi
dove A j è l’insieme delle unità di osservazione legate alla j-ma unità di selezione. Tramite
questa notazione, lo stimatore può essere espresso come:
M n
τˆm =
w j = M w.
(3)
n j =1
Si osserva immediatamente che lo stimatore posto in questa forma si configura come il
tradizionale stimatore per espansione del totale della variabile W, τ w =
M
j =1
w j , nel
campionamento casuale semplice. Pertanto, utilizzando i risultati elementari derivanti da tale
piano di campionamento (Cochran, 1977), è possibile ottenere senza troppa fatica
l’espressione della varianza dello stimatore:
1
n
1−
S w2
n
M
Var (τˆm ) = M 2
(4)
dove
1 M
(w j − µ )2
M − 1 j =1
e µ = τ / M è la media della popolazione per unità di selezione.
Dal momento che τ è incognito, una stima corretta della varianza è data da:
S w2 =
var(τˆm ) = M 2
(5)
1
n 2
1−
sw
n
M
(6)
(w
(7)
dove
sw2 =
1
n −1
n
j =1
− w) .
2
j
La possibilità che un’unità possa essere inserita nel campione s o direttamente, perché
è stata scelta l’unità di selezione che la contiene, o indirettamente perché è compresa in un
network, permette di spostare l’attenzione dalle unità di osservazione ai networks. Infatti, la
probabilità che la i-ma unità di osservazione venga inclusa nel campione è pari alla
4
Facciamo notare che lo stimatore in esame presenta la stessa struttura dello stimatore di Hansen-Hurwitz (cfr.
Cicchitelli et al., 1997).
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
210
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
probabilità che una o più delle mi unità di selezione a cui è legata siano selezionate. Poiché le
probabilità di inclusione sono identiche per tutte le unità di osservazione che costituiscono un
network, il problema della stima può essere semplificato ragionando in termini di networks
piuttosto che di singole unità di osservazioni. Questa osservazione permette di stimare il
totale, τ y , mediante lo stimatore di Horvitz-Thompson (si veda, ad esempio, Cicchitelli et
al.,1997).
Al fine di pervenire all’espressione dello stimatore di Horvitz-Thompson nel
campionamento a rete, supponiamo di suddividere la popolazione in K networks. Con
riferimento al k-mo network (k=1,2,…,K) siano mk* e yk* , rispettivamente, la molteplicità del
network e la somma dei valori y i delle unità che lo compongono.
La probabilità di inclusione del k-mo network, che coincide di fatto con la probabilità
di inclusione di ciascuna delle unità di osservazione che compongono il network, è data da:
M − mk*
π k =1−
n
M
(8)
n
essendo
M
n
selezione e
=
M!
il numero dei possibili campioni distinti composti da n unità di
( M − n)! n!
M − mk*
n
il numero di possibili campioni distinti che possono formarsi a partire
dalle M − mk* unità di selezione che non sono collegate a nessuna delle unità di osservazione
facenti parte del network.
Sia κ il numero di distinti networks di unità di osservazione inclusi nel campione. Allora lo
stimatore di Horwitz-Thompson per il totale è definito come (Thompson, 1992):
*
κ yk
.
(9)
τˆHT =
k =1
πk
Tale stimatore risulta essere corretto per definizione e, a differenza del multiplicity estimator,
non dipende dal numero di volte che un’unità appare nel campione. La varianza dello
stimatore è data da:
K
1 − π k *2 K K π kl − π kπ l * *
Var (τˆHT ) =
yk +
yk yl
(10)
k =1
πk
π kπ l
k =1 k ≠ l
dove
M − mk* − ml* + mkl*
n
π kl = π k + π l − 1 +
M
(11)
n
è la probabilità di inclusione nel campione dei networks k e l mentre mkl* rappresenta il
numero di unità di selezione che sono legate ai networks k e l.
Se le probabilità di inclusione del secondo ordine, π kl , sono tutte positive la varianza dello
stimatore può essere correttamente stimata (Cicchitelli et al. 1997) tramite l’espressione:
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
211
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
var(τˆHT ) =
κ
k =1
1− πk
π k2
yk*2 +
κ
κ
k =1 k ≠ l
π kl − π kπ l yk* yl*
.
π kπ l
π kl
La metodologia appena presentata verrà ora illustrata tramite una semplice
applicazione che, oltre a chiarire gli aspetti puramente tecnici, fornisce qualche spunto sul
modo in cui può essere condotta la rilevazione.
Esempio: la stima del numero di lavoratori in nero tramite una strategia campionaria
basata sul network sampling
Al fine di illustrare gli aspetti computazionali degli stimatori presentati nell’ambito
del network sampling consideriamo il seguente esempio. In un’indagine volta a stimare la
diffusione del lavoro non dichiarato (lavoro in nero) in una determinata area geografica, un
campione di 100 famiglie viene selezionato casualmente e a tutti i componenti della famiglia
che hanno almeno 15 anni viene chiesto di dare informazioni non solo su se stessi ma anche
su eventuali fratelli e sorelle che abitano nello stesso territorio.
Le famiglie costituiscono le unità di selezione, mentre i componenti con almeno 15
anni si configurano come unità di osservazione. Per la i-ma unità di osservazione, la
variabile yi assume valori pari a uno se l’unita svolge lavoro in nero, zero in caso contrario.
Supponiamo che sul territorio in esame siano presenti M=5000 famiglie. Senza perdita di
generalità, supponiamo di ordinare arbitrariamente le 100 famiglie in modo da evidenziare
più facilmente i casi interessanti (i componenti che svolgono attività lavorativa in nero).
Supponiamo che nel campione, la famiglia 1 sia costituita da due componenti da osservare,
un uomo e una donna. L’uomo (unità U1), che dichiara di non svolgere lavoro in nero
( y1 = 0 ), riferisce di avere un fratello (U2) che vive nello stesso territorio, che ha famiglia e
che svolge lavoro irregolare ( y 2 = 1 ). I due fratelli (unità U2 e U1) formano un network con
molteplicità m1 = 2 (i due individui infatti danno luogo a due distinte famiglie). La donna
(U3) della famiglia 1 svolge lavoro irregolare ( y3 = 1 ) e dichiara di avere un fratello (U4 ) e
una sorella (U5) che vivono entrambi in famiglie separate sullo stesso territorio. Il primo
svolge lavoro irregolare ( y 4 = 1 ) mentre la seconda non svolge lavoro irregolare ( y5 = 0 ),
Le unità U3, U4 e U5 costituiscono un network (network 2) con molteplicità m2 = 3 .
Supponiamo che la famiglia di cui fa parte l’unità U5 sia selezionata nel campione. Allora
ognuna delle 3 unità che costituisce il network 2 si presenta due volte nel campione finale.
Nella famiglia dell’unita U5 (famiglia 2) è presente il coniuge (U6) che non ha alcun
fratello o sorella nel territorio e dichiara di non svolgere alcun tipo di lavoro in nero
( y6 = 0 ). L’unità U6 forma un network (network 3) composto da un solo individuo e, quindi,
con molteplicità m3 = 1 .
La famiglia 3 è formata solo da un individuo (U7) che dichiara di svolgere lavoro in nero
( y7 = 1 ) e non avere né fratelli e sorelle; l’unità forma così il quarto network con molteplicità
pari m4 = 1 .
Nelle rimanenti 97 famiglie, i componenti e i loro fratelli e/o sorelle, dichiarano di non
svolgere alcuna attività lavorativa in nero.
Per stimare il numero di lavoratori in nero tramite il multiplicity estimator, occorre
inizialmente calcolare, per ogni famiglia (unità di selezione), il valore della variabile w j
(j=1,2,…,100).
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
212
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
Per la famiglia 1, w1 =1/2+2/3=7/6, per la famiglia 2, w2 =2/3+0/1=2/3 mentre la famiglia,
w3 =1/1=1. Per le rimanenti 97 famiglie inserite nel campione, w j =0, j=4,5,…,100.
La stima del numero di lavoratori in nero è data
5000 7 2
τˆm =
+ + 1 + 0 + ... + 0 = 141,667 .
100 6 3
E’ facile verificare che la media campionaria della variabile W è pari a w = 0.02833 mentre
la varianza campionaria è sw2 =0.02753. Allora la stima corretta della varianza dello
stimatore τˆm è data da:
var(τˆm ) =
5000 2
100
1−
0.02753 ≅ 6744,85
100
5000
mentre l’errore standard (stimato) è e.s. = var(τˆm ) = 6744,85 = 82,128 .
Per stimare il numero di lavoratori in nero tramite lo stimatore di Horvitz-Thompson,
occorre calcolare i totali per i quattro distinti networks individuati e la probabilità di
inclusione del primo e del secondo ordine. In base a quanto detto, avremo:
y1* = 1 , y 2* = 2 , y3* = 0 e y4* = 1 ;
5000 − 2
π1 = 1 −
100
5000
= 1 − 0.9604 = 0.0396;
100
5000 − 3
π 2 = 1−
100
5000
= 1 − 0.9412 = 0.0588;
100
5000 − 1
π3 = π 4 = 1−
100
5000
= 1 − 0.98 = 0.02 .
100
In virtù della (9), la stima del numero di lavoratori in nero è pari a:
τˆHT =
1
2
0
1
+
+
+
+ 0 + ... + 0 = 109,267 .
0.0396 0.0588 0.02 0.02
Per stimare la varianza dello stimatore di Horvitz-Thompson è sufficiente determinare
i valori delle probabilità di inclusione del secondo ordine solo per i networks che presentano
totali yk* positivi (networks 1, 2 e 4).
Applicando la (11) si ottiene:
5000 − 2 − 3 + 1
π 12 = 0.0396 + 0.0588 − 1 +
100
5000
= 0.0207 ;
100
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
213
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
5000 − 2 − 1 + 0
100
5000
π 14 = 0.0396 + 0.02 − 1 +
= 0.00078 ;
100
5000 − 3 − 1 + 0
π 24 = 0.0588 + 0.02 − 1 +
100
5000
= 0.00115 ,
100
La stima corretta della varianza dello stimatore τˆHT è dunque data da:
var(τˆHT ) =
1 − 0.0396
1 − 0.0588
1 − 0.02
+ 22
+
+
2
2
0.0396
0.0588
0.022
+2
2
0.0207− 0.0396* 0.0588
1
0.00078− 0.0396* 0.02
+
+
0.0207
0.0396* 0.0588
0.00078
0.0396* 0.02
2
0.00115− 0.0588* 0.02
+
0.00115
0.0588* 0.02
= 5560.208
da cui segue che e.s.=74.567.
Confrontando l’errore standard dei due stimatori τˆHT e τˆm si osserva
immediatamente che la strategia campionaria basata sullo stimatore di Horvitz-Thompson è
più efficiente della strategie che chiama in causa il multiplicty estimator.
___________________________________________________________________________
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
214
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
La stratificazione nel network sampling
La metodologia presentata nella sezione precedente può essere adattata a piani di
campionamento che prevedono meccanismi più complessi di formazione del campione delle
unità di selezione.
Un piano di campionamento largamente impiegato nelle applicazioni è quello
stratificato. Tecnicamente la stratificazione consiste nella suddivisone delle unità della
popolazione in sottogruppi disgiunti, detti strati, all’interno dei quali le unità risultano il
quanto più possibile somiglianti. Successivamente, da ciascun strato si estrae in maniera
indipendente un campione secondo un determinato schema di selezione; l’unione di tutti i
campioni di strato costituisce il campione stratificato. Prerequisito fondamentale per
l’impiego del campionamento stratificato è la disponibilità, per tutte le unità della
popolazione, di informazioni supplementari sul fenomeno oggetto di studio.
L’idea di stratificare le unità è quella di sfruttare il maggior contenuto informativo
disponibile nella speranza di migliorare la performance del processo inferenziale. I maggiori
vantaggi che possono ottenersi ricorrendo al campionamento stratificato dipendono dal grado
di omogeneità, intesa come ridotta variabilità, del carattere oggetto di studio all’interno di
ogni strato. Si intuisce facilmente che quanto più le unità appartenenti al medesimo strato
sono simili tra di loro, tanto più il campione risulta rappresentativo della popolazione oggetto
di studio. Per poter potere realizzare questa condizione occorrerebbe, tuttavia, conoscere i
valori che la variabile di studio assume su tutte le unita della popolazione. Ciò è chiaramente
impossibile per cui, nella fase della stratificazione delle unità, occorre fare affidamento su una
o più variabili, dette variabili di stratificazione, connesse a quella di indagine.
L’efficienza della stratificazione dipende, in maniera decisiva, dalla costruzione degli
strati. La definizione degli strati si presenta come una fase alquanto articolata essendo il
risultato di una serie di scelte riguardanti: (1) la variabili di stratificazione; (2) la definizione
degli strati; (3) il numero di strati; (4) l’allocazione del totale delle unità campionarie tra gli
strati; (5) la scelta del disegno di campionamento da adottare nei singoli strati.
In generale, gli strati vengono formati considerando le diverse combinazioni delle
modalità dei caratteri di stratificazione considerati, oppure ricorrendo alle tecniche di cluster
analysis (si veda il paragrafo 1.5 del Capitolo 6)
Con riferimento al campionamento a rete, supponiamo che le unità di selezione siano
state preventivamente stratificate. Può capitare, allora, che una stessa unità di osservazione sia
collegata ad unità di selezione appartenenti allo stesso strato o a strati diversi. Ciò comporta
che l’estrazione delle unità di osservazione dai singoli strati, diversamente da quanto accade
per piani di campionamento tradizionali, non sia più indipendente da strato a strato.
Supponiamo che le M unità di selezione nella popolazione siano suddivise in L strati.
Sia M h il numero di unità di selezione appartenenti allo strato h (h=1,2,…,L) e supponiamo
di estrarre senza reimmissione da ciascun strato un campione casuale semplice di nh unità di
selezione. Per ogni unità di selezione estratta inseriamo nel campione tutte le unità di
osservazione ad essa legate, indipendentemente dallo strato in cui si trovano. Sia Ahj
l’insieme formato da tutte le unità di osservazione associate alla j-ma unità di selezione dello
strato h. Per la i-ma unità di osservazione sia mi il numero delle unità di selezione,
appartenenti anche a strati diversi, a cui questa è associata. Per la j-ma unità di selezione dello
yi
1 nh
strato h sia whj =
e wh la media campionaria di strato delle whj , wh =
whj .
nh j =1
i∈ Ahj mi
Allora, uno stimatore corretto del totale nel campionamento a rete stratificato si configura
come la somma di tanti multiplicity estimators quanti sono gli stati:
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
215
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
τˆmstr =
L
h =1
M h wh .
(12)
Lo stimatore, noto con il termine di stratified multiplicity estimator, è corretto e presenta
varianza pari a:
L
M h ( M h − nh ) 2
Var (τˆmstr ) =
S wh
(13)
nh
h =1
2
in cui, con avvio significato della simbologia, S wh
è la varianza della variabile W nello strato
2
2
h. Uno stimatore corretto della varianza può essere ottenuto sostituendo S wh
con s wh
,
varianza campionaria corretta di W calcolata sul campione estratto dallo strato h.
Facciamo osservare che lo stimatore τˆmstr è corretto per τ ma non altrettanto può dirsi
per i singoli termini M h wh che, in generale, non risultano essere corretti per il totale di strato.
Ciò è da attribuire al fatto che il calcolo di wh può chiamare in causa valori di Y rilevati su
unità non appartenenti allo strato h.
Analogamente a quanto fatto per le unità di selezione non stratificate, è possibile
costruire lo stimatore di Horvitz-Thompson stratificato, avendo preliminarmente definito le
probabilità di inclusione del primo e del secondo ordine (Thompson, 1992).
Concludiamo questa sezione, segnalando che ulteriori approfondimenti sul
campionamento stratificato a rete possono essere rinvenuti in Sirken (1972).
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
216
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
1.2
Lo snowball sampling
Una metodologia di campionamento molto simile al campionamento a rete, con il
quale viene spesso confuso, è il campionamento a valanga (snowball sampling). Questa
metodologia è ampiamente adottata dalla comunità scientifica internazionale (rif. Natale &
Strozza, 1997) in numerose indagini campionarie volte ad acquisire informazioni sugli
immigrati clandestini. Data la stretta analogia con il fenomeno del sommerso, ci appare
opportuno delinearne le caratteristiche fondamentali.
Con il termine “snowball sampling a s stadi e k nomi” si intende (Goodman, 1961) un
schema di campionamento in cui, estratto un campione casuale da una popolazione finita, ad
ogni individuo di tale campione iniziale, definito stadio zero, viene chiesto di indicare k
differenti individui5 da lui conosciuti i quali, ad eccezione di quelli già presenti nel campione
iniziale, vanno a formare le unità dello stadio uno. A ciascuno di questi viene chiesto di
indicare ulteriori k persone che, ad eccezione di quelle già presenti negli stadi zero e uno,
costituiscono lo stadio due. Tale procedimento viene iterato fino al raggiungimento dello
stadio s ai cui componenti viene chiesto di indicare k differenti nominativi.
Come è facile intuire il campionamento si dice a valanga perché ad ogni stadio il
campione coinvolge nuove unità.
Il metodo, contrariamente al campionamento a rete, si applica a qualsiasi tipo di
popolazione. Per popolazioni umane il piano di campionamento in esame conduce,
generalmente, ad ottimi risultati quando gli individui che compongono la popolazione si
conoscono tra di loro. In tal caso se s e k non sono valori troppo piccoli si può sperare di
ottenere, in tempi più brevi rispetto al campionamento a rete, una lista, seppure grossolana,
degli individui che compongono la popolazione rara e/o elusiva da cui selezionare un
campione.
L’obiettivo che si è cercato inizialmente di perseguire con tale piano di
campionamento, è stato quello di studiare il grado di strutturazione di una collettività ovvero
le relazioni reciproche tra gli individui della popolazione. Successivamente l’attenzione è
stata spostata, con opportune modifiche metodologiche, dallo studio delle relazioni sociali alla
stima della dimensione della popolazione ignota e/o alla realizzazione di indagini campionarie
volte allo studio di alcuni aspetti relativi a popolazioni rare e/o elusive.
In una ipotetica situazione in cui ad ognuno degli individui della popolazione viene
chiesto di segnalare k distinte persone, le relazione interpersonali presenti nella popolazione
possono essere descritte tramite una matrice quadrata di ordine N (dove N è la numerosità
della popolazione) in cui le righe e le colonne corrispondono, rispettivamente, agli individui
che “nominano” e le colonne a quelli “nominati”. L’elemento generico della matrice, aij ,
assume valore pari ad uno se la i-ma unità della popolazione include la j-ma unità tra le k
indicate, zero in caso contrario. E’ chiaro che la struttura di questa matrice può essere
conosciuta solo se si ricorre ad un’indagine esaustiva. Tuttavia, è possibile effettuare
inferenze su diversi aspetti della matrice utilizzando dati campionari ottenuti utilizzando il
campionamento a valanga.
Così ad esempio, se poniamo s=k=1 si può pensare di stimare il numero, M 11 , delle
relazioni reciproche presenti nella popolazione, ovvero il numero di valori i per i quali
aij = a ji = 1 , per j>i
5
Ad esempio, ad ogni individuo può essere chiesto di indicare i “k migliori amici”, i “k individui con i quali si
incontra più di frequente”, “k individui con i quali condivide le stesse idee politiche”, “k individui che
presentano la sua stessa condizione”, ecc.
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
217
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
1.3
Il metodo cattura-ricattura
Tra le procedure di stima dell’ammontare di popolazioni rare e/o elusive, una certa
attenzione è stata riposta sul campionamento cattura-ricattura (capture-recapture sampling),
intendendo con ciò un insieme di metodologie predisposte inizialmente per la determinazione
della numerosità di una popolazione animale (si pensi, ad esempio, ai pesci che popolano un
lago). Successivamente tali metodi hanno trovato larga applicazione anche nello studio delle
popolazioni umane e, in particolare, nella stima dei “senza tetto” o in procedure di controllo
finalizzate alla correzione di dati censuari sulla numerosità di minoranze etniche.
Nella sua versione originale, il metodo cattura-ricattura può essere così descritto. Si
estrae un primo campione di numerosità n1 e si contrassegnano (operazione di marchiatura)
tutte le unità selezionate. Successivamente si estrae, indipendentemente dal primo, un secondo
campione di ampiezza n2 e si individuano, se esistono, le osservazioni che sono state in
precedenza contrassegnate nel primo campione. Sia dunque pari a m2 il numero di unità che
appaiono nei due campioni (unità ricatturate). Se il secondo campione è rappresentativo
dell’intera popolazione, il numero totale di unità nella popolazione, τ , può essere stimato
assumendo che la proporzione di unità contrassegnate presenti nel secondo campione sia
rappresentativa della proporzione delle unità contrassegnate nella popolazione, ovvero che sia
valida (approssimativamente) la seguente proporzione:
m2 n1
=
n2 τ
da cui, risolvendo rispetto al valore incognito τ , si ottiene lo stimatore:
n
(14)
τˆ = n1 2
m2
noto come Lincoln Index.
La varianza dello stimatore può essere stimata dall’espressione (rif. Thompson, 1992)
n n (n − m2 )( n2 − m2 )
var(τˆ) = 1 2 1
(15)
m23
Lo stimatore τˆ fornisce una stima soddisfacente di τ se sono verificate le seguenti
condizioni: (1) la popolazione è chiusa; (2) tutte le unità dell’universo hanno la stessa
probabilità di entrare a far parte del primo campione; (3) la probabilità di “cattura” dei
soggetti non si modifica a seguito della marchiatura; (4) il secondo campione è selezionato
ricorrendo al campionamento casuale semplice. Tutte queste condizione sono difficilmente
riscontrabili nella realtà, per cui sono state proposte metodologie che permettono
l’applicazione del metodo anche quando dette condizioni vengono meno. A tal proposito è
doveroso citare i contributi di Borchers et al. (2002), Pollock (1991), Seber (1986).
Il metodo di cattura-ricattura può essere adattato, a nostro parere, per stimare il
numero di lavoratori che operano nel sommerso. La nostra proposta prevede la selezione del
primo campione ricorrendo ad un campionamento a rete e l’identificazione (marchiatura)
delle sole unita che dichiarano di operare in nero. Il secondo campione, più ampio del primo e
potenzialmente più rappresentativo, può essere formato tramite il campionamento a valanga.
Si tratta allora di conteggiare il numero di lavoratori in nero che sono presenti
contemporaneamente sia nel primo che nel secondo campione. Il gruppo, si propone di
predisporre una corretta metodologia che permetta di utilizzare il metodo cattura-ricattura
congiuntamente al campionamento a valanga e a quello a rete.
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
218
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
4
Il metodo delle risposte casualizzate
A conclusione del presente capitolo presentiamo il metodo delle risposte casualizzate
che, come già detto in precedenza, consente di limitare gli effetti distorsivi derivanti da
mancate risposte oppure da risposte vaghe e/o non veritiere su temi di natura delicata. Come è
facile capire, questo problema può presentarsi con estrema frequenza in indagini relative
all’economia sommersa, in cui i soggetti da intervistare potrebbero manifestare non poche
riserve a partecipare all’indagine.
Per superare l’ostacolo derivante dalla tipologia degli argomenti trattati e, al
contempo, stimare la proporzione di soggetti che posseggono una particolare caratteristica
“non dichiarabile” o “dichiarabile con difficoltà”, Warner (1965) ha ideato una tecnica che
consente di raggiungere lo scopo di avere le risposte attendibili offrendo agli intervistati la
garanzia dell’anonimato. La garanzia dell’anonimato è assicurata ponendo l’intervistatore
nella condizione di non sapere a quale domanda l’intervistato stia rispondendo.
All’intervistato viene chiesto, inizialmente, di effettuare un esperimento casuale che
presenta due possibili esiti6 S e S , rispettivamente con probabilità λ e 1 − λ . Se
l’esperimento genera l’esito S, all’intervistato viene chiesto di rispondere “vero” o “falso”
all’affermazione:
D:
“presento l’attributo A”,
mentre se l’esperimento casuale genera l’esito S , all’intervistato viene chiesto di esprimersi
sull’affermazione:
D:
“non presento l’attributo A”.
All’intervistatore è dato solo di conoscere la probabilità λ ; questa conoscenza permette di
costruire uno stimatore corretto della proporzione (e quindi anche del numero) di individui
che presentano l’attributo A.
Supponiamo, allora, di estrarre un campione di ampiezza n. Sia m ( 0 ≤ m ≤ n ) il numero di
individui che rispondono di avere l’attributo A. Allora una stimatore corretto di π è dato da:
m / n − (1 − λ )
1
πˆ w =
, λ≠ .
(16)
2λ − 1
2
Diversi metodi alternativi a quello di Warner sono stati proposti nel corso degli anni. Per una
prima sommaria indicazione si rimanda a Cicchitelli et al. (1997)
6
Si potrebbe pensare, ad esempio, al lancio di una moneta regolare.
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
219
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria
Riferimenti Bibliografici
Borchers, D.L., Buckland, S.T., Zucchini, W. (2002), Estimating animal abundance.
Closed populations, Sringer-Verlag, London.
Cicchitelli, G., Herzel, A., Montanari, G.E. (1997), Il campionamento da popolazioni
finite, Il Mulino, Bologna.
Cochran, W.G. (1977) Sampling Techniques, 3rd ed., Wiley, New York
Goodman, L.A. (1961), «Snowball sampling», Annals of Mathematical Statistics, 32,
pp. 148-170.
Kalton, G., Anderson, D. W. (1986), «Sampling rare populations», Journal of the
Royal Statistical Society, A, 149, pp. 65-82.
Marino D. (2002), «Indicatori dell’economia sommersa e del lavoro regolare in
Calabria» Disponibile su: http://www.regione.calabria.it/monitoraggio_lavoro/index.htm.
Natale, M., Strozza, S. (1997), Gli immigrati stranieri in Italia. Quanti sono, chi sono,
come vivono?, Cacucci Editore, Bari.
Pollock, K.H. (1991), «Modeling capture, recapture, and removal statistics for
estimation of demographic parameters to fish an wildlife populations: past, present and
future», Journal of the American Statistical Association, 86, pp. 225-238.
Seber, G.A.F. (1986), «A review of estimating animal abundance», Biometrics, 42, pp.
267-292.
Sirken, M.G. (1972), « Stratified surveys with multiplicity», Journal of the American
Statistical Association, 67, pp. 224-227.
Thompson, S.K. (1992), Sampling, Wiley, New York.
Warner, S.L. (1965), «Randomized response: a survey technique for eliminating
evasive answer bias», Journal of the American Statistical Association, 60, pp. 63-69.
Zizza R. (2002), «Metodologie per la stima dell’economia sommersa:applicazione al
caso italiano», Temi di discussione del servizio studi della Banca d’Italia, numero 463,
Dicembre 2002.
Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS)
220