La stima del numero degli occupati in un`economia sommersa
Transcript
La stima del numero degli occupati in un`economia sommersa
Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria Capitolo 9 La stima del numero degli occupati in un’economia sommersa tramite il campionamento da popolazioni elusive Introduzione Con il termine economia sommersa si intendono, in generale, tutte le attività economiche (ad eccezione di quelle criminali) di un paese che, pur contribuendo alla formazione del PIL, si svolgono in violazione di un obbligo di legge o di un regolamento e, pertanto, risultano sconosciute ai pubblici poteri. A seconda della tipologia dei soggetti economici che esplicano tali attività, si distingue più propriamente tra sommerso di lavoro e sommerso d’impresa. Nel primo caso manca un rapporto formalizzato tra il lavoratore e il datore di lavoro, oppure vi è regolarità formale a fronte di una remunerazione e di condizioni contrattuali differenti da quelle in vigore a livello nazionale. Nel secondo caso è l’impresa che è sconosciuta alle istituzioni. In particolare, l’impresa può essere completamente sommersa se non esiste come forma giuridica, non produce reddito visibile, non ha bilancio, utilizza lavoratori in nero, o parzialmente sommersa se evade parzialmente gli obblighi fiscali e /o previdenziali, occulta una parte del suo reddito e ricorre anche la lavoro nero. Ai fini di una maggiore comprensione del mondo del sommerso occorre considerare, accanto all’economia sommersa vera e propria, che riguarda la produzione legale di cui la pubblica amministrazione non è a conoscenza a causa di evasione fiscale e contributiva, di mancato rispetto della normativa sul lavoro (non rispetto del salario minimo, del numero di ore, ecc.), anche l’economia informale e quella illegale. L’economia informale fa riferimento, generalmente, a rapporti di lavoro occasionali basati su relazioni personali o familiari. Le attività produttive che concorrono alla formazione di questa forma di economia sono da attribuire ad individui che svolgono prestazioni nel commercio ambulante, nell’artigianato, nell’agricoltura e nei servizi alle persone (collaborazione domestica, assistenza anziani, baby-sitting, ecc.) L’economia criminale (o illegale) si riferisce alle attività esercitate in violazione di norme penali, quali traffico di stupefacenti e di armi, sequestri di persona, furti, rapine, contrabbando, ecc. Come è facile intuire i tre fenomeni, che derivano dalla deliberata volontà di non rispettare le leggi, sfuggono ad ogni tentativo di misurazione diretta da parte delle statistiche ufficiali e costituiscono quella che viene definita in gergo l’economia non (direttamente) osservata. A ciò si aggiunge un quarto fenomeno che va sotto il nome di sommerso statistico che include tutte le attività produttive non registrate a causa delle inefficienze del sistema statistico di raccolta delle informazioni (mancata compilazione di questionari o di altri modelli amministrativi). In linea teorica, le quattro tipologie di sommerso potrebbero essere oggetto di stima e di inclusione negli aggregati di contabilità nazionale. Tuttavia, in sede europea, si è convenuto di escludere l’economia illegale in quanto la disomogeneità in tema di materia penale potrebbe rendere le stime dei diversi paesi non direttamente confrontabili. Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 203 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria L’analisi delle dinamiche del sommerso riveste particolare interesse per governi e organismi internazionali. L’economia non dichiarata ha infatti riflessi negativi sulla finanza pubblica in quanto la mancata riscossione del gettito fiscale e dei contributi previdenziali, se da una parte pregiudica la copertura dei costi dello stato sociale e dell’erogazione dei servizi pubblici, dall’altra determina un aumento della pressione fiscale verso i cittadini e le imprese, innescando una spirale perversa che induce i soggetti economici a non permanere nell’economia legale. 1 Il problema della stima Come fa rilevare Zizza (2002), i metodi di stima del sommerso impiegati nella analisi economiche possono essere distinti in metodi diretti e metodi indiretti I primi, di tipo microeconomico, si basano fondamentalmente su indagini svolte presso famiglie e imprese e su dati scaturiti dall’attività di vigilanza tributaria. I secondi deducono l’entità del sommerso dal confronto tra indicatori macroeconomici quali, ad esempio, il reddito prodotto e utilizzato per consumi, investimenti e risparmi, consumo di energia elettrica e produzione industriale, ecc. Esiste un terzo approccio, noto come model approach, che considera il sommerso come una variabile non osservabile legata da un lato ad un set di indicatori osservabili che ne riflettono i cambiamenti e dall’altro ad un set di variabili, anch’esse osservabili, che si ritengono causa del fenomeno. La metodologia comunemente impiegata con questo approccio è di natura statistica e si basa sulla teoria delle variabili latenti. Vi sono essenzialmente tre componenti che concorrono alla formazione del sommerso: l’occultamento di tutta la filiera di produzione (omissione della dichiarazione degli acquisti e del fatturato); la sottodichiarazione del fatturato (corretta dichiarazione degli acquisti a fronte di una sottovalutazione del fatturato); la sovradichiarazione dei costi (corretta dichiarazione del fatturato a fronte di una sopravvalutazione degli acquisti). La prima coincide con il ricorso al lavoro irregolare, le altre due con l’evasione fiscale. Al fine di stimare la componente di lavoro nero, in sede Eurostat sono stati proposti i seguenti approcci diretti: • • Demographic employment approch (approccio dell’input di lavoro), nel quale si assume che l’offerta di lavoro rilevata tramite il censimento e tramite l’indagine campionaria sulle Forze di Lavoro sia inclusiva anche del lavoro nero. Questo metodo è adottato sistematicamente in Italia. Sensitivity method, nel quale si ritiene che alcune attività ricorrano con maggiore probabilità al lavoro nero. Sempre in ambito Eurostat, per la stima della componente legata alla frode tributaria è possibile ricorrere a diversi metodi diretti, fra i quali segnaliamo: Il metodo basato sulle ispezioni effettuate dalle autorità fiscali in cui i risultati dei controlli svolti sono estesi a tutte le imprese (o percettori di reddito) con caratteristiche simili; Il metodo che consiste nello stimare l’evasione da parte delle piccole imprese (meno di 20 addetti) confrontando il reddito percepito dai lavoratori autonomi (imprenditori) con quello medio dei lavoratori dipendenti in imprese con caratteristiche simili, e assumendo che gli introiti dell’imprenditore non possano mai scendere al di sotto della media dei redditi percepiti dai dipendenti (è adottato in Italia). Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 204 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria L’approccio tradizionale nella quantificazione, nell’analisi e nell’interpretazione dell’economia sommersa ha privilegiato sia i metodi diretti che quelli indiretti. Tuttavia, come fa rilevare Marino (2002), “nessuno di questi metodi appare in grado di fornire delle risposte adeguate alle domande di interpretazione e soprattutto nessuno di questi è in grado di fornire indicazioni utili alle politiche. La ragione di ciò è connessa con la natura del fenomeno oggetto di studio. Si indaga su un fenomeno di cui non si conoscono gli effettivi ordini di grandezza e ogni analisi statistica contiene in sé, come peccato originale, l’impossibilità a definire esattamente l’universo da analizzare”. In realtà, la complessità del fenomeno e le diverse connotazioni che esso assume, creano, anche a nostro avviso, non pochi problemi di acquisizione delle informazioni e di stima di taluni aspetti del sommerso. Appare pertanto sensata la necessità di analizzare singoli aspetti del fenomeno utilizzando un’opportuna metodologia che possa, al contempo, essere facilmente adattata a situazioni simili. La nostra attenzione sarà rivolta, in particolare, allo sviluppo di una metodologia campionaria finalizzata all’acquisizione di informazioni sul lavoro sommerso. 2 Il problema della valutazione degli effetti del POR sull’occupazione L’impatto sui livelli di occupazione e sulle opportunità di inserimento nel mercato del lavoro è una delle finalità principali dell’intervento delle politiche territoriali nelle aree che rientrano nell’Obiettivo 1. Come tale, esso risulta di primaria importanza per le attività di valutazione degli effetti degli interventi del POR Calabria. Il criterio per l’assegnazione della riserva di premialità del 4% segnala che l’analisi degli effetti sull’occupazione può riguardare aspetti quantitativi e qualitativi relativi sia agli occupati, sia alle imprese, sia agli effetti potenziali di medio lungo termine sulle opportunità di occupazione. In particolare, il criterio segnala l’importanza di tenere conto delle modalità in cui il lavoro è erogato (lavoro sommerso o regolare), delle modalità di impiego (caratteristiche dei rapporti di lavoro) e della partecipazione femminile. Le informazioni rilevanti ai fini dell’analisi degli effetti sull’occupazione possono essere ottenute tramite fonti ufficiali (statistiche elaborate dall’Istat, dati provenienti da archivi amministrativi come quelli dell’Inps, dell’Inail e delle Camere di Commercio, ecc.) e attraverso rilevazioni sul campo. Queste ultime, al fine di continuo, tempestivo e puntuale monitoraggio in itinere degli interventi finanziati, non potranno che essere di natura campionaria. In tutte le aree dell’Obiettivo 1, l’occupazione è sia regolare che sommersa: si passa da lavoro non regolare a lavoro regolare lungo un continuum di forme di occupazione.1 Il lavoro non dichiarato (o dichiarato solo in parte) è solo una sfaccettatura di un fenomeno che coinvolge l’intera attività economica del Mezzogiorno, dove i soggetti (lavoratori e imprese) operano in un contesto di relazioni informali, in cui la regolarizzazione è decisa volta per volta. In un contesto economico-sociale di questo tipo, al fine di cogliere gli effetti occupazionali degli interventi occorre, innanzitutto, 1 Si passa, infatti, dal lavoro completamente sommerso (persone che svolgono attività lavorative completamente non rilevate, e quindi risultano disoccupate o non attive) o dall’alterazione delle dichiarazioni di lavoro (per esempio, in campo agricolo persone che dichiarano di lavorare per un numero di giornate superiore a quelle lavorate e svolgono un’attività remunerata al nero in un altro settore) a forme di lavoro solo parzialmente non regolare (le ore di straordinario lavorate sono sottodichiarate oppure i salari effettivi sono più bassi di quelli dichiarati) e a forme in cui i contratti utilizzati non corrispondono all’effettiva funzione svolta nell’impresa Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 205 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria 1. 2. formulare idonee domande di valutazione; definire un appropriato disegno di valutazione. Una domanda fondamentale è quella che riguarda la qualità del lavoro e le tipologie contrattuali utilizzate (prestazione occasionale, contratto di collaborazione coordinata e continuativa, ecc.). L’acquisizione di informazioni su questi due aspetti mira ad accertare se vi è una giusta corrispondenza fra le mansioni svolte dal lavoratore, le sue caratteristiche (grado di qualifica, titolo di studio, professionalità acquisita, ecc.) e la tipologia contrattuale (dipendente part-time, a tempo determinato/indeterminato, collaborazione coordinata e continuativa, collaborazione occasionale, ecc.) Ai fini di una corretta valutazione dell’impatto sull’occupazione dei POR occorre individuare anche le caratteristiche dei lavoratori che rischiano di restare marginali: lavoratori clandestini che hanno difficoltà a regolarizzare la propria posizione, lavoratori soggetti a discriminazioni per ragioni razziali e culturali, persone non più giovani per le quali non valgono sgravi fiscali e facilitazioni, ecc. Un altro elemento importante per cogliere gli effetti occupazionali è quello di includere nell’osservazione gli addensamenti di imprese anche piccole e piccolissime che sono quelle maggiormente esposte al rischio di persistenza nel sommerso se non addirittura di immersione. Lo sviluppo di tali addensamenti è in grado di creare occupazione eliminando gradualmente la povertà. La valutazione dovrà, quindi, individuare se e come l’intervento raggiunge queste imprese e scaturire in suggerimenti su come accentuare l’impatto sugli addensamenti di imprese piccole e piccolissime. 2.1 Alcuni problemi metodologici Per avere una visione complessiva del fenomeno sembra importante, a nostro avviso, quantificare l’impatto dei POR sull’occupazione anche in termini di incremento/decremento del numero di lavoratori (o imprese) che operano nel sommerso o che emergono regolarizzando la propria posizione nei confronti della pubblica amministrazione. Se l’obiettivo principale degli interventi sull’occupazione è la creazione di nuove opportunità di lavoro e l’emersione dal sommerso, è chiaro che gli interventi in materia risulteranno tanto più efficaci quanto più numerosi saranno i soggetti che emergeranno dal sommerso. Un’analisi quantitativa di questo genere si può realizzare, a nostro avviso, con opportuna indagine campionaria che, riducendo i costi e i tempi di esecuzione, permetta un costante monitoraggio degli effetti degli interventi sul numero degli occupati, e in particolare sui lavoratori in nero o su quelli emersi. Una tale indagine, a ben intendere, non ha la pretesa di sostituire la tradizionale rilevazione Istat sulle Forze di Lavoro, ma vuole rappresentare il tentativo di mettere in luce ulteriori aspetti che possono sfuggire all’indagine ufficiale e che, in qualche senso, conducono ad una sottostima dell’offerta di lavoro sul territorio calabrese. Così, ad esempio, oltre a stimare il numero di occupati in nero residenti in regione, si potrebbero ottenere informazioni anche sul numero di immigrati regolari o clandestini che operano nel sommerso. Una volta chiarito l’obiettivo dell’indagine bisogna individuare i soggetti da rilevare ai quali dovranno essere rivolte le domande ritenute idonee ad ottenere le informazioni desiderate. A questo punto sorgono due difficoltà, relative: 1. 2. alla natura “delicata” degli aspetti intorno ai quali si cerca di indagare; alla scelta della metodologia campionaria da utilizzare. In genere, la collaborazione dei soggetti da intervistare è condizionata dalla natura delle caratteristiche intorno alle quali si indaga nel senso che, quanto più l’indagine riguarda Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 206 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria aspetti considerati riservati, tanto più si riscontra nei soggetti un atteggiamento ostile che si concretizza nel rifiutare l’indagine o nell’accettarla dando risposte vaghe e/o non veritiere. Si intuiscono facilmente, quindi, le difficoltà che possono sorgere quando ad un individuo si chiede direttamente se svolge un’attività lavorativa senza un normale contratto di lavoro, o la svolge a condizioni diverse da quelle stabilite dai contratti nazionali, oppure se svolge un secondo lavoro non dichiarato, ecc. Appare del tutto evidente come, senza opportuni incentivi e correttivi, la scarsa qualità dei dati raccolti, attribuibile alle risposte poco attendibili e al fenomeno delle mancate risposte, possa produrre effetti distorsivi sulle stime, inficiando seriamente l’intera analisi. La metodologia statistica fornisce strumenti idonei alla trattazione dei temi delicati ai quali, certamente, il fenomeno del sommerso può essere assimilato. Considerata l’importanza del problema, nell’ultimo paragrafo del capitolo dedicheremo uno spazio alla tecnica delle risposte casualizzate con la quale si possono ottenere risposte su caratteristiche ritenute “non dichiarabili” o “dichiarabili con difficoltà”, offrendo agli intervistati la garanzia dell’anonimato. Per quanto riguarda la selezione del campione e le procedure di stima da utilizzare, le tecniche di campionamento probabilistico (Cochran, 1977) normalmente adottate nelle indagini sulla popolazione, si rivelano poco opportune per il tipo di fenomeno da analizzare. Infatti, garantire la rappresentatività del campione appare compito di difficile soluzione dal momento che una parte dell’universo dei soggetti economici (lavoratori e imprese), operando nel sommerso, risulta “elusiva”. Pertanto, può risultare estremamente difficile disporre di una lista2 o base di campionamento della popolazione oggetto di studio da cui estrarre un campione rappresentativo. In merito a questo aspetto, ci proponiamo di presentare la metodologia campionaria che riteniamo possa essere impiegata per trattare due tipi di questioni: 1. 2. la predisposizione di una lista di campionamento e la selezione di un campione di rappresentativo da una popolazione elusiva; la stima del numero di lavoratori che operano nel sommerso. 2 Nella pratica campionaria per lista si intende l’elenco ordinato degli elementi che costituiscono la popolazione oggetto di studio e rappresenta la base per la scelta delle unità da inserire nel campione. Generalmente, si presenta come un elenco ordinato etichette che identificano le unità della popolazione. Esempi di lista sono l’elenco delle famiglie disponibili presso l’ufficio di stato civile di un comune, l’elenco degli abbonati al telefono, l’elenco degli iscritti all’Università, ecc. Idealmente la lista dovrebbe riprodurre esattamente la popolazione oggetto di studio. Ciò, normalmente, non si verifica per una serie di motivi ascrivibili, in buona parte, al fenomeno della nati/mortalità e alla lentezza con cui gli elenchi vengono aggiornati. La lista, pertanto, identifica una tipologia di popolazione detta di selezione che, generalmente, differisce da quella oggetto di studio, per effetto del cosiddetto errore di copertura (incompletezza della lista, unità duplicate, errata identificazione delle unità, ecc). Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 207 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria 3 Il campionamento da popolazioni rare ed elusive L’attuale teoria dei campioni da popolazioni finite considera non solo insiemi di unità di prefissata ampiezza, ma si estende anche a popolazioni delle quali non si conosce la dimensione e/o la dislocazione; le cosiddette popolazioni rare e/o elusive, potendo accadere che una popolazione sia al contempo l’una e l’altra. Esempi tipici sono gli insiemi costituiti da: soggetti affetti da una rara malattia (popolazione rara); famiglie con un componente scomparso (popolazione rara); immigrati senza regolare permesso di soggiorno (popolazione elusiva); individui che non hanno una dimora fissa (popolazione elusiva); lavoratori in nero (popolazione elusiva); aziende che operano nel sommerso (popolazione elusiva); individui di una minoranza etnica in via di estinzione (popolazione rara ed elusiva). Il problema connesso con dette popolazioni riguarda principalmente la lista delle unità. Per le popolazioni rare, possono essere disponibili liste complete ma risultano di difficile impiego perché contenute in liste più ampie a cui appartengono molte unità che non sono d’interesse per l’indagine; di conseguenza occorre esaminare un elevato numero di unità prima di selezionarne un numero sufficiente con le caratteristiche considerate. Tuttavia, se la lista è ritenuta valida, nulla impedisce di impiegare i metodi di campionamento probabilistico. Per le popolazioni elusive il problema si configura in maniera leggermente diversa in quanto il più delle volte o non è disponibile alcuna lista o si dispone di una o più liste incomplete che possono presentare unità in comune. Tale aspetto rende necessaria la definizione di una metodologia campionaria diversa da quella comunemente utilizzata nelle indagini parziali (Cochran, 1977). In tal senso, la progettazione di un efficiente piano di campionamento costituisce un compito impegnativo, ma certamente stimolante, per lo statistico che si occupa di campionamento da popolazioni finite. Il campionamento da popolazione elusive offre non poche possibilità di analisi di alcuni aspetti relativi al fenomeno del sommerso. La metodologia che ci accingiamo a presentare può essere utilizzata sia per selezionare, attraverso procedure non probabilistiche, un campione rappresentativo dell’universo dei soggetti che operano nel sommerso sia per stimare la diffusione di una determinata caratteristica, ovvero per stimare il numero (o la proporzione) di soggetti che presentano un determinato attributo. In particolare, come già anticipato, la nostra attenzione sarà indirizzata principalmente al tentativo di stimare il numero di individui che, a diverso titolo, svolgono attività lavorativa in nero. Segnaliamo, tuttavia, che tutto ciò che diremo per i lavoratori in nero può essere esteso, con le dovute modifiche, anche alle imprese che operano nel sommerso. Nelle sezioni che seguono presenteremo alcune strategie campionarie che negli ultimi anni sono state applicate in situazioni analoghe a quella da noi considerata: il network sampling, il snowball sampling e il metodo di cattura-ricattura. Questi metodi non esauriscono il ventaglio delle possibilità che offre il campionamento da popolazioni rare e/o elusive, ma rappresentano quelli che meglio si prestano alla trattazione del problema da noi posto. Un’ampia trattazione dei metodi non presentati può essere rinvenuta in Borchers et al. (2002), Kalton & Anderson (1986), Seber (1986). 1.1 Il network sampling Il network sampling (campionamento a rete) è una procedura campionaria che trova impiego nello studio di alcune caratteristiche che si manifestano su particolari gruppi di unità. In particolare, viene largamente utilizzato in indagini finalizzate alla stima della diffusione Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 208 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria (prevalence) di determinati aspetti in popolazione rare e/o elusive. Il campionamento da queste popolazioni richiederebbe, infatti, un elevato numero di contatti prima di ottenere un campione rappresentativo della caratteristica (spesso rara) da investigare. Il campionamento a rete conduce, in genere, ad una significativa riduzione dei contatti richiesti consentendo al contempo, tramite il ricorso ad una rete di legami sociali, l’identificazione dei componenti di una popolazione che altrimenti risulterebbero difficili da “scoprire” (tossicodipendenti, alcolisti, immigrati clandestini, lavoratori in nero, ecc.). La tecnica consente così di costruire ex novo una lista, ricostruirne una più ampia oppure valutare la qualità di una lista già disponile. Il campionamento a rete si articola in due fasi: 1. 2. fissato uno schema di campionamento probabilistico (Cochran, 1977) si procede all’estrazione casuale di un campione di n unità, dette unità di selezione; si osservano (direttamente) non solo le unità che formano l’unità di selezione estratta ma anche tutte quelle che, in base un predefinito legame, risultano collegate a quelle facenti parte dell’unità di selezione. Il campione finale risulta così di dimensione non inferiore e quello inizialmente formato dalle sole unità componenti quelle di selezione. Tutte le unità che formano il campione finale rappresentano le cosiddette unità di osservazione. In particolare, quelle legate direttamente dal legame stabilito danno luogo ad un sottoinsieme detto network. Come è facile intuire, può accadere che una medesima unità di osservazione sia collegata a più unità di selezione. Il numero delle unità di selezione a cui ogni unita di osservazione costituente il network è associata si definisce molteplicità (dell’unità o del network in cui l’unità si trova). La metodologia per stimare il numero dei lavoratori in nero Il disegno di campionamento può essere utilizzato per stimare efficientemente il totale (o la media) di una carattere oggetto di studio. Per potere analizzare tale aspetto è opportuno introdurre la notazione di base necessaria alla trattazione. Indicata con Y la variabile oggetto di studio, sia yi il valore che questa assume sulla i-ma unità di osservazione della popolazione. Ai fini della nostra analisi volta a stimare in numero di lavoratori in nero, yi si configura come una variabile indicatore che assume valore pari ad uno se la i-ma unità presenta l’attributo di “lavoratore in nero”, valore pari a zero in caso contrario. Sia N la numerosità della popolazione3 oggetto di studio. Allora il totale del carattere Y nella popolazione è dato da τy = N i =1 yi e costituisce, nel nostro caso, il parametro incognito da stimare. Supponiamo, inizialmente, di formare il campione iniziale costituito da n unità di selezione tramite il campionamento casuale semplice senza reimmissione e che ogni unità di osservazione legata ad una qualsiasi unita di selezione estratta venga inclusa nel campione finale su cui sarà effettuata l’indagine. Sia mi la molteplicità relativa alla i-ma unità di osservazione e sia M il numero di unità di selezione nella popolazione. Inoltre, sia pi la probabilità di selezionare la i-ma unità di osservazione ad una generica estrazione. Tale probabilità è pari alla probabilità di selezionare 3 La popolazione potrebbe essere costituita da tutte gli individui che, potenzialmente, rientrano nella Forze di Lavoro. Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 209 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria una qualunque delle mi unità di selezione a cui è collegata ovvero, tenendo conto che il campionamento è senza reimmissione, a pi = mi / M . Uno stimatore corretto del totale τ è definito come: yi 1 τˆm = (1) n i∈s pi dove s é il campione delle unità di osservazione - alcune delle quali possono anche ripetersi mentre yi è il valore di Y rilevato sulla i-ma unita di osservazione inserita nel campione finale. Lo stimatore, detto multiplicity estimator4, può essere espresso in una forma semplificata che ne evidenzia le caratteristiche. A tal fine, per la j-ma unità di selezione della popolazione (j=1,2,…,M) definiamo una nuova variabile, w j , come somma dei rapporti yi / mi relativi a tutte le unità di osservazione legate alla j-ma unità di selezione, cioè, yi (2) wj = i∈ A j mi dove A j è l’insieme delle unità di osservazione legate alla j-ma unità di selezione. Tramite questa notazione, lo stimatore può essere espresso come: M n τˆm = w j = M w. (3) n j =1 Si osserva immediatamente che lo stimatore posto in questa forma si configura come il tradizionale stimatore per espansione del totale della variabile W, τ w = M j =1 w j , nel campionamento casuale semplice. Pertanto, utilizzando i risultati elementari derivanti da tale piano di campionamento (Cochran, 1977), è possibile ottenere senza troppa fatica l’espressione della varianza dello stimatore: 1 n 1− S w2 n M Var (τˆm ) = M 2 (4) dove 1 M (w j − µ )2 M − 1 j =1 e µ = τ / M è la media della popolazione per unità di selezione. Dal momento che τ è incognito, una stima corretta della varianza è data da: S w2 = var(τˆm ) = M 2 (5) 1 n 2 1− sw n M (6) (w (7) dove sw2 = 1 n −1 n j =1 − w) . 2 j La possibilità che un’unità possa essere inserita nel campione s o direttamente, perché è stata scelta l’unità di selezione che la contiene, o indirettamente perché è compresa in un network, permette di spostare l’attenzione dalle unità di osservazione ai networks. Infatti, la probabilità che la i-ma unità di osservazione venga inclusa nel campione è pari alla 4 Facciamo notare che lo stimatore in esame presenta la stessa struttura dello stimatore di Hansen-Hurwitz (cfr. Cicchitelli et al., 1997). Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 210 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria probabilità che una o più delle mi unità di selezione a cui è legata siano selezionate. Poiché le probabilità di inclusione sono identiche per tutte le unità di osservazione che costituiscono un network, il problema della stima può essere semplificato ragionando in termini di networks piuttosto che di singole unità di osservazioni. Questa osservazione permette di stimare il totale, τ y , mediante lo stimatore di Horvitz-Thompson (si veda, ad esempio, Cicchitelli et al.,1997). Al fine di pervenire all’espressione dello stimatore di Horvitz-Thompson nel campionamento a rete, supponiamo di suddividere la popolazione in K networks. Con riferimento al k-mo network (k=1,2,…,K) siano mk* e yk* , rispettivamente, la molteplicità del network e la somma dei valori y i delle unità che lo compongono. La probabilità di inclusione del k-mo network, che coincide di fatto con la probabilità di inclusione di ciascuna delle unità di osservazione che compongono il network, è data da: M − mk* π k =1− n M (8) n essendo M n selezione e = M! il numero dei possibili campioni distinti composti da n unità di ( M − n)! n! M − mk* n il numero di possibili campioni distinti che possono formarsi a partire dalle M − mk* unità di selezione che non sono collegate a nessuna delle unità di osservazione facenti parte del network. Sia κ il numero di distinti networks di unità di osservazione inclusi nel campione. Allora lo stimatore di Horwitz-Thompson per il totale è definito come (Thompson, 1992): * κ yk . (9) τˆHT = k =1 πk Tale stimatore risulta essere corretto per definizione e, a differenza del multiplicity estimator, non dipende dal numero di volte che un’unità appare nel campione. La varianza dello stimatore è data da: K 1 − π k *2 K K π kl − π kπ l * * Var (τˆHT ) = yk + yk yl (10) k =1 πk π kπ l k =1 k ≠ l dove M − mk* − ml* + mkl* n π kl = π k + π l − 1 + M (11) n è la probabilità di inclusione nel campione dei networks k e l mentre mkl* rappresenta il numero di unità di selezione che sono legate ai networks k e l. Se le probabilità di inclusione del secondo ordine, π kl , sono tutte positive la varianza dello stimatore può essere correttamente stimata (Cicchitelli et al. 1997) tramite l’espressione: Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 211 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria var(τˆHT ) = κ k =1 1− πk π k2 yk*2 + κ κ k =1 k ≠ l π kl − π kπ l yk* yl* . π kπ l π kl La metodologia appena presentata verrà ora illustrata tramite una semplice applicazione che, oltre a chiarire gli aspetti puramente tecnici, fornisce qualche spunto sul modo in cui può essere condotta la rilevazione. Esempio: la stima del numero di lavoratori in nero tramite una strategia campionaria basata sul network sampling Al fine di illustrare gli aspetti computazionali degli stimatori presentati nell’ambito del network sampling consideriamo il seguente esempio. In un’indagine volta a stimare la diffusione del lavoro non dichiarato (lavoro in nero) in una determinata area geografica, un campione di 100 famiglie viene selezionato casualmente e a tutti i componenti della famiglia che hanno almeno 15 anni viene chiesto di dare informazioni non solo su se stessi ma anche su eventuali fratelli e sorelle che abitano nello stesso territorio. Le famiglie costituiscono le unità di selezione, mentre i componenti con almeno 15 anni si configurano come unità di osservazione. Per la i-ma unità di osservazione, la variabile yi assume valori pari a uno se l’unita svolge lavoro in nero, zero in caso contrario. Supponiamo che sul territorio in esame siano presenti M=5000 famiglie. Senza perdita di generalità, supponiamo di ordinare arbitrariamente le 100 famiglie in modo da evidenziare più facilmente i casi interessanti (i componenti che svolgono attività lavorativa in nero). Supponiamo che nel campione, la famiglia 1 sia costituita da due componenti da osservare, un uomo e una donna. L’uomo (unità U1), che dichiara di non svolgere lavoro in nero ( y1 = 0 ), riferisce di avere un fratello (U2) che vive nello stesso territorio, che ha famiglia e che svolge lavoro irregolare ( y 2 = 1 ). I due fratelli (unità U2 e U1) formano un network con molteplicità m1 = 2 (i due individui infatti danno luogo a due distinte famiglie). La donna (U3) della famiglia 1 svolge lavoro irregolare ( y3 = 1 ) e dichiara di avere un fratello (U4 ) e una sorella (U5) che vivono entrambi in famiglie separate sullo stesso territorio. Il primo svolge lavoro irregolare ( y 4 = 1 ) mentre la seconda non svolge lavoro irregolare ( y5 = 0 ), Le unità U3, U4 e U5 costituiscono un network (network 2) con molteplicità m2 = 3 . Supponiamo che la famiglia di cui fa parte l’unità U5 sia selezionata nel campione. Allora ognuna delle 3 unità che costituisce il network 2 si presenta due volte nel campione finale. Nella famiglia dell’unita U5 (famiglia 2) è presente il coniuge (U6) che non ha alcun fratello o sorella nel territorio e dichiara di non svolgere alcun tipo di lavoro in nero ( y6 = 0 ). L’unità U6 forma un network (network 3) composto da un solo individuo e, quindi, con molteplicità m3 = 1 . La famiglia 3 è formata solo da un individuo (U7) che dichiara di svolgere lavoro in nero ( y7 = 1 ) e non avere né fratelli e sorelle; l’unità forma così il quarto network con molteplicità pari m4 = 1 . Nelle rimanenti 97 famiglie, i componenti e i loro fratelli e/o sorelle, dichiarano di non svolgere alcuna attività lavorativa in nero. Per stimare il numero di lavoratori in nero tramite il multiplicity estimator, occorre inizialmente calcolare, per ogni famiglia (unità di selezione), il valore della variabile w j (j=1,2,…,100). Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 212 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria Per la famiglia 1, w1 =1/2+2/3=7/6, per la famiglia 2, w2 =2/3+0/1=2/3 mentre la famiglia, w3 =1/1=1. Per le rimanenti 97 famiglie inserite nel campione, w j =0, j=4,5,…,100. La stima del numero di lavoratori in nero è data 5000 7 2 τˆm = + + 1 + 0 + ... + 0 = 141,667 . 100 6 3 E’ facile verificare che la media campionaria della variabile W è pari a w = 0.02833 mentre la varianza campionaria è sw2 =0.02753. Allora la stima corretta della varianza dello stimatore τˆm è data da: var(τˆm ) = 5000 2 100 1− 0.02753 ≅ 6744,85 100 5000 mentre l’errore standard (stimato) è e.s. = var(τˆm ) = 6744,85 = 82,128 . Per stimare il numero di lavoratori in nero tramite lo stimatore di Horvitz-Thompson, occorre calcolare i totali per i quattro distinti networks individuati e la probabilità di inclusione del primo e del secondo ordine. In base a quanto detto, avremo: y1* = 1 , y 2* = 2 , y3* = 0 e y4* = 1 ; 5000 − 2 π1 = 1 − 100 5000 = 1 − 0.9604 = 0.0396; 100 5000 − 3 π 2 = 1− 100 5000 = 1 − 0.9412 = 0.0588; 100 5000 − 1 π3 = π 4 = 1− 100 5000 = 1 − 0.98 = 0.02 . 100 In virtù della (9), la stima del numero di lavoratori in nero è pari a: τˆHT = 1 2 0 1 + + + + 0 + ... + 0 = 109,267 . 0.0396 0.0588 0.02 0.02 Per stimare la varianza dello stimatore di Horvitz-Thompson è sufficiente determinare i valori delle probabilità di inclusione del secondo ordine solo per i networks che presentano totali yk* positivi (networks 1, 2 e 4). Applicando la (11) si ottiene: 5000 − 2 − 3 + 1 π 12 = 0.0396 + 0.0588 − 1 + 100 5000 = 0.0207 ; 100 Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 213 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria 5000 − 2 − 1 + 0 100 5000 π 14 = 0.0396 + 0.02 − 1 + = 0.00078 ; 100 5000 − 3 − 1 + 0 π 24 = 0.0588 + 0.02 − 1 + 100 5000 = 0.00115 , 100 La stima corretta della varianza dello stimatore τˆHT è dunque data da: var(τˆHT ) = 1 − 0.0396 1 − 0.0588 1 − 0.02 + 22 + + 2 2 0.0396 0.0588 0.022 +2 2 0.0207− 0.0396* 0.0588 1 0.00078− 0.0396* 0.02 + + 0.0207 0.0396* 0.0588 0.00078 0.0396* 0.02 2 0.00115− 0.0588* 0.02 + 0.00115 0.0588* 0.02 = 5560.208 da cui segue che e.s.=74.567. Confrontando l’errore standard dei due stimatori τˆHT e τˆm si osserva immediatamente che la strategia campionaria basata sullo stimatore di Horvitz-Thompson è più efficiente della strategie che chiama in causa il multiplicty estimator. ___________________________________________________________________________ Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 214 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria La stratificazione nel network sampling La metodologia presentata nella sezione precedente può essere adattata a piani di campionamento che prevedono meccanismi più complessi di formazione del campione delle unità di selezione. Un piano di campionamento largamente impiegato nelle applicazioni è quello stratificato. Tecnicamente la stratificazione consiste nella suddivisone delle unità della popolazione in sottogruppi disgiunti, detti strati, all’interno dei quali le unità risultano il quanto più possibile somiglianti. Successivamente, da ciascun strato si estrae in maniera indipendente un campione secondo un determinato schema di selezione; l’unione di tutti i campioni di strato costituisce il campione stratificato. Prerequisito fondamentale per l’impiego del campionamento stratificato è la disponibilità, per tutte le unità della popolazione, di informazioni supplementari sul fenomeno oggetto di studio. L’idea di stratificare le unità è quella di sfruttare il maggior contenuto informativo disponibile nella speranza di migliorare la performance del processo inferenziale. I maggiori vantaggi che possono ottenersi ricorrendo al campionamento stratificato dipendono dal grado di omogeneità, intesa come ridotta variabilità, del carattere oggetto di studio all’interno di ogni strato. Si intuisce facilmente che quanto più le unità appartenenti al medesimo strato sono simili tra di loro, tanto più il campione risulta rappresentativo della popolazione oggetto di studio. Per poter potere realizzare questa condizione occorrerebbe, tuttavia, conoscere i valori che la variabile di studio assume su tutte le unita della popolazione. Ciò è chiaramente impossibile per cui, nella fase della stratificazione delle unità, occorre fare affidamento su una o più variabili, dette variabili di stratificazione, connesse a quella di indagine. L’efficienza della stratificazione dipende, in maniera decisiva, dalla costruzione degli strati. La definizione degli strati si presenta come una fase alquanto articolata essendo il risultato di una serie di scelte riguardanti: (1) la variabili di stratificazione; (2) la definizione degli strati; (3) il numero di strati; (4) l’allocazione del totale delle unità campionarie tra gli strati; (5) la scelta del disegno di campionamento da adottare nei singoli strati. In generale, gli strati vengono formati considerando le diverse combinazioni delle modalità dei caratteri di stratificazione considerati, oppure ricorrendo alle tecniche di cluster analysis (si veda il paragrafo 1.5 del Capitolo 6) Con riferimento al campionamento a rete, supponiamo che le unità di selezione siano state preventivamente stratificate. Può capitare, allora, che una stessa unità di osservazione sia collegata ad unità di selezione appartenenti allo stesso strato o a strati diversi. Ciò comporta che l’estrazione delle unità di osservazione dai singoli strati, diversamente da quanto accade per piani di campionamento tradizionali, non sia più indipendente da strato a strato. Supponiamo che le M unità di selezione nella popolazione siano suddivise in L strati. Sia M h il numero di unità di selezione appartenenti allo strato h (h=1,2,…,L) e supponiamo di estrarre senza reimmissione da ciascun strato un campione casuale semplice di nh unità di selezione. Per ogni unità di selezione estratta inseriamo nel campione tutte le unità di osservazione ad essa legate, indipendentemente dallo strato in cui si trovano. Sia Ahj l’insieme formato da tutte le unità di osservazione associate alla j-ma unità di selezione dello strato h. Per la i-ma unità di osservazione sia mi il numero delle unità di selezione, appartenenti anche a strati diversi, a cui questa è associata. Per la j-ma unità di selezione dello yi 1 nh strato h sia whj = e wh la media campionaria di strato delle whj , wh = whj . nh j =1 i∈ Ahj mi Allora, uno stimatore corretto del totale nel campionamento a rete stratificato si configura come la somma di tanti multiplicity estimators quanti sono gli stati: Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 215 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria τˆmstr = L h =1 M h wh . (12) Lo stimatore, noto con il termine di stratified multiplicity estimator, è corretto e presenta varianza pari a: L M h ( M h − nh ) 2 Var (τˆmstr ) = S wh (13) nh h =1 2 in cui, con avvio significato della simbologia, S wh è la varianza della variabile W nello strato 2 2 h. Uno stimatore corretto della varianza può essere ottenuto sostituendo S wh con s wh , varianza campionaria corretta di W calcolata sul campione estratto dallo strato h. Facciamo osservare che lo stimatore τˆmstr è corretto per τ ma non altrettanto può dirsi per i singoli termini M h wh che, in generale, non risultano essere corretti per il totale di strato. Ciò è da attribuire al fatto che il calcolo di wh può chiamare in causa valori di Y rilevati su unità non appartenenti allo strato h. Analogamente a quanto fatto per le unità di selezione non stratificate, è possibile costruire lo stimatore di Horvitz-Thompson stratificato, avendo preliminarmente definito le probabilità di inclusione del primo e del secondo ordine (Thompson, 1992). Concludiamo questa sezione, segnalando che ulteriori approfondimenti sul campionamento stratificato a rete possono essere rinvenuti in Sirken (1972). Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 216 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria 1.2 Lo snowball sampling Una metodologia di campionamento molto simile al campionamento a rete, con il quale viene spesso confuso, è il campionamento a valanga (snowball sampling). Questa metodologia è ampiamente adottata dalla comunità scientifica internazionale (rif. Natale & Strozza, 1997) in numerose indagini campionarie volte ad acquisire informazioni sugli immigrati clandestini. Data la stretta analogia con il fenomeno del sommerso, ci appare opportuno delinearne le caratteristiche fondamentali. Con il termine “snowball sampling a s stadi e k nomi” si intende (Goodman, 1961) un schema di campionamento in cui, estratto un campione casuale da una popolazione finita, ad ogni individuo di tale campione iniziale, definito stadio zero, viene chiesto di indicare k differenti individui5 da lui conosciuti i quali, ad eccezione di quelli già presenti nel campione iniziale, vanno a formare le unità dello stadio uno. A ciascuno di questi viene chiesto di indicare ulteriori k persone che, ad eccezione di quelle già presenti negli stadi zero e uno, costituiscono lo stadio due. Tale procedimento viene iterato fino al raggiungimento dello stadio s ai cui componenti viene chiesto di indicare k differenti nominativi. Come è facile intuire il campionamento si dice a valanga perché ad ogni stadio il campione coinvolge nuove unità. Il metodo, contrariamente al campionamento a rete, si applica a qualsiasi tipo di popolazione. Per popolazioni umane il piano di campionamento in esame conduce, generalmente, ad ottimi risultati quando gli individui che compongono la popolazione si conoscono tra di loro. In tal caso se s e k non sono valori troppo piccoli si può sperare di ottenere, in tempi più brevi rispetto al campionamento a rete, una lista, seppure grossolana, degli individui che compongono la popolazione rara e/o elusiva da cui selezionare un campione. L’obiettivo che si è cercato inizialmente di perseguire con tale piano di campionamento, è stato quello di studiare il grado di strutturazione di una collettività ovvero le relazioni reciproche tra gli individui della popolazione. Successivamente l’attenzione è stata spostata, con opportune modifiche metodologiche, dallo studio delle relazioni sociali alla stima della dimensione della popolazione ignota e/o alla realizzazione di indagini campionarie volte allo studio di alcuni aspetti relativi a popolazioni rare e/o elusive. In una ipotetica situazione in cui ad ognuno degli individui della popolazione viene chiesto di segnalare k distinte persone, le relazione interpersonali presenti nella popolazione possono essere descritte tramite una matrice quadrata di ordine N (dove N è la numerosità della popolazione) in cui le righe e le colonne corrispondono, rispettivamente, agli individui che “nominano” e le colonne a quelli “nominati”. L’elemento generico della matrice, aij , assume valore pari ad uno se la i-ma unità della popolazione include la j-ma unità tra le k indicate, zero in caso contrario. E’ chiaro che la struttura di questa matrice può essere conosciuta solo se si ricorre ad un’indagine esaustiva. Tuttavia, è possibile effettuare inferenze su diversi aspetti della matrice utilizzando dati campionari ottenuti utilizzando il campionamento a valanga. Così ad esempio, se poniamo s=k=1 si può pensare di stimare il numero, M 11 , delle relazioni reciproche presenti nella popolazione, ovvero il numero di valori i per i quali aij = a ji = 1 , per j>i 5 Ad esempio, ad ogni individuo può essere chiesto di indicare i “k migliori amici”, i “k individui con i quali si incontra più di frequente”, “k individui con i quali condivide le stesse idee politiche”, “k individui che presentano la sua stessa condizione”, ecc. Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 217 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria 1.3 Il metodo cattura-ricattura Tra le procedure di stima dell’ammontare di popolazioni rare e/o elusive, una certa attenzione è stata riposta sul campionamento cattura-ricattura (capture-recapture sampling), intendendo con ciò un insieme di metodologie predisposte inizialmente per la determinazione della numerosità di una popolazione animale (si pensi, ad esempio, ai pesci che popolano un lago). Successivamente tali metodi hanno trovato larga applicazione anche nello studio delle popolazioni umane e, in particolare, nella stima dei “senza tetto” o in procedure di controllo finalizzate alla correzione di dati censuari sulla numerosità di minoranze etniche. Nella sua versione originale, il metodo cattura-ricattura può essere così descritto. Si estrae un primo campione di numerosità n1 e si contrassegnano (operazione di marchiatura) tutte le unità selezionate. Successivamente si estrae, indipendentemente dal primo, un secondo campione di ampiezza n2 e si individuano, se esistono, le osservazioni che sono state in precedenza contrassegnate nel primo campione. Sia dunque pari a m2 il numero di unità che appaiono nei due campioni (unità ricatturate). Se il secondo campione è rappresentativo dell’intera popolazione, il numero totale di unità nella popolazione, τ , può essere stimato assumendo che la proporzione di unità contrassegnate presenti nel secondo campione sia rappresentativa della proporzione delle unità contrassegnate nella popolazione, ovvero che sia valida (approssimativamente) la seguente proporzione: m2 n1 = n2 τ da cui, risolvendo rispetto al valore incognito τ , si ottiene lo stimatore: n (14) τˆ = n1 2 m2 noto come Lincoln Index. La varianza dello stimatore può essere stimata dall’espressione (rif. Thompson, 1992) n n (n − m2 )( n2 − m2 ) var(τˆ) = 1 2 1 (15) m23 Lo stimatore τˆ fornisce una stima soddisfacente di τ se sono verificate le seguenti condizioni: (1) la popolazione è chiusa; (2) tutte le unità dell’universo hanno la stessa probabilità di entrare a far parte del primo campione; (3) la probabilità di “cattura” dei soggetti non si modifica a seguito della marchiatura; (4) il secondo campione è selezionato ricorrendo al campionamento casuale semplice. Tutte queste condizione sono difficilmente riscontrabili nella realtà, per cui sono state proposte metodologie che permettono l’applicazione del metodo anche quando dette condizioni vengono meno. A tal proposito è doveroso citare i contributi di Borchers et al. (2002), Pollock (1991), Seber (1986). Il metodo di cattura-ricattura può essere adattato, a nostro parere, per stimare il numero di lavoratori che operano nel sommerso. La nostra proposta prevede la selezione del primo campione ricorrendo ad un campionamento a rete e l’identificazione (marchiatura) delle sole unita che dichiarano di operare in nero. Il secondo campione, più ampio del primo e potenzialmente più rappresentativo, può essere formato tramite il campionamento a valanga. Si tratta allora di conteggiare il numero di lavoratori in nero che sono presenti contemporaneamente sia nel primo che nel secondo campione. Il gruppo, si propone di predisporre una corretta metodologia che permetta di utilizzare il metodo cattura-ricattura congiuntamente al campionamento a valanga e a quello a rete. Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 218 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria 4 Il metodo delle risposte casualizzate A conclusione del presente capitolo presentiamo il metodo delle risposte casualizzate che, come già detto in precedenza, consente di limitare gli effetti distorsivi derivanti da mancate risposte oppure da risposte vaghe e/o non veritiere su temi di natura delicata. Come è facile capire, questo problema può presentarsi con estrema frequenza in indagini relative all’economia sommersa, in cui i soggetti da intervistare potrebbero manifestare non poche riserve a partecipare all’indagine. Per superare l’ostacolo derivante dalla tipologia degli argomenti trattati e, al contempo, stimare la proporzione di soggetti che posseggono una particolare caratteristica “non dichiarabile” o “dichiarabile con difficoltà”, Warner (1965) ha ideato una tecnica che consente di raggiungere lo scopo di avere le risposte attendibili offrendo agli intervistati la garanzia dell’anonimato. La garanzia dell’anonimato è assicurata ponendo l’intervistatore nella condizione di non sapere a quale domanda l’intervistato stia rispondendo. All’intervistato viene chiesto, inizialmente, di effettuare un esperimento casuale che presenta due possibili esiti6 S e S , rispettivamente con probabilità λ e 1 − λ . Se l’esperimento genera l’esito S, all’intervistato viene chiesto di rispondere “vero” o “falso” all’affermazione: D: “presento l’attributo A”, mentre se l’esperimento casuale genera l’esito S , all’intervistato viene chiesto di esprimersi sull’affermazione: D: “non presento l’attributo A”. All’intervistatore è dato solo di conoscere la probabilità λ ; questa conoscenza permette di costruire uno stimatore corretto della proporzione (e quindi anche del numero) di individui che presentano l’attributo A. Supponiamo, allora, di estrarre un campione di ampiezza n. Sia m ( 0 ≤ m ≤ n ) il numero di individui che rispondono di avere l’attributo A. Allora una stimatore corretto di π è dato da: m / n − (1 − λ ) 1 πˆ w = , λ≠ . (16) 2λ − 1 2 Diversi metodi alternativi a quello di Warner sono stati proposti nel corso degli anni. Per una prima sommaria indicazione si rimanda a Cicchitelli et al. (1997) 6 Si potrebbe pensare, ad esempio, al lancio di una moneta regolare. Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 219 Primo rapporto di ricerca sul sistema di monitoraggio del mercato del lavoro e di valutazione degli effetti occupazionali del POR Calabria Riferimenti Bibliografici Borchers, D.L., Buckland, S.T., Zucchini, W. (2002), Estimating animal abundance. Closed populations, Sringer-Verlag, London. Cicchitelli, G., Herzel, A., Montanari, G.E. (1997), Il campionamento da popolazioni finite, Il Mulino, Bologna. Cochran, W.G. (1977) Sampling Techniques, 3rd ed., Wiley, New York Goodman, L.A. (1961), «Snowball sampling», Annals of Mathematical Statistics, 32, pp. 148-170. Kalton, G., Anderson, D. W. (1986), «Sampling rare populations», Journal of the Royal Statistical Society, A, 149, pp. 65-82. Marino D. (2002), «Indicatori dell’economia sommersa e del lavoro regolare in Calabria» Disponibile su: http://www.regione.calabria.it/monitoraggio_lavoro/index.htm. Natale, M., Strozza, S. (1997), Gli immigrati stranieri in Italia. Quanti sono, chi sono, come vivono?, Cacucci Editore, Bari. Pollock, K.H. (1991), «Modeling capture, recapture, and removal statistics for estimation of demographic parameters to fish an wildlife populations: past, present and future», Journal of the American Statistical Association, 86, pp. 225-238. Seber, G.A.F. (1986), «A review of estimating animal abundance», Biometrics, 42, pp. 267-292. Sirken, M.G. (1972), « Stratified surveys with multiplicity», Journal of the American Statistical Association, 67, pp. 224-227. Thompson, S.K. (1992), Sampling, Wiley, New York. Warner, S.L. (1965), «Randomized response: a survey technique for eliminating evasive answer bias», Journal of the American Statistical Association, 60, pp. 63-69. Zizza R. (2002), «Metodologie per la stima dell’economia sommersa:applicazione al caso italiano», Temi di discussione del servizio studi della Banca d’Italia, numero 463, Dicembre 2002. Dipartimento di Economia e Statistica, Università della Calabria, Arcavacata di Rende (CS) 220