Misure di sottocopertura anagrafica in base alla revisione post
Transcript
Misure di sottocopertura anagrafica in base alla revisione post
Misure di sottocopertura anagrafica in base alla revisione post-censuaria del 2001 M. Fortini, G. Gallo ISTAT, Direzione Centrale dei Censimenti Generali e-mail: [email protected] 1. Introduzione Le informazioni sulle modalità e sui tempi di realizzazione delle operazioni di campo desunte dall’ultima tornata censuaria forniscono utili ed importanti indicazioni per il prossimo censimento della popolazione. In particolare, gli aspetti concernenti la strategia complessiva della rilevazione censuaria e la dimensione demografica dei comuni sembrano essere fortemente condizionanti l’intero processo di rilevazione (Fortini et al., 2007). A seguito di queste valutazioni, le riflessioni condotte dall’Istat inducono a preferire un “censimento assistito” da liste anagrafiche comunali (LAC), con modalità organizzative basate su un raggruppamento dei comuni in 4 classi di ampiezza demografica secondo il seguente criterio di classificazione: 1. comuni di tipo A, che consistono nei capoluoghi di provincia e nei comuni con almeno 50.000 abitanti; 2. comuni di tipo B, caratterizzati da una popolazione residente fra 49.999 e 20.000 abitanti; 3. comuni di tipo C1, costituiti da una popolazione residente fra i 19.999 e i 5.000 abitanti; 4. infine, i comuni di tipo C2, vale a dire quelli con popolazione residente inferiore ai 5.000 abitanti. In merito alla strategia generale, il censimento assistito da lista se da un lato consentirebbe di semplificare le operazioni di cancellazione dagli archivi anagrafici delle persone che risultano irreperibili al censimento, dall’altro impone la necessità di affrontare preliminarmente il problema della sottocopertura anagrafica. Infatti, la rilevazione assistita da liste anagrafiche comunali deve tener conto degli errori dovuti alle unità di popolazione non iscritte in LAC ma dimoranti abitualmente sul territorio comunale. Per risolvere questo problema, la Direzione centrale dei censimenti generali ha messo a punto diversi approcci metodologici che consentirebbero di recuperare nel calcolo di popolazione legale1 gli individui dimoranti abitualmente nel comune ma non iscritti in anagrafe (Crescenzi et al., 2008; Carbonetti et al., 2008). A riguardo, obiettivo di questo lavoro è di stimare, per il prossimo censimento della popolazione, l’ammontare “atteso” e la distribuzione territoriale della sottocopertura anagrafica, utilizzando le informazioni individuali delle regolarizzazioni post-censuarie relative a persone che, censite come dimoranti abitualmente il 20 ottobre del 2001, sono state iscritte nei registri di popolazione a seguito delle verifiche e degli accertamenti compiuti dagli Uffici di anagrafe dei comuni nel corso della revisione anagrafica. Nel paragrafo 2, oltre all’analisi quantitativa degli iscritti in anagrafe per regolarizzazione postcensuaria, viene effettuata una valutazione sulla qualità della fonte di dati presa in esame e una descrizione delle principali caratteristiche demografiche (sesso, cittadinanza, età e stato civile), delle persone interessate dai provvedimenti in questione. Nel paragrafo 3 è descritta la metodologia basata sui modelli mistura, utilizzata per pervenire ad una stima della “sottocopertura anagrafica attesa” per il censimento del 2011, secondo le 4 tipologie di comuni su citate. Questo tipo di analisi consente di isolare dalle determinanti della sottocopertura anagrafica gli effetti spuri dovuti alla maggiore o minore qualità delle operazioni di revisione anagrafica effettuate da ciascun comune. 1 Per popolazione legale si intende l’ammontare di popolazione censita come dimorante abitualmente ad una certa data, solitamente il 20 ottobre. Questo dato viene determinato nella fase conclusiva delle operazioni censuarie durante la quale è previsto anche il confronto contestuale con le informazioni delle Anagrafi comunali. 1 Nel paragrafo 4, invece, sono riportati i risultati dell’analisi svolta attraverso i modelli mistura. Infine, nel paragrafo 5 sono riportate alcune considerazioni di cui tenere conto durante la pianificazione delle fasi di rilevazione del prossimo censimento della popolazione. In particolare, le fasi del recupero nella popolazione legale di individui e famiglie abitualmente dimoranti ma non presenti in anagrafe risultano fondamentali per svolgere le successive operazioni del confronto censimento-anagrafe e del processo di revisione anagrafica (Cortese, Greco, 1993; Gesano, et al., 1993). Queste due operazioni assumono, infatti, una particolare importanza al fine di ridurre le incoerenze tra dato censuario e dato anagrafico. 2. La qualità dei dati e le principali caratteristiche demografiche degli iscritti in anagrafe a seguito delle risultanze del censimento 2001 Per risolvere i casi di non rispondenza tra dato anagrafico e dato censuario, gli Uffici di anagrafe effettuano i procedimenti di regolarizzazione post-censuaria, processo ai più noto come revisione anagrafica. Questi provvedimenti amministrativi determinano un’iscrizione in anagrafe se le persone censite come residenti ma non iscritte si presentano presso gli Uffici anagrafici e sottoscrivono, attraverso i modelli individuali ISTAT APR.4, le pratiche di immigrazione da altro comune o dall’estero (Commissione di Garanzia per l’Informazione Statistica, 2000). A seguito di questi provvedimenti amministrativi si perfeziona la registrazione nei registri di popolazione. Trattandosi di iscrizioni relative a persone abitualmente dimoranti al momento del censimento, questi eventi forniscono un’evidenza dei livelli di sottocopertura anagrafica di ciascun comune alla data di riferimento del censimento. Per gli addetti ai lavori i provvedimenti in questione sono conosciuti come “iscrizioni che non comportano conteggio” poiché le persone interessate dalla registrazione in anagrafe sono già incluse nel computo della popolazione legale. Dal 21 ottobre del 2001 al 31 dicembre del 2005 si contano poco meno di 236.000 persone iscritte in anagrafe a seguito delle risultanze del censimento del 2001 (Tabella 1). I comuni interessati a questo tipo di eventi sono 6.866 (quasi l’85%), con una maggiore incidenza di enti nella ripartizione Nord-est (più del 90% dei comuni della ripartizione). Tabella 1 – Iscritti in anagrafe che non comportano conteggio per classe di ampiezza demografica dei comuni, cittadinanza e incidenza sulla popolazione legale del 2001. Valori assoluti e percentuali CLASSI DI AMPIEZZA DEMOGRAFICA DEI COMUNI Fino a 2.000 da 2.001 a 5.000 da 5.001 a 10.000 da 10.001 a 20.000 da 20.001 a 50.000 da 50.001 a 100.000 da 100.001 a 250.000 da 250.001 a 500.000 oltre 500.000 Nord-ovest Nord-est Centro Sud Isole Italia N. Comuni 2.589 2.052 1.129 629 330 95 29 7 6 2.492 1.347 891 1.492 644 6.866 Persone dimoranti abitualmente al 20.10.2001 e non iscritte in anagrafe di cui: % % Valori % sul iscritti cittadini assoluti totale dall'estero stranieri 17.843 7,6 8,4 12,8 37.051 15,7 8,8 14,1 46.183 19,6 9,1 14,4 45.348 19,2 8,9 14,9 41.547 17,6 8,7 13,8 17.081 7,2 10,5 15,3 14.097 6,0 13,4 19,4 4.922 2,1 18,0 22,8 11.672 5,0 16,2 19,8 73.729 31,3 9,8 16,4 60.619 25,7 12,2 20,8 36.027 15,3 11,6 18,9 46.399 19,7 6,5 6,4 18.970 8,0 6,6 5,0 235.744 100,0 9,8 15,0 Non iscritti in anagrafe su Popolazione 1.000 persone legale censite al 20.10.2001 3.558.528 7.032.200 8.040.885 8.669.117 10.076.393 6.390.014 4.125.516 2.133.284 6.969.807 14.938.562 10.634.820 10.906.626 13.914.865 6.600.871 56.995.744 5,0 5,3 5,7 5,2 4,1 2,7 3,4 2,3 1,7 4,9 5,7 3,3 3,3 2,9 4,1 Fonte: Istat, Iscrizioni e cancellazioni anagrafiche per trasferimento di residenza. Periodo 21.10.2001-31.12.2005. 2 Nel complesso, il fenomeno della sottocopertura appare di dimensione piuttosto contenuta e, in termini di incidenza relativa sulla popolazione legale, sembra sorprendentemente interessare maggiormente i comuni di piccola e media dimensione demografica. Se confermato, questo risultato comporterebbe operazioni di recupero della sottocopertura anagrafica di portata più ampia nei comuni di dimensione più ridotta. Il risultato non può tuttavia essere considerato conclusivo, essendo potenzialmente affetto da distorsioni dovute all’assenza di informazioni accurate sulla qualità della revisione anagrafica effettuata dai comuni. A questo riguardo, occorre sottolineare che i dati presi in esame mostrano una forte criticità per la mancata compilazione delle informazioni di base da parte degli enti comunali. Ad esempio, l’età presenta valori mancanti per circa il 60% dei record individuali e l’informazione sullo stato civile risulta assente per circa 15.000 individui. Per altro, l’incidenza relativa dei dati mancanti aumenta al crescere dell’ampiezza demografica dei comuni. Si consideri, infatti, che la percentuale di valori mancanti della variabile età passa dal 57%, nei comuni sotto i 20.000 abitanti, al 74% nei comuni da 250.000 a 500.000 abitanti. Ad ogni modo, circa 212.000 iscrizioni anagrafiche hanno comportato un trasferimento di residenza all’interno dei comuni italiani, mentre la quota degli iscritti in anagrafe già residenti all’estero risulta abbastanza contenuta (meno del 10%) e riguarda prevalentemente i cittadini stranieri (Tabella 1). Nel complesso, la componente straniera degli iscritti in anagrafe a seguito del censimento del 2001 ammonta a circa 35 mila unità (pari al 15% sul totale delle iscrizioni), risultato che potrebbe essere sottostimato rispetto alla dimensione della presenza straniera in Italia. Le ragioni di questa sottoenumerazione sono da ricercare nella natura stessa che sottende ai provvedimenti in esame. Infatti, se nel caso delle persone già residenti in Italia a fronte di un’iscrizione in un comune deve necessariamente corrispondere una procedura amministrativa di cancellazione dal registro di popolazione in un altro comune, nel caso dei trasferimenti dall’estero dei cittadini stranieri questo vincolo viene meno. Per questi casi, dunque, gli Uffici di anagrafe potrebbero sentirsi meno vincolati a compilare i relativi modelli ISTAT APR.4 generando, soprattutto nei comuni di maggiore attrazione demografica, una sottostima degli iscritti per regolarizzazione anagrafica. La composizione per sesso degli iscritti in anagrafe al censimento mostra un sostanziale equilibrio tra uomini e donne (Tabella 2), anche se si osserva un leggero sbilanciamento a favore della componente femminile (le donne sono il 50,3%). L’età media è di poco superiore ai 30 anni e appare leggermente più elevata per le donne (lo scarto tra i sessi è di circa 1 anno) a causa della superiorità numerica delle donne vedove che mostrano un’età media di circa 2 anni più elevata degli uomini vedovi (32,7 anni per le prime contro 31,7 dei secondi). Questi valori risultano molto diversi da quelli osservati sul totale della popolazione censita nel 2001 che presenta un’età media di circa 41 anni, con una differenza di genere di 3 anni a favore della componente maschile (39,8 anni contro 42,8 delle donne). Tabella 2 –Iscritti in anagrafe che non comportano conteggio per stato civile, sesso ed età media. Valori assoluti e percentuali STATO CIVILE Celibi/nubili Coniugati/e Vedovi/e Divorziati/e Totale Maschi Femmine Totale Valori assoluti % sul totale Età media* Valori assoluti % sul totale Età media* Valori assoluti % sul totale Età media* 58.015 49.564 1.427 681 109.687 52,9 45,2 1,3 0,6 100,0 22,8 40,9 70,3 47,8 31,7 51.095 53.121 6.381 687 111.284 45,9 47,7 5,7 0,6 100,0 24,8 36,4 72,7 44,0 32,7 109.110 102.685 7.808 1.368 220.971 49,4 46,5 3,5 0,6 100,0 23,8 38,5 72,2 45,9 32,2 Fonte: Istat, Iscrizioni e cancellazioni anagrafiche per trasferimento di residenza. Periodo 21.10.2001 al 31.12.2005. Note: * L’informazione sull’età è presente solo per 95.139 casi, di cui 46.890 maschi e 48.249 donne. 3 Analizzando la struttura per stato civile, età media e sesso, si osserva che gran parte dell’aggregato in esame è costituito da celibi o nubili (quasi il 50%), seguiti dai coniugati (più del 46%). Tra questi ultimi le donne sono quasi il 48% e mostrano un’età media di circa 4 anni più bassa degli uomini. Se si confronta la struttura per età e sesso della sottocopertura anagrafica e della popolazione censita al 2001, si osserva una forte differenza tra i due aggregati (Figura 1). Infatti, la sottocopertura anagrafica risulta più consistente nelle classi di età centrali dai 20 ai 39 anni dove si concentra più del 50% degli individui. Queste classi di età mostrano, inoltre, una leggera prevalenza della componente femminile nella classe di età 25-29 anni che rappresenta quasi il 10% della sottocopertura anagrafica del 2001. Figura 1 – Piramide delle età della popolazione censita al 2001 e degli iscritti in anagrafe a seguito del censimento della popolazione del 2001. Valori percentuali 100+ Maschi Femmine 95-99 90-94 85-89 80-84 75-79 70-74 65-69 Classi di eta' quinquennali 60-64 55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 15-19 10-14 5-9 0-4 10 8 6 4 2 0 2 4 6 8 10 Valori % Popolazione censita al 2001 Persone non iscritte in anagrafe dimoranti abitualmente al censimento del 2001 Di una certa rilevanza appare, inoltre, la quota delle classi di età sotto i dieci anni (quasi il 25%) che presentano per altro un forte equilibrio tra i sessi. Meno rappresentate risultano, invece, le classi di età superiori ai 50 anni per le quali la sottocopertura anagrafica sembra essere meno rilevante. In definitiva, la distribuzione per età degli iscritti in anagrafe a seguito del censimento del 2001 mostra che le classi più a rischio di sottocopertura anagrafica sono le stesse che solitamente risultano problematiche anche per la copertura censuaria, vale a dire i bambini tra 0 e 5 anni e gli adulti tra i 20 e i 40 anni (Fortini et al., 2007). Una delle ipotesi più probabili è che le persone di queste classi di età si caratterizzino per una forte mobilità sul territorio che, evidentemente, 4 coinvolge intere famiglie, dato che le età più elevate possono corrispondere ai genitori e quelle più giovani ai rispettivi figli. Questa considerazione avvalorerebbe l’ipotesi che, al momento del censimento, una parte della sovracopertura anagrafica che si registra in alcuni comuni determini una sottocopertura anagrafica in altri comuni. Ne discende, dunque, che il problema della tenuta e dell’aggiornamento dei registri di popolazione nel periodo intercensuario rappresenta un aspetto molto rilevante nel caso del censimento assistito da registri anagrafici. 3. L’applicazione basata su modelli di misture finite Al fine di isolare dalle determinanti della sottocopertura anagrafica gli effetti spuri dovuti alla maggiore o minore accuratezza con cui i comuni hanno effettuato l’aggiornamento delle anagrafi a seguito delle risultanze censuarie del 2001, si è fatto ricorso all’impiego dei modelli mistura (McLachlan, Peel, 2000). Si definisce mistura finita la funzione (o densità) di probabilità ottenuta come media ponderata G f (x ) = ∑ p g f g ( x ) g =1 dove: fg(x) sono distribuzioni (o densità) di probabilità anche di tipo differente; pg≥ 0, ∑ g pg = 1 sono pesi o probabilità a priori. In particolare, assumendo l’appartenenza delle unità della popolazione di interesse da un insieme finito di sottogruppi G, ciascuno dei quali caratterizzato da un diverso modello di regressione legante una variabile dipendente yg ad una o più variabili esplicative xg, si può scrivere la seguente relazione y g = α g + βx g + ε g ∀g∈G dove l’errore εg si distribuisce come una normale con media 0 e varianza σ2g. La funzione di densità risultante è una mistura finita descritta come G ( ) f ( xi ) = ∑ ϕ y g α g , β g ; x g ,σ g2 p g g =1 dove pg rappresenta la probabilità di campionare una osservazione dalla g-ma sottopopolazione La log-verosimiglianza dipendente dai parametri αg, βg, σ2g e pg è rappresentata come n ⎛ G ⎞ L(ϑ ) = ∑ log⎜⎜ ∑ ϕ y g α g , β g ; x g ,σ g2 pg ⎟⎟ i =1 ⎝ g =1 ⎠ e, essendo le G sottopopolazioni non direttamente osservabili, può essere massimizzata ricorrendo all’algoritmo EM (Dempster, Laird, Rubin, 1977). L’applicazione di un modello mistura risulta di particolare interesse nel caso in oggetto dato che i dati a disposizione difettano di informazioni rilevanti per lo svolgimento di analisi pienamente interpretabili. In particolare, è noto che solo alcuni dei comuni italiani svolgono azioni di revisione delle anagrafi e l’informazione sulla qualità e sul numero di interventi effettuati non è purtroppo disponibile. Inoltre, non è detto che un comune che presenta eventi di iscrizione che non comportano conteggio rientri necessariamente tra quelli che svolgono azioni di aggiornamento. Questi eventi possono, infatti, verificarsi anche a causa di spontanei trasferimenti di residenza da parte di individui già censiti come dimoranti abitualmente ma che non sono stati chiamati dagli Uffici di anagrafe per perfezionare la pratica di iscrizione. Ciò fa sì che le iscrizioni siano in questo caso sollecitate più dall’interesse del cittadino ad essere iscritto nel comune che all’azione di revisione anagrafica effettuata a seguito del censimento. ( ) 5 A causa di questi elementi è sembrato opportuno identificare due gruppi di comuni. Un primo gruppo è costituito da quei comuni che svolgono attive azioni di regolarizzazioni anagrafiche delle persone censite al 2001 come dimoranti abitualmente. Il secondo gruppo è costituito, invece, dai comuni che non intraprendono azioni di questo tipo e al più si limitano ad effettuare le iscrizioni limitatamente agli individui che, spontaneamente a seguito del censimento, trasferiscono la propria residenza. E’ da aspettarsi che il primo gruppo di comuni sia caratterizzato da un maggior numero di iscrizioni che non comportano conteggio, a parità di condizioni strutturali dei comuni, quali la popolazione residente sul territorio. 4. Risultati delle analisi con il modello mistura I risultati delle analisi preliminari hanno suggerito di dividere l’insieme dei comuni italiani in quattro sottoinsiemi secondo le classi di dimensione demografica definite nel paragrafo 1. I sottoinsiemi formati sono stati i seguenti: comuni di tipo A metropolitani (con più di 250.000 abitanti); restanti comuni di tipo A e comuni di tipo B; comuni di tipo C1; comuni di tipo C2. L’analisi è stata differenziata per ciascuno dei gruppi di comuni, per i quali è stata svolta la ricerca del modello statistico ‘ottimale’ secondo il criterio BIC2 La variabile dipendente è rappresentata dal numero di iscrizioni in anagrafe che non comportano conteggio nella popolazione legale, effettuate dai comuni nell’arco del periodo compreso tra il 21 ottobre del 2001 e il 31 dicembre del 2005 (TOTISCR). Le variabili esplicative considerate sono costituite: dalla popolazione legale dei comuni al 20 ottobre del 2001 (POPLEG); dal numero medio annuo di iscritti nel comune per cambio di residenza, nel periodo 2002-2005 (MI2_5); dall’appartenenza dei comuni alla corona di uno dei 13 comuni metropolitani (CORONA); dalla dichiarazione del comune sull’avvenuto confronto censimento-anagrafe (CONFR) in occasione del censimento 2001. È stato utilizzato, per tutti i casi presi in esame, un modello mistura con due componenti, testato verso l’analogo modello lineare semplice. In tutti i casi considerati, l’eteroschedasticità nella nuvola dei punti ha reso preferibile il modello con due componenti rispetto a quello semplice. In effetti, sebbene la residua variabilità dell’errore avrebbe portato all’identificazione di un numero di componenti superiore a due, si è scelto comunque di mantenere due sole componenti per motivi legati all’interpretabilità dei dati. L’ammontare complessivo della sottocopertura anagrafica è stato infine stimato utilizzando la componente del modello mistura che, in ciascuno dei sottoinsiemi di comuni, descrive i comuni più attivi nella correzione delle anagrafi per questo tipo di eventi, vale a dire le regolarizzazioni di iscritti che non comportano conteggio. La somma della sottocopertura anagrafica stimata in ciascuno dei sottogruppi ammonta quindi a 406.485 individui, contro i 235.763 osservati, con un tasso di sottocopertura anagrafica che passa da un valore osservato di 0,41% a uno stimato pari a 0,71%. Nel seguito si illustrano le principali caratteristiche dei modelli con il miglior adattamento ai dati per ciascuna delle quattro tipologie di comuni prese in esame. 4.1 Comuni di tipo A con almeno 250.000 abitanti Il modello migliore in termini di criterio BIC considera gli effetti semplici delle variabili ‘popolazione legale’ e ‘numero medio annuo di iscritti per trasferimento di residenza nel periodo 2002-2005’. La tabella 3 riporta il valore dei coefficienti di regressione per le due componenti identificate. Si nota che dei 13 comuni metropolitani, 9 risultano descritti meglio dalla prima componente, mentre i restanti 4 sono meglio rappresentati dalla seconda componente. 2 Bayesian Information Criterion, indice di adattamento ai dati che penalizza la log-verosimiglianza con il numero di unità statistiche analizzate n e il numero di parametri d del modello. 2L(θ)-log(n)d 6 Nella figura 2 si osservano i comuni italiani secondo il numero di iscritti che non comportano conteggio in funzione della popolazione legale. Nel grafico sono riportati i valori osservati, e i valori attesi rispettivamente secondo la prima e la seconda componente. Tabella 3: TOTISCR ~ MI2_5 + POPLEG (BIC: 199,6107) Size Post>0 Coef.(Intercept) Coef.MI2_5 Coef.POPLEG Sigma Comp.1 9 9 4.079306e+01 -1.263145e-02 6.053277e-04 2.568215e+02 Comp.2 4 4 8.692380e+01 1.702504e-01 2.693250e-04 2.820010e+01 Come si osserva, l’applicazione del modello individua la separazione in due gruppi e il modello rappresentato dalla seconda componente descrive il numero atteso di iscrizioni qualora tutti i comuni avessero un comportamento conforme ai 4 appartenenti al gruppo 2, cioè quelli che manifestano più eventi di correzione della sottocopertura anagrafica. × Osservati ο Attesi Componente 1 Attesi Componente 2 Dai dati esaminati si evince che, a fronte di un numero osservato di iscrizioni anagrafiche che non comportano conteggio, pari a 16.594 unità, se ne sarebbero realizzate 37.941 nel caso in cui tutti i comuni si fossero comportati secondo il modello descritto dalla seconda componente. Considerato che la popolazione totale nei 13 comuni metropolitani ammonta a 9.103.091 abitanti, se 7 ne deduce che il tasso di sottocopertura osservato è pari a 0,18%, mentre quello atteso dal modello relativo alla seconda componente passa a 0,42%, facendo registrare un incremento del 233%. 4.2 Comuni di tipo A con popolazione inferiore a 250.000 abitanti e Comuni di tipo B Il modello che meglio si adatta ai dati relativi a questa classe di comuni è quello dipendente dai soli effetti semplici relativi alla popolazione legale (POPLEG) e al numero medio di iscritti per trasferimento di residenza dal 2002 al 2005 (MI2_5). Nella tabella 4 e nella figura 3 sono riportati i parametri essenziali del modello e l’andamento del numero di iscritti che non comportano conteggio in relazione alla popolazione legale dei comuni. Tabella 4: TOTISCR ~ MI2_5 + POPLEG Size Post>0 Coef.(Intercept) Coef.MI2_5 Coef.POPLEG Sigma Comp.1 100 454 -6.607603e+00 2.087138e-01 1.887993e-04 1.753272e+02 (BIC: 5743,735) Comp.2 360 424 7.599256e+01 8.358373e-03 1.075382e-05 6.704288e+01 Si nota che la prima componente descrive 100 dei 460 comuni del gruppo, mentre i restanti 360 comuni risultano seguire il modello corrispondente alla seconda componente. Dalla figura 3 si evince che la prima componente è quella che rappresenta i comuni che tendono ad apportare più correzioni alle loro anagrafi a seguito del censimento. × Osservati ο Attesi Componente 1 Attesi Componente 2 8 Se si confrontano i parametri della prima componente relativi ai due gruppi di comuni finora discussi, si può vedere che, sebbene le variabili che ‘entrano’ nel modello siano le medesime, i parametri che descrivono la relazione tra la variabile dipendente e le esplicative sono sensibilmente differenti tra loro. Ciò rende opportuna l’applicazione di modelli di regressione diversi a seconda della classe di ampiezza demografica dei comuni. Questa differenziazione delle analisi garantisce, infatti, una migliore leggibilità dei parametri del modello e una sua sostanziale semplificazione. Si nota, inoltre, che il modello descritto dalla seconda componente è meno dipendente dalla popolazione legale, di quanto non risulti quello descritto dalla prima componente (Tabella 4). Inoltre, il fatto che la prima componente segua meglio la nuvola dei punti di quanto non faccia la seconda, mostra che l’altra variabile esplicativa, MI2_5, fornisce un contributo importante all’adattamento del modello ai dati soprattutto per la prima delle due componenti del modello mistura. Il modello sembra, quindi, confermare che, tra i comuni più attivi in termini di aggiornamento delle anagrafi, il numero medio delle iscrizioni per trasferimento di residenza effettuate dal 2002 al 2005 sia predittivo dell’entità della sottocopertura anagrafica. In altre parole, l’andamento evidenziato dalla prima componente del modello sembra avvalorare l’ipotesi che se un comune tende ad attrarre popolazione in anagrafe, ci si possa attendere che anche la sua sottocopertura anagrafica sia mediamente più elevata. In termini di numero di iscritti che non comportano conteggio, il loro numero osservato è pari a 30.825 per i comuni di tipo A con popolazione inferiore a 250.000 abitanti, e a 42.082 unità per i comuni di tipo B, a fronte di ammontari di popolazione legale pari rispettivamente a 10.515.530 e 10.076.393 individui. Se si considera, invece, il numero atteso di iscrizioni anagrafiche che non comportano conteggio secondo il modello descritto dalla prima componente della mistura (comuni che registrano più eventi di sottocopertura anagrafica), il numero di iscritti passa rispettivamente a 56.480 per i comuni di tipo A sotto i 250.000 abitanti e a 61.681 per quelli di tipo B. La sottocopertura anagrafica osservata per i comuni non metropolitani di tipo A risulta perciò pari a 0,29% contro un valore atteso di 0,54%, che corrisponde ad un incremento del 186%. Per quanto riguarda i comuni di tipo B, ad un valore osservato della sottocopertura anagrafica pari a 0,42%, se ne contrappone uno atteso pari a 0,61%, con un incremento del 145%. La distribuzione territoriale dei tassi di sottocopertura è riportata, rispettivamente, per i comuni di tipo A nella tabella 5 e per i comuni di tipo B nella tabella 6. Tabella 5: Comuni di tipo A sotto i 250.000 abitanti: tasso di sottocopertura per ripartizione territoriale Ripartizione Tasso % osservato Tasso % atteso Nord Ovest Nord Est Centro Sud Isole 0.3591273 0.3978449 0.2500234 0.2104413 0.2975520 0.7414308 0.6585292 0.5890685 0.3748070 0.3646700 Si nota una correzione sensibile in tutti i casi esaminati che colloca la sottocopertura anagrafica in prevalenza nel Nord, mentre il suo valore, pur in aumento nel passaggio tra i dati osservati e quelli attesi, tende a non aumentare della stessa entità nei comuni del Sud e delle Isole. Inoltre, mentre nel Nord-ovest si osserva una sottocopertura anagrafica attesa equivalente per le due tipologie di comune esaminate, negli altri casi si registra un aumento di circa 10 decimi di punto percentuale a favore dei comuni più piccoli. Tabella 6: Comuni di tipo B: tasso di sottocopertura per ripartizione territoriale Ripartizione Tasso % osservato Tasso % atteso Nord Ovest Nord Est Centro Sud 0.4567098 0.6506797 0.3894632 0.3319022 0.7493105 0.7943417 0.693367 0.432154 9 Isole 0.3605709 0.4714499 4.3 Comuni di tipo C1 Per i comuni tra 5.000 e 20.000 abitanti il modello mistura evidenzia la significatività delle variabili CORONA e CONFR, oltre alle solite POPLEG e MI2_5. In particolare, l’appartenenza alla corona di un grande comune, influenza positivamente il gruppo dei comuni che tendono ad avere più iscrizioni anagrafiche che non comportano conteggio (seconda componente), mentre ha influenza negativa su quelli con meno iscritti (prima componente). Questo risultato, in attesa con le aspettative, è spiegabile con le scelte abitative di molti individui che, gravitando intorno ad un grande comune per motivi di lavoro, possono però preferire di possedere la propria dimora abituale in uno più piccolo situato a breve distanza da quello su cui gravitano. Per quanto riguarda, invece, l’aver effettuato il confronto censimento anagrafe, il relativo coefficiente, pur essendo positivo per entrambe le componenti, risulta molto più grande in valore assoluto per i comuni appartenenti al gruppo descritto dalla seconda componente. La tabella 7 riporta i dati riassuntivi del modello che meglio si adatta a questa tipologia di comuni. La figura 4 mostra come le due componenti non siano, in questo caso, nettamente separate l’una dall’altra e che solo congiuntamente esse permettono di spiegare bene l’eteroschedasticità della nuvola dei punti. Il numero osservato di iscritti che non comportano conteggio per questa classe di comuni è di 92.045 unità, contro un valore atteso di 171.484. La popolazione legale totale è di 16.710.002 con un tasso medio osservato di sottocopertura anagrafica pari a 0,55%. Quest’ultima passa a 1,03% se si considerano i valori attesi riferiti alla seconda componente del modello mistura. Tabella 7 - TOTISCR ~ MI2_5 + POPLEG +CORONA+CONFR Size Post>0 Coef.(Intercept) Coef.MI2_5 Coef.POPLEG Coef.CORONA Coef.CONFR Sigma (BIC: 17920.83) Comp.1 Comp.2 1665 0.875 2.7431535642 0.1010296171 0.0001648754 -3.1121823850 6.4000428351 25.8760227903 127 0.125 -8.200023805 0.136948231 0.003301240 92.600563959 25.826689837 84.175757009 Nella tabella 8 sono, invece, riportati i valori attesi e osservati dei tassi di sottocopertura anagrafica, divisi per ciascuna delle cinque ripartizioni territoriali. Si osserva che i tassi attesi confermano la presenza di un maggior errore di sottocopertura anagrafica per i comuni del Nord. D’altra parte, la correzione apportata dal modello mistura evidenzia che nel resto del territorio i comuni sembrano aver effettuato un minor recupero della sottocopertura. Infatti, il rapporto tra il tasso atteso e quello osservato è maggiore per il Centro, il Sud e, soprattutto, per le Isole di quanto non lo sia per le due ripartizioni del Nord. Tabella 8 - Comuni di tipo C1: tasso di copertura per ripartizione territoriale Ripartizione Nord Ovest Nord Est Centro Sud Isole Tasso % osservato 0.6077758 0.6762449 0.563749 0.4228776 0.3863855 Tasso % atteso 1.121108 1.169636 1.061814 0.8112916 0.8954702 10 1 × Osservati ο Attesi Componente 1 Attesi Componente 2 4.4 Comuni di tipo C2 Il miglior modello, in termini di BIC, testato per l’insieme dei comuni con meno di 5.000 abitanti considera la variabile POPLEG e la variabile MI2_5 per la quale, oltre all’effetto semplice, risulta significativo anche il parametro corrispondente all’effetto quadratico. E’ tuttavia da notare che l’effetto quadratico assume un valore negativo molto simile per entrambe le componenti della mistura a testimoniare una dipendenza meno che proporzionale del numero di iscritti che non comportano conteggio dal numero medio di iscritti per trasferimento di residenza (Tabella 9). Tabella 9 - TOTISCR ~ MI2_5 + POPLEG + MI2_5**2 Size Post>0 Coef.(Intercept) Coef.MI2_5 Coef.POPLEG Coef. MI2_5**2 Sigma Comp.1 2276 0.47 1.8017912599 0.1278638731 0.0028812569 -0.0001629872 11.0933237418 (BIC: 39322.55) Comp.2 3560 0.53 0.2992174580 0.0461392815 0.0005000559 -0.0001675371 2.2450548152 Nella figura 5, che mette in relazione la variabile dipendente con la popolazione legale dei comuni, si nota che l’elevata eteroschedasticità nella nuvola dei punti è difficilmente compensata dal modello con due sole componenti, il quale viene in ogni caso considerato sia per la sua migliore interpretabilità sia per il comunque scarso miglioramento ottenuto con il modello a 3 componenti. La correzione del tasso di sottocopertura anagrafica risulta di quasi il 50%, essendo il valore osservato pari a 0,51%, mentre il corrispondente valore atteso secondo il modello relativo alla prima 11 componente del modello mistura è pari a 0,75%. In valore assoluto, si passa dalle 54.217 iscrizioni osservate alle 78.899 attese, su un totale di popolazione legale complessiva di questa tipologia di comuni pari a 10.590.728. Inoltre, mentre il tasso di sottocopertura osservata aumenta costantemente al diminuire della classe dimensionale dei comuni, i corrispondenti tassi attesi crescono fino alla classe dimensionale C1, per poi diminuire in corrispondenza della classe dimensionale C2. 2 × Osservati ο Attesi Componente 1 Attesi Componente 2 Per quanto riguarda la distribuzione del tasso di copertura nelle ripartizioni territoriali (Tabella 10), si osserva un andamento simile a quello dei comuni più grandi, anche se caratterizzato da una minore correzione quando si passa dai tassi osservati a quelli attesi. Tabella 10 – Comuni di tipo C2: tasso di copertura per ripartizione territoriale Ripartizione Nord Ovest Nord Est Centro Sud Isole Tasso % osservato 0.5951925 0.572572 0.5154378 0.4076724 0.3219881 Tasso % atteso 0.8655444 0.7543548 0.7381702 0.6158698 0.5882477 A giudicare dai tassi attesi, i piccolissimi comuni del Nord-ovest sono quelli maggiormente affetti da sottocopertura anagrafica, forse a causa della loro relativa vicinanza con i tre centri maggiori Milano, Torino e Genova. Viceversa, il Sud e le Isole sembrano meno affette da tale 12 fenomeno, in sostanziale concordanza con quanto risulta anche per i centri maggiori. Si nota, inoltre, che per la ripartizione insulare il rapporto tra tasso atteso e osservato sia il più elevato, suggerendo che, sebbene il fenomeno sia relativamente contenuto, i comuni insulari avrebbero un buon guadagno nel compiere le operazioni di contatto ed iscrizione in anagrafe di soggetti abitualmente dimoranti non ancora registrati in anagrafe. 5. Considerazioni di sintesi L’ipotesi di impiego di liste anagrafiche precensuarie per il censimento della popolazione del 2011 ha richiesto alcune analisi preliminari che consentissero di valutare i vantaggi e gli eventuali inconvenienti che questo tipo di rilevazione comporta. In questo ambito, il recupero delle unità dimoranti abitualmente sul territorio comunale ma non iscritte in anagrafe rappresenta un elemento di criticità. Tuttavia, i risultati dell’analisi sulle informazioni desumibili dalle operazioni di revisione anagrafica, effettuate a seguito dell’ultimo censimento della popolazione, mostrano che l’ammontare della sottocopertura anagrafica “effettivamente corretta” dai comuni sembra essere abbastanza contenuto (circa 236.000 regolarizzazioni di iscritti in anagrafe dalla fine del 2001 agli inizi del 2006). Se poi questo dato viene messo a confronto con l’entità della sottocopertura censuaria stimata, in base all’indagine di copertura del censimento del 2001, in circa 800.000 individui a livello nazionale, allora le dimensioni ridotte del fenomeno in esame possono apparire ancora più evidenti. Inoltre, diversamente da quanto si verifica per la sottocopertura censuaria, la distribuzione della sottocopertura anagrafica sembra essere inversamente associata alla dimensione dei comuni, dal momento che quelli più grandi mostrano i tassi di sottocopertura più bassi rispetto ai comuni medio-piccoli. È da considerare, però, che i dati esaminati risentono della corretta effettuazione del confronto contestuale tra censimento e anagrafe e del successivo processo di revisione anagrafica, operazioni che, come è noto, non sempre vengono accuratamente effettuate da tutti i comuni. Una ulteriore conferma di questa considerazione emerge anche dai dati sugli iscritti in anagrafe a seguito del censimento del 2001 che mostrano, per gran parte dei casi e prevalentemente nei comuni più grandi, informazioni mancanti su alcune variabili di interesse (età, stato civile, cittadinanza, ecc.). Inoltre, per le conseguenze che i provvedimenti in esame producono ai fini amministrativi, sembra che, nel caso dei cittadini stranieri censiti come residenti e non iscritti in nessun registro di popolazione, gli Uffici di anagrafe potrebbero non aver compilato i modelli individuali previsti dall’Istat. Ad ogni modo, la distribuzione per età degli iscritti in anagrafe a seguito dell’ultimo censimento mostra che la sottocopertura anagrafica risulta più consistente nelle classi di età centrali dai 20 ai 39 anni, dove si concentra più del 50% degli individui, e in quelle sotto i 10 anni. Nel complesso, le classi di età più a rischio di sottocopertura anagrafica sembrano essere le stesse che solitamente fanno registrare i tassi di sottocopertura censuaria più elevati. Evidentemente la forte mobilità sul territorio di queste fasce di età della popolazione rappresenta l’elemento di maggiore criticità sia per il censimento sia per la revisione delle anagrafi comunali. In assenza di informazioni dirette sulla qualità della revisione anagrafica effettuata dai comuni e al fine di correggere i dati disponibili rispetto alla variabilità con cui il processo di aggiornamento delle anagrafi è stato condotto da ciascun comune, sono stati implementati modelli di tipo mistura. Attraverso questa classe di modelli statistici si è tentato di individuare i comuni che hanno svolto in modo più accurato la revisione anagrafica post-censuaria separandoli da quelli che, viceversa, non svolgono tali operazioni o le svolgono in maniera incompleta. Questo esercizio ha prodotto come risultato il numero complessivo di iscrizioni post-censuarie, pari a circa 400.000 unità, potenzialmente raccolte se tutti i comuni avessero svolto le operazioni di revisione con la stessa qualità del gruppo dei migliori. Inoltre, la tendenza del fenomeno a concentrarsi, in proporzione alla popolazione, soprattutto nei comuni medio-piccoli, sembra essere confermata anche dalle analisi condotte per mezzo dei modelli mistura. 13 I tassi di sottocopertura anagrafica risultano più elevati nei comuni del Nord rispetto a quelli del Sud e delle Isole, probabilmente in relazione alla pressione migratoria, sia interna che dall’estero, che agisce in modo differenziato sul territorio nazionale. Con la dovuta cautela, i risultati delle analisi con i modelli mistura confermano una minore gravità del fenomeno della sottocopertura anagrafica rispetto a quello della sottocopertura censuaria, avvalorando quindi la validità attesa per un censimento assistito da liste anagrafiche. Inoltre, risultano confermate le peculiarità della distribuzione del fenomeno della sottocopertura anagrafica sul territorio e le sue relazioni con la dimensione demografica dei comuni. In questo senso le analisi svolte consigliano di dedicare attenzione ai molti comuni medi e piccoli in fase di progettazione delle attività di recupero di famiglie e individui abitualmente dimoranti sul territorio ma non ancora registrati in anagrafe. In effetti i risultati ottenuti potrebbero, almeno in parte, essere dovuti a problemi di adattamento ai dati del modello statistico utilizzato o ad una certa carenza nella qualità della fonte impiegata; infatti, non si può escludere del tutto che, per i molti comuni medio-piccoli, la maggiore sottocopertura anagrafica stimata sia dovuta alla difficoltà del modello nell’attribuire i comuni ad una delle due componenti della mistura. Inoltre, è da considerare la possibilità che anche i più efficienti tra i grandi comuni non riescano comunque ad effettuare tutte le possibili correzioni di sottocopertura anagrafica, a causa degli elevati costi che queste operazioni comportano. Nonostante tutti i limiti del caso, crediamo che i dati utilizzati, per altro gli unici disponibili per il tema in esame, debbano essere comunque valutati attentamente, interpretandoli come un elemento di cautela nella progettazione delle operazioni del prossimo censimento. Dall’analisi esposta emergono importanti considerazioni utili per la prossima tornata censuaria. Più di tutto, non si dispone di statistiche sufficientemente accurate né sugli esiti del confronto censimento-anagrafe, né sul numero di interventi di revisione anagrafica effettuati dai comuni; ciò determina l’impossibilità di effettuare verifiche a livello comunale sia sulla coerenza tra popolazione censita e popolazione iscritta in anagrafe, sia sulla corrispondenza delle operazioni di revisione anagrafica compiute in base agli esiti del confronto. Pertanto, sarebbe opportuno che l’Istat acquisisse dai comuni i dati necessari per disporre bilanci di riepilogo (persone censite e persone presenti in anagrafe, persone non censite e persone presenti in anagrafe, persone censite due volte, ecc.) del confronto censimento anagrafe e del processo di revisione anagrafica. 14 Riferimenti bibliografici Calzola L. La valutazione della copertura del censimento della popolazione sulla base delle rettifiche anagrafiche. Paper presentato alle Giornate di studio sulla popolazione, Padova, 16-18 febbraio 2005. Carbonetti G., Fortini M., Solari F. Innovations on methods and survey process for the 2011 Italian population census, Atti della “European Conference on Quality in Official Statistics”, Roma 811 luglio 2008 Commissione per la Garanzia dell’Informazione Statistica. Il confronto tra Censimento e Anagrafe: per un maggior grado di coerenza tra le due fonti, Rapporto di ricerca CGIS, n. 99.10, Roma Luglio 1999. Commissione per la Garanzia dell’Informazione Statistica. Il campionamento da liste anagrafiche: analisi degli effetti della qualità della base di campionamento sui risultati delle indagini, Rapporto di ricerca CGIS, n. 02.12, Roma Dicembre 2002. Cortese A., M. Greco. Il grado di copertura del censimento demografico 1991: considerazioni sulla base del confronto con le risultanze anagrafiche, Quaderni di Ricerca Istat, Roma 1993, Serie Interventi e Relazioni. Crescenzi F., Fortini M., Gallo G. e Mancini A. (a cura di), Nota per il Presidente e il Consiglio dell’Istat, Linee generali di impostazione metodologica, tecnica e organizzativa del 15° Censimento generale della popolazione, Roma, settembre 2008. Dempster A.P., Laird N.M., Rubin D.B., “Maximum likelihood from incomplete data via the EM algorithm”, Journal of the Royal Statistical Society, B, 1977, Vol. 39, N.1. Gesano G., F. Heins, F. Paganelli. Differenze anagrafe-censimento: verifica di alcune motivazioni politico-amministrative, relazione presentata alle Giornate di Studio sulla Popolazione. Bologna, 6-7 dicembre 1993. Fortini, M., Gallo, G., Paluzzi, E., Reale, A. e Silvestrini, A., Criticità di processo e di prodotto nel 14° Censimento generale della popolazione e delle abitazioni: aspetti rilevanti per la progettazione del 15° Censimento, in La progettazione dei censimenti generali 2010–2011, Documenti ISTAT, n. 10/2007 Istat. Anagrafe della popolazione. Metodi e norme. Roma: Istat, 1992, serie B – n. 29. McLachlan G.J., Peel D. Finite Mixture Models. Wiley, New York, 2000. 15