Misure di sottocopertura anagrafica in base alla revisione post

Transcript

Misure di sottocopertura anagrafica in base alla revisione post
Misure di sottocopertura anagrafica in base alla revisione
post-censuaria del 2001
M. Fortini, G. Gallo
ISTAT, Direzione Centrale dei Censimenti Generali
e-mail: [email protected]
1. Introduzione
Le informazioni sulle modalità e sui tempi di realizzazione delle operazioni di campo desunte
dall’ultima tornata censuaria forniscono utili ed importanti indicazioni per il prossimo censimento
della popolazione. In particolare, gli aspetti concernenti la strategia complessiva della rilevazione
censuaria e la dimensione demografica dei comuni sembrano essere fortemente condizionanti
l’intero processo di rilevazione (Fortini et al., 2007). A seguito di queste valutazioni, le riflessioni
condotte dall’Istat inducono a preferire un “censimento assistito” da liste anagrafiche comunali
(LAC), con modalità organizzative basate su un raggruppamento dei comuni in 4 classi di ampiezza
demografica secondo il seguente criterio di classificazione:
1. comuni di tipo A, che consistono nei capoluoghi di provincia e nei comuni con almeno
50.000 abitanti;
2. comuni di tipo B, caratterizzati da una popolazione residente fra 49.999 e 20.000 abitanti;
3. comuni di tipo C1, costituiti da una popolazione residente fra i 19.999 e i 5.000 abitanti;
4. infine, i comuni di tipo C2, vale a dire quelli con popolazione residente inferiore ai 5.000
abitanti.
In merito alla strategia generale, il censimento assistito da lista se da un lato consentirebbe di
semplificare le operazioni di cancellazione dagli archivi anagrafici delle persone che risultano
irreperibili al censimento, dall’altro impone la necessità di affrontare preliminarmente il problema
della sottocopertura anagrafica. Infatti, la rilevazione assistita da liste anagrafiche comunali deve
tener conto degli errori dovuti alle unità di popolazione non iscritte in LAC ma dimoranti
abitualmente sul territorio comunale. Per risolvere questo problema, la Direzione centrale dei
censimenti generali ha messo a punto diversi approcci metodologici che consentirebbero di
recuperare nel calcolo di popolazione legale1 gli individui dimoranti abitualmente nel comune ma
non iscritti in anagrafe (Crescenzi et al., 2008; Carbonetti et al., 2008). A riguardo, obiettivo di
questo lavoro è di stimare, per il prossimo censimento della popolazione, l’ammontare “atteso” e la
distribuzione territoriale della sottocopertura anagrafica, utilizzando le informazioni individuali
delle regolarizzazioni post-censuarie relative a persone che, censite come dimoranti abitualmente il
20 ottobre del 2001, sono state iscritte nei registri di popolazione a seguito delle verifiche e degli
accertamenti compiuti dagli Uffici di anagrafe dei comuni nel corso della revisione anagrafica.
Nel paragrafo 2, oltre all’analisi quantitativa degli iscritti in anagrafe per regolarizzazione postcensuaria, viene effettuata una valutazione sulla qualità della fonte di dati presa in esame e una
descrizione delle principali caratteristiche demografiche (sesso, cittadinanza, età e stato civile),
delle persone interessate dai provvedimenti in questione. Nel paragrafo 3 è descritta la metodologia
basata sui modelli mistura, utilizzata per pervenire ad una stima della “sottocopertura anagrafica
attesa” per il censimento del 2011, secondo le 4 tipologie di comuni su citate. Questo tipo di analisi
consente di isolare dalle determinanti della sottocopertura anagrafica gli effetti spuri dovuti alla
maggiore o minore qualità delle operazioni di revisione anagrafica effettuate da ciascun comune.
1
Per popolazione legale si intende l’ammontare di popolazione censita come dimorante abitualmente ad una certa data, solitamente il
20 ottobre. Questo dato viene determinato nella fase conclusiva delle operazioni censuarie durante la quale è previsto anche il
confronto contestuale con le informazioni delle Anagrafi comunali.
1
Nel paragrafo 4, invece, sono riportati i risultati dell’analisi svolta attraverso i modelli mistura.
Infine, nel paragrafo 5 sono riportate alcune considerazioni di cui tenere conto durante la
pianificazione delle fasi di rilevazione del prossimo censimento della popolazione. In particolare, le
fasi del recupero nella popolazione legale di individui e famiglie abitualmente dimoranti ma non
presenti in anagrafe risultano fondamentali per svolgere le successive operazioni del confronto
censimento-anagrafe e del processo di revisione anagrafica (Cortese, Greco, 1993; Gesano, et al.,
1993). Queste due operazioni assumono, infatti, una particolare importanza al fine di ridurre le
incoerenze tra dato censuario e dato anagrafico.
2. La qualità dei dati e le principali caratteristiche demografiche degli iscritti in anagrafe a
seguito delle risultanze del censimento 2001
Per risolvere i casi di non rispondenza tra dato anagrafico e dato censuario, gli Uffici di anagrafe
effettuano i procedimenti di regolarizzazione post-censuaria, processo ai più noto come revisione
anagrafica. Questi provvedimenti amministrativi determinano un’iscrizione in anagrafe se le
persone censite come residenti ma non iscritte si presentano presso gli Uffici anagrafici e
sottoscrivono, attraverso i modelli individuali ISTAT APR.4, le pratiche di immigrazione da altro
comune o dall’estero (Commissione di Garanzia per l’Informazione Statistica, 2000). A seguito di
questi provvedimenti amministrativi si perfeziona la registrazione nei registri di popolazione.
Trattandosi di iscrizioni relative a persone abitualmente dimoranti al momento del censimento,
questi eventi forniscono un’evidenza dei livelli di sottocopertura anagrafica di ciascun comune alla
data di riferimento del censimento. Per gli addetti ai lavori i provvedimenti in questione sono
conosciuti come “iscrizioni che non comportano conteggio” poiché le persone interessate dalla
registrazione in anagrafe sono già incluse nel computo della popolazione legale.
Dal 21 ottobre del 2001 al 31 dicembre del 2005 si contano poco meno di 236.000 persone
iscritte in anagrafe a seguito delle risultanze del censimento del 2001 (Tabella 1). I comuni
interessati a questo tipo di eventi sono 6.866 (quasi l’85%), con una maggiore incidenza di enti
nella ripartizione Nord-est (più del 90% dei comuni della ripartizione).
Tabella 1 – Iscritti in anagrafe che non comportano conteggio per classe di ampiezza
demografica dei comuni, cittadinanza e incidenza sulla popolazione legale del
2001. Valori assoluti e percentuali
CLASSI DI
AMPIEZZA
DEMOGRAFICA
DEI COMUNI
Fino a 2.000
da 2.001 a 5.000
da 5.001 a 10.000
da 10.001 a 20.000
da 20.001 a 50.000
da 50.001 a 100.000
da 100.001 a 250.000
da 250.001 a 500.000
oltre 500.000
Nord-ovest
Nord-est
Centro
Sud
Isole
Italia
N.
Comuni
2.589
2.052
1.129
629
330
95
29
7
6
2.492
1.347
891
1.492
644
6.866
Persone dimoranti abitualmente al 20.10.2001
e non iscritte in anagrafe
di cui:
%
%
Valori
% sul
iscritti
cittadini
assoluti
totale
dall'estero
stranieri
17.843
7,6
8,4
12,8
37.051
15,7
8,8
14,1
46.183
19,6
9,1
14,4
45.348
19,2
8,9
14,9
41.547
17,6
8,7
13,8
17.081
7,2
10,5
15,3
14.097
6,0
13,4
19,4
4.922
2,1
18,0
22,8
11.672
5,0
16,2
19,8
73.729
31,3
9,8
16,4
60.619
25,7
12,2
20,8
36.027
15,3
11,6
18,9
46.399
19,7
6,5
6,4
18.970
8,0
6,6
5,0
235.744
100,0
9,8
15,0
Non iscritti in
anagrafe su
Popolazione
1.000 persone
legale
censite al
20.10.2001
3.558.528
7.032.200
8.040.885
8.669.117
10.076.393
6.390.014
4.125.516
2.133.284
6.969.807
14.938.562
10.634.820
10.906.626
13.914.865
6.600.871
56.995.744
5,0
5,3
5,7
5,2
4,1
2,7
3,4
2,3
1,7
4,9
5,7
3,3
3,3
2,9
4,1
Fonte: Istat, Iscrizioni e cancellazioni anagrafiche per trasferimento di residenza. Periodo 21.10.2001-31.12.2005.
2
Nel complesso, il fenomeno della sottocopertura appare di dimensione piuttosto contenuta e, in
termini di incidenza relativa sulla popolazione legale, sembra sorprendentemente interessare
maggiormente i comuni di piccola e media dimensione demografica. Se confermato, questo risultato
comporterebbe operazioni di recupero della sottocopertura anagrafica di portata più ampia nei
comuni di dimensione più ridotta. Il risultato non può tuttavia essere considerato conclusivo,
essendo potenzialmente affetto da distorsioni dovute all’assenza di informazioni accurate sulla
qualità della revisione anagrafica effettuata dai comuni. A questo riguardo, occorre sottolineare che
i dati presi in esame mostrano una forte criticità per la mancata compilazione delle informazioni di
base da parte degli enti comunali. Ad esempio, l’età presenta valori mancanti per circa il 60% dei
record individuali e l’informazione sullo stato civile risulta assente per circa 15.000 individui. Per
altro, l’incidenza relativa dei dati mancanti aumenta al crescere dell’ampiezza demografica dei
comuni. Si consideri, infatti, che la percentuale di valori mancanti della variabile età passa dal 57%,
nei comuni sotto i 20.000 abitanti, al 74% nei comuni da 250.000 a 500.000 abitanti.
Ad ogni modo, circa 212.000 iscrizioni anagrafiche hanno comportato un trasferimento di
residenza all’interno dei comuni italiani, mentre la quota degli iscritti in anagrafe già residenti
all’estero risulta abbastanza contenuta (meno del 10%) e riguarda prevalentemente i cittadini
stranieri (Tabella 1).
Nel complesso, la componente straniera degli iscritti in anagrafe a seguito del censimento del
2001 ammonta a circa 35 mila unità (pari al 15% sul totale delle iscrizioni), risultato che potrebbe
essere sottostimato rispetto alla dimensione della presenza straniera in Italia. Le ragioni di questa
sottoenumerazione sono da ricercare nella natura stessa che sottende ai provvedimenti in esame.
Infatti, se nel caso delle persone già residenti in Italia a fronte di un’iscrizione in un comune deve
necessariamente corrispondere una procedura amministrativa di cancellazione dal registro di
popolazione in un altro comune, nel caso dei trasferimenti dall’estero dei cittadini stranieri questo
vincolo viene meno. Per questi casi, dunque, gli Uffici di anagrafe potrebbero sentirsi meno
vincolati a compilare i relativi modelli ISTAT APR.4 generando, soprattutto nei comuni di
maggiore attrazione demografica, una sottostima degli iscritti per regolarizzazione anagrafica.
La composizione per sesso degli iscritti in anagrafe al censimento mostra un sostanziale
equilibrio tra uomini e donne (Tabella 2), anche se si osserva un leggero sbilanciamento a favore
della componente femminile (le donne sono il 50,3%).
L’età media è di poco superiore ai 30 anni e appare leggermente più elevata per le donne (lo
scarto tra i sessi è di circa 1 anno) a causa della superiorità numerica delle donne vedove che
mostrano un’età media di circa 2 anni più elevata degli uomini vedovi (32,7 anni per le prime
contro 31,7 dei secondi). Questi valori risultano molto diversi da quelli osservati sul totale della
popolazione censita nel 2001 che presenta un’età media di circa 41 anni, con una differenza di
genere di 3 anni a favore della componente maschile (39,8 anni contro 42,8 delle donne).
Tabella 2 –Iscritti in anagrafe che non comportano conteggio per stato civile, sesso ed età
media. Valori assoluti e percentuali
STATO
CIVILE
Celibi/nubili
Coniugati/e
Vedovi/e
Divorziati/e
Totale
Maschi
Femmine
Totale
Valori
assoluti
% sul
totale
Età
media*
Valori
assoluti
% sul
totale
Età
media*
Valori
assoluti
% sul
totale
Età
media*
58.015
49.564
1.427
681
109.687
52,9
45,2
1,3
0,6
100,0
22,8
40,9
70,3
47,8
31,7
51.095
53.121
6.381
687
111.284
45,9
47,7
5,7
0,6
100,0
24,8
36,4
72,7
44,0
32,7
109.110
102.685
7.808
1.368
220.971
49,4
46,5
3,5
0,6
100,0
23,8
38,5
72,2
45,9
32,2
Fonte: Istat, Iscrizioni e cancellazioni anagrafiche per trasferimento di residenza. Periodo 21.10.2001 al 31.12.2005.
Note: * L’informazione sull’età è presente solo per 95.139 casi, di cui 46.890 maschi e 48.249 donne.
3
Analizzando la struttura per stato civile, età media e sesso, si osserva che gran parte
dell’aggregato in esame è costituito da celibi o nubili (quasi il 50%), seguiti dai coniugati (più del
46%). Tra questi ultimi le donne sono quasi il 48% e mostrano un’età media di circa 4 anni più
bassa degli uomini.
Se si confronta la struttura per età e sesso della sottocopertura anagrafica e della popolazione
censita al 2001, si osserva una forte differenza tra i due aggregati (Figura 1). Infatti, la
sottocopertura anagrafica risulta più consistente nelle classi di età centrali dai 20 ai 39 anni dove si
concentra più del 50% degli individui. Queste classi di età mostrano, inoltre, una leggera prevalenza
della componente femminile nella classe di età 25-29 anni che rappresenta quasi il 10% della
sottocopertura anagrafica del 2001.
Figura 1 – Piramide delle età della popolazione censita al 2001 e degli iscritti in anagrafe a
seguito del censimento della popolazione del 2001. Valori percentuali
100+
Maschi
Femmine
95-99
90-94
85-89
80-84
75-79
70-74
65-69
Classi di eta' quinquennali
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14
5-9
0-4
10
8
6
4
2
0
2
4
6
8
10
Valori %
Popolazione censita al 2001
Persone non iscritte in anagrafe dimoranti abitualmente al censimento del 2001
Di una certa rilevanza appare, inoltre, la quota delle classi di età sotto i dieci anni (quasi il 25%)
che presentano per altro un forte equilibrio tra i sessi.
Meno rappresentate risultano, invece, le classi di età superiori ai 50 anni per le quali la
sottocopertura anagrafica sembra essere meno rilevante.
In definitiva, la distribuzione per età degli iscritti in anagrafe a seguito del censimento del 2001
mostra che le classi più a rischio di sottocopertura anagrafica sono le stesse che solitamente
risultano problematiche anche per la copertura censuaria, vale a dire i bambini tra 0 e 5 anni e gli
adulti tra i 20 e i 40 anni (Fortini et al., 2007). Una delle ipotesi più probabili è che le persone di
queste classi di età si caratterizzino per una forte mobilità sul territorio che, evidentemente,
4
coinvolge intere famiglie, dato che le età più elevate possono corrispondere ai genitori e quelle più
giovani ai rispettivi figli. Questa considerazione avvalorerebbe l’ipotesi che, al momento del
censimento, una parte della sovracopertura anagrafica che si registra in alcuni comuni determini una
sottocopertura anagrafica in altri comuni. Ne discende, dunque, che il problema della tenuta e
dell’aggiornamento dei registri di popolazione nel periodo intercensuario rappresenta un aspetto
molto rilevante nel caso del censimento assistito da registri anagrafici.
3. L’applicazione basata su modelli di misture finite
Al fine di isolare dalle determinanti della sottocopertura anagrafica gli effetti spuri dovuti alla
maggiore o minore accuratezza con cui i comuni hanno effettuato l’aggiornamento delle anagrafi a
seguito delle risultanze censuarie del 2001, si è fatto ricorso all’impiego dei modelli mistura
(McLachlan, Peel, 2000).
Si definisce mistura finita la funzione (o densità) di probabilità ottenuta come media ponderata
G
f (x ) = ∑ p g f g ( x )
g =1
dove:
fg(x) sono distribuzioni (o densità) di probabilità anche di tipo differente;
pg≥ 0, ∑ g pg = 1 sono pesi o probabilità a priori.
In particolare, assumendo l’appartenenza delle unità della popolazione di interesse da un insieme
finito di sottogruppi G, ciascuno dei quali caratterizzato da un diverso modello di regressione
legante una variabile dipendente yg ad una o più variabili esplicative xg, si può scrivere la seguente
relazione
y g = α g + βx g + ε g ∀g∈G
dove l’errore εg si distribuisce come una normale con media 0 e varianza σ2g.
La funzione di densità risultante è una mistura finita descritta come
G
(
)
f ( xi ) = ∑ ϕ y g α g , β g ; x g ,σ g2 p g
g =1
dove pg rappresenta la probabilità di campionare una osservazione dalla g-ma sottopopolazione
La log-verosimiglianza dipendente dai parametri αg, βg, σ2g e pg è rappresentata come
n
⎛ G
⎞
L(ϑ ) = ∑ log⎜⎜ ∑ ϕ y g α g , β g ; x g ,σ g2 pg ⎟⎟
i =1
⎝ g =1
⎠
e, essendo le G sottopopolazioni non direttamente osservabili, può essere massimizzata ricorrendo
all’algoritmo EM (Dempster, Laird, Rubin, 1977).
L’applicazione di un modello mistura risulta di particolare interesse nel caso in oggetto dato che
i dati a disposizione difettano di informazioni rilevanti per lo svolgimento di analisi pienamente
interpretabili. In particolare, è noto che solo alcuni dei comuni italiani svolgono azioni di revisione
delle anagrafi e l’informazione sulla qualità e sul numero di interventi effettuati non è purtroppo
disponibile. Inoltre, non è detto che un comune che presenta eventi di iscrizione che non
comportano conteggio rientri necessariamente tra quelli che svolgono azioni di aggiornamento.
Questi eventi possono, infatti, verificarsi anche a causa di spontanei trasferimenti di residenza da
parte di individui già censiti come dimoranti abitualmente ma che non sono stati chiamati dagli
Uffici di anagrafe per perfezionare la pratica di iscrizione. Ciò fa sì che le iscrizioni siano in questo
caso sollecitate più dall’interesse del cittadino ad essere iscritto nel comune che all’azione di
revisione anagrafica effettuata a seguito del censimento.
(
)
5
A causa di questi elementi è sembrato opportuno identificare due gruppi di comuni. Un primo
gruppo è costituito da quei comuni che svolgono attive azioni di regolarizzazioni anagrafiche delle
persone censite al 2001 come dimoranti abitualmente. Il secondo gruppo è costituito, invece, dai
comuni che non intraprendono azioni di questo tipo e al più si limitano ad effettuare le iscrizioni
limitatamente agli individui che, spontaneamente a seguito del censimento, trasferiscono la propria
residenza. E’ da aspettarsi che il primo gruppo di comuni sia caratterizzato da un maggior numero
di iscrizioni che non comportano conteggio, a parità di condizioni strutturali dei comuni, quali la
popolazione residente sul territorio.
4. Risultati delle analisi con il modello mistura
I risultati delle analisi preliminari hanno suggerito di dividere l’insieme dei comuni italiani in
quattro sottoinsiemi secondo le classi di dimensione demografica definite nel paragrafo 1. I
sottoinsiemi formati sono stati i seguenti: comuni di tipo A metropolitani (con più di 250.000
abitanti); restanti comuni di tipo A e comuni di tipo B; comuni di tipo C1; comuni di tipo C2.
L’analisi è stata differenziata per ciascuno dei gruppi di comuni, per i quali è stata svolta la ricerca
del modello statistico ‘ottimale’ secondo il criterio BIC2
La variabile dipendente è rappresentata dal numero di iscrizioni in anagrafe che non comportano
conteggio nella popolazione legale, effettuate dai comuni nell’arco del periodo compreso tra il 21
ottobre del 2001 e il 31 dicembre del 2005 (TOTISCR). Le variabili esplicative considerate sono
costituite: dalla popolazione legale dei comuni al 20 ottobre del 2001 (POPLEG); dal numero medio
annuo di iscritti nel comune per cambio di residenza, nel periodo 2002-2005 (MI2_5);
dall’appartenenza dei comuni alla corona di uno dei 13 comuni metropolitani (CORONA); dalla
dichiarazione del comune sull’avvenuto confronto censimento-anagrafe (CONFR) in occasione del
censimento 2001.
È stato utilizzato, per tutti i casi presi in esame, un modello mistura con due componenti, testato
verso l’analogo modello lineare semplice. In tutti i casi considerati, l’eteroschedasticità nella nuvola
dei punti ha reso preferibile il modello con due componenti rispetto a quello semplice. In effetti,
sebbene la residua variabilità dell’errore avrebbe portato all’identificazione di un numero di
componenti superiore a due, si è scelto comunque di mantenere due sole componenti per motivi
legati all’interpretabilità dei dati.
L’ammontare complessivo della sottocopertura anagrafica è stato infine stimato utilizzando la
componente del modello mistura che, in ciascuno dei sottoinsiemi di comuni, descrive i comuni più
attivi nella correzione delle anagrafi per questo tipo di eventi, vale a dire le regolarizzazioni di
iscritti che non comportano conteggio. La somma della sottocopertura anagrafica stimata in
ciascuno dei sottogruppi ammonta quindi a 406.485 individui, contro i 235.763 osservati, con un
tasso di sottocopertura anagrafica che passa da un valore osservato di 0,41% a uno stimato pari a
0,71%.
Nel seguito si illustrano le principali caratteristiche dei modelli con il miglior adattamento ai dati
per ciascuna delle quattro tipologie di comuni prese in esame.
4.1 Comuni di tipo A con almeno 250.000 abitanti
Il modello migliore in termini di criterio BIC considera gli effetti semplici delle variabili
‘popolazione legale’ e ‘numero medio annuo di iscritti per trasferimento di residenza nel periodo
2002-2005’. La tabella 3 riporta il valore dei coefficienti di regressione per le due componenti
identificate.
Si nota che dei 13 comuni metropolitani, 9 risultano descritti meglio dalla prima componente,
mentre i restanti 4 sono meglio rappresentati dalla seconda componente.
2
Bayesian Information Criterion, indice di adattamento ai dati che penalizza la log-verosimiglianza con il numero di
unità statistiche analizzate n e il numero di parametri d del modello. 2L(θ)-log(n)d
6
Nella figura 2 si osservano i comuni italiani secondo il numero di iscritti che non comportano
conteggio in funzione della popolazione legale. Nel grafico sono riportati i valori osservati, e i
valori attesi rispettivamente secondo la prima e la seconda componente.
Tabella 3: TOTISCR ~ MI2_5 + POPLEG
(BIC: 199,6107)
Size
Post>0
Coef.(Intercept)
Coef.MI2_5
Coef.POPLEG
Sigma
Comp.1
9
9
4.079306e+01
-1.263145e-02
6.053277e-04
2.568215e+02
Comp.2
4
4
8.692380e+01
1.702504e-01
2.693250e-04
2.820010e+01
Come si osserva, l’applicazione del modello individua la separazione in due gruppi e il modello
rappresentato dalla seconda componente descrive il numero atteso di iscrizioni qualora tutti i
comuni avessero un comportamento conforme ai 4 appartenenti al gruppo 2, cioè quelli che
manifestano più eventi di correzione della sottocopertura anagrafica.
× Osservati
ο Attesi Componente 1
Attesi Componente 2
Dai dati esaminati si evince che, a fronte di un numero osservato di iscrizioni anagrafiche che
non comportano conteggio, pari a 16.594 unità, se ne sarebbero realizzate 37.941 nel caso in cui
tutti i comuni si fossero comportati secondo il modello descritto dalla seconda componente.
Considerato che la popolazione totale nei 13 comuni metropolitani ammonta a 9.103.091 abitanti, se
7
ne deduce che il tasso di sottocopertura osservato è pari a 0,18%, mentre quello atteso dal modello
relativo alla seconda componente passa a 0,42%, facendo registrare un incremento del 233%.
4.2 Comuni di tipo A con popolazione inferiore a 250.000 abitanti e Comuni di tipo B
Il modello che meglio si adatta ai dati relativi a questa classe di comuni è quello dipendente dai
soli effetti semplici relativi alla popolazione legale (POPLEG) e al numero medio di iscritti per
trasferimento di residenza dal 2002 al 2005 (MI2_5).
Nella tabella 4 e nella figura 3 sono riportati i parametri essenziali del modello e l’andamento del
numero di iscritti che non comportano conteggio in relazione alla popolazione legale dei comuni.
Tabella 4: TOTISCR ~ MI2_5 + POPLEG
Size
Post>0
Coef.(Intercept)
Coef.MI2_5
Coef.POPLEG
Sigma
Comp.1
100
454
-6.607603e+00
2.087138e-01
1.887993e-04
1.753272e+02
(BIC: 5743,735)
Comp.2
360
424
7.599256e+01
8.358373e-03
1.075382e-05
6.704288e+01
Si nota che la prima componente descrive 100 dei 460 comuni del gruppo, mentre i restanti 360
comuni risultano seguire il modello corrispondente alla seconda componente. Dalla figura 3 si
evince che la prima componente è quella che rappresenta i comuni che tendono ad apportare più
correzioni alle loro anagrafi a seguito del censimento.
× Osservati
ο Attesi Componente 1
Attesi Componente 2
8
Se si confrontano i parametri della prima componente relativi ai due gruppi di comuni finora
discussi, si può vedere che, sebbene le variabili che ‘entrano’ nel modello siano le medesime, i
parametri che descrivono la relazione tra la variabile dipendente e le esplicative sono sensibilmente
differenti tra loro. Ciò rende opportuna l’applicazione di modelli di regressione diversi a seconda
della classe di ampiezza demografica dei comuni. Questa differenziazione delle analisi garantisce,
infatti, una migliore leggibilità dei parametri del modello e una sua sostanziale semplificazione.
Si nota, inoltre, che il modello descritto dalla seconda componente è meno dipendente dalla
popolazione legale, di quanto non risulti quello descritto dalla prima componente (Tabella 4).
Inoltre, il fatto che la prima componente segua meglio la nuvola dei punti di quanto non faccia la
seconda, mostra che l’altra variabile esplicativa, MI2_5, fornisce un contributo importante
all’adattamento del modello ai dati soprattutto per la prima delle due componenti del modello
mistura. Il modello sembra, quindi, confermare che, tra i comuni più attivi in termini di
aggiornamento delle anagrafi, il numero medio delle iscrizioni per trasferimento di residenza
effettuate dal 2002 al 2005 sia predittivo dell’entità della sottocopertura anagrafica. In altre parole,
l’andamento evidenziato dalla prima componente del modello sembra avvalorare l’ipotesi che se un
comune tende ad attrarre popolazione in anagrafe, ci si possa attendere che anche la sua
sottocopertura anagrafica sia mediamente più elevata. In termini di numero di iscritti che non
comportano conteggio, il loro numero osservato è pari a 30.825 per i comuni di tipo A con
popolazione inferiore a 250.000 abitanti, e a 42.082 unità per i comuni di tipo B, a fronte di
ammontari di popolazione legale pari rispettivamente a 10.515.530 e 10.076.393 individui. Se si
considera, invece, il numero atteso di iscrizioni anagrafiche che non comportano conteggio secondo
il modello descritto dalla prima componente della mistura (comuni che registrano più eventi di
sottocopertura anagrafica), il numero di iscritti passa rispettivamente a 56.480 per i comuni di tipo
A sotto i 250.000 abitanti e a 61.681 per quelli di tipo B. La sottocopertura anagrafica osservata per
i comuni non metropolitani di tipo A risulta perciò pari a 0,29% contro un valore atteso di 0,54%,
che corrisponde ad un incremento del 186%.
Per quanto riguarda i comuni di tipo B, ad un valore osservato della sottocopertura anagrafica
pari a 0,42%, se ne contrappone uno atteso pari a 0,61%, con un incremento del 145%.
La distribuzione territoriale dei tassi di sottocopertura è riportata, rispettivamente, per i comuni
di tipo A nella tabella 5 e per i comuni di tipo B nella tabella 6.
Tabella 5: Comuni di tipo A sotto i 250.000 abitanti: tasso di sottocopertura per ripartizione
territoriale
Ripartizione
Tasso % osservato
Tasso % atteso
Nord Ovest
Nord Est
Centro
Sud
Isole
0.3591273
0.3978449
0.2500234
0.2104413
0.2975520
0.7414308
0.6585292
0.5890685
0.3748070
0.3646700
Si nota una correzione sensibile in tutti i casi esaminati che colloca la sottocopertura anagrafica
in prevalenza nel Nord, mentre il suo valore, pur in aumento nel passaggio tra i dati osservati e
quelli attesi, tende a non aumentare della stessa entità nei comuni del Sud e delle Isole. Inoltre,
mentre nel Nord-ovest si osserva una sottocopertura anagrafica attesa equivalente per le due
tipologie di comune esaminate, negli altri casi si registra un aumento di circa 10 decimi di punto
percentuale a favore dei comuni più piccoli.
Tabella 6: Comuni di tipo B: tasso di sottocopertura per ripartizione territoriale
Ripartizione
Tasso % osservato
Tasso % atteso
Nord Ovest
Nord Est
Centro
Sud
0.4567098
0.6506797
0.3894632
0.3319022
0.7493105
0.7943417
0.693367
0.432154
9
Isole
0.3605709
0.4714499
4.3 Comuni di tipo C1
Per i comuni tra 5.000 e 20.000 abitanti il modello mistura evidenzia la significatività delle
variabili CORONA e CONFR, oltre alle solite POPLEG e MI2_5. In particolare, l’appartenenza alla
corona di un grande comune, influenza positivamente il gruppo dei comuni che tendono ad avere
più iscrizioni anagrafiche che non comportano conteggio (seconda componente), mentre ha
influenza negativa su quelli con meno iscritti (prima componente). Questo risultato, in attesa con le
aspettative, è spiegabile con le scelte abitative di molti individui che, gravitando intorno ad un
grande comune per motivi di lavoro, possono però preferire di possedere la propria dimora abituale
in uno più piccolo situato a breve distanza da quello su cui gravitano.
Per quanto riguarda, invece, l’aver effettuato il confronto censimento anagrafe, il relativo
coefficiente, pur essendo positivo per entrambe le componenti, risulta molto più grande in valore
assoluto per i comuni appartenenti al gruppo descritto dalla seconda componente.
La tabella 7 riporta i dati riassuntivi del modello che meglio si adatta a questa tipologia di
comuni. La figura 4 mostra come le due componenti non siano, in questo caso, nettamente separate
l’una dall’altra e che solo congiuntamente esse permettono di spiegare bene l’eteroschedasticità
della nuvola dei punti. Il numero osservato di iscritti che non comportano conteggio per questa
classe di comuni è di 92.045 unità, contro un valore atteso di 171.484. La popolazione legale totale
è di 16.710.002 con un tasso medio osservato di sottocopertura anagrafica pari a 0,55%.
Quest’ultima passa a 1,03% se si considerano i valori attesi riferiti alla seconda componente del
modello mistura.
Tabella 7 - TOTISCR ~ MI2_5 + POPLEG +CORONA+CONFR
Size
Post>0
Coef.(Intercept)
Coef.MI2_5
Coef.POPLEG
Coef.CORONA
Coef.CONFR
Sigma
(BIC: 17920.83)
Comp.1
Comp.2
1665
0.875
2.7431535642
0.1010296171
0.0001648754
-3.1121823850
6.4000428351
25.8760227903
127
0.125
-8.200023805
0.136948231
0.003301240
92.600563959
25.826689837
84.175757009
Nella tabella 8 sono, invece, riportati i valori attesi e osservati dei tassi di sottocopertura
anagrafica, divisi per ciascuna delle cinque ripartizioni territoriali. Si osserva che i tassi attesi
confermano la presenza di un maggior errore di sottocopertura anagrafica per i comuni del Nord.
D’altra parte, la correzione apportata dal modello mistura evidenzia che nel resto del territorio i
comuni sembrano aver effettuato un minor recupero della sottocopertura. Infatti, il rapporto tra il
tasso atteso e quello osservato è maggiore per il Centro, il Sud e, soprattutto, per le Isole di quanto
non lo sia per le due ripartizioni del Nord.
Tabella 8 - Comuni di tipo C1: tasso di copertura per ripartizione territoriale
Ripartizione
Nord Ovest
Nord Est
Centro
Sud
Isole
Tasso % osservato
0.6077758
0.6762449
0.563749
0.4228776
0.3863855
Tasso % atteso
1.121108
1.169636
1.061814
0.8112916
0.8954702
10
1
× Osservati
ο Attesi Componente 1
Attesi Componente 2
4.4 Comuni di tipo C2
Il miglior modello, in termini di BIC, testato per l’insieme dei comuni con meno di 5.000 abitanti
considera la variabile POPLEG e la variabile MI2_5 per la quale, oltre all’effetto semplice, risulta
significativo anche il parametro corrispondente all’effetto quadratico. E’ tuttavia da notare che
l’effetto quadratico assume un valore negativo molto simile per entrambe le componenti della
mistura a testimoniare una dipendenza meno che proporzionale del numero di iscritti che non
comportano conteggio dal numero medio di iscritti per trasferimento di residenza (Tabella 9).
Tabella 9 - TOTISCR ~ MI2_5 + POPLEG + MI2_5**2
Size
Post>0
Coef.(Intercept)
Coef.MI2_5
Coef.POPLEG
Coef. MI2_5**2
Sigma
Comp.1
2276
0.47
1.8017912599
0.1278638731
0.0028812569
-0.0001629872
11.0933237418
(BIC: 39322.55)
Comp.2
3560
0.53
0.2992174580
0.0461392815
0.0005000559
-0.0001675371
2.2450548152
Nella figura 5, che mette in relazione la variabile dipendente con la popolazione legale dei comuni,
si nota che l’elevata eteroschedasticità nella nuvola dei punti è difficilmente compensata dal
modello con due sole componenti, il quale viene in ogni caso considerato sia per la sua migliore
interpretabilità sia per il comunque scarso miglioramento ottenuto con il modello a 3 componenti.
La correzione del tasso di sottocopertura anagrafica risulta di quasi il 50%, essendo il valore
osservato pari a 0,51%, mentre il corrispondente valore atteso secondo il modello relativo alla prima
11
componente del modello mistura è pari a 0,75%. In valore assoluto, si passa dalle 54.217 iscrizioni
osservate alle 78.899 attese, su un totale di popolazione legale complessiva di questa tipologia di
comuni pari a 10.590.728. Inoltre, mentre il tasso di sottocopertura osservata aumenta
costantemente al diminuire della classe dimensionale dei comuni, i corrispondenti tassi attesi
crescono fino alla classe dimensionale C1, per poi diminuire in corrispondenza della classe
dimensionale C2.
2
× Osservati
ο Attesi Componente 1
Attesi Componente 2
Per quanto riguarda la distribuzione del tasso di copertura nelle ripartizioni territoriali (Tabella
10), si osserva un andamento simile a quello dei comuni più grandi, anche se caratterizzato da una
minore correzione quando si passa dai tassi osservati a quelli attesi.
Tabella 10 – Comuni di tipo C2: tasso di copertura per ripartizione territoriale
Ripartizione
Nord Ovest
Nord Est
Centro
Sud
Isole
Tasso % osservato
0.5951925
0.572572
0.5154378
0.4076724
0.3219881
Tasso % atteso
0.8655444
0.7543548
0.7381702
0.6158698
0.5882477
A giudicare dai tassi attesi, i piccolissimi comuni del Nord-ovest sono quelli maggiormente
affetti da sottocopertura anagrafica, forse a causa della loro relativa vicinanza con i tre centri
maggiori Milano, Torino e Genova. Viceversa, il Sud e le Isole sembrano meno affette da tale
12
fenomeno, in sostanziale concordanza con quanto risulta anche per i centri maggiori. Si nota,
inoltre, che per la ripartizione insulare il rapporto tra tasso atteso e osservato sia il più elevato,
suggerendo che, sebbene il fenomeno sia relativamente contenuto, i comuni insulari avrebbero un
buon guadagno nel compiere le operazioni di contatto ed iscrizione in anagrafe di soggetti
abitualmente dimoranti non ancora registrati in anagrafe.
5. Considerazioni di sintesi
L’ipotesi di impiego di liste anagrafiche precensuarie per il censimento della popolazione del
2011 ha richiesto alcune analisi preliminari che consentissero di valutare i vantaggi e gli eventuali
inconvenienti che questo tipo di rilevazione comporta. In questo ambito, il recupero delle unità
dimoranti abitualmente sul territorio comunale ma non iscritte in anagrafe rappresenta un elemento
di criticità. Tuttavia, i risultati dell’analisi sulle informazioni desumibili dalle operazioni di
revisione anagrafica, effettuate a seguito dell’ultimo censimento della popolazione, mostrano che
l’ammontare della sottocopertura anagrafica “effettivamente corretta” dai comuni sembra essere
abbastanza contenuto (circa 236.000 regolarizzazioni di iscritti in anagrafe dalla fine del 2001 agli
inizi del 2006). Se poi questo dato viene messo a confronto con l’entità della sottocopertura
censuaria stimata, in base all’indagine di copertura del censimento del 2001, in circa 800.000
individui a livello nazionale, allora le dimensioni ridotte del fenomeno in esame possono apparire
ancora più evidenti. Inoltre, diversamente da quanto si verifica per la sottocopertura censuaria, la
distribuzione della sottocopertura anagrafica sembra essere inversamente associata alla dimensione
dei comuni, dal momento che quelli più grandi mostrano i tassi di sottocopertura più bassi rispetto
ai comuni medio-piccoli. È da considerare, però, che i dati esaminati risentono della corretta
effettuazione del confronto contestuale tra censimento e anagrafe e del successivo processo di
revisione anagrafica, operazioni che, come è noto, non sempre vengono accuratamente effettuate da
tutti i comuni. Una ulteriore conferma di questa considerazione emerge anche dai dati sugli iscritti
in anagrafe a seguito del censimento del 2001 che mostrano, per gran parte dei casi e
prevalentemente nei comuni più grandi, informazioni mancanti su alcune variabili di interesse (età,
stato civile, cittadinanza, ecc.). Inoltre, per le conseguenze che i provvedimenti in esame producono
ai fini amministrativi, sembra che, nel caso dei cittadini stranieri censiti come residenti e non iscritti
in nessun registro di popolazione, gli Uffici di anagrafe potrebbero non aver compilato i modelli
individuali previsti dall’Istat.
Ad ogni modo, la distribuzione per età degli iscritti in anagrafe a seguito dell’ultimo censimento
mostra che la sottocopertura anagrafica risulta più consistente nelle classi di età centrali dai 20 ai 39
anni, dove si concentra più del 50% degli individui, e in quelle sotto i 10 anni. Nel complesso, le
classi di età più a rischio di sottocopertura anagrafica sembrano essere le stesse che solitamente
fanno registrare i tassi di sottocopertura censuaria più elevati. Evidentemente la forte mobilità sul
territorio di queste fasce di età della popolazione rappresenta l’elemento di maggiore criticità sia per
il censimento sia per la revisione delle anagrafi comunali.
In assenza di informazioni dirette sulla qualità della revisione anagrafica effettuata dai comuni e
al fine di correggere i dati disponibili rispetto alla variabilità con cui il processo di aggiornamento
delle anagrafi è stato condotto da ciascun comune, sono stati implementati modelli di tipo mistura.
Attraverso questa classe di modelli statistici si è tentato di individuare i comuni che hanno svolto in
modo più accurato la revisione anagrafica post-censuaria separandoli da quelli che, viceversa, non
svolgono tali operazioni o le svolgono in maniera incompleta. Questo esercizio ha prodotto come
risultato il numero complessivo di iscrizioni post-censuarie, pari a circa 400.000 unità,
potenzialmente raccolte se tutti i comuni avessero svolto le operazioni di revisione con la stessa
qualità del gruppo dei migliori. Inoltre, la tendenza del fenomeno a concentrarsi, in proporzione alla
popolazione, soprattutto nei comuni medio-piccoli, sembra essere confermata anche dalle analisi
condotte per mezzo dei modelli mistura.
13
I tassi di sottocopertura anagrafica risultano più elevati nei comuni del Nord rispetto a quelli del
Sud e delle Isole, probabilmente in relazione alla pressione migratoria, sia interna che dall’estero,
che agisce in modo differenziato sul territorio nazionale.
Con la dovuta cautela, i risultati delle analisi con i modelli mistura confermano una minore
gravità del fenomeno della sottocopertura anagrafica rispetto a quello della sottocopertura
censuaria, avvalorando quindi la validità attesa per un censimento assistito da liste anagrafiche.
Inoltre, risultano confermate le peculiarità della distribuzione del fenomeno della sottocopertura
anagrafica sul territorio e le sue relazioni con la dimensione demografica dei comuni. In questo
senso le analisi svolte consigliano di dedicare attenzione ai molti comuni medi e piccoli in fase di
progettazione delle attività di recupero di famiglie e individui abitualmente dimoranti sul territorio
ma non ancora registrati in anagrafe.
In effetti i risultati ottenuti potrebbero, almeno in parte, essere dovuti a problemi di adattamento
ai dati del modello statistico utilizzato o ad una certa carenza nella qualità della fonte impiegata;
infatti, non si può escludere del tutto che, per i molti comuni medio-piccoli, la maggiore
sottocopertura anagrafica stimata sia dovuta alla difficoltà del modello nell’attribuire i comuni ad
una delle due componenti della mistura. Inoltre, è da considerare la possibilità che anche i più
efficienti tra i grandi comuni non riescano comunque ad effettuare tutte le possibili correzioni di
sottocopertura anagrafica, a causa degli elevati costi che queste operazioni comportano.
Nonostante tutti i limiti del caso, crediamo che i dati utilizzati, per altro gli unici disponibili per
il tema in esame, debbano essere comunque valutati attentamente, interpretandoli come un elemento
di cautela nella progettazione delle operazioni del prossimo censimento.
Dall’analisi esposta emergono importanti considerazioni utili per la prossima tornata censuaria.
Più di tutto, non si dispone di statistiche sufficientemente accurate né sugli esiti del confronto
censimento-anagrafe, né sul numero di interventi di revisione anagrafica effettuati dai comuni; ciò
determina l’impossibilità di effettuare verifiche a livello comunale sia sulla coerenza tra
popolazione censita e popolazione iscritta in anagrafe, sia sulla corrispondenza delle operazioni di
revisione anagrafica compiute in base agli esiti del confronto. Pertanto, sarebbe opportuno che
l’Istat acquisisse dai comuni i dati necessari per disporre bilanci di riepilogo (persone censite e
persone presenti in anagrafe, persone non censite e persone presenti in anagrafe, persone censite due
volte, ecc.) del confronto censimento anagrafe e del processo di revisione anagrafica.
14
Riferimenti bibliografici
Calzola L. La valutazione della copertura del censimento della popolazione sulla base delle
rettifiche anagrafiche. Paper presentato alle Giornate di studio sulla popolazione, Padova, 16-18
febbraio 2005.
Carbonetti G., Fortini M., Solari F. Innovations on methods and survey process for the 2011 Italian
population census, Atti della “European Conference on Quality in Official Statistics”, Roma 811 luglio 2008
Commissione per la Garanzia dell’Informazione Statistica. Il confronto tra Censimento e Anagrafe:
per un maggior grado di coerenza tra le due fonti, Rapporto di ricerca CGIS, n. 99.10, Roma
Luglio 1999.
Commissione per la Garanzia dell’Informazione Statistica. Il campionamento da liste anagrafiche:
analisi degli effetti della qualità della base di campionamento sui risultati delle indagini,
Rapporto di ricerca CGIS, n. 02.12, Roma Dicembre 2002.
Cortese A., M. Greco. Il grado di copertura del censimento demografico 1991: considerazioni sulla
base del confronto con le risultanze anagrafiche, Quaderni di Ricerca Istat, Roma 1993, Serie
Interventi e Relazioni.
Crescenzi F., Fortini M., Gallo G. e Mancini A. (a cura di), Nota per il Presidente e il Consiglio
dell’Istat, Linee generali di impostazione metodologica, tecnica e organizzativa del 15°
Censimento generale della popolazione, Roma, settembre 2008.
Dempster A.P., Laird N.M., Rubin D.B., “Maximum likelihood from incomplete data via the EM
algorithm”, Journal of the Royal Statistical Society, B, 1977, Vol. 39, N.1.
Gesano G., F. Heins, F. Paganelli. Differenze anagrafe-censimento: verifica di alcune motivazioni
politico-amministrative, relazione presentata alle Giornate di Studio sulla Popolazione. Bologna,
6-7 dicembre 1993.
Fortini, M., Gallo, G., Paluzzi, E., Reale, A. e Silvestrini, A., Criticità di processo e di prodotto nel
14° Censimento generale della popolazione e delle abitazioni: aspetti rilevanti per la
progettazione del 15° Censimento, in La progettazione dei censimenti generali 2010–2011,
Documenti ISTAT, n. 10/2007
Istat. Anagrafe della popolazione. Metodi e norme. Roma: Istat, 1992, serie B – n. 29.
McLachlan G.J., Peel D. Finite Mixture Models. Wiley, New York, 2000.
15