Untitled

Transcript

Untitled
Inferenza statistica per gli exit-poll del 2007
in provincia di Lecce
S. De Iaco1 , M. Palma2 , S. Maggio3 , G. Giungato4 , A. Aprile5
Riassunto
Nell’ambito di un’indagine campionaria, il piano di campionamento riveste un
ruolo fondamentale, poiché da esso dipende essenzialmente la qualità dei risultati
dell’indagine stessa.
In questo lavoro, dopo una breve introduzione sul campionamento statistico e sulla
procedura di individuazione della numerosità campionaria ottimale nell’ambito dei
problemi inferenziali su una percentuale, saranno presentati i risultati degli exitpoll riguardanti le percentuali di preferenza per il candidato sindaco eletto alle
amministrative svoltesi nel maggio-giugno 2007, in alcuni comuni della provincia
di Lecce. Le stime dei risultati elettorali si sono rivelate coerenti con i dati ufficiali
di scrutinio finale per la maggior parte dei comuni considerati.
Parole chiave: campionamento statistico, exit-poll, numerosità campionaria ottimale, inferenza su
percentuali, margine di errore, verosimiglianza.
1
Introduzione
Alla chiusura delle urne, in attesa dei risultati definitivi di scrutinio, i mezzi di informazione si attivano al fine di comunicare dati e cifre sull’andamento delle elezioni. L’informazione disponibile è quella derivante da rilevazioni statistiche campionarie, quali gli
exit-poll e le proiezioni, effettuate generalmente da istituti specializzati.
Spesso, i termini exit-poll e proiezioni sono erroneamente utilizzati come sinonimi, ma
in realtà si tratta di informazioni ottenute con processi differenti: gli exit-poll (in gergo,
“voti di paglia”) sono dei sondaggi sull’esito delle votazioni, realizzati all’uscita dei seggi
elettorali, mentre le proiezioni (in gergo, “voti di pietra”) rappresentano una elaborazione
di dati reali, scrutinati nelle sezioni elettorali opportunamente campionate e proiettati
su tutte le sezioni interessate. Pertanto, i primi dati disponibili sono quelli degli exit-poll,
comunicati al momento della chiusura dei seggi elettorali, con aggiornamenti successivi;
d’altra parte, i dati delle proiezioni elettorali, basandosi sull’analisi dei risultati di scrutinio, sono forniti nel momento in cui sono disponibili i dati relativi ad un numero ristretto
di sezioni rappresentative scrutinate, entro 90 minuti dalla chiusura dei seggi.
Da un excursus storico, è risultato che le rilevazioni campionarie sulle preferenze degli
elettori non hanno sempre prodotto risultati rispondenti alla realtà. Di seguito sono
riportati i casi più clamorosi:
• in occasione delle elezioni amministrative del 1993, nel comune di Agrigento (Sicilia), il candidato sindaco G. Arnone del centro-sinistra, decretato vincitore secondo
gli exit-poll, risultò invece perdente;
Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected]
Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected]
3
Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected]
4
Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected]
5
Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected]
1
2
1
• nelle elezioni regionali italiane del 1995, i sondaggi eseguiti con il metodo in house
poll (interviste telefoniche agli elettori) prospettavano la vittoria della coalizione
del Centro-destra smentita clamorosamente dai risultati elettorali;
• in occasione delle elezioni presidenziali U SA degli anni 2000 e 2004, gli exit-poll
avevano previsto in svantaggio George W. Bush, risultato invece vincitore;
• nelle elezioni politiche del 2006, per il rinnovo del Parlamento Italiano (Camera
dei Deputati e Senato della Repubblica), gli exit-poll indicavano la coalizione
del Centro-sinistra in netto vantaggio rispetto a quella del Centro-destra, mentre dai risultati ufficiali si riscontrò soltanto una lievissima prevalenza della prima
coalizione, a cui venne assegnata la vittoria per una manciata di voti in più.
L’esito della tornata elettorale 2006, incerto fino alla fine dello scrutinio, ha contribuito
a screditare ulteriormente l’attendibilità degli exit-poll, portando al dileggio delle società
specializzate in sondaggi ed infondendo sempre più nell’opinione pubblica la sfiducia nei
metodi statistici.
Secondo i principali istituti di ricerca (Doxa, Hdc Datamedia Group, Abacus), il fallimento degli exit-poll è da attribuire, in talune circostanze, a distorsioni sistematiche generate
da differenti fattori, quali l’autoselezione, ovvero l’offerta volontaria di voto o il rifiuto
sistematico di determinate categorie di elettori di sottoporsi al questionario all’uscita dai
seggi e la riluttanza degli intervistati a fornire risposte veritiere.
Tuttavia, è importante sottolineare che, sebbene siano inevitabili eventuali distorsioni,
dovute a cause di natura accidentale, che possono inficiare i risultati dell’indagine, l’attendibilità e l’accuratezza delle stime dei risultati elettorali dipendono essenzialmente
dal piano di campionamento adottato. Infatti, mediante il piano di campionamento si
stabiliscono il criterio di selezione del campione dalla popolazione di riferimento, i vincoli
economici, nonché i limiti spaziali e temporali dell’indagine campionaria.
Nel presente lavoro, sono forniti alcuni cenni teorici sul campionamento statistico (Barnett, V., 1991; Cicchitelli, G. et al., 1997; Cochran, W. G., 1977; Posa, D., De Iaco, S.,
2005), con particolare riguardo alle tecniche di campionamento casuale ed alla procedura di individuazione della numerosità campionaria ottimale, nell’ambito dei problemi
inferenziali su una proporzione. Infine, sono discussi i risultati degli exit-poll concernenti
le percentuali di preferenza per il candidato sindaco eletto alle amministrative del maggiogiugno 2007, nei comuni della provincia di Lecce interessati dalle stesse elezioni. Come
risulta da quanto riportato di seguito, le stime dei risultati elettorali si sono dimostrate
verosimili nella maggior parte dei comuni considerati.
2
Il piano di campionamento
La ricerca scientifica, condotta con metodi statistici, si basa su alcune importanti fasi
che devono essere opportunamente pianificate, al fine di giungere a risultati attendibili.
Le fasi di un’indagine statistica comprendono la definizione degli obiettivi, la rilevazione,
l’elaborazione, la presentazione dei risultati e l’interpretazione degli stessi. In particolare,
la rilevazione può essere:
• totale, se viene esaminata la popolazione, ovvero l’insieme finito o infinito, numerabile o non numerabile, degli elementi su cui si manifesta il fenomeno oggetto di
studio;
• parziale, se viene esaminato soltanto un campione della popolazione di riferimento,
ovvero un qualsiasi raggruppamento estratto dalla popolazione stessa.
2
1
• ε= √
α
s
π(1 − π) N − n
, nel caso di campionamento esaustivo ed in blocco.
n
N −1
Dalle espressioni precedenti si evince che per determinare n, è necessario attribuire preventivamente un valore al parametro incognito π. Una soluzione consiste nell’assegnare
a π un valore a cui corrisponde una numerosità campionaria in grado di garantire un
margine di errore al più pari ad ε.
Per un prefissato livello di significatività α, ciò si ottiene sostituendo a π (1 − π) il suo
massimo valore, corrispondente a 0,25, ovvero ponendo π = 0,5.
In Fig. 1, è illustrato l’andamento di π (1 − π) al variare di π.
Fig. 1: andamento di π (1 − π) al variare di π.
2.2.3
Relazione tra le numerosità ottimali
È interessante evidenziare che le numerosità ottimali di un campione bernoulliano e di
uno esaustivo (o in blocco), indicate con nb ed ne , rispettivamente, sono legate dalla
seguente relazione:
nb
ne =
.
(6)
1
1 + (nb − 1)
N
Per cui, se si considera che, fissati α ed ε, il seguente fattore
nb
1
(nb − 1) ≃
N
N
sia prossimo a zero in corrispondenza di una numerosità N della popolazione elevata,
risulta:
ne ≃ nb .
(7)
f (N ) =
In altri termini, si possono richiamare le espressioni proposte per il campionamento
bernoulliano anche nel caso di campionamento esaustivo (o in blocco), se il rapporto
nb /N è trascurabile rispetto ad 1.
In Fig. 2, sono riportati i livelli delle numerosità campionarie ottimali ne , calcolati,
fissato α = 0,05 e π = 0,5, mediante l’espressione (3), al variare di N ed assegnati tre
differenti margini di errore.
10
Tab. 13: valori della statistica-test Z0 per ciascun comune interessato dalle elezioni
amministrative (primo o secondo turno), con indicazione del p-value.
Dall’analisi della Tab. 13 è palese la situazione per i comuni di Castrignano dei Greci e
San Cesario di Lecce, per i quali il p-value è pressoché nullo. In tal caso, le risultanze
campionarie suggerirebbero di rifiutare l’ipotesi nulla formulata sulla percentuale di consensi realmente manifestatasi per il candidato eletto. Pertanto, si può dedurre che, in tali
comuni, lo scostamento tra la percentuale campionaria e quella effettiva potrebbe essere
ragionevolmente attribuito a fattori strutturali piuttosto che a fattori casuali. In tale
contesto, la causa di natura strutturale, che ha inficiato i dati campionari, sarebbe da
imputare esclusivamente al comportamento mendace degli elettori che hanno partecipato
agli exit-poll. Infatti, è stata rilevata dagli operatori una elevata diffidenza (soprattutto
degli elettori di sesso femminile) per gli exit-poll e la tendenza all’autoselezione.
Tuttavia, si ribadisce che, nell’ambito dei 2 comuni appena citati, soltanto per il comune
di San Cesario di Lecce il candidato sindaco, pronosticato perdente, ha vinto le elezioni.
È doverosa, infine, una discussione concisa sul capovolgimento del risultato previsto
negli exit-poll, per il comune di Castro. Per quest’ultimo, il p-value, pari a 0,04, ha
sicuramente evidenziato un risultato campionario “non del tutto determinante” rispetto
alla decisione di accettare o rifiutare l’ipotesi nulla H0 . Inoltre, come si evince dalla
percentuale di consenso effettiva per il candidato eletto sindaco (51,5%), in questo comune, le preferenze dell’elettorato si sono dimostrate suddivise in parti quasi uguali tra i
due candidati sindaco; ciò ha sicuramente contribuito a rendere il risultato campionario
“poco attendibile”.
4
Conclusioni
In questo lavoro, sono stati forniti alcuni cenni teorici concernenti il campionamento
statistico e la procedura di individuazione della numerosità campionaria ottimale, nell’ambito dei problemi inferenziali su una percentuale. Inoltre, sono stati presentati i
risultati degli exit-poll riguardanti le percentuali di preferenza per il candidato sindaco eletto alle amministrative del maggio-giugno 2007 effettuate in alcuni comuni della
23
provincia di Lecce. In particolare, è stato adottato un campionamento casuale senza
ripetizione stratificato per età e seggio elettorale di appartenenza.
Le stime dei risultati elettorali si sono rivelate coerenti con i dati ufficiali di scrutinio
finale per la maggior parte dei comuni considerati. A tal proposito, è necessario sottolineare che in 6 comuni su 17, la discrepanza tra la percentuale effettiva di consensi per
il candidato sindaco eletto e quella campionaria, ha superato il livello di errore prefissato. In particolare, nei comuni di Castro e San Cesario di Lecce, in cui la competizione
elettorale tra 2 candidati sindaco si è svolta con il sistema elettorale maggioritario, tali
differenze hanno determinato un ribaltamento del risultato finale, decretando la vittoria
del candidato sindaco pronosticato come perdente dagli exit-poll.
Le discrepanze tra percentuale effettiva e percentuale campionaria registrate soprattutto
per il comune di San Cesario di Lecce, non sono verosimilmente da attribuire a fattori
di natura casuale, bensì a comportamenti scorretti della gran parte degli intervistati
che, come riscontrato dai rilevatori, dimostrava diffidenza nei confronti dei risultati degli
exit-poll, per cui evidentemente si asteneva dal fornire risposte veritiere.
Bibliografia
[1] Barnett, V., 1991, II ed., Sample survey. Principles and methods, Oxford University
Press, Oxford.
[2] Cicchitelli, G., Herzel, A., Montanari, G. E., 1997, Il campionamento statistico, Il Mulino,
Bologna.
[3] Bettin, G., 2006, Sul concetto di generazione politica.
[4] Braungart, R., Braungart, M., 1989 Les générations politiques, dans Jean Crête et Pierre
Favre, Générations et politiques, Paris et Québec, Economica et PUL, p. 7-51.
[5] Cochran, W. G., 1977, III ed., Sampling techniques, J. Wiley & Sons, New York.
[6] Piccolo, D., 1998, II ed., Statistica, Il Mulino, Bologna.
[7] Posa, D., De Iaco, S., 2005, Fondamenti di Statistica inferenziale, Cleup sc, Padova.
[8] Posa, D., De Iaco, S., Palma, M., 2004, Fondamenti di Statistica descrittiva, Giappichelli,
Torino.
24