Untitled
Transcript
Untitled
Inferenza statistica per gli exit-poll del 2007 in provincia di Lecce S. De Iaco1 , M. Palma2 , S. Maggio3 , G. Giungato4 , A. Aprile5 Riassunto Nell’ambito di un’indagine campionaria, il piano di campionamento riveste un ruolo fondamentale, poiché da esso dipende essenzialmente la qualità dei risultati dell’indagine stessa. In questo lavoro, dopo una breve introduzione sul campionamento statistico e sulla procedura di individuazione della numerosità campionaria ottimale nell’ambito dei problemi inferenziali su una percentuale, saranno presentati i risultati degli exitpoll riguardanti le percentuali di preferenza per il candidato sindaco eletto alle amministrative svoltesi nel maggio-giugno 2007, in alcuni comuni della provincia di Lecce. Le stime dei risultati elettorali si sono rivelate coerenti con i dati ufficiali di scrutinio finale per la maggior parte dei comuni considerati. Parole chiave: campionamento statistico, exit-poll, numerosità campionaria ottimale, inferenza su percentuali, margine di errore, verosimiglianza. 1 Introduzione Alla chiusura delle urne, in attesa dei risultati definitivi di scrutinio, i mezzi di informazione si attivano al fine di comunicare dati e cifre sull’andamento delle elezioni. L’informazione disponibile è quella derivante da rilevazioni statistiche campionarie, quali gli exit-poll e le proiezioni, effettuate generalmente da istituti specializzati. Spesso, i termini exit-poll e proiezioni sono erroneamente utilizzati come sinonimi, ma in realtà si tratta di informazioni ottenute con processi differenti: gli exit-poll (in gergo, “voti di paglia”) sono dei sondaggi sull’esito delle votazioni, realizzati all’uscita dei seggi elettorali, mentre le proiezioni (in gergo, “voti di pietra”) rappresentano una elaborazione di dati reali, scrutinati nelle sezioni elettorali opportunamente campionate e proiettati su tutte le sezioni interessate. Pertanto, i primi dati disponibili sono quelli degli exit-poll, comunicati al momento della chiusura dei seggi elettorali, con aggiornamenti successivi; d’altra parte, i dati delle proiezioni elettorali, basandosi sull’analisi dei risultati di scrutinio, sono forniti nel momento in cui sono disponibili i dati relativi ad un numero ristretto di sezioni rappresentative scrutinate, entro 90 minuti dalla chiusura dei seggi. Da un excursus storico, è risultato che le rilevazioni campionarie sulle preferenze degli elettori non hanno sempre prodotto risultati rispondenti alla realtà. Di seguito sono riportati i casi più clamorosi: • in occasione delle elezioni amministrative del 1993, nel comune di Agrigento (Sicilia), il candidato sindaco G. Arnone del centro-sinistra, decretato vincitore secondo gli exit-poll, risultò invece perdente; Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected] Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected] 3 Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected] 4 Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected] 5 Dip.to di Scienze Econ. e Mat.-Statistiche, Facoltà di Economia, k [email protected] 1 2 1 • nelle elezioni regionali italiane del 1995, i sondaggi eseguiti con il metodo in house poll (interviste telefoniche agli elettori) prospettavano la vittoria della coalizione del Centro-destra smentita clamorosamente dai risultati elettorali; • in occasione delle elezioni presidenziali U SA degli anni 2000 e 2004, gli exit-poll avevano previsto in svantaggio George W. Bush, risultato invece vincitore; • nelle elezioni politiche del 2006, per il rinnovo del Parlamento Italiano (Camera dei Deputati e Senato della Repubblica), gli exit-poll indicavano la coalizione del Centro-sinistra in netto vantaggio rispetto a quella del Centro-destra, mentre dai risultati ufficiali si riscontrò soltanto una lievissima prevalenza della prima coalizione, a cui venne assegnata la vittoria per una manciata di voti in più. L’esito della tornata elettorale 2006, incerto fino alla fine dello scrutinio, ha contribuito a screditare ulteriormente l’attendibilità degli exit-poll, portando al dileggio delle società specializzate in sondaggi ed infondendo sempre più nell’opinione pubblica la sfiducia nei metodi statistici. Secondo i principali istituti di ricerca (Doxa, Hdc Datamedia Group, Abacus), il fallimento degli exit-poll è da attribuire, in talune circostanze, a distorsioni sistematiche generate da differenti fattori, quali l’autoselezione, ovvero l’offerta volontaria di voto o il rifiuto sistematico di determinate categorie di elettori di sottoporsi al questionario all’uscita dai seggi e la riluttanza degli intervistati a fornire risposte veritiere. Tuttavia, è importante sottolineare che, sebbene siano inevitabili eventuali distorsioni, dovute a cause di natura accidentale, che possono inficiare i risultati dell’indagine, l’attendibilità e l’accuratezza delle stime dei risultati elettorali dipendono essenzialmente dal piano di campionamento adottato. Infatti, mediante il piano di campionamento si stabiliscono il criterio di selezione del campione dalla popolazione di riferimento, i vincoli economici, nonché i limiti spaziali e temporali dell’indagine campionaria. Nel presente lavoro, sono forniti alcuni cenni teorici sul campionamento statistico (Barnett, V., 1991; Cicchitelli, G. et al., 1997; Cochran, W. G., 1977; Posa, D., De Iaco, S., 2005), con particolare riguardo alle tecniche di campionamento casuale ed alla procedura di individuazione della numerosità campionaria ottimale, nell’ambito dei problemi inferenziali su una proporzione. Infine, sono discussi i risultati degli exit-poll concernenti le percentuali di preferenza per il candidato sindaco eletto alle amministrative del maggiogiugno 2007, nei comuni della provincia di Lecce interessati dalle stesse elezioni. Come risulta da quanto riportato di seguito, le stime dei risultati elettorali si sono dimostrate verosimili nella maggior parte dei comuni considerati. 2 Il piano di campionamento La ricerca scientifica, condotta con metodi statistici, si basa su alcune importanti fasi che devono essere opportunamente pianificate, al fine di giungere a risultati attendibili. Le fasi di un’indagine statistica comprendono la definizione degli obiettivi, la rilevazione, l’elaborazione, la presentazione dei risultati e l’interpretazione degli stessi. In particolare, la rilevazione può essere: • totale, se viene esaminata la popolazione, ovvero l’insieme finito o infinito, numerabile o non numerabile, degli elementi su cui si manifesta il fenomeno oggetto di studio; • parziale, se viene esaminato soltanto un campione della popolazione di riferimento, ovvero un qualsiasi raggruppamento estratto dalla popolazione stessa. 2 1 • ε= √ α s π(1 − π) N − n , nel caso di campionamento esaustivo ed in blocco. n N −1 Dalle espressioni precedenti si evince che per determinare n, è necessario attribuire preventivamente un valore al parametro incognito π. Una soluzione consiste nell’assegnare a π un valore a cui corrisponde una numerosità campionaria in grado di garantire un margine di errore al più pari ad ε. Per un prefissato livello di significatività α, ciò si ottiene sostituendo a π (1 − π) il suo massimo valore, corrispondente a 0,25, ovvero ponendo π = 0,5. In Fig. 1, è illustrato l’andamento di π (1 − π) al variare di π. Fig. 1: andamento di π (1 − π) al variare di π. 2.2.3 Relazione tra le numerosità ottimali È interessante evidenziare che le numerosità ottimali di un campione bernoulliano e di uno esaustivo (o in blocco), indicate con nb ed ne , rispettivamente, sono legate dalla seguente relazione: nb ne = . (6) 1 1 + (nb − 1) N Per cui, se si considera che, fissati α ed ε, il seguente fattore nb 1 (nb − 1) ≃ N N sia prossimo a zero in corrispondenza di una numerosità N della popolazione elevata, risulta: ne ≃ nb . (7) f (N ) = In altri termini, si possono richiamare le espressioni proposte per il campionamento bernoulliano anche nel caso di campionamento esaustivo (o in blocco), se il rapporto nb /N è trascurabile rispetto ad 1. In Fig. 2, sono riportati i livelli delle numerosità campionarie ottimali ne , calcolati, fissato α = 0,05 e π = 0,5, mediante l’espressione (3), al variare di N ed assegnati tre differenti margini di errore. 10 Tab. 13: valori della statistica-test Z0 per ciascun comune interessato dalle elezioni amministrative (primo o secondo turno), con indicazione del p-value. Dall’analisi della Tab. 13 è palese la situazione per i comuni di Castrignano dei Greci e San Cesario di Lecce, per i quali il p-value è pressoché nullo. In tal caso, le risultanze campionarie suggerirebbero di rifiutare l’ipotesi nulla formulata sulla percentuale di consensi realmente manifestatasi per il candidato eletto. Pertanto, si può dedurre che, in tali comuni, lo scostamento tra la percentuale campionaria e quella effettiva potrebbe essere ragionevolmente attribuito a fattori strutturali piuttosto che a fattori casuali. In tale contesto, la causa di natura strutturale, che ha inficiato i dati campionari, sarebbe da imputare esclusivamente al comportamento mendace degli elettori che hanno partecipato agli exit-poll. Infatti, è stata rilevata dagli operatori una elevata diffidenza (soprattutto degli elettori di sesso femminile) per gli exit-poll e la tendenza all’autoselezione. Tuttavia, si ribadisce che, nell’ambito dei 2 comuni appena citati, soltanto per il comune di San Cesario di Lecce il candidato sindaco, pronosticato perdente, ha vinto le elezioni. È doverosa, infine, una discussione concisa sul capovolgimento del risultato previsto negli exit-poll, per il comune di Castro. Per quest’ultimo, il p-value, pari a 0,04, ha sicuramente evidenziato un risultato campionario “non del tutto determinante” rispetto alla decisione di accettare o rifiutare l’ipotesi nulla H0 . Inoltre, come si evince dalla percentuale di consenso effettiva per il candidato eletto sindaco (51,5%), in questo comune, le preferenze dell’elettorato si sono dimostrate suddivise in parti quasi uguali tra i due candidati sindaco; ciò ha sicuramente contribuito a rendere il risultato campionario “poco attendibile”. 4 Conclusioni In questo lavoro, sono stati forniti alcuni cenni teorici concernenti il campionamento statistico e la procedura di individuazione della numerosità campionaria ottimale, nell’ambito dei problemi inferenziali su una percentuale. Inoltre, sono stati presentati i risultati degli exit-poll riguardanti le percentuali di preferenza per il candidato sindaco eletto alle amministrative del maggio-giugno 2007 effettuate in alcuni comuni della 23 provincia di Lecce. In particolare, è stato adottato un campionamento casuale senza ripetizione stratificato per età e seggio elettorale di appartenenza. Le stime dei risultati elettorali si sono rivelate coerenti con i dati ufficiali di scrutinio finale per la maggior parte dei comuni considerati. A tal proposito, è necessario sottolineare che in 6 comuni su 17, la discrepanza tra la percentuale effettiva di consensi per il candidato sindaco eletto e quella campionaria, ha superato il livello di errore prefissato. In particolare, nei comuni di Castro e San Cesario di Lecce, in cui la competizione elettorale tra 2 candidati sindaco si è svolta con il sistema elettorale maggioritario, tali differenze hanno determinato un ribaltamento del risultato finale, decretando la vittoria del candidato sindaco pronosticato come perdente dagli exit-poll. Le discrepanze tra percentuale effettiva e percentuale campionaria registrate soprattutto per il comune di San Cesario di Lecce, non sono verosimilmente da attribuire a fattori di natura casuale, bensì a comportamenti scorretti della gran parte degli intervistati che, come riscontrato dai rilevatori, dimostrava diffidenza nei confronti dei risultati degli exit-poll, per cui evidentemente si asteneva dal fornire risposte veritiere. Bibliografia [1] Barnett, V., 1991, II ed., Sample survey. Principles and methods, Oxford University Press, Oxford. [2] Cicchitelli, G., Herzel, A., Montanari, G. E., 1997, Il campionamento statistico, Il Mulino, Bologna. [3] Bettin, G., 2006, Sul concetto di generazione politica. [4] Braungart, R., Braungart, M., 1989 Les générations politiques, dans Jean Crête et Pierre Favre, Générations et politiques, Paris et Québec, Economica et PUL, p. 7-51. [5] Cochran, W. G., 1977, III ed., Sampling techniques, J. Wiley & Sons, New York. [6] Piccolo, D., 1998, II ed., Statistica, Il Mulino, Bologna. [7] Posa, D., De Iaco, S., 2005, Fondamenti di Statistica inferenziale, Cleup sc, Padova. [8] Posa, D., De Iaco, S., Palma, M., 2004, Fondamenti di Statistica descrittiva, Giappichelli, Torino. 24