Nascita delle rilevazioni campionarie

Transcript

Nascita delle rilevazioni campionarie
Nascita delle rilevazioni
campionarie
Alcune date
1895: il campionamento
1896: il coefficiente r (esempio)
1900: il test 2
1. L’obbiettivo


L’obbiettivo di ogni indagine statistica è la
conoscenza di una popolazione (o meglio la stima
di un qualche suo parametro), intesa come insieme
di unità elementari
In altre parole, si vogliono conoscere caratteristiche
di un insieme di elementi tramite una rilevazione
incompleta o parziale: un campione
1. L’obbiettivo
Perché ricorrere alle rilevazioni parziali?
in alcuni casi sono le uniche possibili (Es. durata
di vita di una lampadina, analisi del sangue …),
in quanto l’osservazione prevede la distruzione
dell’unità di osservazione stessa
consentono di ottenere informazioni in tempi più
brevi
a costi ridotti (a parità di precisione)
è possibile avere maggiore accuratezza e
profondità nella rilevazione usando rilevatori
particolarmente addestrati
si possono raccogliere informazioni su aree
geografiche o settori o situazioni molto
specifiche
1. L’obbiettivo
I problemi fondamentali tuttavia sono due
il primo, riguarda il modo in cui deve essere
scelto il campione (vedi: importanza del
metodo con cui si osservano i fatti)
il secondo, è relativo ai procedimenti da
seguire per estendere i risultati campionari alla
popolazione (vedi: necessità di regole per
poter ragionare correttamente sulle evidenze )
Allo studio di questi problemi è appunto rivolta
la teoria del campionamento statistico.
1. L’obbiettivo
Il paradosso è che …
per correggere il Censimento, una
rilevazione totale, in Italia come altrove,
si usano rilevazioni campionarie
(2% Istat)
1. L’obbiettivo
Attenzione …
si parla di popolazione finita quando si può
assegnare ad ogni unità una etichetta.
Teoricamente, nei sondaggi si trattano
popolazioni finite
una popolazione può essere infinita in termini
potenziali: il genere umano, il numero di parole
scrivibili su internet, il numero possibile di lanci
di una moneta…
1. L’obbiettivo
Attenzione …
Ogni popolazione praticamente finita (detta
anche “Universo”) può, a sua volta, essere vista
come campione di una popolazione di ordine
superiore.
Esempio: misure in demografia
Una popolazione è il risultato empirico e
specifico ottenuto attraverso una singola
estrazione dall’urna della super Popolazione
corrispondente
1. L’obbiettivo
Formalmente …(poiché la forma è importante)
in una popolazione FINITA si fa riferimento
a frequenze empiriche f
in una popolazione IN finita a probabilità
teoriche p
1. L’obbiettivo
Attenzione …
Parlare di campioni e sondaggi significa
avere a che fare con il problema
dell’inferenza inversa in termini
probabilistici
Ricordiamo che l’inferenza è
diretta: Popolazione  Campione
inversa: Campione  Popolazione
1. L’obbiettivo




Le indagini campionarie e i sondaggi sono oramai
uno strumento fondamentale
per le scienze sociali (sociologia, psicologia…),
per le scienze economiche e politiche
(programmazione e valutazione politiche, welfare,
formazione, marketing, econometria ...)
per le scienze biomediche (indagini
epidemiologiche, cliniche …)
Per le scienze dure? (fisica,chimica…)
1. I primi tentativi

Le prime esperienze di rilevazioni
campionarie sono rintracciabili nel XVII e
XVIII secolo
tavole di mortalità di Halley 1700 circa,
basate su una sola città
Laplace ,1802, per la stima di una
popolazione francese con soli 30
dipartimenti
1. I primi tentativi: Laplace
Laplace stimò la popolazione francese al 22
settembre 1802 attraverso dati che coprivano il 7%
del totale



Applicò una sorta di campionamento a due stadi
Come unità di primo stadio considerò 30 dipartimenti
distribuiti nel territorio francese per zone climatiche
Come unità di secondo stadio, i comuni, considerò
quelli con i sindaci più zelanti…
Stimò la popolazione complessiva (Y), rapportando
il totale dei nati (X), grossolanamente stimato in
popolazione, a quello campionario (x) rispetto alla
medesima sottopopolazione (y). In pratica: Y=X y/x
1. I primi tentativi


Altre esperienze di tipo sociologico sono
della fine dell’800 all’inizio 900, con Marx,
Weber e Durkheim.
Tuttavia non esiste formalizzazione
1. I primi tentativi: Kiaer
Nel 1895 presso l’ISI (International Statistical
Institute) viene sollevato da Anders Nicolai
Kiaer (direttore dell’allora ufficio centrale di
statistica norvegese) il problema scientifico
della validità delle indagini per campione.
 Rappresentatività dell’indagine vista come
riproduzione in piccolo della realtà della
popolazione e non come casualità
nell’estrazione
 Servono quindi informazioni a priori sulla
popolazione, cioè sulle variabili
“rappresentative”
1. I primi tentativi: Kiaer



I critici.
Una rilevazione parziale non è estendibile
alla popolazione (G. von Mayr)
Manca un modello probabilistico di
riferimento (L. von Bortkiewicz)
I caratteri non controllati possono risultare
non rappresentativi (Gini e Galvani)
1. I primi tentativi: Gini e Galvani


Nel 1929 si proposero di analizzare i dati censuari
comunali del 1921 supponendo di averne a
disposizione solo una parte
Empiricamente il campione fu fissato di
dimensione pari al 15%
La concordanza tra indicatori rilevati nel campione
e nel censimento fu definita come:
Ottima
scarti sino al
1,5%
Soddisfacente
“
“
1,5-5%
Sufficiente
“
“
5- 10%
Insufficiente
“
“
oltre 10%
1. I primi tentativi: Gini e Galvani
Il campione di unità statistiche comunali (facenti parte dei
circondari considerati) fu scelto in modo tale che per sette
variabili di riferimento:
1.
2.
3.
4.
5.
6.
7.
tasso di natalità,
tasso di mortalità,
tasso di nuzialità,
% popolazione maschile agricola,
% popolazione non agricola,
reddito medio,
altitudine media
l’accostamento dei rispettivi indicatori con i valori di
popolazione fosse il migliore possibile.
Per la verifica scelsero altri caratteri
(tasso di accrescimento naturale, densità di popolazione, rapporto di
concentrazione, indici di dissomiglianza, grado di correlazione tra coppie di
indicatori)
1. I primi tentativi: Gini e Galvani
La conclusione fu:
….avere scelto il nostro campione giudiziosamente, in modo che
risultasse ottimo, soddisfacente o sufficiente nel conservare
l’intensità media di sette caratteri non è valso ad assicirare che
esso fosse per lo meno sufficientemente rappresentativo della
intensità media di altri caratteri, non tenuti presenti nella scelta,
e tanto meno della variabilità della distribuzione e delle mutue
relazione tra i caratteri considerati.
Gini e Galvani non parlano di modalità di estrazione (casuale)
ma di rappresentatività…
1. I primi tentativi

Mancava un criterio oggettivo per stabilire
cosa sia la rappresentatività del campione.

Solo nel 1926 prende forma la
formulazione di una teoria del
campionamento basata sul concetto di
campionamento casuale semplice (Bowley)
1. I primi tentativi

Nel 1934 con Jerzy Neyman si arriva ad una
formulazione più completa, probabilistica, che
prevede forme diverse di campionamento,
basandosi su uno schema inferenziale imperniato
sugli intervalli di confidenza:
è possibile estrarre campioni casuali, composti
da unità statistiche elementari, controllabili in
termini di precisione delle stime;
il numero delle unità campionate deve essere
elevato;
è possibile usare informazioni oggettive sulla
popolazione per progettare lo schema di
campionamento garantendo nel contempo la
casualità (stratificazione);
un buon metodo generale di campionamento è
quello casuale stratificato
1. I primi tentativi


Il periodo 1934- 1955 è il periodo della
sistematizzazione (testi fondamentali
Yeats, Cochran, Hansen, Hurwitz e
Madow), con un ruolo centrale di verifiche
empiriche del Bureau of Census
statunitense.
Il resto è storia recente sotto ai nostri occhi
La nascita dei sondaggi
LO STUDIO DELL’OPINIONE PUBBLICA:
Rilevare l’atteggiamento collettivo dei cittadini,
in quanto partecipi di esigenze, convinzioni, e
pregiudizi comuni.
SONDAGGIO
Il sondaggio è l’uso di una “sonda” molto
particolare: l’indagine campionaria dell’opinione
pubblica
1824
Alcuni giornali americani pubblicarono i primi sondaggi preelettorali con la metodologia degli straws poll (voto di paglia).
1874-75
In Germania si pubblicarono i risultati di una ricerca condotta su
15mila proprietari terrieri sullo stato dei lavoratori agricoli.
1872
In Italia il Ministro dell’agricoltura affida ai parroci (mediatori
ideali) una indagine per sondare l’opinione e l’umore dei
contadini residenti nelle campagne venete.
1916-1932
Negli Stati Uniti, il settimanale “Literary Digest” realizza i primi
sondaggi pre-elettorali sulle elezioni Presidenziali.
1936
George Gallup prevede correttamente la vittoria a Roosvelt
(new Deal) su Landon con uno scarto dell’1% con un migliaio di
interviste.
Il Literary Digest accreditava a Landon il 57% contro il 38%
effettivo. Un fac-simile della scheda era stato spedito a oltre 10
milioni di persone, presi da elenchi telefonici e da elenchi di
proprietari di autovetture, il campione dei rispondenti fu di 2,4
milioni. Un classico esempio di campione distorto
Non fu il solo esempio…
15 gennaio 1946
Nasce in Italia la Doxa (dal greco antico “opinione”).
L’istituto pubblica su Il Sole un sondaggio sul prossimo
referendum istituzionale anticipando correttamente
l’esito tra repubblica e monarchia.
1947
World Association for Public Opinion Research (WAPOR)
ed eletto come primo presidente il francese Jean Stoetzel, il
“coniatore” del termine sondaggio.
1948
ESOMAR,
l’Associazione Europea per le ricerche di Opinione e di
Marketing.
Due concetti emergono in modo molto importante
da questa breve panoramica
•CASUALITÀ
• RAPPRESENTATIVITÀ
Ed è bene chiarirli una volta per tutte in modo
completo