C:\mario\lezioni\università\statistica turismo

Transcript

C:\mario\lezioni\università\statistica turismo
Corso di Laurea specialistica/magistrale
Interateneo delle Università di Trieste e Udine in
“SCIENZE DELLA PREVENZIONE”
Appunti per il Corso di
STATISTICA SOCIALE
anno accademico 2009-2010
docente: Passon Mario
Pag. 1
INDICE
PREMESSA........................................................................................................................................................................ 3
PRIMO CAPITOLO RICHIAMI ALLA STATISTICA DESCRITTIVA ......................................................................... 5
Requisiti dell’informazione statistica ............................................................................................................................. 6
Concetti statistici generali (richiamo)............................................................................................................................. 8
Concetti riguardanti le rilevazioni statistiche (richiami)............................................................................................... 11
Tipologia dell’informazione statistica (richiami) ......................................................................................................... 13
Standardizzazione di variabili....................................................................................................................................... 22
SECONDO CAPITOLO LE FONTI STATISTICHE UFFICIALI.................................................................................. 24
Le fonti statistiche in Italia ........................................................................................................................................... 24
Il Sistema Statistico Nazionale ..................................................................................................................................... 24
Il Decreto L.gvo n. 322/89 “Norme sul sistema statistico nazionale” .......................................................................... 27
Le pubblicazioni dell’Istat ............................................................................................................................................ 30
Le Fonti internazionali (le statistiche dell’Unione Europea) ........................................................................................ 33
Le pubblicazioni di EUROSTAT ................................................................................................................................. 33
Le statistiche del Ministero della Salute ....................................................................................................................... 35
TERZO CAPITOLO L’INDAGINE STATISTICA......................................................................................................... 37
Progettare l'indagine ..................................................................................................................................................... 37
Definizione degli obiettivi ............................................................................................................................................ 39
La scelta dei caratteri da rilevare (astrazione). ............................................................................................................. 40
Le Classificazioni ......................................................................................................................................................... 42
Analisi delle fonti ......................................................................................................................................................... 45
Disegno di indagine ...................................................................................................................................................... 45
Sistema dei controlli di qualità ..................................................................................................................................... 51
Principali indicatori statistici sulla qualità delle interviste ........................................................................................... 51
QUARTO CAPITOLO LE RILEVAZIONI..................................................................................................................... 54
Tipologia delle rilevazioni ............................................................................................................................................ 56
Le tecniche di raccolta dati ........................................................................................................................................... 56
Piano di rilevazione ...................................................................................................................................................... 58
Classificazione delle Rilevazioni.................................................................................................................................. 58
I Focus group ................................................................................................................................................................ 59
Calendario dell’indagine............................................................................................................................................... 63
QUINTO CAPITOLO IL QUESTIONARIO................................................................................................................... 64
Modello di rilevazione.................................................................................................................................................. 64
Schema di costruzione del questionario........................................................................................................................ 69
L’uso delle scale di valutazione.................................................................................................................................... 70
Qualità dei dati.............................................................................................................................................................. 71
Revisione dei dati ......................................................................................................................................................... 73
Memorizzazione dei dati............................................................................................................................................... 74
SESTO CAPITOLO SISTEMAZIONE DEI DATI IN TABELLE.................................................................................. 79
Distribuzione di frequenze o semplici o analisi monovariata ....................................................................................... 80
L'analisi bivariata ...................................................................................................................................................... 86
SETTIMO CAPITOLO LE RAPPRESENTAZIONI GRAFICHE .................................................................................. 88
Regole da osservare nella compilazione di un grafico.................................................................................................. 88
Rappresentazione delle variabili................................................................................................................................... 93
BIBLIOGRAFIA .............................................................................................................................................................. 97
Pag. 2
PREMESSA
Una società dell’informazione come la nostra, complessa, frazionata ed in rapidissima
evoluzione, esprime una forte domanda di dati statistici e/o comunque di informazioni
demografiche, socio-sanitarie, ambientali, economiche non solo da utilizzare a vari livelli
decisionali dai policy makers ma dal mondo politico in generale, dagli imprenditori pubblici e
privati, dagli operatori economici e le parti sociali, dai cittadini.
Ma una società evoluta ha bisogno di informazioni economico-statistiche indipendenti,
attendibili, imparziali, trasparenti ed accessibili, in grado di descrivere le condizioni ed i
cambiamenti che avvengono in essa.
Solo con queste caratteristiche le statistiche possono essere assunte a supporto di decisioni,
per conoscere e capire la realtà demografica e sociale di un’area, la situazione di un’economia
(anche e soprattutto locale), di un’impresa o gruppi di imprese: le statistiche dunque come
strumento di democrazia partecipata ma sempre più spesso di controllo gestionale nel caso sia
delle imprese private sia di quelle pubbliche (controllo politico e organizzativo della pubblica
amministrazione).
Se vogliamo l’informazione statistica (o meglio economico-statistica) interviene su tutte e tre
gli aspetti decisionali:
 consente ex ante l’analisi dei fabbisogni, delle esigenze, l’emergere dei fattori di
debolezza e dei punti di forza di una società,
 rappresenta uno strumento per monitorare in itinere un intervento, un programma, una
iniziativa,
 Infine da un contributo importante alla fase di valutazione finale (analisi ex post).
Tuttavia il problema più evidente riguarda non la disponibilità di statistiche, quanto quello di
saperle “leggere ed interpretare”, di utilizzare le fonti più affidabili e coerenti, di comprendere
il “reale linguaggio dei numeri”. Per esempio nell’economia l’estrema complessità del
comparto sia a livello nazionale che locale, ha determinato la coesistenza di molteplici fonti
informative relative a fenomeni in qualche misura collegati tra loro, se non addirittura
sovrapposti riguardo al particolare dominio osservato. Le attuali fonti statistiche “ufficiali” in
Italia consentono di poter disporre di un quadro informativo piuttosto completo sui diversi
aspetti dell’economia sebbene non esaustivo.
Uno degli obiettivi del corso, è di diffondere la cultura scientifica della statistica attraverso lo
studio delle fasi di ricerca e di formazione dei dati statistici, l’utilizzo diffuso della statistica
descrittiva e in ogni caso dei metodi quantitativi, ma soprattutto sviluppare le abilità nell’uso e
nell’interpretazione della statistica e delle statistiche (letture delle tabelle e dei grafici) al fine
Pag. 3
di prendere decisioni. In particolare una parte importante del corso si articola nella risoluzione
di alcuni problemi, attivando cioè un approccio problem solving che necessariamente richiede
una mentalità interdisciplinare acquisita nello studio di altre discipline.
Un secondo obiettivo che si propone il corso è di conoscere i produttori delle statistiche,
ovvero i network nazionali ed internazionali che raccolgono, elaborano, e diffondono
l’informazione statistica. Infatti, al fine di offrire risposte adeguate ed attendibili alle esigenze
conoscitive dei cittadini, degli studiosi e di coloro che devono fondare le proprie scelte in
campo politico, economico e sociale su informazioni di tipo statistico, esiste una pluralità di
enti che produce dati statistici di elevata qualità, e che fornisce tali informazioni nell'ottica di
un vero e proprio servizio pubblico. Nel caso dell’Italia questa funzione è svolta dal Sistan
(Sistema Statistico Nazionale) di cui si specificheranno finalità, compiti, organizzazione. Uno
dei primi problemi che si affronteranno, nell'approccio con l'informazione statistica, è quello
di orientarsi all'interno delle numerose fonti che producono dati.
Il termine "fonte" ha, infatti, una pluralità di significati: in generale si può dire che essa
coincide con "qualsiasi entità che consenta di acquisire informazioni o dati che si riferiscono a
fenomeni, avvenimenti o gruppi sociali, collocati in un preciso ambito e relativi ad un dato
momento temporale". Ovviamente le fonti statistiche contengono dati riguardanti la misura di
caratteri qualitativi e quantitativi di un certo fenomeno.
Di fronte ad esigenze diversificate è necessario rispondere in modo diversificato evitando,
come spesso accade, la standardizzazione delle statistiche, ma informando solo in relazione
alle esigenze particolari espresse dall’utilizzatore. “L'informazione statistica ufficiale
rappresenta, da sempre, uno strumento di democrazia: offre ai governi, a qualsiasi livello
territoriale, elementi cruciali per prendere decisioni coerenti e assicura ai cittadini la
possibilità di valutare l'operato di chi amministra. Per questo è un bene pubblico,
indispensabile per governare il presente ed il futuro della società. E' importante dunque che
la statistica pubblica produca sempre più e sempre meglio, coerentemente con i cambiamenti
che investono il tessuto economico e sociale dell'Italia" (Biggeri Luigi, presidente dell'ISTAT
in "L'Istituto Nazionale di Statistica 2002/2003").
Nel contempo, è importante mettere in atto un processo educativo e formativo diretto a
diffondere la cultura statistica per l’uso, l’analisi e l’interpretazione corretta dei dati, in modo
da avere una società non dominata dall’orgia dei dati e dal potere dell’informazione statistica,
ma più consapevole del proprio stato e quindi meno soggetta agli alti e bassi delle cifre.
Pag. 4
PRIMO CAPITOLO
RICHIAMI ALLA STATISTICA DESCRITTIVA
“La statistica è il metodo per la raccolta, la classificazione, l’elaborazione, l’analisi, dei dati
utilizzati nelle scienze empiriche e per la generalizzazione dei risultati, in termini
probabilistici, ai casi non osservati” (S. Zani).
Statistica non è quindi sinonimo di statistiche con cui si intende i grafici, le tabelle, gli indici
le medie, ecc. ma come la definisce Domenico Piccolo (op. cit.) “Scienza delle decisioni in
condizione di incertezza, … che sull’esperienza e sulle evidenze empiriche”. Sua caratteristica
principale è che non può prescindere dall’osservazione di dati di fatti.
Ma l’osservazione deve seguire delle regole ben precise che sono attinenti sia alla raccolta dei
dati che deve essere fatta in forma organica e sistematica, sia alla gestione delle informazioni
(i dati elementari).
Con i concetti sopra esposti introduciamo l’indagine statistica (o esperimento statistico) che si
basa sull’osservazione di fenomeni i quali possono manifestarsi in diversi modi e
introduciamo il metodo statistico, assumendo come proprio il criterio induttivo (a partire cioè
dall'osservazione dei fatti), il quale opera attraverso l’analisi dei fenomeni collettivi allo scopo
di ricavare, pur nella varietà delle singole manifestazioni (varietà che va colta proprio
dall’indagine statistica), le leggi soggiacenti ai fenomeni stessi in modo da evidenziarne
eventuali regolarità e trarre anche previsioni.
La Statistica è quindi la disciplina che studia i fenomeni collettivi di qualsivoglia natura (fisici,
biologici, demografici, socioeconomici, ambientali), la cui misura richiede la disponibilità di
una massa di osservazioni individuali. Essa mira all’acquisizione, alla classificazione dei dati
singoli, alla loro sintesi, per la formulazione di ipotesi e teorie circa i meccanismi di
regolazione dei fenomeni stessi e per la loro verifica.
Riepilogando
Statistica = scienza del collettivo, studio di fatti o fenomeni collettivi.
Fenomeni collettivi = costituiti da insiemi di fatti o eventi singoli,
omogenei ma variabili nelle manifestazioni individuali, la cui conoscenza
richiede una collezione di osservazioni singole.
La Statistica si divide i due importanti ambiti di analisi:
 - la Statistica descrittiva che rappresenta l’insieme dei metodi di analisi che si prefiggono
la descrizione dei fenomeni. Molto spesso ci si trova a dover lavorare con un grande
Pag. 5
numero di dati di fronte ai quali emerge la necessità di individuare indicatori di sintesi
ovvero a procedere ad una descrizione riassuntiva, di individuare gli elementi
caratteristici;
 - la Statistica inferenziale che comporta processi di inferenza in probabilità per
l’interpretazione dei risultati dell’analisi. Accanto all’Analisi descrittiva ne emerge una
seconda cioè di avanzare delle generalizzazioni sui risultati ottenuti con le osservazioni
effettuate. In altre parole, dall’osservazione di un certo numero di casi (campione), si tratta
di ricavare la legge del fenomeno (sono metodi che consentono di “inferire”, di “indurre”
di “generalizzare”). In termini concreti l’induzione si occupa del passaggio dal campione
alla popolazione (o universo) da cui il campione è tratto.
La Statistica si propone di
1. raccogliere le informazioni relative a ciascuna manifestazione elementare (micro-dati) di
cui si compone il fenomeno oggetto di studio;
2. sintetizzare in forma chiara e comprensibile le informazioni elementari (micro-dati) in dati
riassuntivi (macro-dati);
3. interpretare i macro-dati individuando regolarità, rapporti tra i diversi valori assunti,
relazioni tra fenomeni oggetto di studio ed i fattori che li influenzano, gli effetti che
derivano.
Per micro-dato o dato elementare si intende il dato individuale che si riferisce al singolo
carattere osservato su ciascuna unità di analisi. Se l’unità di analisi è un aggregato di unità
statistiche, come ad esempio la famiglia ed i suoi componenti, il dato relativo all’età o data di
nascita, al sesso, al comune o provincia o regione di residenza, al titolo di studio, alle
condizioni di salute, ecc. o come ad esempio se l’unità di rilevazione è l’impresa, il fatturato,
gli addetti, la natura giuridica, sono da considerarsi dati elementari.
Requisiti dell’informazione statistica
Esiste una questione preliminare allo sviluppo di una indagine statistica e all’utilizzo delle
fonti statistiche che riguarda la qualità dell'informazione che si deve raccogliere e quindi
elaborare, una questione che riguarda l'intero processo di misura.
Volendo semplificare, se volessimo applicare l'analisi al processo di produzione
dell'informazione o del dato possiamo identificare le seguenti importanti dimensioni della
qualità, alcune le svilupperemo ulteriormente nel Capitolo relativo a “Le Fonti Statistiche
Ufficiali”, (sottolineiamo quelli più importanti):
Pag. 6
-
-
-
-
-
pertinenza o efficacia indica la capacità delle informazioni a soddisfare agli obiettivi
conoscitivi dell’indagine, sia quella di soddisfare le esigenze conoscitive degli utilizzatori;
accuratezza indica la capacità delle stime di avvicinarsi ai valori incogniti della
popolazione. Si tratta di una valutazione essenziale per giudicare la capacità dei dati di
rappresentare il fenomeno;
tempestività (riguarda la diffusione dei dati) e indica il tempo che intercorre tra la
rilevazione dei dati e la loro disponibilità, in altre parole è connessa alla possibilità per gli
utenti finali di disporre di dati aggiornati. Una statistica può essere considerata tempestiva
se, in rapporto a determinati obiettivi, è diffusa in tempi congrui al loro raggiungimento.
Per valutare quantitativamente la tempestività si può sia stabilire nel programma di attività
la data di pubblicazione delle statistiche, sia far valutare i tempi della messa a
disposizione da un insieme di utenti. La domanda di tempestività può essere indotta sia
dall’urgenza dell’informazione, allo scopo ad esempio di prendere decisioni strategiche,
sia da una rapidità di mutamento nel fenomeno osservato, tale da ridurre l’obsolescenza
dell’informazione prodotta;
regolarità (riguarda la diffusione dei dati) e indica la frequenza con cui il dato viene
diffuso e quindi la frequenza con cui l’indagine è ripetuta. Non esiste una frequenza
ottimale ma essa va valutata alla luce del fenomeno oggetto di studio;
accessibilità riguarda la possibilità che gli utilizzatori hanno di avere o di utilizzare le
informazioni e le eventuali difficoltà che sussistono per tale accesso;
chiarezza riguarda la disponibilità della documentazione sull’indagine (quindi le modalità
attraverso le quali è stata condotta);
comparabilità esiste se è assicurata la possibilità di effettuare confronti omogenei nel
tempo e nello spazio relativamente alla stessa fonte;
coerenza concetto connesso al confronto tra più fonti statistiche e riguarda la possibilità
di ottenere informazioni non contraddittorie dall'insieme di tali fonti;
completezza che si ottiene se il complesso delle statistiche disponibili in un dato sistema
o sottosistema statistico è in grado di soddisfare alle esigenze espresse dagli utilizzatori.
Per esempio l’argomento Salute e Welfare dall’Istat viene analizzato e studiato seconda i
temi della Salute e sanità e dell’Assistenza e previdenza: nel primo caso i temi indagati
sono quelli degli Incidenti stradali, dell’Uso e abuso di alcol in Italia, le Tavole di
mortalità della popolazione residente, la Salute e la sicurezza sul lavoro, I tumori negli
adolescenti e nei giovani adulti, ecc., nel secondo caso i temi rilevati sono Trattamenti
pensionistici e beneficiari, gli Interventi e servizi sociali dei Comuni, le Prestazioni
pensionistiche, le Cause di lavoro, previdenza e assistenza, ecc.;
affidabilità ovvero che le informazioni devono fornire un quadro sufficientemente
accurato e preciso dell'oggetto di ricerca.
Pag. 7
Concetti statistici generali (richiamo)
I concetti chiave corrispondono ad altrettante modalità fondamentali di trattamento
dell'informazione:
-
elencare: in qualunque problema di analisi statistica bisogna innanzitutto essere in grado
di elencare con chiarezza quali sono le unità elementari (per esempio l’insieme delle
imprese italiane). Queste unità vengono a costituire degli archivi di dati elementari su cui
si basano tutte le successive elaborazioni statistiche, e normalmente sono identificate con
un codice (ATECO 1 ) e una descrizione (ragione sociale).
-
classificare: le unità elementari (nel nostro caso le imprese) vengono raggruppate in classi
in funzione di determinati attributi ritenuti rilevanti, come ad esempio l'appartenenza a
sezioni, divisioni, gruppi, classi, categorie e sotto-categorie di attività economica o
qualunque altro criterio (per esempio la natura giuridica). L'esito di una classificazione è
comunque l'aggregazione delle unità elementari in un numero finito di classi nell'ambito
della medesima classificazione, una unità non può quindi appartenere a più classi
contemporaneamente, e l'appartenenza all'aggregato diventa un attributo strutturale non
modificabile (se non modificando la classificazione). Un primo criterio di classificazione
per attività economica (attività prevalente) delle imprese italiane al livello più alto (il
primo livello) abbiamo la sezione 2
A Agricoltura, silvicoltura e pesca
B Attività estrattiva
C Attività manifatturiere
D Fornitura di energia elettrica, gas, vapore e aria condizionata
E Fornitura di acqua; reti fognarie, attività di trattamento dei rifiuti e risanamento
F Costruzioni
G Commercio all’ingrosso e al dettaglio; riparazione di autoveicoli e motocicli
H Trasporto e magazzinaggio
I Servizi di alloggio e ristorazione
J Servizi di informazione e comunicazione
K Attività finanziarie e assicurative
L Attività immobiliari
M Attività professionali, scientifiche e tecniche
N Attività amministrative e di servizi di supporto
O Amministrazione pubblica e difesa; assicurazione sociale obbligatoria
P Istruzione
Q Sanità e assistenza sociale
1
Si tratta di una classificazione creata, principalmente, per fini statistici, con l’obiettivo di soddisfare l’esigenza
di una comune nomenclatura per la classificazione delle unità di produzione di beni e servizi. Istat,
Classificazione delle attività economiche. ATECO 2007, derivata dalla Nace Rev. 2, Metodi e Norme n. 40,
Roma 2009
2 L’Ateco 2007 è costituito da 21 Sezioni, 88 Divisioni, 272 Gruppi, 615 Classi, 918 Categorie e 1.224
Sottocategorie Le sezioni sono costituiti da un codice alfabetico costituito una lettera maiuscola.
Pag. 8
R Attività artistiche, di intrattenimento e divertimento
S Altri servizi pubblici, sociali e personali
T Attività di famiglie e convivenze come datori di lavoro per personale domestico;
produzione di beni e servizi indifferenziati per uso proprio da parte di famiglie e
convivenze
U Attività di organizzazioni e organismi extraterritoriali
Volendo continuare con la classificazione delle attività economiche ad un livello più
dettagliato delle imprese per esempio operanti nella Sanità ed Assistenza Sociale
possiamo considerare la classe di attività economica per cui abbiamo
a)
b)
c)
d)
-
i Servizi ospedalieri sono classificati come Q86 e comprendono i Servizi
ospedalieri classificati nel codice Q86.1 (Ospedali e case di cura generici, Ospedali
e case di cura specialistici, Istituti, cliniche e policlinici universitari, Ospedali e
case di cura per lunga degenza ), i Servizi degli Studi medici e odontoiatrici
classificati nel codice H86.2 (Servizi degli studi medici di medicina generale,
Servizi degli studi medici specialistici e cioè le Prestazioni sanitarie svolte da
chirurghi, gli Ambulatori e poliambulatori del Servizio Sanitario Nazionale, le
Attività dei centri di radioterapia, le Attività dei centri di dialisi, gli Studi di
omeopatia e di agopuntura, i Centri di medicina estetica e Altri studi medici
specialistici e poliambulatori), e gli Altri servizi degli Studi medici e odontoiatrici
classificati nel codice H86.9 (Laboratori radiografici, Laboratori di analisi cliniche
Laboratori di igiene e profilassi, Attività paramediche indipendenti come la
Fisioterapia, le Attività svolta da psicologi, i Servizi di ambulanza, delle banche
del sangue, le Attività degli ambulatori tricologici, i Servizi di ambulanza, le
banche del sangue e altri servizi sanitari);
i Servizi di assistenza sanitaria classificati come Q87 e comprendono le Strutture
di assistenza infermieristica assistenziale classificati nel codice Q87.1, le Strutture
di assistenza residenziale per persone affette da ritardi mentali, disturbi mentali o
che abbiano abusato di sostanze stupefacenti Q87.2, le Strutture di assistenza
residenziale per anziani e disabili Q87.2, e le Altre strutture di assistenza
residenziale classificate come Q87.9;
infine l’Assistenza sociale non residenziale Q88;
contare: quando le unità elementari sono suddivise in classi, normalmente una prima
informazione riguarda il numero di unità appartenenti alle singole classi. Incrociando due
classificazioni, e contando il numero di occorrenze nei singoli incroci, si ottengono le
cosiddette tabelle di contingenza, che sono degli strumenti di analisi statistica semplici e
molto potenti.
Pag. 9
Esempio di conteggio delle imprese operanti nella Sanità ed Assistenza Sociale
Classe di attività economica
n.ro imprese
Servizi ospedalieri
Servizi degli studi medici e odontoiatrici
Altri servizi di assistenza sanitaria
Servizi di assistenza sociale residenziale
Assistenza sociale non residenziale
TOTALE
Esempio di incrocio di due classificazioni
Classe di attività economica/Regione
Piemonte
….
ITALIA
Servizi ospedalieri
Servizi degli studi medici e odontoiatrici
Altri servizi di assistenza sanitaria
Servizi di assistenza sociale residenziale
Assistenza sociale non residenziale
TOTALE
-
-
misurare: la maggior parte dei fenomeni può essere misurata adottando una scala di
riferimento. Quando esiste una unità di misura, l'informazione quantitativa risultante dal
procedimento di misurazione prende il nome di variabile (per esempio le morti a meno di
un anno di vita, il numero di nati-vivi, il numero di ricoveri, ecc. Spesso è necessario
misurare l'intensità di una variabile in rapporto a quella di un'altra variabile di riferimento
(per esempio la durata del ricovero, il tasso natalità e di mortalità ecc.) e allora si
costruiscono i cosiddetti indicatori, che dal punto di vista matematico sono generalmente
rapporti tra variabili.
stratificare: spesso l'analisi di una variabile o indicatore evidenzia l'esigenza di
stratificare i dati, analizzando il comportamento all'interno di singole classi e verificando
altresì quali differenze vi sono da classe a classe (per esempio la mortalità per sesso o per
regione, oppure l’uso di alcol per classe d’età, e ancora gli occupati che dichiarano di
essere esporti a fattori di rischio per attività economica), oppure tra l'andamento
dell'indicatore nella singola classe e quello tipico nella generalità dei casi (per esempio il
tasso di mortalità nella classe d’età 30-39, rispetto al totale).
Pag. 10
Occupati che dichiarano di essere esposti a fattori di rischio fisico sul posto di lavoro
per settore (per cento occupati con le stesse caratteristiche): II trimestre 2007
Settori di attività economica
Maschi
Femmine
Agricoltura, Caccia, Silvicoltura e Pesca
57,3
47,1
Industria Manifatturiera
50,8
29,2
Costruzioni
66,4
9,1
Commercio
39,0
19,9
TOTALE
44,3
26,7
Fonte: Istat, Salute e sicurezza sul lavoro: II trimestre 2007, Statistiche in breve, 23
dicembre 2008
-
-
-
sintetizzare: l'analisi statistica dei dati deve sempre privilegiare la sintesi. Esistono
tecniche statistiche avanzate la cui logica di calcolo è complessa, ma i cui risultati sono di
agevole interpretazione e che sono state studiate per sintetizzare il contributo informativo
di una molteplicità di variabili. In particolare, l'analisi fattoriale delle corrispondenze è
utile quando si voglia sintetizzare i risultati di indagine sui fenomeni effettuate tramite
questionari (ad esempio relativamente alla qualità dei servizi), mentre la cluster analysis è
indispensabile per classificare le unità elementari di rilevazione in relazione a fenomeni
che non possono dar luogo ad un unico criterio di misurazione e suddivisione in classi, ma
vengono colti solo considerando simultaneamente una molteplicità di variabili.
correlare: l'analisi statistica dei dati può infine servire ad indagare la relazione tra diversi
fenomeni, calcolando le misure di correlazione tra le variabili e, con il metodo della
regressione lineare o multipla, verificando se esistono leggi di causa-effetto che legano tra
di loro le variabili.
presentare: una tabella densa di numeri, pur rappresentando già una notevole sintesi, non
consente spesso il colpo d'occhio sui fenomeni più significativi. Per questo l'informazione
finale viene presentata anche sotto forma di grafici statistici, il cui scopo è dare il giusto
risalto ai dati più importanti.
Concetti riguardanti le rilevazioni statistiche (richiami)
Rilevazione statistica: è il complesso delle operazioni indirizzate all’acquisizione di una o più
informazioni su un insieme di elementi oggetto di studio. Per esempio: l’indagine
multiscopo sulle Famiglie “Famiglie e soggetto sociali”, svolta dall’ISTAT nel 2009.
Popolazione o collettivo statistico o aggregato statistico si intende l’insieme (finito e infinito)
delle unità statistiche sulle quali si effettua, tramite osservazioni e sperimentazioni, la
rilevazione di uno o più caratteri. Con riferimento all’esempio il collettivo è costituito dalle
famiglie di fatto.
Pag. 11
Campione: è un qualsiasi sottoinsieme derivato da una popolazione, finalizzato ad uno studio
statistico. Con riferimento all’esempio di cui sopra, il campione è costituito dalle famiglie
di fatto.
Unità statistiche (casi individuali della popolazione o del collettivo) si intendono gli elementi
rientranti nel campo di osservazione e sottoposti a rilevazione. Da esse si distinguono le
unità di rilevazione, che sono le unità prescelte per effettuare l’intervista. Non sempre le
unità statistiche coincidono con quelle di rilevazione. Con riferimento all’esempio le unità
statistiche sono i componenti la famiglia.
Carattere si intende una qualsiasi quantità o qualità che varia, ossia che può assumere più
valori o forme verbali. Con riferimento all’esempio possibili caratteri sono: il sesso, l’età
(in anni compiuti), il titolo di studio, la residenza, la cura dei bambini, le reti informali di
aiuto, i servizi assistenziali alla famiglia.
Modalità si intende l’articolazione del carattere, cioè l’espressione concreta attraverso la
quale si manifesta il carattere nelle unità statistiche. Con riferimento all’esempio il
carattere “Sesso” si suddivide in Maschi (M) e Femmine (F).
Nell’indagine multiscopo il carattere “La cura dei bambini” viene indagata attraverso la
seguente domanda: 8.1 A quali tra le seguenti persone adulte, è abitualmente affidato il
bambino/ragazzo quando non è con i genitori o a scuola ? (possibili più risposte)
Nonni conviventi
1
Nonni non conviventi
2
Fratelli/sorelle maggiorenni
3
Altri parenti conviventi
4
Altri parenti non conviventi
5
Amici, vicini, altri non retribuiti
6
Persone retribuite (baby sitter)
7
Non è affidato ad un adulto
8
Di solito non si verifica la necessità di affidarlo a qualcuno
9
Il carattere “Le reti informali di aiuti” viene indagata attraverso la seguente domanda: 10.1
Nelle ultime 4 settimane ha fornito gratuitamente a persone (parenti o non) che non
vivono con Lei qualcuno dei seguenti aiuti ? (leggere tutte le risposte, possibili più
risposte)
Aiuto economico
01
Prestazioni sanitarie (iniezioni. Medicazioni, ecc.)
02
Accudimento, assistenza di adulti (aiuto a lavarsi, vestirsi, mangiare, ecc.) 03
Accudimento, assistenza ai bambini
04
Aiuto in attività domestiche anche non nella casa della persona aiutata
(lavare, stirare, fare la spesa, preparare i pasti, ecc.)
05
Compagnia, accompagnamento, ospitalità
06
Espletamento di pratiche burocratiche (andare alla posta, in banca, ecc.)
07
Pag. 12
Aiuto nell’esecuzione di lavoro extradomestico
Aiuto nello studio
Aiuto sotto forma di cibo, vestiario, ecc.
Altro
Nessuno
08
09
10
11
12
Frequenza è il numero di volte in cui si presenta una determinata modalità. In una
distribuzione di frequenze rappresenta l’elemento più importante.
Serie: si intende l’insieme delle modalità rilevate su una popolazione (o campione) ed
organizzate in modo che ad ogni unità statistica corrisponda una ben definita modalità. Con
riferimento all’esempio possiamo ottenere la seguente serie di (20) persine per le quali è stata
rilevato il carattere “Sesso”
M, M, F, M, M, M, F, M, M, F, M, M, M, M, F, F, F, F, F, F
Seriazione: si intende l’insieme delle modalità di una popolazione (o campione) organizzate
in modo che a ciascuna modalità corrisponda la relativa frequenza. Essa definisce in questo
modo distribuzione di frequenze. Con riferimento all’esempio abbiamo”
Sesso
Spoglio

Maschi (M)
 
Frequenze
11
Femmine /F
 
9
TOTALE
20
20
Tipologia dell’informazione statistica (richiami)
Elemento essenziale per l’analisi statistica è dunque l’informazione che viene raccolta presso
le unità statistica di una popolazione o collettivo. In termini generali questa/queste
informazioni definiscono i caratteri. Quindi i
Caratteri sono “misure” di caratteristiche, solitamente elementari, riferite alle unità
statistiche. Su ogni unità statistica vengono rilevati diversi aspetti ciascuno dei quali è
appunto chiamato carattere. Esso è dunque un qualunque attributo posseduto da una unità
statistica. I caratteri si distinguono in qualitativi (mutabili o variabili qualitative) le cui
modalità sono espresse in forma verbale e in quantitativi (variabili) le cui modalità sono
espressioni numeriche.
Pag. 13
Le Mutabili si distinguono in:
 sconnesse o nominali. Assumono un insieme finito di categorie mutuamente esclusive tali
che, per due differenti unità statistiche, si può definire soltanto se queste assumono la
stessa o differenti categorie (es.: genere, comune o Stato di residenza)
 ordinali. Assumono un insieme finito di categorie mutuamente esclusive tali da poter
ordinare due unità statistiche secondo il possesso di caratteristiche possedute. Per queste
murabili è quindi possibile stabilire una relazione d’ordine tra le unità statistiche (es:
titolo di studio)
Le Variabili si distinguono in
 discrete. La caratteristica può essere descritta mediante un numero finito o infinito
numerabile di valori numerici, fra i quali abbia senso calcolare una differenza e/o un
rapporto (es. imprese, incidenti, stradali, infortunati feriti a causa di incidente stradale,
infortunati morti a causa di incidenti stradali, componenti della famiglia).
 continue. La caratteristica può essere descritta mediante un’infinità non numerabile di
valori, fra i quali abbia senso calcolare una differenza e/o un rapporto. Quindi in linea di
principio le modalità possono assumere un qualsiasi valore di un intervallo reale (es.:
fatturato d’impresa, il tempo impiegato per raggiungere un aeroporto, l’età). In realtà una
variabile è continua “sul piano concettuale in quanto, se si considera ciò che avviene in
pratica, ogni indagine sarà costretta ad approssimare le misurazioni dei fenomeni reali e
quindi, di fatto, a rendere discrete quelle variabili che per definizione sono continue” (D.
Piccolo), per esempio l’età viene rilevata in anni compiuti.
Caratteri dicotomici sono quelli che assumono due sole modalità: assenza (0) e presenza (1).
Nell’indagine multiscopo la domanda: 3.2 E’ affetto da malattie croniche e problemi di
salute di lunga durata ? (il termine “lunga durata” si riferisce a malattie o problemi che
durano da almeno 6 mesi o si prevede che durino per almeno 6 mesi)
No
Si
1
2
Caratteri “tempo/spazio”
1. serie storiche (o serie temporali: riferite a modalità di tempo, (es: nati-vivi e morti per
mese, incidenti stradali per anno, infortuni sul lavoro per trimestre), esse rappresentano la
dinamica di un certo fenomeno registrato istantaneamente (anno, mese, trimestre,
settimana) o conteggiato durante un periodo prefisssato;
2. serie cicliche (ordinabili senza che ci sia necessariamente un ordine, quindi ordinabili a
piacere es: temperature minime medie giornaliere, morti per mese);
Pag. 14
3. serie geografiche (o serie territoriali riferite a modalità territoriali (es: incidenti stradali
per regione), esprimono la distribuzione di una variabile in rapporto ad unità statistica
espressa come territorio (comuni, distretti, province, regioni, Stati, ecc.).
Una singola variabile generalmente viene indicata con la lettera X, mentre le sue modalità
sono x 1 , x 2 ,…, x i ,… x k . Quanto le variabili sono di o più si parla di varabili doppie, triple, …
multiple e le modalità saranno rispettivamente
Coppie ordinate (x 1 , y 1 ) (x 2 , y 2 ) ….
Triple ordinate (x 1 , y 1 , z 1 ) ( x 2 , y 2 , z 2 )…..
n. ple ordinate
(x 1 , y 1 … w 1 ) ( x 2 , y 2 … w 2 )….
Indicatori sintetici delle variabili statistiche (richiami)
L’applicazione della statistica richiede, molto spesso, il confronto tra due o più distribuzioni
di frequenze per esempio le performances di una struttura ricettiva rispetto ad un’altra o di
una località turistica rispetto ad un’altra. Per operare questi confronti è necessario utilizzare
misure di sintesi che riassumono importanti aspetti delle variabili oggetto di analisi. Il calcolo
di questi indici di sintesi rientra nella Statistica descrittiva la quale analizza tre particolari
aspetti di una distribuzione di frequenze:
a) la posizione, ovvero la misura della centralità;
b) la variabilità, ovvero la “mutevolezza” dei dati;
c) la forma, ovvero l’adattamento della distribuzione a dei modelli di riferimento o
configurazioni standard.
Gli indici di posizione sono grandezze statistiche che sintetizzano i risultati di più
osservazioni numericamente compatibili e riguardanti il medesimo oggetto. Questa sintesi
dovrà essere rappresentativa della variabile nella sua globalità, deve essere espressa nella
stessa unità di misura.
Medie (generalità): le più importanti sono la Media aritmetica, la Media Quadratica, la Media
Geometrica e la Media Armonica che si ottengono effettuando determinate operazioni
sull'insieme di tutti i valori osservati.
Concentriamoci sulla Media Aritmetica (o Media la quale esprime una sintesi di una
distribuzione statistica): se si tratta di una Serie avremo
M (X ) 
x
i 1
i
n
Se si tratta di una distribuzione di frequenze avremo la media ponderata
Pag. 15
M (X ) 
 x * n
i1
i
 n
i1
i
i
Esempio su una serie: Su un gruppo di 15 imprese medie della provincia di Udine intervistate sui
fabbisogni formativi in modalità e-learning si è rilevato il n.ro di addetti
100, 95, 80, 94, 90, 100, 96, 88, 82, 65, 70, 85, 77, 95, 100
Calcolare il numero medio di addetti per impresa
M(X) = (100+95+80+94+90+100+96+88+82+65+70+85+77+95+ 100)/15 = 87,5
Esempio su una distribuzione di frequenze
Sia data la seguente tabella che riporta i Fatturati (espressi in milioni di Euro) di Imprese Commerciali
e di Imprese Manifatturiere
Classi di Fatturato
Imprese
Commerciali
15
20
25
10
5
5
0-15
15-30
30-40
40-50
50-60
60-80
Imprese
Manifatturiere
10
25
30
15
5
5
Fatturano di più le Imprese Commerciali o quelle Manifatturiere ?
Calcoliamo la media, anzi le medie.
Classi di
Fatturato
0-15
15-30
30-40
40-50
50-60
60-80
TOTALE
Imprese
Commerciali
(2)
15
20
25
10
5
5
80
ai
(3)
xi’
(4)
x i ’n i
(5)=(4)*(1)
15
15
10
10
10
20
7,5
22,5
35
45
55
70
112,5
450,0
875,0
450,0
275,0
350,0
2.512,5
La prima elaborazione riguarda il calcolo del valore centrale della classe che sarà
lim inf 
lim sup  lim inf
2
dove limite sup – limite inf non è altro che l’ampiezza della classe a i
Cominciamo proprio dall’ampiezza (colonna 3). Osserviamo che l’ampiezza è diversa da classe a
classe. Il valore centrale valore calcolato nella colonna 4 e utilizzando questo valore la media sarà
M (X ) 
 x 'n
i
i 1
 n
i 1
dove il numeratore è calcolato nella colonna 5 da cui
Pag. 16
i
i
M(X Com ) = 2.512,5/80 = 31,41
Analogamente per le Imprese Manifatturiere otteniamo
M(X Man ) = 2.512,5/80 = 33,19
Quindi le imprese Manifatturiere registrano un fatturato medio superiore a quello delle Imprese
Commerciali.
Proprietà e difetti della media aritmetica
a) la Media è sempre compresa tra il valore minimo e quello massimo della serie o
distribuzione (proprietà)
b) la Somma gli scarti dalla media e nulla (proprietà)
c) la Media gode della proprietà della linearità ovvero se si aggiunge o toglie una
costante alla variabile la rispettiva media sarà modificata dello stesso ammontare
(proprietà)
d) la Media è l’unico valore per cui la Somma degli scarti al quadrato è minima
(proprietà)
e) la Media risente dei valori estremi della distribuzione in quanto rappresenta il
baricentro della distribuzione ed un valore fortemente divergente da tutti gli altri attrae
il baricentro nella sua direzione (difetto).
Esempio per evidenziare questo difetto: ipotizziamo di aver rilevato in cinque Imprese
Manifatturiere ed in cinque Imprese Commerciali l’utile in milioni di euro come riportato
nella tabella seguente:
Settore
Utile rilevato
Media aritmetica
Manifattura
(1,2,3,4,5)
3
Commercio
(1,2,3,4,50)
12
La media delle Imprese Manifatturiere (=3) può essere utilizzata come indicatore sintetico
della distribuzione, mentre il valore anomalo di 50 nella distribuzione delle Imprese
Commerciali rende del tutto inefficace la media del “Settore Commercio”, in quanto essa non
rappresenta in modo adeguato né le primi 4 imprese né l’ultima.
Medie di posizione: sono valori dell'insieme che godono di particolari proprietà
 moda o norma è il valore che si presenta più spesso, in altri termini il valore che in una
distribuzione di frequenze si trova ad avere la frequenza massima (assoluta o relativa),
Pag. 17
Esempio: Nati nei punti nascita del Friuli Venezia Giulia per modalità di parto: anno
2008
Freq. assolute
Freq. relative
7.251
0,69
Cesareo con travaglio
1.387
0,132
Cesareo di elezione
1.188
0,113
Con ventosa
667
0,063
Altre Modalità
11
0,01
10.504
1
Modalità di parti
Spontaneo
TOTALE
Fonte: Regione Autonoma FVG,Regione in cifre 2009
La modalità più frequente è “Parto spontaneo” che quindi è la moda della distribuzione.
 mediana è il valore che, in una successione ordinata, si trova esattamente al posto centrale
della distribuzione cioè lascia tanti elementi a sinistra quanti a destra,
Per le variabili discrete
a) se né dispari Me= x (n+1/2)
b) se n è pari
Me= (x (n/2) + x (n+1/2) )/2
Per le variabili continue
N
h
2
Me ( X )  lim inf  (
)*a
f
h 1
h
i
i
 quantili (quartili, decili, percentili) sono una generalizzazione della mediana trattandosi di
valori che dividono la distribuzione ordinata in tante classe uguali (i quartili in quattro
parti, i decili in dieci, i percentili in cento parti uguali). Soffermiamoci ai quartili
Primo quartile di una distribuzione di frequenze
N
h
4
Q 1( X )  lim inf  (
)*a
f
h 1
h
i
i
dove
 lim inf è il limite inferiore della classe mediana
  h è la cumulata fino alla classe immediatamente precedente la classe mediana
i
h 1
 f i frequenza della classe mediana
 ai ampiezza della classe mediana
Pag. 18
Esempio su una distribuzione di frequenze
Consideriamo la tabella dell’esempio precedente
Classi di Fatturato
Imprese
Commerciali
15
20
25
10
5
5
0-15
15-30
30-40
40-50
50-60
60-80
confrontare i valori mediani
Imprese
Manifatturiere
10
25
30
15
5
5
Dovremo preliminarmente procedere alla costruzione delle frequenze cumulate (colonna 3)
Classi di
Fatturato
0-15
15-30
30-40
40-50
50-60
60-80
TOTALE
Imprese
Commerciali(2)
15
20
25
10
5
5
80
Ni
(3)
15
35
60
70
75
80
Per il calcolo della mediana utilizzeremo la formula
N
  hh
2
h 1
Me ( X )  lim inf  (
) * ai
fi
Per prima cosa determiniamo la posizione mediana cioè con riferimento alle Imprese Commerciali
n/2 = 40.a posizione
per decidere in quale classe rientra l’x i occupa la 40.a posizione utilizzeremo e frequenze cumulate
(colonna 3). La classe mediana è 30-39 anni, pertanto
Me ( X
Comm
)  30  (
40  35
) * 10
25
= 32,0
45  35
) * 10
30
= 33,3
Analogamente per le Imprese Manifatturiere
Me ( X
Man
)  30  (
quindi il 50% delle imprese Commerciali fattura meno di 32 milioni di euro, mentre il 50% delle
imprese Manifatturiere fatturano meno di 33,3 milioni di euro.
Pag. 19
Indicatori di variabilità delle variabili statistiche (richiami)
Le misure di tendenza centrale non sono sufficienti per sintetizzare un collettivo statistico; è
necessario affiancare a queste misure altri indicatori capaci di fornire informazioni sulla
dispersione cioè sulla lontananza/distanza delle varie osservazioni dal valore medio che
rappresenta il centro della distribuzione. Quanto minore sarà la distanza delle osservazioni dal
centro tanto maggiore sarà la rappresentatività e l’affidabilità del valore medio.
Indici assoluti:
Campo di variazione (range): differenza tra valore massimo e valore minimo della
distribuzione
Varianza e scarto quadratico medio: rispettivamente la media quadratica degli scarti dei
singoli valori dalla loro media e la radice quadrata della varianza;
 ( x  M ( X )) * n
2
Var ( X ) 
i 1
i
n
i 1
n
i
Esempio su una distribuzione di frequenze
Partiamo sempre dalle tabelle già utilizzata in precedenza:
Classi di Fatturato
Imprese
Imprese
Commerciali
Manifatturiere
0-15
15
10
15-30
20
25
30-40
25
30
40-50
10
15
50-60
5
5
60-80
5
5
Fatto salvo che il fatturato medio delle imprese Commerciali è di 31,41 milioni di euro e quello delle
Imprese Manifatturiere di 33,19 milioni di euro, quale delle due distribuzioni presenta maggiore
variabilità ?
Consideriamo i valori centrali calcolati precedentemente (colonna 3).
Classi di
Fatturato
0-15
15-30
30-40
40-50
50-60
60-80
TOTALE
Imprese
Commerciali
(2)
15
20
25
10
5
5
80
xi’
(3)
(x i ’-M(X))2 f i
(4)
7,5
22,5
35
45
55
70
8.572,6
1.586,4
322,9
1.847,9
2.783,3
7.447,4
22.560,5
Si chiede di calcolare le varianze, cominciando dalle Imprese Commerciali
Pag. 20
 ( x ' M ( X )) * n
2
Var ( X ) 
i
i 1
n
i 1
i
i
Gli scarti dalla media al quadrato moltiplicati per le rispettive frequenze sono calcolati nella colonna 7.
Per cui
Var(X Comm ) = 22.560,5/80 = 282,01
Analogamente per le Imprese Manifatturiere otteniamo
Var(X Man ) = 20.800,3/90 =
231,12
Indici relativi:
Coefficiente di variazione: rapporto tra lo scarto quadratico medio e la media al fine di
confrontare eliminare l’unità di misura del fenomeno.
CV ( X ) 
 (X )
M (x)
Infatti, un indice assoluto è idoneo a effettuare il confronto tra la variabilità di due o più
distribuzioni se queste hanno la stessa unità di misura o se hanno all’incirca la stessa media.
Se questo non accade si utilizza il coefficiente di variazione che rapporta lo scarto quadratico
medio (la radice della varianza) alla media ottenendo un numero puro (cioè senza l’unità di
misura).
Esempio
Ipotizziamo che la superficie dei campeggi della località A sia 10.380 mq con uno scarto
quadratico medio di 5.735 mq, mentre nella località B abbiamo una media di 130mila mq ed
uno scarto quadratico medio di 20mila. I due valori medi si discostano notevolmente l’uno
dall’altro quindi non è corretto affermare che la variabilità della superficie dei campeggi sia
superiora nella località B rispetto ad A solo perché lo scarto quadratico medio è maggiore,
infatti, una diversità più elevata in corrispondenza della media più alta potrebbe essere meno
rilevante di una minore variabilità in corrispondenza della media più bassa.
E’ necessario calcolare i due coefficienti di variazione
CV (A) = 0,554
CV (B) = 0.153
Conclusione: eliminando dal valore  l’influenza della media, i campeggi della località A
presentano una maggiore variabilità della località B.
Pag. 21
Standardizzazione di variabili
E’ una procedura molto diffusa in statistica e nell'analisi dei dati mediante la quale è possibile
rendere confrontabili variabili identiche appartenenti a distribuzioni diverse, ma anche
variabili diverse, o variabili espresse in unità di misura diverse.
La variabile standardizzata (Z) misura le deviazioni dalla media aritmetica e ha come unità di
misura la deviazione standard. Un dato così trasformato si chiama punto standard o punto z.
La variabile standardizzata è:
Z
x 
i

x
dove
z rappresenta la distribuzione dei punti standard calcolati a partire da tutti i punti della
variabile x;
x i è il dato di cui si vuole calcolare il punto z
 è la media della distribuzione del carattere x
 x è lo scarto quadratico medio della distribuzione del carattere x
Proprietà della distribuzione di una variabile standardizzata
Ogni punto della vecchia distribuzione corrisponde ad uno e un solo punto della nuova, e
conserva le sue distanze relative da ogni altro punto. Poiché i dati originali sono stati
trasformati in scarti dalla media, e la somma algebrica degli scarti dalla media è per
definizione 0, tutte le variabili standardizzate hanno media 0. Inoltre, poiché ogni scarto dalla
media viene poi diviso per lo scarto-tipo della variabile di partenza, lo scarto-tipo di una
qualunque variabile standardizzata è 1.
Esempio di Standardizzazione (tratto da Corbetta, Gasperini, Pisati, Statistica per la ricerca
sociale, Il Mulino, pag. 85)
Silvana e Roberta sono due sorelle che lavorano come redattrici: la prima a Roma lavora per
una casa editrice italiana e guadagna 20mila euro all’anno, la seconda lavora a New York
per una casa editrice statunitense e guadagna 30mila dollari all’anno. Chi percepisce un
reddito maggiore ?
Tre sono i modi per rispondere a questa domanda
a) utilizzando il tasso di cambio dollaro/euro
b) calcolando il potere d’acquisto nei due Paesi
c) procedere alla standardizzazione.
Noi utilizziamo quest’ultimo procedimento. Dobbiamo però conoscere il reddito medio dei
redattori in Italia e negli Stati Uniti. Ipotizziamo che in Italia abbiamo una media di 10mila
euro ed una deviazione standard di 2.500 euro; negli Stati Uniti i redattori guadagnano in
media 22.500 dollari ed esprimono una deviazione standard di 1.500 dollari
Pag. 22
Standardizziamo i redditi delle due sorelle
Z
roberta

20 mila  10 mila
4
2 .500
Z
silvana

30 . 000  22 . 500
5
1 . 500
Silvana presenta un reddito standardizzato di +5 ossia più elevato di quello di Roberta,
quindi “guadagna di più”.
Statistiche di movimento e di stock
Ai fini della rilevazione si debbono distinguere le Statistiche di movimento che si configurano
come descrizioni numeriche delle continue modifiche della popolazione statistica in un
determinato periodo in relazione ad un fenomeno (per esempio le statistiche sul turismo sono
gli arrivi e le presenze negli esercizi alberghieri e/o complementari) dalle Statistiche di stato o
di stock, di un determinato fenomeno che sono le descrizioni numeriche della popolazione
statistica ad una determinata data (per esempio le statistiche sulle strutture ricettive: numero di
esercizi alberghieri, di camere, letti e bagni, di esercizi complementari).
In altre parole queste statistiche si configurano come serie storiche riguardanti:
a) fenomeni di consistenza la cui consistenza può essere rilevata in ogni istante come
appunto l’offerta ospedaliera, posti-letto, il numero degli istituti ecc.);
b) fenomeni di flusso che per essere rilevati hanno bisogno di un arco di tempo come
appunto i degenti, le giornate di degenza, i nati-vivi, i morti.
Pag. 23
SECONDO CAPITOLO
LE FONTI STATISTICHE UFFICIALI
Lo studio di qualsiasi fenomeno statistico ha come elemento determinante l'analisi delle fonti,
ovvero il "prodotto" della raccolta di informazioni effettuata da vari organismi, generalmente
pubblici, sia per finalità statistiche sia per assolvere a compiti puramente amministrativi.
In questo capitolo analizzeremo in particolare due fonti statistiche:
a) il sistema statistico nazionale ed in particolare l’Istituto Nazionale di Statistica;
b) il sistema statistico della Comunità Europea (EUROSTAT);
c) il Ministero della salute della Salute.
Le fonti statistiche in Italia
La maggior parte delle statistiche riguardanti il turismo è prodotta dal Sistema Statistico
Nazionale (Sistan) istituito con il D. Leg.vo n. 322/89 (Gazz. Uff. 22 settembre 1989, n. 222,
"Norme sul Sistema statistico nazionale e sulla riorganizzazione dell'Istituto nazionale di
statistica, ai sensi dell'art. 24 della legge 23 agosto 1988, n. 400").
Il Sistan è una rete costituita da organismi pubblici, vale a dire un network pubblico che ha il
compito di raccogliere, elaborare, archiviare e diffondere l’informazione statistica.
L’elemento centrale del Sistan è l'Istituto nazionale di Statistica (Istat) il quale ha competenza
specifica ed ampia, sebbene non esclusiva, in materia.
L'Istat è un ente pubblico con personalità giuridica, che agisce sotto il controllo della
Presidenza del consiglio dei Ministri ed effettua le più importanti rilevazioni pubbliche
italiane di interesse generale, così che i dati pubblicati dall'Istat costituiscono le principali
fonti ufficiali di informazione statistica.
Con questo decreto la funzione statistica ufficiale non è affidata solo all'Istat, come accadeva
nel passato, ma a un ampio numero di soggetti e organismi pubblici con competenze
specifiche a livello settoriale e territoriale. Questi organismi operano nel rispetto di una
programmazione triennale che definisce i contenuti informativi sui diversi fenomeni collettivi
analizzati (Programma Statistico Nazionale).
Il Sistema Statistico Nazionale
Il Sistema statistico nazionale (Sistan) è stato istituito con il D. Lg.vo 6 settembre 1989 n.
322, in attuazione della delega contenuta nell'art. 24 della legge n. 400/88, legge che ha
dettato i princìpi ed i criteri direttivi per la riforma della statistica pubblica. Obiettivo primario
del Sistan è quello di fornire al Paese e agli organismi internazionali una informazione
statistica ufficiale che soddisfi i principi di affidabilità, imparzialità, pertinenza, tutela della
riservatezza, trasparenza, minimo carico sui rispondenti, efficienza ai quali si aggiunge la
Pag. 24
tempestività ovvero il tempo che intercorre la tra la raccolta dei dati e la divulgazione dei
risultati che deve essere il più breve possibile.
Del Sistema fanno parte 3 :
1.
2.
l'Istituto Nazionale di Statistica (Istat);
le amministrazioni dello Stato (Presidenza del Consiglio dei Ministri, Ministero degli
Affari esteri, Ministero dell’Ambiente e tutela del territorio, Ministero delle Attività
Produttive, Ministeri per i beni e le attività culturali, Ministero delle Comunicazioni,
Ministero della difesa, Ministero dell’Economie e delle Finanze, Ministero della
Giustizia, Ministero delle Infrastrutture e dei Trasporti, Ministero dell’Interno, Ministeri
dell’Istruzione, dell’Università e della Ricerca, Ministero del Lavoro e delle politiche
Sociali, Ministero delle Politiche Agricole e Forestali, Ministero della Salute,
Amministrazione autonoma dei Monopoli dello Stato);
4. gli Enti Pubblici ed i soggetti privati come l’Automobile Club d’Italia (ACI), l’Agenzia
per le erogazioni in agricoltura (AGEA), l’Agenzia per la protezione dell’ambiente e dei
servizi tecnici (APAT), il Consiglio Nazionale dell’Economia e del Lavoro (CNEL), il
Consiglio Nazionale delle Ricerche (CNR), il Comitato Olimpico Nazionale (CONI),
l’Ente per le nuove tecnologia, l’energia e l’ambiente (ENEA), l’Istituto Nazionale per il
Commercio Estero (ICE), l’Istituto Nazionale per l’assicurazione contro gli infortuni sul
lavoro (INAIL), l’Istituto nazionale per i dipendenti dell’amministrazione pubblica
(INPDAP), l’Istituto Nazionale per la Previdenza Sociale (INPS), l’Istituto Nazionale di
Ricerca per gli Alimenti e la Nutrizione (INRAN), l’Istituito di Servizi per il Mercato
Agricolo alimentare (ISMEA), l’Istituto Superiore di Sanità (ISS), l’Istituto per la
vigilanza sulle assicurazioni private di interesse collettivo (ISVAP), l’Unione Italiana
delle Camere di Commercio (UNIONCAMERE), l’Istituto ricerche economiche per la
pesca e l’acquacoltura (IREPA), le Ferrovie dello Stato spa, l’Ente nazionale di assistenti
agenti e rappresentanti di commercio–Fondazione ENASARCO, la Fondazione “Istituto
Guglielmo Tagliacarne”, il Gestore della Rete di Trasmissione nazionale spa–GRTN, le
Unioncamere regionali di Liguria, Emilia Romagna e Veneto;
5. le regioni e le province autonome;
4. le amministrazioni a livello provinciale ovvero le Camere di Commercio, Industria,
Artigianato e Agricoltura e le province;
5. i comuni singoli o associati;
6. gli enti di informazione statistica come l’Istituto di studi e analisi economica (ISAE).
Successivamente sono stati ammessi a far parte del Sistema anche soggetti privati che
svolgono funzioni o rendono servizi di interesse pubblico, ovvero si configurino come
essenziali per il raggiungimento degli obiettivi del Sistema stesso. Nodo strategico della rete
3
Attività degli Enti del Sistema Statistico Nazionale: anno 2005, in “Giornale del Sistan”, n. 33/2006
Pag. 25
sono le Camere di Commercio le quali svolgono una consistente attività di ricerca statistica
sia quali organi di rilevazione primari o intermedi; sia come produttori di statistiche. La loro
importanza può essere riassunta nei seguenti punti:
- produrre e diffondere informazione statistica in modo fortemente ancorato al territorio ed
alle economie locali;
- produrre e diffondere informazione statistica all'interno di un sistema, ma nel contempo
valorizzando il carattere dell'autonomia cioè le specificità funzionali e territoriali,
l'autonomia progettuale e l'autonomia organizzativa.
Cominciamo dall’istituzione più importante del Sistan ovvero l'Istituto nazionale di
statistica (Istat) che è persona giuridica di diritto pubblico con ordinamento autonomo
sottoposta alla vigilanza della Presidenza del consiglio dei ministri. Suoi organi sono il
Presidente, il Comitato di indirizzo e coordinamento dell'informazione statistica (Comstat), il
Consiglio e il Collegio dei revisori dei conti.
Gli Utilizzatori delle informazioni statistiche
L'informazione statistica è patrimonio della collettività ed i suoi destinatari sono
- gli organi di governo (le amministrazioni centrali e locali);
-
le istituzioni comunitarie;
il mondo della ricerca;
le imprese pubbliche e private;
le organizzazioni di categoria e sindacali;
le associazioni;
i mezzi di informazione;
i cittadini;
la scuola, l'università e le agenzie formative;
le organizzazioni internazionali.
DISCIPLINA GENERALE DEL SISTEMA STATISTICO NAZIONALE
Art. 24 “Delega per la riforma degli enti pubblici di informazione statistica” della
Legge 23 agosto 1988, n. 400 - Disciplina dell'attività di Governo e ordinamento
della Presidenza del Consiglio dei Ministri
delega che è stata attuata con l’emanazione del
Decreto legislativo 6 settembre 1989, n. 322 - Norme sul Sistema statistico
nazionale e sulla riorganizzazione dell'Istituto nazionale di statistica, ai sensi
dell'art. 24 della legge 23 agosto 1988, n. 400 - Capo I
Altre disposizioni sul sito
http://www.sistan.it
visitato nel febbraio 2010
Pag. 26
Consideriamo dunque il
Il Decreto L.gvo n. 322/89 “Norme sul sistema statistico nazionale”
Gli elementi essenziali del Decreto possono essere sintetizzati nel seguente modo:
Capo I - Sistema statistico nazionale
Art. 1. Oggetto della disciplina
Il presente decreto disciplina, …., le attività di rilevazione, elaborazione, analisi e diffusione
e archiviazione dei dati statistici svolte dagli enti ed organismi pubblici di informazione
statistica, al fine di realizzare l'unità di indirizzo, l'omogeneità organizzativa e la
razionalizzazione dei flussi informativi a livello centrale e locale, nonché l'organizzazione e il
funzionamento dell'Istituto nazionale di statistica.
L'informazione statistica ufficiale e agli organismi internazionali attraverso il Sistema
statistico nazionale.
Art. 2. Ordinamento del Sistema statistico nazionale
Fanno parte del Sistema statistico nazionale:
a) l'Istituto nazionale di statistica (ISTAT);
b) gli uffici di statistica centrali e periferici delle amministrazioni dello Stato e delle
amministrazioni ed aziende autonome, istituiti ai sensi dell'art. 3;
c) gli uffici di statistica delle regioni e delle province autonome;
d) gli uffici di statistica delle province;
e) gli uffici di statistica dei comuni singoli o associati e delle unità sanitarie locali;
f) gli uffici di statistica delle camere di commercio, industria, artigianato e agricoltura;
g) gli uffici di statistica, comunque denominati, di amministrazioni e enti pubblici individuati
ai sensi dell'art. 4;
h) gli altri enti ed organismi pubblici di informazione statistica individuati con decreto del
Presidente del Consiglio dei Ministri.
Art. 3. Uffici di statistica
Presso le amministrazioni centrali dello Stato e presso le aziende autonome sono istituiti uffici
di statistica, posti alle dipendenze funzionali dell'ISTAT.
Gli uffici di statistica sono ordinati anche secondo le esigenze di carattere tecnico indicate
dall'ISTAT. …. Omissis
Art. 6. Compiti degli uffici di statistica
Gli uffici di statistica del Sistema statistico nazionale, oltre agli alti compiti attribuiti dalla
normativa che li riguarda:
a) promuovono e realizzano la rilevazione, l'elaborazione, la diffusione e l'archiviazione dei
dati statistici che interessano l'amministrazione di appartenenza, nell'ambito del
programma statistico nazionale;
b) forniscono al Sistema statistico nazionale i dati informativi previsti dal programma
statistico nazionale relativi all'amministrazione di appartenenza, anche in forma individuale
ma non nominativa ai fini della successiva elaborazione statistica;
c) collaborano con le altre amministrazioni per l'esecuzione delle rilevazioni previste dal
programma statistico nazionale;
d) contribuiscono alla promozione e allo sviluppo informatico a fini statistici degli archivi
gestionali e delle raccolte di dati amministrativi.
… omissis
Art.6 bis Trattamenti di dati personali
Pag. 27
1. I soggetti che fanno parte o partecipano al Sistema statistico nazionale possono raccogliere
ed ulteriormente trattare i dati personali necessari per perseguire gli scopi statistici previsti dal
presente decreto, dalla legge o dalla normativa comunitaria, qualora il trattamento di dati
anonimi non permetta di raggiungere i medesimi scopi.
2. Nel programma statistico nazionale sono illustrate le finalità perseguite e le garanzie
previste dal presente decreto e dalla legge 31 dicembre 1996, n. 675. Il programma indica
anche i dati di cui agli articoli 22 e 24 della medesima legge, le rilevazioni per le quali i dati
sono trattati e le modalità di trattamento. Il programma è adottato sentito il Garante per la
protezione dei dati personali.
3. Quando sono raccolti per altri scopi, i dati personali possono essere ulteriormente trattati
per scopi statistici, se ciò è previsto dal presente decreto, dalla legge, dalla normativa
comunitaria o da un regolamento.
4. I dati personali raccolti specificamente per uno scopo possono essere trattati dai soggetti di
cui al comma 1 per altri scopi statistici di interesse pubblico previsti ai sensi del comma 3,
quando questi ultimi sono chiaramente determinati e di limitata durata. Tale eventualità, al
pari di quella prevista del medesimo comma 3, è chiaramente rappresentata agli interessati al
momento della raccolta o quando ciò non è possibile, è resa preventivamente nota al pubblico
e al Garante nei modi e nei termini previsti dal codice di deontologia e di buona condotta.
5. I dati personali sono resi anonimi dopo la raccolta o quando la loro disponibilità non sia più
necessaria per i propri trattamenti statistici.
6. I dati identificativi, qualora possano essere conservati, sono custoditi separatamente da ogni
altro dato personale salvo che ciò, in base ad un atto motivato per iscritto, risulti impossibile
in ragione delle particolari caratteristiche del trattamento o comporti un impiego di mezzi
manifestamente sproporzionato. I dati personali trattati per scopi statistici sono conservati
separatamente da ogni altro dato personale trattato per finalità che non richiedano il loro
utilizzo.
7. I dati identificativi, qualora possano essere conservati, sono abbinabili ad altri dati, sempre
che l'abbinamento sia temporaneo ed essenziale per i propri trattamenti statistici.
8. In caso di esercizio dei diritti dell'interessato ai sensi dell'articolo 13 della legge 31
dicembre 1996, n. 675, l'aggiornamento, la rettificazione o l'integrazione dei dati sono
annotate senza modificare questi ultimi qualora il risultato di tali operazioni non produca
effetti significativi sull'analisi statistica o sui risultati statistici.
Art. 7. Obbligo di fornire dati statistici
….è fatto obbligo a tutte le amministrazioni, enti ed organismi pubblici di fornire tutti i dati e
le notizie che vengono loro richiesti per rilevazioni previste dal programma statistico
nazionale. Sono sottoposti al medesimo obbligo i soggetti privati per le rilevazioni statistiche,
rientranti nel programma stesso …
… omissis
Art. 8. Segreto di ufficio degli addetti agli uffici di statistica
Le norme in materia di segreto d'ufficio previste dal vigente ordinamento dell'impiego civile
dello Stato si applicano a tutti gli addetti agli uffici di statistica previsti dagli articoli 3, 4 e 5.
…omissis
Art. 10. Accesso ai dati statistici
I dati elaborati nell'ambito delle rilevazioni statistiche comprese nel programma statistico
nazionale sono patrimonio della collettività e vengono distribuiti per fini di studio e di ricerca
a coloro che li richiedono secondo la disciplina del presente decreto ….
Pag. 28
Sono distribuite altresì, ove disponibili, su richiesta motivata e previa autorizzazione del
Presidente dell'ISTAT, collezioni campionarie di dati elementari, resi anonimi e privi di ogni
riferimento che ne permetta il collegamento con singole persone fisiche e giuridiche.
Presso la sede centrale dell'ISTAT in Roma, presso le sedi regionali dell'ISTAT, nonché
presso gli uffici di statistica delle prefetture, sono costituiti uffici di collegamento del Sistema
statistico nazionale con il pubblico. … omissis…
Enti od organismi pubblici, persone giuridiche, società, associazioni e singoli cittadini hanno
il diritto di accedere ai dati di cui al comma 1 facendone richiesta agli uffici di cui al comma
3. I dati, se non immediatamente disponibili, vengono consegnati ai richiedenti nel tempo
strettamente necessario per la riproduzione, con rimborso delle spese, il cui importo è stabilito
dall'ISTAT.
…omissis
Art. 13. Programma statistico nazionale
Le rilevazioni statistiche di interesse pubblico affidate al Sistema statistico nazionale ed i
relativi obiettivi sono stabiliti nel programma statistico nazionale. Il programma statistico
nazionale ha durata triennale e viene tenuto aggiornato. …omissis
Capo II - Organizzazione e funzioni dell'ISTAT
Art. 14. Istituto nazionale di statistica
L'Istituto centrale di statistica, istituito con legge 9 luglio 1926 n. 1162, assume la
denominazione di Istituto nazionale di statistica (ISTAT).
L'Istituto nazionale di statistica è persona giuridica di diritto pubblico ed ha ordinamento
autonomo secondo le disposizioni del presente decreto.
Sono organi dell'Istituto:
a) il presidente;
b) il comitato per l'indirizzo e il coordinamento dell'informazione statistica;
c) il consiglio;
d) il collegio dei revisori dei conti.
L'ISTAT è sottoposto alla vigilanza del Presidente del Consiglio dei Ministri.
Art. 15. Compiti dell'ISTAT
L'ISTAT provvede:
a) alla predisposizione del programma statistico nazionale;
b) all’esecuzione dei censimenti e delle altre rilevazioni statistiche previste dal programma
statistico nazionale ed affidate all’esecuzione dell'Istituto;
c) all'indirizzo e al coordinamento delle attività statistiche degli enti ed uffici facenti parte del
Sistema statistico nazionale di cui all'art. 2;
d) all'assistenza tecnica agli enti ed uffici facenti parte del Sistema statistico nazionale di cui
all'art. 2, nonché alla valutazione, sulla base dei criteri stabiliti dal comitato di cui all'art.
17, dell'adeguatezza dell'attività di detti enti agli obiettivi del programma statistico
nazionale;
e) alla predisposizione delle nomenclature e metodologie di base per la classificazione e la
rilevazione dei fenomeni di carattere demografico, economico e sociale. Le nomenclature e
le metodologie sono vincolanti per gli enti ed organismi facenti parte del Sistema statistico
nazionale;
f) alla ricerca e allo studio sui risultati dei censimenti e delle rilevazioni effettuate, nonché
sulle statistiche riguardanti fenomeni d'interesse nazionale e inserite nel programma
triennale;
Pag. 29
g) alla pubblicazione e diffusione dei dati, delle analisi e degli studi effettuati dall'Istituto
ovvero da altri uffici del Sistema statistico nazionale che non possano provvedervi
direttamente; in particolare alla pubblicazione dell'Annuario statistico italiano e del
Bollettino mensile di statistica;
h) alla promozione e allo sviluppo informatico a fini statistici degli archivi gestionali e delle
raccolte di dati amministrativi;
i) allo svolgimento di attività di formazione e di qualificazione professionale per gli addetti al
Sistema statistico nazionale;
l) ai rapporti con enti ed uffici internazionali operanti nel settore dell'informazione statistica;
m) alla promozione di studi e ricerche in materia statistica;
n) all’esecuzione di particolari elaborazioni statistiche per conto di enti e privati, remunerate a
condizioni di mercato.
… omissis
Le pubblicazioni dell’Istat
I risultati dell’attività dell’Istat sono pubblicati in volumi, raccolti in settori di interesse.
Alcune pubblicazioni hanno carattere generale come:
 il Rapporto annuale contiene un'analisi documentata sui problemi emergenti nel Paese;

l'Annuario statistico italiano, disponibile anche su cd-rom, presenta le principali tavole
statistiche prodotte dall'Istat e dagli altri enti del Sistema statistico nazionale,
 il Bollettino mensile di statistica che aggiorna mensilmente l'informazione corrente.
I settori sono:
1. Ambiente e Territorio: Ambiente, territorio, climatologia
2. Popolazione: Popolazione, matrimoni, nascite, decessi, flussi migratori
3. Sanità e previdenza: Sanità, cause di morte, assistenza, previdenza sociale
4. Cultura: Istruzione, cultura, elezioni, musei e istituzioni similari
5. Famiglia e società: Comportamenti delle famiglie (salute, letture, consumi, etc.)
6. Pubblica Amministrazione: Amministrazioni pubbliche, conti delle amministrazioni
locali
7. Giustizia: Giustizia civile e penale, criminalità
8. Conti nazionali: Conti economici nazionali e territoriali
9. Lavoro: Occupati, disoccupati, conflitti di lavoro, retribuzioni
10. Prezzi: Indici dei prezzi alla produzione, all'ingrosso, al consumo
11. Agricoltura: Agricoltura, zootecnia, foreste, caccia e pesca
12. Industria: Industria in senso stretto, attività edilizia, opere pubbliche
13. Servizi: Commercio, turismo
14. Commercio estero: Importazione ed esportazione per settore e paese.
Pag. 30
Tra le linee editoriali sviluppate dall’Istat rientrano le Statistiche in breve attraverso le quali
vengono anticipati i risultati di indagini, studi e ricerche, per rispondere al requisito di
tempestività nella diffusione dell’informazione statistica.
Portiamo due esempi con riferimento all’aggiornamento del sito in data 16 febbraio 2010.
Il primo riguarda i risultati dell’indagine L’uso e l’abuso di alcol in Italia: anno 2008,
documento pubblicato il 23 aprile 2009 e inserito nell’argomento “Salute e Sanità” (cfr
homepag del portale www.istat.it).
Il documento pubblica “le informazioni sul consumo di alcol in Italia per la popolazione di 11
anni e più, con un approfondimento su alcuni comportamenti a rischio. I dati sono stati
raccolti attraverso l'indagine Multiscopo “Aspetti della vita quotidiana”. Il campione
comprende circa 19 mila famiglie per un totale di 49 mila individui. Le interviste sono state
effettuate nel febbraio 2008”. Alla presente dispensa viene allegato questo documento
(ISTAT in breve Uso e abuso di alcol 2008.pdf), dalla cui lettura possiamo evidenziare i
seguenti elementi ipotizzando che debbano servire per scrivere un report di lavoro:
a) Gli argomenti sviluppati dal rapporto riguardano Le Tendenze e comportamenti
emergenti, l’Uso e modalità di consumo di bevande alcoliche, e l’Abuso e
comportamenti a rischio nel consumo di bevande alcoliche, attraverso le
rappresentazioni tabellari e grafiche. Una particolare analisi è dedicata all’Abuso di
alcol, guida dell’auto e discoteca;
b) il documento rimanda alle Note informative, circa gli obiettivi della ricerca e la
metodologia utilizzata (requisito della chiarezza);
c) il documento è completato dal glossario utilizzato.
Il secondo esempio di Statistiche in breve riguarda Salute e sicurezza sul lavoro: II trimestre
2007, documento pubblicato il 29 dicembre 2008 e inserito nell’argomento “Sanità e salute”
(cfr homepag del portale www.istat.it).
Alla presente dispensa viene allegato questo documento (ISTAT Salute e Sicurezza sul lavoro
2007.pdf), dalla cui lettura possiamo evidenziare i seguenti elementi ipotizzando, come sopra,
che ci possano servire per scrivere un report di lavoro:
a. vengono illustrati i principali risultati con riferimento all’Esposizione a fattori di
rischio per la salute sui luoghi di lavoro, ai Problemi di salute causati o aggravati
dall’attività lavorativa, agli Infortuni sul lavoro;
b. il documento non riporta il paragrafo Note informative, ma il Glossario.
Sito internet dell’ISTAT http://www.istat.it
Visitato nel febbraio 2010
Centro di diffusione del Friuli Venezia Giulia
Trieste, Via C. Battisti, 18
Pag. 31
Modalità di lettura delle pubblicazioni Istat/Sistan
Per la lettura delle tavole statistiche sono adoperati i seguenti segni convenzionali:
Linea (-): quando il fenomeno non esiste o quando il fenomeno esiste e viene rilevato, ma i
casi non si sono verificati.
Quattro puntini (....): quando il fenomeno esiste, ma i dati non si conoscono per qualsiasi
ragione.
Due puntini (..): per i numeri che non raggiungono la metà della cifra dell'ordine minimo
considerato.
Arrotondamenti: per effetto degli arrotondamenti operati direttamente all’elaboratore, i dati
delle tavole possono o non coincidere tra loro per qualche unità in più o in meno. Per questi
motivi non sempre si realizza la quadratura verticale o orizzontale nell'ambito della stessa
tavola o tavole differenti.
Numeri relativi: i numeri relativi (percentuali, quozienti di derivazione, ecc.) sono
generalmente calcolati su dati assoluti non arrotondati, mentre molti dati contenuti nelle
pubblicazioni sono arrotondati al migliaio, al milione, ecc. Rifacendo i calcoli in base a tali
dati assoluti si possono pertanto avere dati relativi che differiscono leggermente da quelli
pubblicati.
Distribuzione di frequenze per classi di valore di un carattere: nelle tavole che riportano tali
classi di valori, come regola generale, gli estremi inferiori di ciascuna classe s'intendono
esclusi e gli estremi superiori inclusi nella classe considerata. Ciò non vale per le distribuzioni
per età, sia per anni singoli sia per classi, in quanto l'età viene computata in anni compiuti.
Così, ad esempio, l'età 0 anni, 1 anno, ecc. si riferisce rispettivamente agli individui dalla
nascita al giorno precedente il 1° compleanno e agli individui dal giorno del 1° compleanno al
giorno precedente il 2° compleanno e così via. Analogamente nelle distribuzioni secondo
classi di età, le classi, ad esempio, fino a 4 anni, 5-9 anni, 10-14 anni, 75 anni e più, includono
rispettivamente gli individui dalla nascita al giorno precedente il 5° compleanno, dal giorno
del 5° compleanno al giorno precedente il 10° compleanno, dal giorno del 10° compleanno al
giorno precedente il 15° compleanno, dal 75° compleanno in poi.
Ripartizioni geografiche
Italia Nord-Occidentale comprende: Piemonte, Valle d'Aosta, Lombardia, Liguria;
Italia Nord-Orientale comprende: Trentino Alto-Adige, Veneto, Friuli Venezia Giulia,
Emilia-Romagna;
Italia Centrale comprende: Toscana, Umbria, Marche, Lazio.
Italia Meridionale comprende: Abruzzo, Molise, Campania, Puglia, Basilicata, Calabria;
Italia Insulare comprende: Sicilia, Sardegna.
Dati provvisori e rettificati: i dati relativi ai periodi più recenti sono in parte provvisori e,
pertanto, suscettibili di rettifiche nelle successive edizioni. I dati contenuti in precedenti
pubblicazioni che non concordano con quelli del presente volume si intendono rettificati.
Pag. 32
Le Fonti internazionali (le statistiche dell’Unione Europea)
L’Eurostat è l’Ufficio Statistico della Comunità Europea e rappresenta la fonte ufficiale di
dati statistici armonizzati, attendibili e comparabili relativi agli Stati membri ed alle loro
regioni (NUTS 2). La sua mission è quella di fornire all’Unione un servizio di informazione
statistica di qualità.
Appare opportuno richiamare, anche se parzialmente, l’art. 2 del Regolamento n. 322/97 del
Consiglio relativo alle statistiche comunitarie; art 2 che recita “si intende per statistiche
comunitarie le informazioni quantitative, aggregate e rappresentative tratte dalla raccolta e
dall’elaborazione sistematica di dati prodotti dalle autorità nazionali e dall’autorità
comunitaria nel quadro dell’attuazione del Programma Statistico Comunitario ..”.
Le autorità Nazionali sono gli Istituti Nazionali di Statistica, mente l’autorità comunitaria e
l’Eurostat. In realtà l’obiettivo dell’Eurostat non è solo quello di raccogliere, elaborare e
produce statistiche ma anche e soprattutto metodologico, di uniformare concetti e definizioni
e di armonizzare i metodi di indagine.
Le pubblicazioni di EUROSTAT
Soffermiamo la nostra attenzione solo su
1. Statistics in focus (Statistiques en bref) attraverso la quale vengono diffusi in modo
sintetico i risultati delle indagini, di studi e ricerche;
2. e sul rapporto “Combating poverty and social exclusion: A statistical portrait of the
European Union 2010”, pubblicato il 18 gennaio 2010 la cui finalità risponde ai
seguenti obiettivi “Building a more inclusive Europe is considered vital to achieve the
EU's goals of sustained economic growth, more and better jobs, and greater social
cohesion. It is hoped that such solidarity will be further promoted through the
designation of 2010 as the European year for combating poverty and social exclusion.
Nevertheless, just over 84 million persons, or 17 % of the EU-27's population were atrisk-of-poverty in 2007, while a similar proportion (17 %) of the total EU-27
population suffered from material deprivation. There was a clear overlap between
those who were at-risk-poverty and those suffering from, among others, being unable
to face unexpected expenses, afford a holiday, keep their home adequately warm, or
being able to afford a car. 'Combating poverty and social exclusion: A statistical
portrait of the European Union 2010' presents a broad range of statistical concepts
and indicators from social statistics. The publication explores poverty and social
exclusion across the 27 Member States, as well as providing (whenever possible)
information about candidate and EFTA countries. A data code is included as part of
the source under each table and graph to allow readers to easily access extended data
sets or the most recent data available on the Eurostat website:
http://ec.europa.eu/eurostat”. A titolo di esempio si riporta in allegato alla presente
Pag. 33
dispensa, il documento intero (Eurostat, Combating poverty and social exclusion
2010.pdf).
Cosa sono le NUTS
E’ una ripartizione dei territori nazionali in aree (regioni, land, dipartimenti, ecc) operata
secondo alcuni criteri e principi importanti tra i quali il più significativo è rappresentato dal
fatto che queste aree hanno, per la normativa in vigore in ogni singolo Stato, un
riconoscimento “istituzionale”. Quindi la loro definizione segue anche criteri normativi. In
questa direzione l’Eurostat afferma che “le regioni normative sono l'espressione di una
volontà politica; i loro limiti sono fissati a seconda dei compiti attribuiti alle comunità
territoriali, della consistenza demografica necessaria per effettuare tali compiti in modo
efficace ed economico e dei fattori storici, culturali e di altro genere”.
Ma vi anche un secondo criterio, chiamato analitico/funzionale per cui “le regioni analitiche
(o funzionali) … raggruppano zone utilizzando criteri geografici (ad esempio, altitudine o
tipo di terreno) oppure criteri socio-economici (ad esempio, omogeneità, complementarità o
polarità delle economie regionali)”.La NUTS è una classificazione gerarchica a tre livelli:
ogni Stato membro ha individuato le regioni NUTS 1, ognuna delle quali è a sua volta
suddivisa in un numero intero di regioni NUTS 2, e così via. A livello regionale (senza tener
conto delle unità amministrative a livello locale) la struttura amministrativa degli Stati
membri comprende, in genere, due principali livelli regionali ("Länder" e "Kreise" in
Germania, "régions" e "départements" in Francia, "Comunidades autonomas" e "provincias"
in Spagna, "regioni" e "province" in Italia, ecc.).
In Italia:
a) le NUTS 1 sono le Ripartizione
b) le NUTS 2 sono le Regioni
c) le NUTS 3 sono le province
Una importante pubblicazione dell’Eurostat è Statistics in focus (Statistiques en bref) che è
suddivisa in otto settori (Agricoltura e pesca, Commercio con l’estero, Economia e finanza,
Ambiente ed energia, Industria commerci e servizi, Popolazione e condizioni sociali, Ricerca
e tecnologia, Trasporti piè quello delle Statistiche generali), presenta in versione elettronica
(PDF), è gratuita e quindi può essere “scaricata”.
Portiamo due esempi con riferimento all’aggiornamento del sito in data 16 febbraio 2010.
Sito internet dell’EUROSTAT http://europa.eu.int/comm/eurostat
Oppure epp.eurostat.cec.eu.int/
Visitato nel febbraio 2010
Pag. 34
Le statistiche del Ministero della Salute
Il Ministero della Salute fa parte del Sistema Statistico Nazionale e quindi, condividendo
obiettivi, metodologie, classificazione, metodo di lavoro, e inoltre utilizzando informazioni
raccolte dal Sistema, produce e pubblica dati statistici di grande importanza. Il ministero
opera attraverso l’Ufficio di Statistica il cui compito è legato al “controllo sui flussi
informativi ed elaborazione dei dati statistici relativi all'attività del Servizio sanitario
nazionale; agli adempimenti relativi al Sistema statistico nazionale (SISTAN); studi e
ricerche statistiche; alla relazione sullo stato sanitario nazionale del Paese; alla gestione di
osservatori e centri di documentazione”. Approfondiremo l’argomento delle Banche dati e dei
Dati Statistici.
Il Ministero gestisce le seguenti banche dati: Acque di balneazione, Anagrafe Canina
Nazionale, Associazioni nazionali di pazienti, Biblioteca - catalogo on line, Buona pratica di
laboratorio, Centri per i trapianti, Classificazione nazionale dei dispositivi medici, Codici
diagnosi e interventi chirurgici, Dati epidemiologici malattie infettive, Educazione continua in
medicina – eventi, Educazione continua in medicina - progetti, Elenco malattie croniche
esenti, I dati del sistema sanitario, Istituti di ricovero e cura a carattere scientifico - sintesi
nazionale dati finanziari, Infosalute, strutture e servizi del Servizio sanitario nazionale,
Malattie rare - elenco alfabetico, Prodotti fitosanitari
Ricerca corrente: progetti e finanziamento, Ricerca finalizzata: progetti e finanziamento,
Sistema informativo trapianti, Statistiche sui ricoveri ospedalieri.
In particolare possiamo analizzare i Dati epidemiologici malattie infettive, con riferimento
all’Epatite A registrati nel Friuli Venezia Giulia nel 2008; otteniamo la seguente tabella
Epatite A: Totale 2008: dati provvisori
Classi di età
Provincia
0-14
15-24
25-64
>=65
ETA' NON
NOTA
TOTALE
M
F
M
F
M
F
M
F
M
F
GORIZIA
0
0
0
1
1
2
0
0
0
0
0
1
3
0
4
PORDENONE
0
0
0
0
1
0
0
0
0
0
0
1
0
0
1
TRIESTE
0
0
0
1
3
2
0
0
0
0
0
3
3
0
6
UDINE
0
0
0
0
5
0
1
0
0
0
0
6
0
0
6
FRIULI
VENEZIA
GIULIA
0
0
0
2
10
4
1
0
0
0
0
11
6
0
17
ITALIA
97
65
51
28
489 123
14
11
5
1
0
656 228
2
886
Fonte: Ministero della Salute
Pag. 35
N.N. M
F
N.N. TOT.
La ricerca dei “Dati statistici” porta ai seguenti risultati:
A) l’Annuario statistico e altre pubblicazioni,
B) i Certificato di assistenza al parto (CeDAP), si tratta di informazioni di carattere sanitario,
epidemiologico e socio-demografico attraverso la rilevazione degli eventi di nascita,
C) la Banca dati del Servizio sanitario nazionale: dati statistici ed economico-finanziari;
D) gli Elenchi ASL e le strutture di ricovero,
E) una selezione di indicatori chiave del sistema sanitario nazionale sul Contesto demografico, sullo
Stato di salute della popolazione, le Risorse e loro utilizzo, le Attività di assistenza sanitaria, la
Spesa sanitaria e finanziamento del SSN.
In realtà in forte limite di queste informazioni statistiche è rappresentato dalla loro non
tempestività piche rappresentano una realtà di quattro/cinque anno indietro.
Sembra rispondere meglio al requisito della tempestività la Relazione sullo Stato Sanitario del
Paese 2007-2008, pubblicazione nel 2009.
Sito internet del ministero della Salute
http://www.salute.gov.it//
Visitato nel febbraio 2010
Pag. 36
TERZO CAPITOLO
L’INDAGINE STATISTICA
Un’indagine statistica può configurarsi come un qualsiasi processo produttivo, dove il
prodotto finale consiste nel comunicare un’informazione statistica corretta e quindi
utilizzabile ai fini decisionali programmatori ed operativi. Scopo dell’indagine è quello di
produrre statistiche, ovvero descrizioni riassuntive di carattere quali-quantitativo, riguardanti
il collettivo di interesse.
Un'indagine nasce seguendo un preciso ciclo di fasi, ognuna orientata alla qualità del prodotto
finale. Questa qualità del prodotto finale dipende anche dalla corretta effettuazione di una
serie di procedure, ovvero dal controllo che si riesce ad esercitare su ogni azione che produce
il risultato finale. Per questo motivo analizzeremo nel dettaglio come si articola un'indagine
statistica poiché ogni step (azione) richiede un’attenta programmazione che si esplicita
monitorando la rispondenza delle singole attività di cui si compone l’indagine agli obiettivi. Il
controllo diventa, infatti, meno problematico quanto migliore è la programmazione delle fasi
della ricerca e quanto più accurata è la pianificazione delle azioni che definiscono ogni fase.
Una buona programmazione del lavoro è peraltro funzionale alla definizione degli obiettivi,
anche se, in prima analisi possono essere espressi in forma generica e non strutturata. La
fissazione degli obiettivi generali costituisce, di fatto, la fase di avvio del processo produttivo
dei dati. E’ una fase assai delicata dove a partire da ipotesi, considerazioni, indicazioni
generiche si passa a definire in modo in più preciso il fenomeno e quindi ad individuare gli
obiettivi specifici della ricerca, partendo preliminarmente dalle informazioni risultate più
carenti per l’osservazione del fenomeno stesso.
L’importanza della programmazione è determinata dalla disponibilità di risorse organizzative
e finanziarie ma anche dalle “conoscenze a priori” del fenomeno oggetto di studio, che
consente un livello di approfondimento.
Progettare l'indagine
Si è detto che scopo dell’indagine è quello di produrre statistiche, ovvero descrizioni
riassuntive di carattere quantitativo, riguardanti il collettivo di interesse. Generalmente la
progettazione, la pianificazione e l’esecuzione di un’indagine è frutto di un impegno
multidisciplinare che coinvolge necessariamente diverse professionalità ed ha lo scopo di
individuare una precisa domanda di informazione, domanda che l'indagine è chiamata e
soddisfare.
Pag. 37
L’attività di progettazione deve procedere prendendo in considerazione tutti gli aspetti
coinvolti, da quelli riguardanti i fenomeni di interesse e quelli di carattere più operativi
(logistici, finanziari, organizzativi e poi, ovviamente, statistici).
I principali argomenti da prendere in considerazione sono la definizione degli Obiettivi, la
ricerca delle Fonti statistiche, l’individuazione delle Fasi operative, la determinazione di
Tempi e costi, la programmazione di un Sistema di controllo della qualità, il piano delle
Elaborazioni statistiche ed il piano di Diffusione dei risultati.
DEFINIZIONE DEI CONTENUTI INFORMATIVI
DEFINIZIONE OBIETTIVI
GENERALI
PRIMA FORMULAZIONE
ANALISI "a priori" DEL FENOMENO
PRECISAZIONE DEGLI OBIETTIVI
INDIVIDUAZIONE DELL’
UNITA’ DI RILEVAZIONE
INDIVIDUAZIONE DEL CAMPO DI
OSSERVAZIONE E UNITA’ DI
ANALISI
SELEZIONE VARIABILI
SIGNIFICATIVE (astrazione)
ANALISI STATISTICA DELLE UNITA’ E DELLE VARIABILI INDIVIDUATE
(la rilevazione dei dati, che comprende anche l’esecuzione di tecniche di controllo della
qualità dei dati)
a) l’elaborazione statistica dei dati (codifica, revisione manuale ed elettronica, l’elaborazione con metodi
statistici e matematici),
b) l’interpretazione dei risultati,
c)
diffusione dei risultati ( stesura di uno o più rapporti di ricerca)
Pag. 38
Analizzeremo nel dettaglio queste fasi facendo riferimento a due importanti indagini previste
dal Programma Statistico Nazionale ovvero:
a) l’Indagine statistica Multiscopo sulle famiglie “Famiglie e soggetti sociali: anno
2009”, realizzata dall’ISTAT;
b) l’Indagine statistica Multiscopo sulle famiglie “Aspetti della vita quotidiana anno
2007”, realizzata dall’ISTAT.
Definizione degli obiettivi
In questa sezione consideriamo quegli aspetti definitori che più di altri sono connessi alla
specifica area di interesse che si intende analizzare per mezzo dell’indagine: definizioni e
classificazioni delle unità di rilevazione e delle variabili da rilevare. Questi, se non
correttamente individuati, possono provocare gravi ricadute su alcune componenti della
qualità come la rilevanza e l’accuratezza.
Fenomeno di interesse:
 delimitare precisamente cosa interessa da cosa non interessa ricordando che più ampio è
l’arco degli argomenti trattati, maggiori divengono le complessità da affrontare sul
piano concettuale statistico ed operativo;
 definire se interessa descrivere un fenomeno nella sua componente statica o in quella
dinamica;
 specificare se interessa confrontare i risultati con informazioni relative ad altre realtà
territoriali;
 specificare quali ipotesi si intende sottoporre a verifica.
Indagine multiscopo: Famiglia e soggetti
sociali: anno 2009
È una indagine che indaga la vita delle
famiglie
Si rilevano i percorsi di vita individuale, le
fasi del ciclo di vita familiare, i rapporti
interni alla famiglia, le reti di aiuto, le storie
lavorative, la vita di coppia, le intenzioni su
lavoro e famiglia, …
Capire l’evoluzione della famiglia, (calo
della natalità, prolungata permanenza dei
giovani in famiglia, crescita delle copie di
fatti, ritardo nell’autonomia abitativa e
lavorativa…
Costruire indicatori al fine di programmare
ed attivare politiche di intervento sul piano
economico e sociale
Aspetti della vita quotidiana: anno 2007
È una indagine che interessa la qualità
della vita dei cittadini e delle famiglie
Si rilevano le abitudini dei cittadini ed i
problemi che essi affrontano ogni giorno
quindi l’obiettivo dell’indagine è rilevare
bisogni, necessità, problemi dei cittadini
Approfondisce l’uso dei principali servizi
di pubblica utilità ed il grado di
soddisfazione
Costruire indicatori sociali al fine di
programmare ed attivare politiche di
intervento sul piano economico e sociale
Pag. 39
Popolazione di riferimento.
 individua con precisione l’insieme di unità statistiche alle quali si intende estendere i
risultati dell’indagine;
 specificare esattamente le condizioni di eleggibilità, ovvero le caratteristiche che
determinano l’inclusione (o l’esclusione) delle unità statistiche della popolazione.
Indagine multiscopo: Famiglia e soggetti
sociali: anno 2009
Le famiglie (universo) ed i suoi
componenti.
L’unità di rilevazione è la famiglia di
fatto. Questa va intesa come “insieme di
persone coabitanti e legate da vincoli di
matrimonio, parentela, affinità, adozione,
tutela o da vincoli affettivi.
Aspetti della vita quotidiana: anno 2007
Le famiglie (universo) ed i suoi
componenti.
L’unità di rilevazione è la famiglia di
fatto: che non necessariamente coincide
con la famiglia anagrafica descritta dallo
Stato di famiglia. Per famiglia di fatto si
intende un insieme di persone dimoranti
abitualmente nella stessa abitazione e
legate da vincoli di parentela, affinità,
adozione, tutela o amicizia.
Due sono le condizioni necessarie perché
un insieme di persone formi una famiglia:
a) la coabitazione;
b) la presenza di un legame di matrimonio,
parentela, affinità, adozione, tutela o
affettivo.
La scelta dei caratteri da rilevare (astrazione).
Variabili. Misure di caratteristiche, solitamente elementari, riferite alle unità statistiche. Su
ogni unità statistica vengono rilevati diversi aspetti ciascuno dei quali è chiamato carattere.
Esso è dunque un qualunque attributo posseduto da una unità statistica.
I caratteri si distinguono in qualitativi le cui modalità sono espresse in forma verbale e in
quantitativi le cui modalità sono espressioni numeriche.
Mutabili:
 Qualitative sconnesse o nominali. Assumono un insieme finito di categorie mutuamente
esclusive tali che, per due differenti unità statistiche, si può definire soltanto se queste
assumono la stessa o differenti categorie.
 Qualitative ordinali. Assumono un insieme finito di categorie mutuamente esclusive tali
da poter ordinare due unità statistiche secondo il possesso di caratteristiche possedute.
Variabili
 Quantitative discrete. La caratteristica può essere descritta mediante un numero finito o
infinito numerabile di valori numerici, fra i quali abbia senso calcolare una differenza e/o
un rapporto (es. numero di posti letto, componenti della famiglia)
Pag. 40

Quantitative continue. La caratteristica può essere descritta mediante un’infinità non
numerabile di valori, fra i quali abbia senso calcolare una differenza e/o un rapporto (es.:
fatturato d’impresa)
Caratteri dicotomici sono quelli che assumono due sole modalità: assenza (0) e presenza (1).
Caratteri “tempo/spazio”
6. serie storiche (riferite a modalità di tempo, es: fatturato per anno);
7. serie cicliche (ordinabili senza che ci sia necessariamente un ordine, quindi ordinabili a
piacere es: temperature minime medie giornaliere, arrivi per mese, tasso di occupazione
dell’albergo per giornate della settimana)
8. serie geografiche (riferite a modalità territoriali, es: fatturato per regione).
Caratteri
Qualitativi
sconnessi
Qualitativi
ordinali
Quantitativi
discreti
Quantitativi
continui
Dicotomici
Indagine multiscopo: Famiglia
e soggetti sociali: anno 2009
Sesso, Cittadinanza, Luogo di
nascita
Titolo di Studio conseguito
Domanda 2.1 Attualmente è
scritto ad una scuola, corso o
istituto ?
Aspetti della vita quotidiana: anno
2007
Sesso, Cittadinanza, Stato civile
N.ro componenti famiglia
Domanda 5.1bis: Quanti figli
viventi suoi, adottati o affiliati
ha ?
Età (in anni compiti)
N.ro componenti famiglia
Domanda 5.1: Lei ha figli
viventi suoi, adottati o affiliati
?
Titolo di Studio conseguito
Domanda 2.1 Attualmente è scritto
ad una scuola, corso o istituto ?
Età
Domanda 4.1: A che ora esce di
casa abitualmente per andare al
lavoro o scuola ?
Domanda 7.2: Negli ultimi 3 mesi
ha fatti ricorso a servizi di day
hospital ?
Riepilogando:
a) una serie sconnessa costituisce una scala nominale se le sue modalità possono essere
confrontate in termini di uguale/diverso (per esempio la condizione professionale, il
comune di residenza, il luogo della vacanza);
b) un carattere qualitativo ordinato (rettilineo o ciclico) costituisce una scala ordinale se le
sue modalità possono essere confrontate anche in termini di maggiore/minore (per
esempio il titolo di studio);
Pag. 41
c) un carattere quantitativo (o ciclico) costituisce una scala intervalli se è possibile
“misurare” la distanza tra le sue modalità (per esempio l’età, la spesa sostenuta per una
vacanza). Valgono anche le operazioni più/meno.
Prospetto esplicativo: Carattere e scale
Carattere
Qualitativo
Quantitativo
Serie
Scale
Modalità ottenuta
mediante
Sconnessa
Nominale
Osservazioni
Rettilinea
Ordinale
Variabile
Discreta
di
Variabile
Continua
enumerazioni
intervalli
misurazione
Fonte: Rondini L. Lezioni di Statistica, Cedam, Padova, pag. 7
Le Classificazioni
“Nell’analisi dei dati intendiamo per classificazione quel processo secondo il quale i casi
studiati vengono raggruppati in sottoinsiemi (classi) sulla base della loro similarità. Le classi
così ottenute devono essere esaustive cioè tutti i casi devono trovare collocazione in una
classe e nessuno può restare fuori dal processo di classificazione, e mutuamente esclusive nel
senso che un caso può appartenere ad una e una sola classe” 4 .
Quindi la classificazione è l’insieme delle categorie assunte da una variabile qualitativa
sconnessa o ordinale o quantitativa. Noi qui svilupperemo la classificazione unidimensionale
quella cioè relativa ad un solo carattere
Definire una classificazione è un momento particolarmente critico: ad esempio misurare il
gradimento di un servizio ricorrendo a quattro anziché a cinque categorie (ma anche
denominando in modo appena diverso le stesse cinque categorie) può fornire risultati assai
diversi.
A questo proposito nell’indagine multiscopo l’Istat “Aspetti della vita quotidiana” classifica il
giudizio su un servizio in quattro scale di valutazione: infatti, nella parte del questionario
rivolta alla famiglia (pag 45) troviamo la domanda
4
Cobetta P. Metodologia e tecniche della ricerca sociale, Il Mulino. 2002, pag. 529
Pag. 42
2.1 La zona in cui abita la famiglia presenta: (una risposta per ogni riga)
Molto Abba- Poco
Per
Non
stanza
niente so
Sporcizia nelle strade
1
2
3
4
5
Difficoltà di parcheggio
1
2
3
4
5
Difficoltà di collegamento con mezzi pubblici 1 2
3
4
5
Traffico
1
2
3
4
5
Inquinamento dell’aria
1
2
3
4
5
Rumore
1
2
3
4
5
Rischio di criminalità
1
2
3
4
5
Odori sgradevoli
1
2
3
4
5
Scarsa illuminazione delle strade
1
2
3
4
5
Cattive condizioni della pavimentaz. stradale 1 2
3
4
5
Questo approccio scelto dall’Istat è poi coerentemente utilizzato in tutte le domande che
richiedono di esprimere un giudizio.
Inoltre se si desidera confrontare i risultati dell’indagine con altre fonti di informazione
disponibili, ricorrere a classificazioni comunemente utilizzate.
Per alcune variabili
particolarmente complesse da definire (come l’attività economiche, le professioni, le malattie)
sono disponibili classificazioni standard riconosciute a livello internazionale.
In tutti i casi nel definire una classificazione è opportuno, se possibile, procedere ad
aggregazioni di categorie utilizzate da classificazioni già esistenti in modo da preservare
almeno in parte la confrontabilità dei risultati dell’indagine.
Facciamo qualche esempio
Aspetti della vita quotidiana: anno 2007
Classifica
il Titolo di Studio
la Condizione professionale
la Posizione nella professione
l’Attività economica
Indagine multiscopo: Famiglia e soggetti
sociali: anno 2009
Classifica
il Titolo di Studio
la Condizione professionale
la Posizione nella professione
l’Attività economica
la Tipologia dell’abitazione
Pag. 43
Classificazione dei titoli di studio:
 Dottorato di ricerca o specializzazione post-laurea,
 Laurea di 4 o più anni (vecchio ordinamento o nuova laurea specialistica a ciclo unico),
 Laurea specialistica di 2 anni di secondo livello (nuovo ordinamento),
 Laurea di 3 anni di primo livello (nuovo ordinamento),
 Diploma universitario, Laurea breve, Scuola diretta a fini speciali, Scuola
parauniversitaria,
 Accademia Belle Arti, Istituto Superiore industria Artistiche, Accademia di arte
drammatica, Scuola interpreti e Traduttori, Perfezionamento Accademia di danza,
Perfezionamento Conservatorio, Scuola di Archivistica, Perfezionamento Istituto di
Musica Pareggiato, Paleografia, Diplomatica,
 Diploma di scuola media superiore 4-5 anni che permette l’iscrizione all’Università,
 Diploma di scuola media superiore 2-3 anni che non permette l’iscrizione all’Università,
 Licenza media inferiore (o avviamento professionale),
 Licenza elementare,
 Nessun titolo, sa leggere e scrivere,
 Nessun titolo, non sa leggere e/o scrivere.
Classificazione della condizione professionale:
 Occupato,
 In cerca di nuova occupazione,
 In cerca di prima occupazione,
 In servizio di leva o in servizio civile sostitutivo,
 Casalinga,
 Studente,
 Inabile al lavoro,
 Persona ritirata dal lavoro,
 In altra condizione.
Classificazione della Posizione nella professione
Alle dipendenze come: Dirigente, Direttivo-Quadro, Impiegato, Capo operaio, operaio,
subalterno e assimilati, Apprendista, Lavorante a domicilio per conto di imprese.
Autonomo come: Imprenditore, Libero professionista, Lavoratore improprio, Socio di
cooperativa di produzione e/o prestazione servizi, Coadiuvante.
Pag. 44
Analisi delle fonti
C’è tuttavia un’attività estremamente importante per il corretto svolgimento dell’indagine che
riguarda l’analisi della documentazione esistente sul fenomeno oggetto di studio. I canali
informativi dai quali trarre queste informazioni sono molteplici ma in linea generale si
possono individuare quattro fonti:
a) le esperienze di ricerca maturate sia in campo nazionale sia in quello internazionale;
b) la documentazione bibliografica (dalla quale trarre per esempio aspetti importanti del
fenomeno);
c) la documentazione statistica (la rete del Sistan);
d) Infine i sondaggi presso utenti e/o operatori del settore (interviste agli opinion leader).
Disegno di indagine
E’ necessario definire qual'è il tipo di indagine più consono a produrre le statistiche che si
desiderano: ovvero decidere tra indagine totale (censimento di tutte le unità) e campionaria
e, in tal caso, disegnare ed estrarre il campione. Ricorrere ad un’indagine di tipo non
opportuno può pregiudicare in tutto o in parte gli scopi della ricerca. Raccogliere informazioni
su tutte le unità statistiche implica non solo un aumento insostenibile dei costi, ma anche un
maggior numero di errori non campionari tali da limitare questa modalità a casi di eccezionale
importanza come i Censimenti o a casi in cui le informazioni sulla totalità delle unità
statistiche sono state già raccolte per motivi diversi dell’indagine, come nel caso delle
indagini amministrative. Se l’analisi costi/benefici orienta la scelta verso un'indagine
campionaria occorre valutare i seguenti aspetti:
a) determinare il metodo di selezione del campione in riferimento alla struttura degli archivi
di base e alle informazioni in essi contenute, in modo da massimizzare l’efficienza delle
stime prodotte, tenendo conto allo stesso tempo dei vincoli da essi imposti;
b) dimensionare il campione in modo da garantire stime della precisione desiderata, dati i
vincoli di bilancio imposti.
Questi due problemi possono essere affrontati utilizzando la teoria del campionamento.
Aspetti della vita quotidiana: anno 2007
Indagine campionaria a due stadi: primo stadio i comuni, secondo le famiglie
Nell’indagine 2002 relativa agli Stili di vita state intervistate 20.927 famiglie, per un totale
di 55.294 individui.
Intervista diretta (nei casi in cui l’individuo non era disponibile all’intervista per particolari
motivi, le informazioni sono state fornite da un altro componente la famiglia) e
autocompilazione diretta da parte del rispondente
Diffusione dei risultati: 12 mesi dopo la conclusione della rilevazione
Pag. 45
Fin qui le fasi progettuali a cui seguono le
Fasi operative
Con il generico termine di "fasi operative" si intende individuare tutta la parte del ciclo
produttivo di un'indagine che va dalla rilevazione/misurazione delle caratteristiche di interesse
sulle unità selezionate fino alla disponibilità dei dati per le analisi statistiche.
In questa sede distinguiamo le seguenti fasi operative:
RILEVAZIONE DEI DATI: sono dirette e indirette. E' l'operazione di accertamento della
presenza del carattere o fenomeno (o del carattere o dei fenomeni) che interessa l’unità
statistica e della modalità sotto cui, nella stessa, il carattere o fenomeno si presenta. La
rilevazione è indiretta se le informazioni sono tratte da unità diverse da quelle cui le
informazioni si riferiscono (es. le fonti statistiche o amministrative), è diretta se sono i
possessori delle informazioni a fornirle. Tipicamente, è indiretta la rilevazione svolta su
record amministrativi, è diretta la rilevazione svolta mediante questionari autocompilati o
somministrati da intervistatori.
Esempio di raccolta dati da record amministrativi
La fonte è rappresentata dal Registro Imprese delle Camere di Commercio dove ogni impresa
con sede in Italia ha l’obbligo di iscrizione. Le informazioni che questi registri contengono
sono diverse ma solo alcune possono e hanno valenza di analisi statistica. Vediamo i dati
presenti nei registri e indichiamo in corsivo quelli utilizzabili come elaborazione statistica:
Ragione sociale, Natura giuridica, Classificazione attività principale (codice ATECO),
capitale sociale, Addetti, Descrizione attività, indirizzo, Comune.
Tra le forme di rilevazione diretta sono di particolare interesse la rilevazione postale,
l’intervista faccia a faccia, l’intervista telefonica, CAPI.
CODIFICA: terminata la fase di raccolta dei dati, il ricercatore si trova spesso con una mole
notevole di informazioni da elaborare. Una prima attività da avviare è quella di ridurre in
forma analizzabile tutta questa mole di informazioni, trascrivendo le informazioni raccolte su
supporti magnetici, usando il formalismo della matrice dei dati e utilizzando simboli
convenzionali o codici per registrare le singole informazioni in modo il più possibile
compatto. In sostanza codificare significa assegnare un distinto simbolo o codice alle risposte
previste per ciascuna domanda del questionario.
L'operazione di codifica avviene mediante la predisposizione di un Piano di codifica
attraverso il quale si definisce una corrispondenza tra i codici delle modalità delle variabili e
le risposte ottenute. Il piano di codifica comprende anche il codice delle modalità di "non
risposta", il codice di "non pertinenza" della domanda per determinati insieme di unità,
l’eventuale ricodifica delle "modalità complementari", come la modalità "Altro (specificare)"
Pag. 46
alla fine di una lista di modalità qualitative, nonché la codifica delle risposte ottenute nella
forma libera cioè non precodificata.
Quindi la codifica può avvenire in due momenti distinti:
 a priori: quando la stesura del questionario prevede già una prima codifica delle
alternative alle risposte. E' questo il caso delle domande chiuse per le quali si prevedono
già tutte le alternative;
 a posteriori: riguarda per lo più domande aperte, difficili da codificare a priori perché il
numero delle risposte possibili rimane incerto fino all'ultimo, e permette anche di
considerare solo le risposte effettivamente date dagli intervistati, scegliendo la codifica
che appare migliore nel caso specifico.
Un esempio di codifica “a priori” è contenuta nel questionario dell’indagine dell’Istat sugli
Aspetti della vita quotidiana; dalla sezione “Formazione” si riporta la domanda
2.1 È attualmente iscritto ad una delle scuole, dei corsi o istituti sottoelencati?
NO ........................... 01 andare a domanda 3.1
SÌ, specificare quale:
Corso di studio o formazione
post-universitaria
Corso di laurea
Diploma universitario, Laurea breve vecchio ordinamento, Scuola diretta a
fini speciali, Scuola Parauniversitaria
.02 03 04 Scuola secondaria superiore:
- Istituto professionale
05 - Istituto tecnico
06 07 - Liceo (classico, scientifico, linguistico)
- Istituto magistrale
.08 - Liceo o istituto artistico
.09 - Accademia Belle Arti, Istituto Superiore Industrie Artistiche, Accademia di Arte
drammatica, Scuola Interpreti e Traduttori, Perfezionamento Accademia di Danza,
Perfezionamento Conservatorio, Scuola di Archivistica, Perfezionamento Istituto di
.10 Musica Pareggiato, Paleografia, Diplomatica
- Corso di formazione professionale
11 - Scuola media inferiore
.12 - Scuola elementare
.13 - Scuola dell’infanzia (ex scuola materna)
14 - Asilo nido
.15 Si tratta di una domanda filtro in quanto la risposta “NO” fa saltare tutte le domande inerenti i
percorsi formativi dei rispondenti, mentre in caso di risposta affermativa i corsi sono
classificati per livello.
Pag. 47
ELABORAZIONE STATISTICHE: si intende il processo di sommarizzazione ed
interpretazione dei dati. L’elaborazione (o analisi) statistica è importante per la
predisposizione di nuove indagini sulla base dei risultati di studi pilota o precedenti indagini,
per la formulazione di obiettivi realistici riguardanti la qualità, l’identificazione di problemi e
di requisiti del processo di produzione.
Già prima dell’avvio della raccolta dati è consigliabile che, in linea di massima, si programmi
la sistemazione dei dati raccolta in tabelle e come presentarli graficamente. Vanno stabilite le
principali elaborazioni a cui sottoporre i macro-dati. Il piano della presentazione tabellare e
grafica dei dati e delle principali elaborazioni deve prevedere
- distribuzioni di frequenze
-
tabelle di intensità (analisi preliminari semplici mediante statistiche descrittive quali
quantili delle distribuzioni e istogrammi)
tabella a doppia entrata
tabelle complesse
analisi esplorative per l’individuazione di relazioni tra caratteri
test di adattamento finalizzati a valutare l’appropriatezza di distribuzioni teoriche
nell’adattamento ai dati
metodi di rappresentazione grafica
stima dei parametri e applicazione di tecniche diagnostiche della regressione.
Il primo passo da fare è l'analisi monovariata o univariata ovvero il calcolo delle distribuzioni
di frequenza di tutte le variabili, in modo da mettere in luce la distribuzione del fenomeno.
Questo primo passaggio serve anche per verificare che le fasi precedenti siano state condotte
in modo corretto (in altre parole non vi siano errori di impostazione o di battitura nella
matrice dei dati) e anche per avere indicazioni su come raggruppare le modalità di una
variabile che ne ha molte (come può essere ad esempio l'età, il fatturato) in un minor numero
di modalità più ampie. Successivamente è utile presentare i dati in tabelle a doppia entrata,
che permettono di sintetizzare diverse distribuzioni di frequenza e di avere un'idea
dell'associazione tra la variabile in riga e quelle in colonna. Utili per sintetizzare le serie di
dati sono le tecniche della statistica descrittiva, che consentono di passare da variabili
misurate sui singoli individui in una certa popolazione, a variabili che descrivono l'intera
popolazione (variabili aggregate), quali le misure di tendenza centrale della distribuzione e le
misure di dispersione o di variabilità. Con una misura di tendenza centrale, una di dispersione
si possono studiare, come noto dalla Statistica Descrittiva, anche gli indici di asimmetria e di
curtosi e quindi descrivere sinteticamente una distribuzione.
INTERPRETAZIONE dei risultati: consiste nel determinare la relazione che il ricercatore
intravede tra i dati statisticamente elaborati e le ipotesi di ricerca prefissate. Nel linguaggio
Pag. 48
statistico, questa fase è denominata "verifica delle ipotesi". Le conclusioni che si traggono
dall’interpretazione dei risultati sono che le ipotesi teoriche sono respinte, o come si dice
anche confutate, ovvero sono accettate, e allora vanno a corroborare la teoria da cui le ipotesi
sono state tratte.
Tempi e Costi
La programmazione dei tempi e dei costi di esecuzione dell’indagine è un fattore critico per la
riuscita della stessa. Tali variabili, infatti, oltre ad influenzarsi reciprocamente, sono
fortemente connesse alla qualità dell’informazione prodotta.
Nella pratica l’elemento di costo va visto come un vincolo al quale la progettazione deve
sottostare senza tenere conto, in molti casi, del livello di errori che risorse carenti possono
indurre nelle operazioni programmate. Se, infatti, una disponibilità illimitata di risorse può
indurre a sprechi, un impegno di costo troppo limitato può altresì portare al fallimento degli
obiettivi dell’indagine con perdite potenzialmente anche maggiori.
In tale contesto occorre inserire anche i tempi di esecuzione dell’indagine, tenendo conto della
necessità di disporre di dati utilizzabili in un momento il più prossimo possibile a quello di
riferimento dell’informazione raccolta (tempestività).
La domanda di tempestività può essere indotta sia dall’urgenza dell’informazione, allo scopo
ad esempio di prendere decisioni strategiche, sia da una rapidità di mutamento nel fenomeno
osservato, tale da ridurre l’obsolescenza dell’informazione prodotta.
Anche la tempestività può essere messa in relazione con il costo sostenuto ed alla qualità dei
dati prodotti. E’, infatti, lecito chiedersi se, al prezzo di un maggior impiego di risorse, si
possa anticipare la diffusione a parità di qualità o viceversa, tenendo fisse le risorse impiegate
si possa aumentare la qualità dei dati prodotti, posticipando i tempi di produzione.
Ad esempio si può ritenere che, aumentando il numero di rilevatori in un’intervista diretta o
telefonica, si possa comprimere il tempo di rilevazione; oppure la qualità dell’informazione
prodotta potrebbe essere migliorata conducendo analisi supplementari sui dati al prezzo di un
aumento dei tempi di lavorazione. Al contrario si potrebbe decidere di sopportare la
diffusione di dati a qualità inferiore, per sopperire all’urgenza di informazione, diffondendo
dati preliminari ad indagine non ancora conclusa.
In ogni caso occorre predisporre, nel sistema dei controlli di qualità, un adeguato
monitoraggio delle risorse impiegate in ciascuna attività condotta, e dei loro tempi di
esecuzione, mettendo tali informazioni a confronto con gli altri indicatori di qualità prodotti.
Tali informazioni torneranno, infatti, utili sia in fase di validazione, per identificare
inefficienze e colli di bottiglia, sia in successive fasi di progettazione della stessa o di altre
indagini.
Tutte le fasi descritte sono interconnesse: errori commessi in una fase gravano nelle fasi
successive.
Pag. 49
Per questo, nella fase di progettazione/astrazione dell’indagine è opportuno prefigurare un
"profilo degli errori", nel quale si evidenziano le fasi che saranno percorse, gli errori che si
rischia di commettere in modo da immaginare le strategie da seguire per prevenire o
contenere gli errori. La rilevazione principale di un’indagine è spesso preceduta da
un’indagine preliminare o pilota e spesso seguita da indagini per la verifica dell’accuratezza
della rilevazione. Se la verifica si basa sulla riproposizione di una parte o di tutto l’insieme dei
quesiti posti nella rilevazione principale, l’indagine supplementare si denomina "reintervista".
L’indagine pilota è svolta con l’intento di assumere informazioni che possono rendere più
efficiente lo svolgimento dell’indagine principale.
Può essere utilizzata per sottoporre a verifica un questionario, per avere un’idea del tempo
necessario per lo svolgimento dell’intervista presso certi sottoinsiemi di unità, per conoscere
la variabilità dei fenomeni che interessano la ricerca e determinare conseguentemente la
numerosità del campione sufficiente ad ottenere stime che abbiano un’attendibilità prefissata.
L’indagine pilota è condotta, in genere, su piccola scala e su sottoinsiemi mirati della
popolazione.
Con riferimento allo schema suindicato è possibile configurare la seguente matrice di lavoro:
FASI
1.a
2.a
3.a
Programmazione
Ideazione
del
quest.
Raccolta
dati
AZIONI
COSA
Definizione del
fenomeno da osservare
Caratteri da
osservare
Indagine preliminare
Indagine definitiva
Schema concettuale di Natura delle variabili
Nomenclatura
riferimento
DOVE
Campo di
osservazione
Sedi di raccolta dei
dati
Dettaglio territoriale
Unità di rilevazione
unità di analisi
COME
Tipo di rilevazione
- questionario
- intervista
Editing/stampa
Promozione
Spedizione
Selezione e
preparazione degli
intervistatori
QUANDO
Calendario
Pianificazione delle
attività
Periodicità
Tempi di raccolta
Pag. 50
Sistema dei controlli di qualità
Per controllo della qualità dei dati si intende quelle metodologie attraverso le quali errori
dovuti ad informazioni errate o mancanti vengono corretti. Il sistema dei controlli di qualità
è costituito da un insieme di azioni predisposte nell’indagine e finalizzate al trattamento
dell’errore non campionario. Le azioni costituenti un sistema di controlli di qualità sono
riunite in tre grandi classi.
Azioni preventive, predisposte al fine di rendere meno probabile l’insorgere dell’errore. Ad
esempio l’invio di una lettera di preavviso ai rispondenti o l’istituzione di un numero verde
per le richieste di chiarimento sono due operazioni che dovrebbero servire a facilitare le
operazioni di risposte e quindi dovrebbero diminuire le mancate risposte all’indagine.
Azioni di controllo in corso d’opera, predisposte al fine di individuare e correggere gli errori
nel momento in cui questi insorgono durante il processo di produzione. L’uso dei programmi
per la registrazione controllata dei dati costituisce un esempio di tali azioni. Un altro esempio
è dato dall’applicazione delle tecniche di identificazione automatica degli errori, le quali
servono ad individuarne la presenza di incoerenze nei dati (es.: un professionista con la sola
licenza elementare) e la conseguente correzione, ad esempio, per mezzo di un ritorno sul
rispondente, o almeno il ripristino dell’informazione con valori accettabili.
Un problema importante di ogni indagine, sia essa totale o parziale, è quelle delle mancate
risposte o degli errori che possono essere commessi sia nella fase di programmazione sia in
quella di esecuzione, errori che possono produrre incongruenze tra informazioni correlate.
Azioni di valutazione, predisposte per quantificare il livello di errore non campionario
contenuto nei dati prodotti. Tali azioni implicano l’elaborazione di dati raccolti durante
l’esecuzione del processo di produzione, ovvero la conduzione di prove ausiliarie o vere e
proprie indagini di controllo. A seconda della natura dell’azione di valutazione si ottiene una
misura dell’errore che può andare dalla semplice valutazione di quantità ad esso associate
(indicatore di qualità) quali i tassi di risposta, a misure dirette di componenti dell’errore totale
quali, ad esempio, la varianza semplice di risposta, ottenibile con una reintervista delle unità
statistiche.
Principali indicatori statistici sulla qualità delle interviste
I principali indicatori statistici per il controllo di qualità delle interviste si basano su set di
indicatori calcolati sui ‘contatti chiusi’ 5 e di altri indicatori calcolati sui ‘tentativi’ di contatto 6
realizzati. Tali indicatori, calcolati giornalmente durante il periodo di rilevazione, consentono
di capire se si stanno verificando problemi nell’esecuzione delle interviste, se l’indagine sta
procedendo secondo i ritmi e i tempi previsti e soprattutto di controllare l’idoneità e il rispetto
5
Per contatti chiusi si intendono le seguenti tipologie di esiti: intervista completa, rifiuto, intervista interrotta
definitivamente.
6
I tentativi di contatto comprendono, oltre agli esiti riferiti ai contatti ‘chiusi’, le seguenti tipologie: libero,
occupato, fax, segreteria telefonica, appuntamento.
Pag. 51
delle regole di gestione degli appuntamenti e delle sostituzioni adottate per minimizzare gli
errori non campionari, nonché il rendimento degli intervistatori.
Quest’ultimo aspetto in particolare è attentamente valutato, giorno per giorno, attraverso
l’analisi dei principali tassi (rifiuto, risposta, interruzione, sostituzione, durata media, massima
e minima delle interviste, numero medio di rifiuti, ecc.) calcolati per ciascun intervistatore.
I tassi di risposta
Alla fine di ogni giornata è opportuno “misurare gli esiti” delle interviste attraverso il calcolo
dei seguenti indicatori
IC = interviste completate
IP = interviste parziali o interrotte definitivamente
MC = mancato contatto (nella accezione di cui sopra)
R = rifiuto
TL = telefonate senza risposta (libero ) nel caso di intervista telefonica
Indicatori più utilizzati sono:
Tasso di sostituzione totale: è calcolato dividendo il numero di unità di rilevazioni sostituite
sul numero teorico di unità di rilevazione-campione. Esso include le sostituzioni rese
necessarie dagli ‘errori’ di lista, molto elevati in alcune zone soprattutto in caso di intervista
telefonica per la presenza di numerici telefonici riferiti ad abitazioni non principali (per
esempio le seconde case).
Tasso di sostituzione al netto dei mancati contatti: è calcolato dividendo il numero di unità di
rilevazione sostituite (depurate dai mancati contatti, cioè dei casi di un numero prestabilito di
tentativi di contatto telefonico con esito ‘libero’, effettuati in giorni e orari diversi) sul numero
di unità di rilevazione-campione.
Tasso di rifiuto: è calcolato dividendo i rifiuti per il totale delle interviste che hanno avuto i
seguenti esiti finali: completa, interrotta definitivamente, rifiuto
T rif 
R
IC  IP  R
Tasso di risposta: è calcolato dividendo le interviste complete per il totale delle interviste che
hanno avuto i seguenti esiti finali: completa, interrotta definitivamente, rifiuto ovvero
Trisp 
IC
IC  IP  R
Ovviamente il risultato ideale sarebbe 1
Pag. 52
Tasso di interruzione definitivo: è calcolato dividendo le interviste interrotte definitivamente
per il totale delle interviste che hanno avuto i seguenti esiti finali: completa, interrotta
definitivamente, rifiuto.
Fra gli strumenti adottati per il controllo qualitativo delle interviste, di particolare utilità è la
‘scheda rifiuto’, predisposta all’interno del questionario, in cui vengono riportate le
motivazioni del rifiuto e rilevati alcuni dati strutturali di chi rifiuta.
Queste informazioni permettono di cogliere in maniera più accurata quali sono le situazioni di
rifiuto più diffuse e, conseguentemente, di provvedere ad individuare tecniche e strategie per
contenere quanto più possibile il rischio di distorsioni.
Errori ricorrenti nella ricerca statistica
Fase della ricerca
Errore
Fonte dell’errore
Scelta delle variabili, delle
definizioni, delle
classificazioni e delle unità
Teorico
Modello concettuale
Definizione del questionario
Errori di misura
Struttura, lunghezza,
vocabolario, quesiti
retrospettivi, codifica
Rilevazione sul campo
Mancate risposte totali o
parziali, incongruenze, errori
di misura, effetti ricordo
Rilevatori
Registrazione
Errori di misura
Operatori
Revisione e correzione
Errori di misura e di
identificazione
Revisori
Elaborazioni
Errori nei calcoli
Programma
Diffusione
Tempestività
Riepilogando: gli elementi che caratterizzano ogni rilevazione statistica
1. un fenomeno collettivo
2. gli elementi componenti la collettività (unità statistiche)
3. le caratteristiche da rilevare su ogni unità statistica
4. il luogo dove considerare il fenomeno collettivo
5. il momento al quale la rilevazione deve riferirsi
6. lo strumento da utilizzare (telefono, foglio di carta)
Pag. 53
QUARTO CAPITOLO
LE RILEVAZIONI
E’ il processo finalizzato alla produzione di informazioni statistiche, consistente nella raccolta
di dati presso imprese, istituzioni, e persone fisiche e nel loro successivo trattamento.
Considerando un insieme qualsiasi di elementi (imprese, persone, famiglie, ecc.) se si
desidera conoscere alcune caratteristiche “importanti” è necessario procedere ad una raccolta
di informazioni riguardanti quelle caratteristiche che sono presenti in ciascuno degli elementi
considerati. Questo tipo di attività prende il nome di rilevazione statistica.
Modalità di rilevazione dei dati
I dati possono essere rilevati in modo diretto o indiretto. La rilevazione è indiretta se le
informazioni sono tratte da unità diverse da quelle cui le informazioni si riferiscono, è diretta
se sono i possessori delle informazioni a fornirle. Tipicamente, è indiretta la rilevazione svolta
su record amministrativi, oppure utilizzando le fonti statistiche. La rilevazione è diretta se le
informazioni sono raccolte direttamente sulle unità statistiche e viene svolta mediante
questionari autocompilati o somministrati da intervistatori. Tra le forme di rilevazione diretta
sono di particolare interesse la rilevazione postale, l’intervista faccia a faccia e l’intervista
telefonica, quella realizzata attraverso la posta elettronica.
Indipendentemente dalla tecnica adottata, la rilevazione perseguire tre obiettivi fondamentali:
a) individuare l’unità di rilevazione (famiglia, impresa, …) e convincerla a partecipare
all’indagine;
b) raccogliere l’informazione in modo neutrale, senza cioè distorcerla influenzando il
rispondente;
c) lasciare una buona impressione per facilitare eventuali contatti futuri (indagini
longitudinali, ritorni sul campo, indagini di controllo).
Al fine di creare un clima favorevole alla conduzione della rilevazione è opportuno informare
e sensibilizzare la popolazione oggetto di indagine. In particolare è opportuno preavvisare le
unità selezionate per la rilevazione per mezzo di lettere nelle quali siano evidenziati: lo scopo
della ricerca, i benefici dell’informazione raccolta per il collettivo esaminato, il contributo
individuale ad un interesse collettivo, la riservatezza della raccolta e l’inserimento casuale fra
le unità contattate (solo indagini campionarie). Al fine di agevolare il compito ai rispondenti è
Pag. 54
anche auspicabile fornire sempre un recapito telefonico, meglio se gratuito, ed il referente del
progetto cui rivolgersi per ulteriori richieste di chiarimenti, commenti o suggerimenti.
Con riferimento alle due indagini considerate, sia l’Istat sia l’Unioncamere inviano alle unità
di rilevazione una lettera di presentazione delle rispettive indagini.
Per l’indagine sugli Aspetti della vita quotidiana i contenuti sono i seguenti
Gentile Signora, gentile Signore,
l’Istituto nazionale di statistica svolge un’importante rilevazione su alcuni aspetti fondamentali
della vita quotidiana. Le informazioni saranno raccolte direttamente presso 24.000 famiglie
residenti in 849 Comuni italiani e serviranno a conoscere le abitudini dei cittadini ed i problemi
che essi affrontano ogni giorno, l’uso dei principali servizi pubblici ed il grado di soddisfazione
su questi ultimi.
Questa rilevazione, denominata “Multiscopo sulle famiglie: Aspetti della vita quotidiana”,
rientra tra quelle comprese nel Programma statistico nazionale 2004-2006 (codice IST00204), che raccoglie l’insieme delle rilevazioni statistiche necessarie al Paese.
La sua famiglia è stata estratta casualmente dalle liste anagrafiche comunali per essere
intervistata. Nel mese di febbraio 2006 riceverà presso la sua abitazione la visita di un
rilevatore comunale, munito di cartellino identificativo, che rivolgerà alcune domande a Lei
ed ai suoi familiari.
La sua collaborazione e quella dei suoi familiari sarà preziosa per la buona riuscita della
rilevazione e fornirà informazioni utili ai fini della programmazione delle politiche sociali e
di quelle sui servizi di pubblica utilità, sia a livello nazionale che locale. Per tale motivo La
invito a comunicare il contenuto di questa lettera ai familiari che vivono con Lei nonché a
collaborare con noi e ad accogliere con cortese disponibilità l’intervistatore.
L’obbligo di risposta per questa rilevazione è sancito dall’art. 7 del d. lgs. 322/89, che prevede
sanzioni amministrative in caso di violazione di tale obbligo, e dal D.P.R. 14 luglio 2004. Come
previsto dalla normativa vigente, tuttavia, Lei potrà decidere se rispondere o meno ad alcuni
quesiti riguardanti dati sensibili che le verranno opportunamente segnalati dall’intervistatore. Le
saremo comunque grati se, data l’importanza della ricerca, avrà cura di fornire tutte le
informazioni che le verranno richieste.
L’Istat è tenuto, per legge, a svolgere questa rilevazione. Le informazioni raccolte, tutelate
dal segreto statistico e sottoposte alla normativa sulla protezione dei dati personali,
potranno essere utilizzate anche per successivi trattamenti, esclusivamente per fini statistici
nell’ambito del Sistema statistico nazionale e saranno diffuse in forma aggregata in modo tale
che non sia possibile alcun riferimento alla sua persona o alla sua famiglia, assicurando così la
massima riservatezza.
Titolare del trattamento dei dati personali raccolti con la presente indagine è l’Istat - Istituto
nazionale di statistica, Via Cesare Balbo, 16 - 00184 Roma; responsabile del trattamento è il
Direttore centrale per le indagini su condizioni e qualità della vita, al quale potrà rivolgersi
anche per quanto riguarda l’esercizio dei diritti dell’interessato.
Per ogni ulteriore verifica ed approfondimento potrà rivolgersi all’Istat, telefonando ai numeri
06/4673.4610-4617 o al numero verde (gratuito) 800.637760 dal lunedì al venerdì dalle ore
8.30 alle 13.30.
…
I passaggi importante (evidenziati in grassetto) di questa lettera sono:
a) il fatto che l’indagine prevista per legge fa parte cioè del Programma Statistico
Nazionale;
Pag. 55
b) l’evidenziazione degli obiettivi, infatti, nella lettera si legge che la rilevazione “… fornirà
informazioni utili ai fini della programmazione delle politiche sociali e di quelle sui
servizi di pubblica utilità, sia a livello nazionale che locale”;
c) che le informazioni raccolte sono elaborate sono per finalità statistiche ovvero che “Le
informazioni raccolte, tutelate dal segreto statistico e sottoposte alla normativa sulla
protezione dei dati personali, potranno essere utilizzate anche per successivi trattamenti,
esclusivamente per fini statistici nell’ambito del Sistema statistico nazionale e saranno
diffuse in forma aggregata in modo tale che non sia possibile alcun riferimento alla sua
persona o alla sua famiglia, assicurando così la massima riservatezza”;
d) che il titolare del trattamento dei dati personali è l’Istat;
e) viene spiegato come l’unità di rilevazione è stata selezionata ovvero “La sua famiglia è
stata estratta casualmente dalle liste anagrafiche comunali per essere intervistata”;
f) viene specificato come la famiglia sarà rilevata ovvero che “riceverà presso la sua
abitazione la visita di un rilevatore comunale, munito di cartellino identificativo il
rilevatore”;
g) infine viene indicato un numero verde.
Tipologia delle rilevazioni
Le tecniche di rilevazione delle informazioni sulle unità statistiche sono molteplici e
dipendono da una serie di parametri connessi agli scopi dell’indagine, alla dimensione del
collettivo statistico, ai costi, ai tempi, al livello di significatività desiderato, alla disponibilità
delle unità statistiche.
Le tecniche più diffuse sono le seguenti:
1) rilevazioni totali (o rilevazione esaustiva) sono estese a tutto il collettivo oggetto di
indagine (per esempio i Censimenti). Il termine rilevazione esaustiva si usa talvolta per
indicare che, per raggiungere la precisione attesa, è necessario includere tutte le unità della
popolazione;
2) rilevazioni campionarie o parziali, riguardano una parte del collettivo e sono diffuse
soprattutto per motivi di costo. La rilevazione campionaria qualifica un’indagine statistica
come campionaria mentre l’insieme parziale del collettivo viene chiamato campione
statistico;
3) rilevazioni indirette utilizzano archivi amministrativi, infatti, vengono effettuate
analizzando schedari, modelli, registri, atti.
Le tecniche di raccolta dati
Le principali tecniche di indagine in uso per condurre una rilevazione sono:
Pag. 56
Intervista diretta: viene condotta da un rilevatore che legge le domande e le opzioni di
risposta nell’esatto ordine e con lo stesso linguaggio adottati nel questionario riportandovi
quindi le risposte così come sono fornite dal rispondente.
Vantaggi: si presta meglio ad alcuni disegni di indagine (es.: censimenti e campionamento
areale), maggiore è la possibilità di contattare e convincere il rispondente a collaborare, si
identifica esattamente il rispondente, c’è la possibilità di istruire il rispondente sul significato
delle domande e sul modo corretto di fornire le risposte, flessibilità negli strumenti utilizzabili
(audiovisivi, sezioni autocompilate ...), interviste di maggiore durata.
Svantaggi: costosa da implementare, necessita di una organizzazione capillare sul territorio,
richiede tempi più lunghi di altri metodi per la raccolta dei dati, maggiori rischi di
condizionamento.
Rilevazioni per via postale il questionario è inviato alle persone che sono invitate a
compilarlo e restituirlo in forma anonima. Contestualmente al questionario ma in modo
separato si allega una lettera da restituire come prova della compilazione del questionario.
Questo tipo di rilevazione pone problemi di non poco conto, soprattutto collegati alle
“mancate risposte” o alla stessa non compilazione del questionario da parte delle unità
interessate all’indagine. Il contatto postale è difficilmente eseguibile se non si dispone di una
lista di indirizzi affidabile.
Vantaggi: bassi costi di realizzazione, è richiesta un’organizzazione minore, bassi rischi di
condizionamento, è adatta per porre quesiti delicati, disponibilità di tempo per reperire
eventuale documentazione necessaria alla compilazione.
Svantaggi: tempi lunghi di raccolta, impossibilità di identificare con certezza il rispondente,
autoselezione dei rispondenti, minore capacità di ottenere la partecipazione all’indagine (il
tema deve essere coinvolgente), più difficile aiutare i rispondenti nella comprensione delle
domande e nella compilazione del questionario (importanza della grafica);
Intervista telefonica viene condotta al telefono da un intervistatore che legge le domande e le
opzioni di risposta nell’esatto ordine e con lo stesso linguaggio adottati nel questionario
riportandovi quindi le risposte così come sono fornite dal rispondente.
E’ una tecnica che si è notevolmente sviluppata in questi ultimi anni avendo il vantaggio
della tempestività nella raccolta delle informazioni, la registrazione ed il controllo automatico
nel caso dell’ausilio di tecniche informatiche di supporto (CAT).
Vantaggi: costi minori rispetto all’intervista faccia a faccia, tempestività della raccolta dati,
non è richiesta un’organizzazione sul territorio, maggiore possibilità di controllo dell’operato
dei rilevatori, possibilità di contatto anche per le persone che non si trovano in casa in orari
"canonici", bassi rischi di condizionamento e maggiore possibilità di porre quesiti delicati.
Pag. 57
Svantaggi: impossibilità di contattare le famiglie senza telefono (possono non risultare
completamente significative in quanto non sussiste la totale copertura dell’universo), il
rispondente non è identificato con certezza, limitazioni nella lunghezza del questionario e
nell’aiuto fornito ai rispondenti;
tecniche di indagine CATI (Computer Assisted Telephone Interviewing) e CAPI (Computer
Assisted Personal Interviewing). Il questionario è contenuto nel computer cosicché le
domande vengono poste così come compaiono sullo schermo e le risposte sono registrate
direttamente su supporto magnetico.
Vantaggi: alcuni controlli di qualità sono eseguiti dal computer al momento dell’immissione
con un conseguente risparmio nelle successive fasi di controllo di qualità, si gestiscono
facilmente questionari molto articolati, possono essere predisposte formulazioni alternative
delle domande, si accorciano i tempi di completamento dell’indagine (soprattutto nel CATI).
Svantaggi: occorre dotare i rilevatori di un Computer portatile (CAPI), è necessario un
maggiore addestramento dei rilevatori, ci sono problemi di hardware (CAPI - pesante, lento,
batterie,...).
Osservazione diretta: l’informazione viene raccolta dal rilevatore per mezzo dei propri sensi o
mediante strumenti di misurazione fisici (applicazioni in antropologia, psicologia, geologia,
telerilevamento,...).
Vantaggi: è preferibile qualora l’informazione fornita da un rispondente non sia considerata
sufficientemente precisa;
Svantaggi: l’interazione fra osservatore e oggetto osservato riproduce gli stessi problemi di
condizionamento che si possono riscontrare con l’uso di rilevatori
Piano di rilevazione
E' l’insieme delle fasi elementari per l’espletamento della rilevazione dei dati in un’indagine
statistica. Il piano di rilevazione comprende sia il piano di campionamento (ovviamente, se
l’indagine è di tipo campionario), sia le scelte per la rilevazione (diretta o indiretta, tra i
metodi diretti, l’autosomministrazione di questionari o la somministrazione mediante
rilevatori), sia la predisposizione degli strumenti (questionario, altro) e la formazione del
personale (rilevatori, codificatori, supervisori) da adibire alla rilevazione delle informazioni.
Classificazione delle Rilevazioni
 periodiche o ripetute quelle effettuate a intervalli regolari di tempo (relativa a
fenomeni di stato per es: sulle strutture ricettive o la rilevazione sulle forze di lavoro).
Pag. 58
Sono chiamate anche indagini ricorrenti in quanto l’indagine viene ripetuta in
momenti programmati nel tempo. L’organizzazione adottata non prevede una
sovrapposizione, neanche parziale, del campione di unità in differenti occasioni;

ripetute con una parziale sovrapposizione del campione sono programmate ad
intervalli di tempo regolari con l’uso di panel ruotati. In questo caso le unità
statistiche sono introdotte nel campione, indagate per un prefissato numero di
occasioni e quindi escluse (ruotate). Lo scopo principale per introdurre una
sovrapposizione del campione è quello di ridurre la varianza campionaria delle stime;

longitudinali con e senza rotazione hanno lo scopo di seguire un particolare gruppo di
unità nel tempo, e creare un record longitudinale per ogni unità osservata. L’obiettivo
è quello di studiare le modificazioni intervenute nel collettivo durante il tempo,
utilizzando i cambiamenti avvenuti sui record individuali;

saltuarie o occasionali effettuate in particolari circostanze: Sono indagini pianificate
allo scopo di ottenere stime riferite a caratteristiche possedute dalla popolazione in un
singolo istante di tempo (es.: distribuzione per età della popolazione in un dato istante)
o riferite a un periodo (es.: distribuzione del fatturato realizzato nell’arco di un anno);

preliminare/pilota svolta prima di quella principale con l’intento di assumere
informazioni che possono rendere più efficiente lo svolgimento dell’indagine
principale. Può essere utilizzata per sottoporre a verifica un questionario, per avere
un’idea del tempo necessario per lo svolgimento dell’intervista presso certi
sottoinsiemi di unità, per conoscere la variabilità dei fenomeni che interessano la
ricerca e determinare conseguentemente la numerosità del campione sufficiente ad
ottenere stime che abbiano un’attendibilità prefissata. L’indagine pilota è condotta, in
genere, su piccola scala e su sottoinsiemi mirati della popolazione.
I Focus group
Il focus group è una sorta di intervista di gruppo ovvero un’osservazione fatta su un gruppo di
soggetti. In realtà il gruppo di soggetti scelto è inserito in una situazione di dibattito rispetto
ad un argomento prestabilito, un dibattito che ha l’obiettivo di fare emergere i pareri e i punti
di vista spontanei dei soggetti presi in esame.
La finalità dei focus group è quindi di organizzare “una fase di ascolto e di condivisione dei
problemi relativi al fenomeno che è oggetto di studio, attraverso testimoni privilegiati” e
pertanto il focus group non è altro che “una tecnica di indagine basata sul metodo
partecipativo e sulla focalizzazione collettiva delle problematiche”.
Pag. 59
Chi sono questi soggetti ovvero i partecipanti ?
Vengono selezionati in base alla conoscenza del fenomeno da studiare e quindi Istituzioni
centralo e/o locali, Associazioni di categoria, Associazioni sindacali, Istituti di credito,
Università e Centri Studi, Attori sociali, …..
Esempio: ipotizziamo di individuare una prima mappa dei possibili interlocutori (stakeholder)
istituzionali relativamente ad un progetto che riguardi l’artigianato (progetto di natura
economica).
Tipologia
Denominazione
Nominativo
Incarico
Indirizzo
Telefono
Email
Presidenza
Regione
Ass. Att. Produttive
Ass.
Lavoro
e
Formazione
Camera di
Commercio
Presidenza
Albo artigiani
Centro Studi
La fase successiva riguarderà la verifica delle disponibilità degli stakeholders, per formulare
la lista dei partecipanti
L’intero dibattito viene annotato (spesso anche registrato o ripreso) e diventa materiale
informativo molto utile perché diretto e vero, portatore delle opinioni altrui.
Gli scopi di un focus group:
a) è un’analisi esplorativa che attraverso una o più discussioni di gruppo, permette di
rafforzare o revisionare un’immagine, un’ipotesi, o rivedere conclusioni avanzare dal
gruppo di ricerca;
b) può assumere anche la funzione di ricerca pilota indagando sulla complessità delle
domande di un questionario o per mettere a punto lo stesso;
c) può completare altri metodi di indagine poiché, aggiungendo il confronto diretto tra più
opinioni, aiuta nelle interpretazioni dei risultati ottenuti con altri metodi di ricerca;
d) rende possibile un feedback immediato poiché il confronto consente di fare emergere gli
aspetti importanti che un’intervista faccia a faccia non rivelerebbe mai, riducendo
notevolmente l’influenza del ricercatore sull’intervistato.
Il ruolo del moderatore (coordinatore): costituisce indubbiamente la figura chiave del focus in
quanto deve coordinare il gruppo e quindi deve cercare di essere sensibile alle dinamiche del
Pag. 60
Questa sua funzione potrà essere svolta limitandosi a “gestire” i punti di discussione o a
risollevare o ricondurre la discussione qualora si esca dal tema in oggetto o “la situazione
langue”. Peraltro si dovrà avere il supporto di osservatori con il compito di registrare gli
interventi e, visto il facile rischio di farsi sfuggire la discussione, su aiuto a riportare la
discussione sulla giusta tematica.
Modalità di svolgimento del focus group: il moderatore (intervistatore) coordina la
discussione con una serie di argomenti più o meno strutturata, molto spesso i temi vengono
inviati preliminarmente ai partecipanti. Generalmente il focus viene fatto in una stanza o
un’aula dove possono trovare ospitalità gruppi di 8-12 persone.
Le fasi di preparazione del focus:
La prima questione riguarda la scelta dei partecipanti. Se interessa la comparazione fra gruppi
diversi, questi devono essere intervistati separatamente, in questo caso è essenziale specificare
le caratteristiche dei partecipanti in relazione agli scopi dell’indagine. Invece per ogni gruppo
va perseguita l’omogeneità in modo che i partecipanti siano a proprio agio nel parlare di
determinati argomenti poiché si trovano in un gruppo di simili.
La seconda questione riguarda la determinazione del numero di sessioni: se l’obiettivo è
comparare due gruppi sono necessarie almeno due sessioni per ciascun gruppo.
La terza riguarda la presentazione del focus group: è importante avviare la discussione con
naturalezza senza chiedere ai partecipanti se ci sono domande prima di iniziare con la scaletta,
altrimenti c’è il rischio di perdere il controllo della situazione. Va creato un clima attento e
interessato alla discussione.
La quarta questione riguarda le domande: per un focus group di due ore, la scaletta ideale
dovrebbe essere composta da 10-12 domande ben formulate, che possono essere
accompagnate da indagini sul follow-up.
L’ultima riguarda la durata: due ore sono più che sufficienti.
Suggerimenti pratici:
-
il linguaggio usato deve essere chiaro e comprensibile a tutti;
Pag. 61
-
alla fine della discussione è utile riassumere ciò di cui si è parlato e chiedere se si è
dimenticato qualcosa;
-
l’ordine delle domande deve essere logico ed andare dal superficiale al profondo (le prime
domande inquadrano il problema, le successive scendono in profondità);
-
bisogna impedire di saltare da un argomento ad un altro e di dare risposte prima del
tempo;
-
non esistono idee giuste o sbagliate, attenzione a non dare questa sensazione: si va alla
ricerca di opinioni, non di soluzioni.
L’analisi dei risultati: esistono diverse tecniche che vanno d quelle classiche di analisi dei test
a quella della codifica degli argomenti toccati e trascrizione della mappa di codici, alla
costruzione di una griglia riassuntiva, all’effettuare comparazione fra i gruppi. L’attendibilità
del focus: viene controllata con la ripetizione delle sessioni.
I fattori di successo di un focus group sono:
-
chiarezza degli scopi;
-
ambiente appropriato;
-
risorse sufficienti;
-
partecipanti appropriati (devono essere rappresentativi del gruppo che si vuole studiare);
-
esperienza del moderatore;
-
domande efficaci;
-
accurata elaborazione dei dati;
-
analisi sistematica e verificabile;
-
presentazione appropriata;
-
rispetto dei partecipanti, committenti e metodi.
Esempio: il Progetto P.I..LO.T.-FVG, “Piano Integrato per la LOgistica Transfrontaliera del
Friuli-Venezia Giulia a sostegno dell''economia di confine”.
Il progetto, realizzato nel biennio 2004-05, aveva l’obiettivo di analizzare gli effetti sulle
economie di confine derivanti dalla caduta delle barriere doganali, in seguito all’allargamento
dell’Unione europea. In particolare si trattava di analizzare non solo gli effetti sull’intera
economia locale, ma anche su quelle del comparto di trasporti, in particolare sulle attività
doganali. Sono stati realizzati diversi focus group su argomenti diversi che riguardavano:
a) la situazione e le prospettive delle imprese doganalistiche, spedizionieristiche e
trasportistiche coinvolte nella caduta delle barriere
b) gli effetti di valutazione sul territorio del Friuli-Venezia e sulla sua economia
dell’allargamento dell’Unione Europea
Pag. 62
c) il ruolo e la funzione della Regione Autonoma Friuli-Venezia Giulia nei confronti del
processo di ampliamento dell'Unione europea
d) le attività di trasporto e di logistica nel Friuli-Venezia Giulia: opportunità e criticità in
seguito all’allargamento dell’Unione europea e alla conseguente caduta delle barriere
doganali
e) le strutture autoportuali ed interportuali del Friuli-Venezia Giulia: problematiche e
progettualità in vista della caduta delle barriere doganali.
Calendario dell’indagine
E’ il periodo durante il quale va effettuata o riferita la rilevazione e va decisa durante il piano
di rilevazione. Tale scelta risulta molto importante perché se da un lato vi sono indagini che
possono essere effettuate in un qualunque giorno dell'anno, dall’altro ve ne sono altre i cui
risultati possono essere “turbati” dalla scelta della data, per esempio un'indagine sui consumi
familiari effettuata nelle settimane precedenti il Natale.
Pag. 63
QUINTO CAPITOLO
IL QUESTIONARIO
Modello di rilevazione
Strumento di raccolta dei dati (micro-dati) costituito da in insieme strutturato di domande
(item a risposta qualitativa e quantitativa) e di relative modalità di risposta registrato su un
supporto idoneo per la somministrazione.
Il questionario deve essere visto come uno strumento di comunicazione finalizzato a facilitare
l’interazione fra il ricercatore, il rilevatore (se presente) e il rispondente, ma affinché possa
svolgere il suo ruolo occorre che sia anche uno strumento standardizzato; ovvero domande e
comunicazione devono essere identiche per tutti i rispondenti al fine che le informazioni
raccolte siano confrontabili fra loro.
La sua costruzione è un momento delicato nella fase di pianificazione della ricerca poiché si
richiedono competenze tecniche, abilità ed esperienza.
Il supporto tradizionale è quello cartaceo, ma nel tempo si è diffusa la tecnica di
somministrazione tramite intervista telefonica, telefax e posta elettronica.
Affinché la comprensione del questionario non risulti ambigua è importante che il rispondente
inquadri il contesto nel quale le domande si collocano. Per questo motivo occorre che la
sequenza degli argomenti affrontati sia il più possibile coerente evitando che si verifichino
salti radicali. Ma l’ordine stabilito nella sequenza degli argomenti può anche condizionare la
risposta, creando distorsioni nei dati. Ad esempio se si vuole un’opinione spontanea sulla
soddisfazione nel lavoro è bene non anteporre domande sulle caratteristiche specifiche del
lavoro svolto che potrebbero focalizzare l’attenzione su alcuni aspetti particolarmente
gradevoli o sgradevoli. I quesiti che implicano uno sforzo di memoria andrebbero collocati
verso la metà del questionario, per evitare che all’inizio il rispondente non sia ancora
disponibile a tale impegno e alla fine sia troppo stanco. I quesiti su temi delicati da affrontare
andrebbero collocati verso la fine per sfruttare la maggiore confidenza e disponibilità ormai
acquisita e per non rischiare che un rifiuto a rispondere possa compromettere l’acquisizione
delle informazioni collocate sull’ultima parte di questionario.
Può configurarsi anche uno schema di intervista strutturata con l’obiettivo di raccogliere
informazioni sulle variabili qualitative e quantitative, presso opinion leader
Esempio: Ipotizziamo di analizzare il Turismo, in particolare l’offerta (l’ospitalità) di
un’economia locale al fine di individuare opportunità per la creazione di nuove imprese.
La ricerca si proporrà quindi l’obiettivo di cogliere e poi comprendere le problematiche del
settore, di analizzare l’offerta, individuare aree carenti, prospettive imprenditoriali, azioni
Pag. 64
promozionali, di accrescere la probabilità di vita delle imprese create nel turismo. In questo
caso si decide di intervistare degli opinion leader (al massimo una decina) e si redige il
seguente schema di intervista.
QUESTIONARIO AGLI OPINION LEADER
Stato dell’arte
1) Valutazione qualitativa e quantitativa dell’Offerta (punti di forza/debolezza, analisi per
macroaree, …)
_________________________________________________________________________
2) Valutazione qualitativa e quantitativa della Domanda (flussi, motivazioni d’acquisto,
opportunità, rischi, …)
_________________________________________________________________________
3) Quali sono le azioni di promozione e marketing territoriale
attuali ___________________________________________________________________
programmate/auspicate _____________________________________________________
Prospettive per la creazione di imprese
4) Eventuale presenza di nodi/”colli di bottiglia” strutturali (sollecitare una visione di medio
periodo)
a) scarsità/carenza di infrastrutture
b) scarsità/carenza di offerta ricettiva
c) scarsa imprenditorialità
d) basso livello delle risorse umane
e) altro ______________
5) Interventi ed iniziative mirati a rimuovere/ridurre i vincoli
a) attuali _______________________________________________________________
b) programmati/auspicati __________________________________________________
6) Quali sono, a suo avviso, le aree o le attività su cui è bene investire prioritariamente
_________________________________________________________________________
Nome intervistato: ____________________________________
Data: _________________
Durata dell’intervista: ___________________
Località: ___________________
Intervistatore: ___________________
Pag. 65
Le forme delle interviste e dei questionari possono variare
a) da quelle rigidamente standardizzate in cui le domande e le risposte alternative possibili
sono predeterminate;
b) a quelle del tutto libere e “non strutturate” in cui non c’è predeterminazione né delle
domande, né delle risposte alternative.
Nel primo caso le domande vengono poste negli stessi termini e nel medesimo ordine a tutti i
rispondenti con il vantaggio che le risposte non sono influenzate da diversa formulazione del
quesito e si potrà attivare la completa confrontabilità dei dati.
Le domande possono essere quindi a:
RISPOSTA APERTA o LIBERA: domanda nella quale non sono prefigurate le possibili
modalità di risposta, ma si lascia al rispondente e all’eventuale rilevatore la scelta della
risposta da registrare. Vantaggi: è minimo il rischio di condizionare il rispondente, sono
le uniche domande possibili quando non si conosce il fenomeno (e quindi non si
possono ipotizzare risposte), sono utili nel trattare argomenti particolarmente delicati,
perché danno all’intervistato la facoltà di motivare comportamenti e/o atteggiamenti.
Svantaggi: dilatano tempi e costi della ricerca, comportano un alto rischio di errore
nella interpretazione, codifica e registrazione (in quanti si tende a sintetizzare una
risposta), la qualità della risposta può essere molto scadente, infatti, il rischio è di
incorrere in risposte che sono “luoghi comuni”.
RISPOSTE FISSE PREDEFINITE (con una sola risposta e multirisposte): domanda nella
quale sono specificate le alternative di risposta (se alle modalità di risposta sono
affiancati dei codici, le modalità di risposta si dicono precodificate). Al rispondente è
lasciata facoltà di scegliere tra le risposte possibili quella/e che meglio si adatta/no al
suo caso personale. Il problema più rilevante riguarda la selezione delle possibili
risposte in quanto può accadere che non sempre si conoscono tutte le modalità che il
fenomeno può assumere, ma viceversa accade che esso possa essere rappresentato con
un numero eccessivo di risposte per cui si pone il problema del loro raggruppamento.
Con riferimento all’indagine Aspetti della vita quotidiana è una domanda fissa predefinita la
seguente della SEZIONE 13: AMICI
Pag. 66
13.1 Con che frequenza si vede con amici nel tempo libero?
Tutti i giorni
1
Più di una volta alla settimana ......
2
Una volta alla settimana ................... 3 Qualche volta al mese (meno di 4)
4
Qualche volta durante l'anno..........
5
Mai...................................................... 6 Non ho amici....................................... 7 DOMANDE FILTRO (quesito dalla cui risposta dipende la domanda successiva)
Le domande filtro permettono di “saltare” uno o più quesiti successivi se sono verificate
alcune condizioni. Tale necessità si manifesta quando:

occorre indirizzare gruppi particolari di rispondenti verso domande specificatamente
rivolte a loro;

si vuole evitare di scendere in domande dettagliate quando ciò è inutile; ad esempio per
non sottoporre un blocco di domande riguardanti le vacanze svolte nell’anno a coloro che
dichiarano di non aver svolto vacanze nell’anno;

si vogliono evitare condizionamenti nella risposta; ad esempio non si desidera chiedere
opinioni sull’ultimo libro letto nei 12 mesi a chi non ha letto nessun libro nei 12 mesi, per
non provocare risposte date allo scopo di non fare "brutta figura".
Con riferimento all’indagine Aspetti della vita quotidiana è una domanda filtro la seguente
della SEZIONE 11: VACANZA E MOTIVI DELLA NON VACANZA
11.1 Negli ultimi 12 mesi si è recato in vacanza per un periodo di almeno 4 notti
consecutive?
NO ........................... 00
andare a domanda 11.2
SÌ, quante volte?.................. N. ____
La risposta “NO” consentirà di procedere con le domande del questionario indagando i motivi
della non vacanza, mentre la risposta “SI” chiede il numero delle vacanze prima di passare
alla Sezione Successiva.
RISPOSTE MISTE (si prevedono risposte solo per le modalità principali). Può capitare che
gli item delle risposte inserite nel questionario non coprano tutti i possibili casi sia
perché viene dimenticata qualche modalità importante sia perché non interessava
inserirle tutte. In questo caso si prevede una modalità aperta Altro prevedendo uno
spazio per la specificazione.
Pag. 67
Con riferimento all’indagine Aspetti della vita quotidiana è una domanda mista la seguente
della SEZIONE 11: VACANZA E MOTIVI DELLA NON VACANZA
11.2 Per quali motivi non è andato in vacanza? (possibili più risposte)
Per ragioni economiche .....
1
Per motivi di lavoro o di studio..
2
Per mancanza di abitudine ...........
3
Perché già residente in località di villeggiatura................... 4 Per motivi di famiglia
5
Per motivi di salute ................................
6
Per l'età ....................................................
7
Per altri motivi (specificare) ………..................................................
DOMANDE STRUTTURATE: è prevista una serie di risposte predefinite tra le quali il
rispondente deve scegliere. Vantaggi: riduce i tempi di codifica e registrazione, aiuto al
rispondente, standardizza la domanda. Svantaggi: troppe opzioni concentrano
l’attenzione sulle ultime (per es. nell’intervista diretta e telefonica), poche opzioni
possono trascurare fatti importanti, il rispondente può rispondere a caso.
Esempio
Dirigenti
Quadri,
impiegati
Operai
TOTALE
DIPENDENTI
Occupati al 31.12.2005
Uscite previste nel 2006
Entrate previste nel 2006
Occupati previsti al 31.12.2006
Che abbiamo già visto
È altresì una domanda strutturata la seguente tratta dall’indagine Aspetti della vita quotidiana
alla SEZIONE 3: CORSI E LEZIONI PRIVATE
3.1 Negli ultimi 12 mesi ha frequentato lezioni private o corsi a spese sue o della
famiglia? (una risposta per ogni riga)
No
Solo in alcuni
Mesi
Solo alcune
settim. durante
l’estate
Per tutto
l'anno
Recupero scolastico
1
2
3
4
Informatica
1
2
3
4
Lingue
1
2
3
4
Attività artistiche e/o culturali
1
2
3
4
Pag. 68
RISPOSTE CHIUSE che presentano due o tre modalità di risposta. Generalmente vengono
utilizzate per verificare la presenza/assenza di un fenomeno.
Con riferimento all’indagine Aspetti della vita quotidiana è una domanda chiusa la seguente
della SEZIONE 2: FORMAZIONE
2.2 L'asilo, la scuola o l'università a cui è iscritto è pubblica o privata?
Pubblica
1
Privata
2
Schema di costruzione del questionario
Il procedimento si articolare nelle seguenti fasi:
1.
individuazione delle informazioni da chiedere che in generale possono riguardare dati
personali, ambientali, comportamentali, ecc. I dati personali servono a fornire la base per
una più approfondita comprensione delle risposte riguardanti al fenomeno. Riguardano il
sesso, l’età, lo stato civile, l’occupazione il grado di istruzione, la nazionalità ed altri
caratteri personali del rispondente. I dati ambientali servono a conoscere le situazioni e le
circostanze in cui vivono i rispondenti al fine di spiegare atteggiamenti, azioni e
comportamenti. Riguardano il luogo di residenza, il tipo di abitazione, ecc. I dati
comportamentali riguardano azioni, atteggiamenti e comportamenti passati e presenti;
2. scelta del tipo di questionario da utilizzare (forma delle domande, ecc.). La sequenza con
la quale le domande sono poste è uno degli aspetti del questionario, mediante il quale si
può aiutare il rispondente nel compito di fornire le informazioni volute. Al fine di aiutare
i rispondenti nel loro compito è importante tenere presenti due stili nell’ordinamento dei
quesiti: il primo è la successione a imbuto, si passa cioè da domande generali a domande
più particolari per dare tempo al rispondente di focalizzare l’attenzione sul tema proposto,
il secondo è la successione ad imbuto rovesciato, si antepongono le domande specifiche a
quelle più generali (utile quando si desidera raccogliere opinioni meditate su un
determinato argomento);
3. prima traccia di questionario (dove sarà opportuno avvalersi delle esperienze acquisite da
altri ricercatori in modo da migliorare la tecnica di rilevazione e di studio ed ottenere dati
confrontabili);
4. revisione delle domande (consultazione con esperti);
5. prova del questionario su un gruppo piccolo di persone opportunamente scelte (anche in
modo ragionato);
6. stesura conclusiva del questionario e indicazione dei modi per usarlo correttamente.
Pag. 69
L’editing ed il linguaggio sono caratteristiche importanti del questionario: alcune regole da
seguire sono indispensabili come quella di usare termini semplici (evitando termini tecnici a
meno che non sia rivolto ad esperti), usare termini precisi, non utilizzare parole con
significato dispregiativo e elogiativo, non proporre domande troppo lunghe, o domande
composte da più preposizioni, evitare espressioni negative, utilizzare esempi che indirizzino
verso una corretta interpretazione della domanda, evitare però troppe precisazioni all’interno
della domanda.
L’uso delle scale di valutazione
Spesso la ricerca vuole raccogliere un o più giudizi del rispondente su alcuni aspetti del
fenomeno in esame. In questo caso si deve convertire il giudizio personale dell’intervistato in
una qualche misura nominale, ordinale o numerica da poi elaborare in termini di valutazione.
Si costruiscono allora le scale di valutazione.
Esempio: Esprima un giudizio sui seguenti servizi offerti (1=molto buono, 5=scarso)
Ma la scala di giudizio potrebbe essere anche (1=scars, 5=molto buono)
Intrattenimento durante il viaggio
1
2
3
4
5
Informazione depliantistica
1
2
3
4
5
Qualità del ristorante
1
2
3
4
5
Prezzo
1
2
3
4
5
Qualità e puntualità dei trasporti
1
2
3
4
5
Offerta culturale(entrate a musei, visite…)
1
2
3
4
5
Di qualsiasi natura siano le scale, il principio che presiede alla loro definizione è quello
dell’esistenza di un continuum, che per comodità viene trasformato in carattere discreto, in
punti, all’interno dei quali il rispondente deve scegliere quello che meglio interpreta la sua
posizione. Questo principio implica che tra gli elementi costitutivi la scala sia almeno
possibile istituire la relazione A è preferibile a B (o A è migliore di B), ma non del tipo A è
diverso da B. Le scale di valutazione dovrebbero presentare punti, il più possibile,
equidistanti tra di loro, non essendo possibile misurare direttamente le distanze tra i vari
atteggiamenti.
Le scale possono essere numeriche, come nell’esempio suindicato, che presentano ai
rispondenti una gamma di punteggi da attribuire a un qualche fenomeno, ma possono essere
anche verbali dove si presenta all’intervistato da un minimo di due ad un massimo di cinque o
sei possibili giudizi espressi con delle frasi.
Pag. 70
Abbiamo visto precedentemente che l’Istat nell’indagine “Aspetti della vita quotidiana”
utilizza una particolare scala di valutazione. L’esempio che si riporta è tratto dalla SEZIONE
8: SERVIZI OSPEDALIERI
8.7 (Con riferimento all'ultimo ricovero) È rimasto soddisfatto dei seguenti aspetti del
ricovero? (una risposta per ogni riga)
Molto
Abbastanza
Poco
Per
niente
Non
so
Assistenza medica......
1
2
3
4
5
Assistenza infermieristica..............
1
2
3
4
5
Vitto.............................
1
2
3
4
5
Servizi igienici ..............
1
2
3
4
5
Esiste anche la tecnica del differenziale semantico che si rappresenta come combinazione
della scala verbale e numerica. Si presenta come un diagramma ai cui estremi compaiono
termini dal significato opposto. Il rispondente segnerà la posizione più congeniale tenendo
conto delle diverse alternative all’interno delle quali sta collocando il suo giudizio.
Esempio: Esprima un giudizio sulla ristorazione
Molto buono




Scadente
Qualità dei dati
L’utilizzo del questionario può comportare certamente degli errori che possono essere di tipo:
accidentali: imperfezioni, inesattezze nelle risposte che si presentano senza regolarità;
sistematico: che si presentano con regolarità e con il medesimo segno.
Quest’ultimo è certamente il più importante e la sua riduzione è indice di una buona
programmazione del lavoro. Ora tra i possibili errori c’è ne sono alcuni ricorrenti che vanno
segnalati:
 il dato mancante cioè il dato elementare del quale non sia registrato il codice. Quando
manca il dato si possono adottare varie strategie: (a) se ne può ignorare la mancanza se
questa è casuale e i dati disponibili sono congrui per la stima, (b) si può rimpiazzare con
un codice probabile determinato con una delle tecniche per la "correzione degli errori";
 la mancata rilevazione cioè, in una indagine sulla popolazione, l’insuccesso nel tentativo
di contatto delle unità destinate a partecipare all’indagine (per trasferimento, assenza
ripetuta dal domicilio, morte), o, a contatto avvenuto, nella richiesta di intervista o di
compilazione del questionario (per rifiuto, incapacità di collaborare all’indagine etc.). Il
problema della mancata rilevazione di unità si pone sia nelle indagini campionarie che in
Pag. 71
quelle esaustive. Se non vengono intervistate le unità di rilevazione, perché sono assenti o
si rifiutano di collaborare anche dopo ripetuti tentativi di contatto, è importante recuperare
informazioni su un campione dei mancati rispondenti o, per lo meno, sulle loro
caratteristiche ascrittive mediante un’indagine suppletiva. Le mancate rilevazioni sono
diffuse nelle indagini postali;
 la mancata risposta o non risposta cioè l’assenza di risposta ad una domanda del
questionario, in altre parti compilato. Il problema delle mancate risposte può essere
affrontato da diversi punti di vista. Una possibilità è quella di determinare statisticamente
le risposte ottenibili utilizzando informazioni provenienti da fonti esterne all’indagine
(registri, censimenti, etc.) o tramite un supplemento di indagine. Una seconda via è quella
dell’utilizzazione delle informazioni raccolte per "dare" alle unità che non si sono
espresse, il valore più probabile scegliendolo tra quelle che hanno espresso una risposta
valida. Si può anche decidere di escludere dall’analisi l’unità con risposta mancante, ma
l’esclusione va effettuata con la consapevolezza che l’analisi delle sole risposte
validamente espresse conduce a risultati normalmente distorti;
 il mancato rispondente cioè l’unità della popolazione o del campione designata a
rispondere che non fornisce collaborazione, o all’intero questionario (mancata
rilevazione), o ad una singola domanda (mancata risposta).
Come valutare questi tipi di errori; in primis controllando che il modello di rilevazione sia
compilato in ogni sua parte. Riguardo al dato mancante o incongruente, si tratta di verificare i
valori fuori range e le incompatibilità con altre risposte fornite dall’unità di rilevazione.
Procedure di controllo e correzione dei dati
I metodi di correzione possono essere di tre tipi:
a) metodo della correzione deterministica, in base al quale la soluzione a risposte mancanti o
incompatibili è fornita dal ricercatore in modo soggettivo;
b) metodo della correzione probabilistica, in base al quale le risposte mancanti o incongruenti
sono sostituite con delle informazioni valide presenti in altre unità rilevate;
c) metodo “manuale”, che sfrutta l’esperienza e le ulteriori informazioni a disposizione delle
persone le quali ricostruiscono l’informazione caso per caso.
Quest’ultimo approccio manifesta due indicative debolezze, determinate dal lungo tempo
necessario nel caso di una matrice dei dati particolarmente ampia e per il fatto che l’intervento
manuale può rilevarsi non corretto se la persona non dispone di informazioni suppletive e
soprattutto sufficienti per la rettifica del dato.
Come ricostruire i valori mancanti o errati
Pag. 72
Si utilizza un procedimento basato sul principio della similitudine dei comportamenti delle
unità e delle loro risposte. Dall’insieme dei “dati esatti” viene ricercata una unità di
rilevazione dalla quale ricavare, per similitudine, il valore da attribuire alla variabile errata
con un valore che tuttavia non comporti nuove incompatibilità.
Revisione dei dati
Il materiale raccolto va sottoposto ad una revisione attenta e approfondita che riguarda sia
l’aspetto quantitativo sia quello qualitativo. La revisione quantitativa ha lo scopo di accertare
che nessuna unità sia sfuggita alla rilevazione o sia stata rilevata più di una volta.
La revisione qualitativa consiste in un esame critico dei dati rilevati, per accertare se siano
stati raccolti in conformità alle istruzioni e rispecchino la vera situazione dell'unità rilevata.
Dalla revisione qualitativa possono quindi emergere le lacune in cui è incorso il compilatore,
tralasciando di comunicare alcune delle informazioni richieste, ma possono emergere anche
gli errori di compilazione. La possibilità di colmare a posteriori le lacune nelle unità è
possibile nel caso di indagini con modelli nominativi, quando cioè è possibile risalire all’unità
di rilevazione, viceversa diventa complicato i modelli sono anonimi.
Errori ricorrenti nella proposizione del questionario
di programmazione
del rispondente
del rilevatore/operatore
di registrazione
Non chiarezza degli obiettivi
Non conoscenza del
fenomeno da parte
dell’intervistato
Impreparazione sul
questionario (carenza
nelle istruzioni)
Non corretta predisposizione
del questionario
Scarsa motivazione a
rispondere attentamente
Impreparazione sulla
conduzione
dell’intervista
Non corretta predisposizione
delle istruzioni per rilevatori
Fraintendimento involontario
di alcune domande
Scarsa motivazione
Imprecisioni nel piano di
codifica
Distorsione volontaria delle
risposte
Errori di registrazione
del valore del dato
Carenze nel controllo del
lavoro degli intervistatori
Condizionamento legato alla
presenza di altre persone
Errori di registrazione
nella posizione del dato
nel record
Pag. 73
Riepilogo
Elementi importanti nella costruzione del questionario sono

Organizzare il questionario in aree omogenee per tematiche trattate;

adottare un linguaggio comprensibile a tutti gli intervistati, una terminologia precisa
chiedendo cose a cui l’intervistato può rispondere;

essere precisi nel riferimento temporale delle domande facendo molta attenzione all’uso
dei quesiti retrospettivi;

collocare le domande in modo che non influenzino le risposte alle successive domande;

individuare
la
lunghezza
ottimale
del
questionario
per
impegno
di
tempo,
approfondimento di temi e ridondanza delle informazioni;

curare l’editing del questionario in modo da facilitare la comprensione e la compilazione;

individuare i codici più opportuni per ciascuna modalità di risposta ai quesiti del
questionario;

prevedere una parte del questionario per i codici identificativi e una per i quesiti sui
controlli di qualità.
Memorizzazione dei dati
E’ la fase di registrazione dei dati mediante la quale i codici, corrispondenti alle risposte date
a "domande a risposta chiusa" o apposti con la codificazione delle risposte a "domande a
risposta aperta", vengono trasferiti su un supporto idoneo ad eseguire tramite elaboratore le
successive operazioni di revisione, correzione ed elaborazione statistica.
In questa fase
abbiamo due tipi di pulizia; quelli dovuti ad errori di scrittura da parte dei rispondenti e quelli
dovuti a risposte errate a causa della non comprensione delle domande, ad esempio quando un
intervistato barra due risposte nelle domande che ne richiedono una sola.
In questo caso, come nel caso in cui l'intervistato non abbia risposto ad una domanda, il valore
da caricare è il "non risposto o missing" ossia informazione mancante, che in genere ha un
codice molto diverso dagli altri, ad esempio 9 o 99.
Quindi la registrazione comporta l’inserimento su elaboratore elettronico di “record” ovvero
l’insieme di dati elementari rilevati su una unità statistica e dà luogo alla matrice dei dati.
Ogni riga (record) di questa matrice corrisponde ad un caso (un individuo, un questionario,
ecc.). Con il termine matrice dati si intende pertanto un ideale rettangolo che contiene tante
righe quante sono le unità di rilevazione (nel caso dell'intervista sono i rispondenti) e tante
colonne quante sono le variabili considerate (nel caso dell'intervista le domande).
Pag. 74
Matrice dati C*V (casi*variabili)
Casi/unità
X1
Variabili
X2
….
Xr
1
X 11
X 12
…
X 1r
2
X 21
X 22
…
X 2r
…
…
…
…
X n1
X n1
…
X nr
di rilevazione
n
Ogni singola risposta del questionario verrà tradotta in codici (corrispondenti al Piano di
codifica) e incasellata nella sua posizione. I vantaggi sono numerosi, perché non si trascrive
tutto il contenuto del questionario, ma solo i codici delle alternative scelte da ciascun
intervistato e si rendono più rapide le operazioni di elaborazione statistica dei dati. Con
questa organizzazione di dati l'elaboratore elettronico è in grado di eseguire velocemente e in
modo automatico le operazioni statistiche richieste.
Ritornando alla codifica dei dati, normalmente si utilizzano codici numerici, cioè cifre
comprese tra 0 e 9 (ma anche a due cifre in caso di necessità), piuttosto che alfabetici sia
perché i numeri sono suscettibili di un miglior trattamento statistico sia perché danno luogo a
minor confusione. Esempio: ipotizziamo dunque il seguente questionario che per brevità
sintetizziamo ai dati personali del rispondente
DATI PERSONALI
Età (in anni compiuti): 45
Genere

Titolo di studio:
Condizione professionale:
Provincia di residenza:

M
F
Senza titolo o lic. elementari
 (cod. 1)
Licenza medie
 (cod. 2)
Licenza Superiori
 (cod. 3)
Laurea o affini
 (cod. 4)
Non occupato
 (cod. 1)
Occupato
 (cod. 2)
Udine
(usare i codici Istat)
D1. E’ stato in vacanza quest’estate?
Ecc.
Pag. 75
SI
 (cod. 1)
NO
 (cod. 0)
Il caricamento su un normale foglio elettronico (matrice dei dati) utilizzando il piano di
codifica sarà:
ID
Genere
Età
1
M
45
4
2
2
F
30
3
3
F
31
4
M
5
M
Tit. Studio Cond. Prof. Residenza
D.1
ecc.
30
1
…
2
30
1
…
3
2
30
2
…
44
3
2
31
1
27
4
2
93
1
dove ID è il numero identificativo del questionario
Queste domande non pongono problemi nella costruzione della matrice dati: sono domande
standard (chiuse), codificate, ciascuna delle quali da luogo ad un carattere (mutabile o
variabile). Dobbiamo aggiungere alle risposte codificate anche il valore 9 (o 99) per la
modalità “non risposto”.
Ipotizziamo che nel questionario ci sia la seguente domanda
D:12Esprima un giudizio sui seguenti servizi offerti (1=molto buono, 5=scarso)
e che a compilazione avvenuto troviamo il seguente risultato (risposte segnare con sfondo
grigio).
1. Intrattenimento durante il viaggio
1
2
3
4
5
2. Informazione depliantistica
1
2
3
4
5
3. Qualità del ristorante
1
2
3
4
5
4. Prezzo
1
2
3
4
5
5. Qualità e puntualità dei trasporti
1
2
3
4
5
6. Offerta culturale (entrate a musei, visite…)
1
2
3
4
5
In realtà si tratta di più domande (item) aventi lo stresso formato di risposta (5 alternative da
molto buono a scarso). Per comodità grafica del questionario sono raggruppate in un’unica
domanda, ma, di fatto, si tratta di 6 domande differenti che daranno luogo a 6 variabili ognuna
con la sua risposta. Nella matrice dati risulterà
Pag. 76
ID
…
12.1
12.2
12.3
12.4
12.5
12.6
1
…
1
4
5
1
4
4
2
dove l’intestazione dalla colonna è determinata dal numero della domanda (12) e dal numero
dell’item ovvero 12.1 a cui corrisponde “Intrattenimento durante il viaggio”
Ipotizziamo ancora nel questionario ci sia anche le seguenti risposte alla domanda
11.2 Per quali motivi non è andato in vacanza? (possibili più risposte)
1. Per ragioni economiche .....
1
2. Per motivi di lavoro o di studio..
2
3. Per mancanza di abitudine ...........
3
4. Perché già residente in località di villeggiatura............... 4 5. Per motivi di famiglia
5
6. Per motivi di salute ................................
6
7. Per l'età ....................................................
7
8. Per altri motivi (specificare) ………..................................................
La domanda è a risposta multipla ovvero sono possibili più risposte. Una di queste (l’ultima)
è una domanda aperta cioè viene offerta all’intervistato la possibilità di rispondere come
vuole. Nei primi 7 casi, la domanda genera variabili, tante quante il numero delle risposte che
può dare il soggetto, quanto alla domanda aperta essa verrà codificata a posteriori
Nella matrice dati risulterà
ID
…
11.2.1
11.2.2
11.2.3
11.2.4
11.2.5
11.2.6
11.2.5
1
…
1
1
1
0
1
0
0
2
…
11.2.6
dove l’intestazione dalla colonna è determinata dal numero della domanda (11.2) e dal
numero della modalità ovvero 11.2.1 a cui corrisponde “Per ragioni economiche”
Pag. 77
Tredicesima domanda: si scriva un piano di codifica e una matrice dati per la domanda ?
3.1 Negli ultimi 12 mesi ha frequentato lezioni private o corsi a spese sue o della
famiglia? (una risposta per ogni riga)
No
Solo in alcuni
Mesi
Solo alcune
settim. durante
l’estate
Per tutto
l'anno
Recupero scolastico
1
2
3
4
Informatica
1
2
3
4
Lingue
1
2
3
4
Attività artistiche e/o culturali
1
2
3
4
Pag. 78
SESTO CAPITOLO
SISTEMAZIONE DEI DATI IN TABELLE
La sistemazione dei dati in tabelle ha lo scopo di esporre in forma chiara i risultati di una
rilevazione. Le scale nominali ed ordinali danno luogo e “serie”, le scale intervallo a
“seriazioni”. In una serie ogni modalità del carattere qualitativo si accompagna al numero di
volte in cui essa si presenta nella ricerca (frequenza).
Le serie possono essere storiche (riferite a modalità di tempo), rettilinee (quando la modalità
presenta una sequenza necessaria con un inizio ed una fine), cicliche (analoghe alle rettilinee
dove però l’inizio è scelto a piacere), serie sconnessa o nominale (le modalità non sono
comparabili e manca un criterio per ordinarle).
La seriazione si presenta con due colonne di numeri: la prima si riferisce alle modalità o
intensità del carattere quantitativo, la seconda corrisponde alle frequenze ed il cui totale
coincide con la popolazione o aggregato.
I dati costituenti serie o seriazioni definiscono tabelle semplici, a doppia entrata (dove i dati
si leggono con riferimento all’intestazione della riga e della colonna in cui si trovano) o
composite (le modalità accolte non appartengono allo stesso carattere).
SCHEMA DELL’ANALISI DEI MACRO-DATI
PRESENTAZIONE DEI MACRO-DATI
rappresentazioni tabellari e grafiche
Analisi delle DISTRIBUZIONI SEMPLICI
Indici di tendenza centrale
Indici di variabilità
Rapporti statistici
Analisi delle DISTRIBUZIONI MULTIPLE
Confronti TEMPORALI E TERRITORIALI
UTILIZZO DEI RISULTATI
Non esistono norme generali per la predisposizione delle tabelle, ma si possono suggerire
comportamenti il cui rispetto consente di costruire tabelle comprensibili e chiare. Ogni tabella
dovrà avere:
Pag. 79
a) il titolo che indichi in modo preciso il fenomeno che si rappresenta;
b) la prima colonna deve indicare in modo chiaro le modalità del carattere rappresentato così
come la prima riga (nel caso di tabelle a "doppia entrata" deve contenere in modo
altrettanto chiaro le modalità del carattere posto in colonna;
c) le distribuzioni marginali (che si configurano come distribuzioni semplici) devono essere
evidenziate in grassetto;
d) nelle tabelle con molte colonne è opportuno che ciascuna sia contrassegnata con una lettera
dell'alfabeto e un numero progressivo in modo da capire colonne successive che
contengono risultati di operazioni con dati di contenuti in colonne precedenti;
a) la fonte.
Distribuzione di frequenze o semplici o analisi monovariata
L'analisi monovariata cioè il calcolo delle distribuzioni di frequenza di tutte le variabili
considera solo una variabile per volta, studiando la distribuzione dei dati fra le modalità di
quella variabile, rilevando e calcolando i valori caratteristici di tale distribuzione.
Questo passaggio serve anche per verificare che le fasi precedenti, in particolare quella della
raccolta dati e memorizzazione, siano state condotte senza errori, inoltre è utile per avere
indicazioni su come raggruppare le modalità di una variabile (come per esempio l'età) in un
minor numero di modalità più ampie. La distribuzione dei dati tra le modalità di una variabile
si chiama distribuzione di frequenza. Quindi è il risultato della classificazione di una
popolazione o di un campione in rapporto alle modalità di una o più variabili o mutabili.
L'analisi monovariata è solo un primo passaggio verso forme più complesse di analisi, ma
costituisce un passaggio obbligato e irrinunciabile, perché dà informazioni elementari sulla
distribuzione di frequenza di ogni variabile, consentendo anche di individuare errori nel
caricamento dei dati.
I vantaggi di questo tipo di analisi sono:
1. Permette di scoprire i valori out of range di una distribuzione (controlli di plausibilità):
in una distribuzione spesso compaiono valori che non sono stati assegnati ad alcuna
modalità della variabile categoriale o che sono impossibili o poco plausibili della variabile
cardinale. Per esempio per il carattere sesso sono ovviamente previsti i valori 1
(femmina), 2 (maschio), 0 (informazione mancante). Ogni altro valore che compaia nella
distribuzione sarà dovuto a un errore di compilazione del questionario di battitura. Inoltre
attraverso la distribuzione di frequenza della singola variabile i valori out of range si
riescono a scoprire facilmente, anche se ciò non garantisce affatto l'individuazione di tutti
gli errori di battitura.
Ipotizziamo di lavorare con la matrice dei dati del capitolo precedente e calcoliamo la
distribuzione di frequenze relativamente al carattere “genere”: il primo controllo da effettuare
Pag. 80
riguarda il fatto che tutte le modalità dei caratteri siano “plausibili”, appartengano cioè al
ventaglio di valori previsti dal piano di codifica. Nel caso del carattere “Genere” dobbiamo
attenderci solo le modalità “M” e “F”; se invece il risultato è il seguente
Genere
Freq.
M
50
F
45
FF
1
TOTALE
100
Siamo di fronte ad un risultato non plausibile in quanto la modalità “FF” non è prevista.
Probabilmente si tratta di un errore di battitura fatto nella fase di memorizzazione dei dati.
Costruiamo ora la distribuzione di frequenza per la domanda D.12 Esprima un giudizio sui
seguenti servizi offerti: Intrattenimento durante il viaggio
Domanda 12.1
Freq.
1
10
2
15
3
5
4
49
5
20
6
1
TOTALE
100
In questo caso il valore 6 non è previsto i quindi potrebbe essere il risultato di un errore di
battittura o di codifica
In entrambi i casi la distribuzione di frequenze consente di rilevare l’errore e di correggerlo.
2. Segnala squilibri nella distribuzione e opportunità di aggregazione: una distribuzione è
squilibrata se le frequenze delle varie modalità sono equiripartite, nel caso delle variabili
nominali, mentre per quelle cardinali si ha uno squilibrio quando i valori e le relative
frequenze non si posizionano approssimativamente in modo simmetrico ai due lati della
media (vedere unità successive). Alcuni squilibri possono essere provocati da valori
estremi della distribuzione troppo alti o troppo bassi, rispetto alla media (per le variabili
cardinali); in questo caso, se la logica dell'analisi lo consente, si possono eliminare i valori
più estremi (valori aberranti).
La distribuzione di frequenze inerente ad una sola variabile si dice anche "univariata", quella
congiunta inerente a due variabili si dice "bivariata", quella inerente ad una molteplicità di
Pag. 81
variabili si dice "multivariata". Le distribuzioni di frequenza assumono denominazioni diverse
a seconda del carattere che esse rappresentano:
Carattere
Denominazione della distribuzione
Mutabile
Serie
Mutabile ordinata
Serie ordinata
Mutabile rettilinea
Serie rettilinea
Mutabile sconnessa
Serie sconnessa o nominale
Variabile
Seriazione
Tempo
Serie storiche o temporale
Luogo
Serie territoriale o geografica
Distribuzione di frequenza del carattere X
dove gli elementi caratterizzanti sono la popolazione o aggregato (N), le modalità del
carattere X e le fi frequenze assolute delle unità che presentano la modalità xi del carattere X.
Nella statistica si dicono frequenze i numeri che risultano dal conteggio di elementi di una
determinata collettività. Le frequenze possono essere costituite da tutti gli elementi della
collettività (se portatori del carattere oggetto di studio), o dagli elementi che presentano
determinate caratteristiche.
Esempio con una mutabile: Consideriamo la domanda vista in precedenza
11.1 Negli ultimi 12 mesi si è recato in vacanza per un periodo di almeno 4 notti
consecutive?
NO ........................... 00
andare a domanda 11.2
SÌ, quante volte?.................. N. ____
Schema di distribuzione di frequenze semplici
X
Frequenze
(1)
(2)
SI
f1
dove
NO
f2
TOT
N
N =  j fi
Si tratta di una distribuzione di frequenze secondo caratteri qualitativi, nella quale sono
rappresentati tutti gli elementi (N) della popolazione. Trattandosi di mutabile è possibile
calcolare la moda, le frequenze relative.
Pag. 82
Esempio con una variabile: Consideriamo il carattere “Numero dei componenti la famiglia”
possiamo ottenere la seguente distribuzione di frequenze semplici
X
(1)
1
Frequenze
(2)
f1
2
f2
3
f3
4
f4
5 e più
f5
TOT
N
Si tratta di una distribuzione di frequenze secondo caratteri quantitativi, nella quale sono
rappresentati le famiglie (N). Sulla distribuzione di frequenze semplice si può aggiungere
ulteriori colonne che illustrano l’applicazione di determinate metodologie della statistica
descrittiva.
X
(1)
Frequenze
(2)
x1
f1
x2
f2
…
…
xi
fi
…
…
xk
fk
TOT
N
(2)
(3)
(4)
(5)
(6)
(7)
dove
fi%
(3)
Fi
(4)
Fc%
(5)
rFc
(6)
RFc%
(7)
F1=f1
N
100
F2=F1+f2
N-f1
Fi=Fi-1+fi
N=Fk-1+f k
100
fk
100
frequenze, numero di volte con cui si manifesta la modalità associata
frequenze relative o frequenze percentuali (rapporto tra le frequenze assolute ed il
totale)
frequenze cumulate (che rappresenta il numero di unità statistiche che presentano
un’intensità minore o al più uguale alla modalità cui si riferisce, si ottiene sommando
alle frequenze di ogni modalità quelle delle modalità precedenti)
frequenze cumulate relativa
frequenze retrocumulate
frequenze retrocumulate relativa
N =  j fi
Considerando che nella tabella è rappresentato un solo carattere essa di chiamerà anche
tabella ad una entrata.
Pag. 83
Raggruppamento dei dati
dove i valori di una variabile sono estesi (per esempio l’età) piuttosto che elencare uno ad uno
i valori è più agevole riunirli in classi di intensità.
Esempio: consideriamo proprio la domanda età con riferimento all’indagine “Aspetti della
vita quotidiana” possiamo ottenere ragionevolmente la seguente distribuzione di frequenze
X
(1)
…
Frequenze
(2)
…
17
f2
18
f3
19
f4
20
f5
21
f6
22
f7
…
…
TOT
N
Distribuzione che potrebbe terminare con un numero di righe assolutamente illeggibile dal
punto di vista statistico. In questo caso è opportuno raggruppare il carattere in classi come nel
seguente esempio
Ampiezza della
X
Frequenze x i, valore centrale
(1)
(2)
della classe
classe
x1 – x2
f1
(x2 – x1)/2
x2 – x1
…
f2
…
…
xi – xi+1
…
(xi+1 – xi)/2
xi+1 – xi
…
…
(xk – xk-1)/2
xk – xk-1
…
xk-1 – xk
fk
TOT
N
Un esempio di classificazione operato dall’Istat con riferimento all’indagine “Aspetti della
vita quotidiana” è il seguente
Pag. 84
Prospetto 2.2 – Coppie con figli per classe di età del figlio più piccolo – Medie 2001-2002,
2003-2005 (per 100 coppie con figli)
CLASSI DI ETÀ DEL FIGLIO
PIÙ PICCOLO
2001-2002
2003-2005
Fino a 5 anni
25,7
26,4
6-13
23,8
23,3
14-17
10,8
11,3
18-24
18,5
17,5
25 e più
21,3
21,7
TOTALE (in migliaia)
9.658
9.553
Fonte: Istat, La vita quotidiana nel 2005. Indagine multiscopo sulle famiglie“Aspetti della
vita quotidiana” Anno 2005, Informazioni n. 4, Roma 2007
In modo analogo si potrà operare se il carattere rilevato è il Valore della produzione (in euro)
di un distretto, così come determinato dal bilancio che le Società sono obbligate a depositate
presso le Camere di Commercio. La serie dei dati rappresentata in una matrice dati potrebbe
essere di questo tipo
ID
Ragione sociale
…
1
…..
…
Valore della produzione 2005
6.409.334,00
2
….
…
8.103.172,00
3
….
3.727.821,00
4
….
6.490.873,00
5
….
661.803,00
6
….
215.517,00
….
….
In questo caso è molto probabile che nessun fatturato sia uguale ad un altro, ottenendo quindi
una distribuzione di frequenze anomala. E’ possibile operare in questo modo raggruppando i
valori per classi
Pag. 85
Valore della produzione
(1)
Frequenze
(2)
Frequenze relative
(3)
Fino a 1,0 milione di Euro
f1
f1/N
da 1,0 a 2,5 milioni di Euro
f2
…
da 2,5 a 5,0 milioni di Euro
f3
da 5,0 a 15 milioni di Euro
f4
oltre 15 milioni di Euro
f5
TOT
N
…
1
L'analisi bivariata
Una tecnica di analisi dei dati si dice bivariata se si occupa della distribuzione di due variabili
congiuntamente considerate (distribuzione congiunta). Lo scopo è di stabilire se esiste una
associazione tra le due variabili, dove "associazione" si può considerare l'opposto di
indipendenza. Per esempio, una popolazione può essere classificata nella stessa tabella
rispetto ad età o classi d’età e sesso, incrociati in modo opportuno, oppure età, sesso e stato
civile. Sta al ricercatore trovare il modo più opportuno di presentare i risultati della
classificazione sulle due o tre dimensioni; per esempio, con riferimento alle tre variabili
succitate (età, sesso e stato civile), si possono porre l’incrocio di stato civile e sesso nel senso
delle righe e l’età nel senso delle colonne.
Le Tabella a doppia entrata
X (1)
y1
Y
yj (2)
x1 – x2
f 11
f 1j
f 1j
f1.
f i1
f ij
Fic
fi.
xk-1 – xk
f k1
f kj
Fkc
fk.
TOT (4)
f.1
f.j
f.c
f.. (6)
Yc
TOT(5)
…
xi – xi+1
…
(1) modalità del carattere X (carattere quantitativo continuo), ampiezza della classe
(differenza tra limite inferiore e limite superiore), intervallo fra due classi (differenza tra
i valori centrali di classe adiacenti);
(2) modalità del carattere Y (carattere quantitativo discreto);
(3) fij frequenze assolute congiunte ovvero il numero di unità appartenenti alla classe xi –
xi+ 1 del carattere X e che hanno modalità yj del carattere Y;
Pag. 86
(4) f.j distribuzione marginale del carattere Y (corrisponde alla distribuzione di frequenza
della variabile Y);
(5) fi. distribuzione marginale del carattere X (corrisponde alla distribuzione di frequenza
della variabile X);
(6) f.. popolazione o aggregato.
Si noti che
fi. =  j fij
rappresenta la distribuzione condizionata del carattere Y secondo la classe xi –
xi+1
f. j = i fij rappresenta la distribuzione condizionata del carattere X secondo la modalità yj
f.. = i j fij = i fi. = j f.j
Per ognuna delle due distribuzioni si possono calcolare le frequenze relative, e se X e Y sono
due variabili, ordinate e rettilinee, si possono determinare le frequenze cumulate e
retrocumulate assolute e relative. Inoltre nel caso di caratteri quantitativi è possibile calcolare
i valori medi sia rispetto alle frequenze marginali sia a quelle condizionate.
Pag. 87
SETTIMO CAPITOLO
LE RAPPRESENTAZIONI GRAFICHE
La rappresentazione grafica dei dati consente di cogliere con immediatezza (maggiore rispetto
a quella tabellare) le principali caratteristiche della distribuzione statistica. Un grafico
rappresenta dei numeri (distribuzioni statistiche semplici) e quindi deve esserci una
corrispondenza tra i numeri e punti, angoli, superfici, linee (cioè le entità geometriche che
definiscono un grafico).
Regole da osservare nella compilazione di un grafico
La rappresentazione deve essere sempre completamente autonoma dalla tabella che l'ha
originata (un grafico può essere pubblicato mentre la tabella no), potendo anche essere
impiegata indipendentemente da essa, e deve contenere perciò tutte le indicazioni necessarie
per la sua precisa interpretazione.
1. Titolo: cioè l'esatto contenuto del grafico deve potersi ricavare dal suo titolo, nel quale
quindi deve essere specificato l'oggetto della rappresentazione, l'epoca e l'ambito
territoriale a cui i dati, e perciò il grafico, si riferiscono. Vanno inoltre indicati
chiaramente quali sono i caratteri che sono stati osservati sulle unità;
2. Unità di misura (su Y/ordinata ed eventualmente su X/ascissa): vanno sempre indicate le
unità di misura, sia i segmenti assunti come unità di misura delle grandezze lineari, sia le
unità di superficie prese come unità di misura nelle rappresentazioni areali. Qualora gli
elementi distintivi siano a colori o a tratteggi vanno indicati i valori corrispondenti;
3. Eventuali troncamenti di scala: devono essere indicati con interruzioni degli assi;
4. Rappresentazioni di più serie (caratteri): se in uno stesso grafico si rappresentano più
fenomeni, vanno differenziati i segni o i tratteggi e accanto ad ogni rappresentazione va
indicato il fenomeno a cui si riferisce. In ogni caso è da evitare che il grafico appaia
aggrovigliato e confuso ed è meglio allora ricorrere a più grafici paralleli;
5. Fonte: nel grafico va riportata la fonte da cui si sono ricavati i dati;
6. Le diciture, i dati numerici e tutte le indicazioni necessarie per la comprensione del
grafico devono essere leggibili guardando la rappresentazione dalla base e quindi devono
essere disposti parallelamente alla base. Quando per motivi di spazio sono necessarie
anche diciture disposte in altre direzioni, queste devono essere poste in modo che siano
leggibili se osservate dal lato a destra della base, ossia dal primo lato successivo alla base
nella rotazione antioraria.
Anche se i grafici hanno lo scopo prevalente di fornire una sintesi del fenomeno, il
lettore/osservatore può essere indotto ad effettuare considerazioni di dettaglio e pertanto è
opportuno consentirgli scendere nel dettaglio dell’analisi facendo si che il grafico contenga,
Pag. 88
quando è possibile, anche l'indicazione dei dati che rappresenta o, in caso contrario, sia
accompagnato dall'esposizione dei dati in forma tabellare.
Quando vi è la possibilità di più di un tipo di rappresentazione grafica, è preferibile in linea di
massima scegliere la più semplice. E’ possibile rappresentare graficamente oltre alle
frequenze assolute, le frequenze relative, le frequenze cumulate e le frequenze retrocumulate,
numeri indici, variazioni percentuali calcolate su numeri indici.
Rappresentazione di mutabili
Pictogrammi: disegno per la rappresentazione di quantità. Una delle applicazioni pittoriche
alla rappresentazione di frequenze o intensità di fenomeni consiste nel disegnare una figura
stilizzata di ampiezza proporzionale al fenomeno; un’altra è quella di rappresentare una serie
di figure o simboli in proporzione all’ampiezza del fenomeno. Sono grafici di tipo
prevalentemente “divulgativo” e non molto rigorosi, quindi sono da utilizzare con parsimonia
e soprattutto con cautela.
Per esempio se si deve rappresentare il numero di aerei charter arrivati per provenienza,
accanto all’indicazione della modalità (provenienza) si rappresenta un simbolo  dove

= 10 arrivi
Distribuzione di frequenza di una mutabile (ordinabile)
Esempio: arrivi rilevati in Italia nel 1996 e nel 1997, classificati per categoria dell’albergo
Arrivi (in migliaia)
1997
1996
968
897
4 stelle
18.168
17.811
3 stelle
26.442
25.901
2 stelle
9.392
9.741
1 stella
3.817
4.103
Residenze turistico-alberghiere
1.279
1.137
TOTALE
60.064
59.590
Categoria
5 stelle e 5 stelle lusso
che potremo rappresentare con un Ortogramma a nastri (grafici a barre orizzontali e barre
verticali). Si tratta di rappresentazione tramite rettangoli di mutabili. I rettangoli hanno tutti la
stessa base e un’altezza proporzionale all’intensità (o frequenza) del fenomeno. Si possono
rappresentare barre "composite", ossia suddivise in sezioni di lunghezza proporzionale alla
dimensione relativa delle componenti in cui si ripartisce il fenomeno che la barra rappresenta.
Di solito, per distinguere le componenti, si usano retinature di varia intensità o colore. Per
Pag. 89
rappresentare fenomeni che variano in aumento o in diminuzione, si possono rappresentare
barre orientate in direzioni opposte, sopra e sotto la linea dello zero.
Res. tur.-albergh.
1996
1 stella
1997
2 stelle
3 stelle
4 stelle
5 stelle e oltre
0
5.000
10.000
15.000
20.000
25.000
30.000
Distribuzione di frequenza di una mutabile (sconnessa)
Esempio: gli arrivi rilevati in Italia nel 1997, classificati per località:
Categoria
Arrivi (in migliaia)
%
Città di interesse storico ed artistico
20.254
28,7%
Località montane
6.772
9,6%
Località lacuali
4.063
5,8%
Località marine
16.780
23,7%
Località termali
2.665
3,8%
Località collinari e di interesse vario
2.467
3,5%
Capoluoghi di provincia
5.988
8,5%
Altre località
11.664
16,5%
TOTALE
60.064
100
Che rappresenteremo con un diagramma a settori circolari. Si tratta di un metodo
diagrammatico di rappresentazione nel quale le parti che compongono un totale sono
rappresentate da settori di un cerchio. Gli angoli dei settori sono proporzionali al peso della
componente sul totale. E’ anche detto "diagramma a torta". I moderni programmi di calcolo
automatico sono predisposti per evidenziare graficamente una o più parti di particolare
interesse. Si usa per rappresentare mutabili statistiche non ordinabili e, a volte, serie
territoriali. Si divide la circonferenza in settori proporzionali all’intensità del fenomeno.
360 : N =  : fi
Pag. 90
Città di interesse storico ed artistico
17%
28%
Località montane
Località lacuali
8%
Località marine
3%
Località termali
10%
4%
Località collinari e di interesse vario
Capoluoghi di provincia
24%
6%
Altre località
Rappresentazione delle mutabili secondo un carattere ordinato in maniera ciclica
Diagramma polare: questa rappresentazione grafica si utilizza quando si opera con variabili
ordinali connesse alla circolarità del tempo (ore, giorni, mese), dove il cerchio è suddiviso in
parti (24 per le ore, 7 per i giorni, 12 per i mesi) e sui raggi viene segnato e poi unito il valore
delle frequenze.
Esempio: arrivi per mese (serie ciclica) in Italia nel 1997
Mese
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Totale
Arrivi nel 1997
3.187
3.657
5.282
5.631
7.065
7.244
8.941
10.582
7.215
5.268
3.141
3.421
70.634
%
4,5%
5,2%
7,5%
8,0%
10,0%
10,3%
12,7%
15,0%
10,2%
7,5%
4,4%
4,8%
100
Questo grafico fissa preliminarmente l’asse polare (da un punto 0 esce una semiretta) e
successivamente il verso di rotazione (antiorario). Sull’asse polare si assume come unità di
misura delle frequenze o delle intensità, un determinato segmento, mentre come unità di
misura degli angoli il grado.
Pag. 91
Ogni punto del grafico è individuato da due coordinate: l’argomento (angolo formato
dall’asse vettore col raggio-vettore) ed il raggio vettore che rappresenta la distanza tra lo 0 ed
il punto P. L’angolo giro è diviso tra le modalità della mutabile (se una settimana 360/7, se un
anno 360/12). Su ciascuna semiretta si riporta un segmento per cui il raggio-vettore è uguale
alla frequenza della modalità. Congiungendo i vari punti si ottiene una coordinata polare.
Qualche volta, con centro in 0, si traccia una circonferenza con raggio uguale alla media
aritmetica del fenomeno. Così si può vedere quali sono i giorni in cui l’intensità o la
frequenza del fenomeno eccede oppure è inferiore alla media.
Gennaio
12.000
Dicembre
Febbraio
9.000
Novembre
Marzo
6.000
3.000
0
Ottobre
Aprile
Settembre
Maggio
Agosto
Giugno
Luglio
Cartogramma
Diagramma che rappresenta informazioni statistiche di tipo descrittivo mediante simboli,
tratteggi o colori diversi, o mappe. E’ una tecnica di rappresentazione grafica che si presta in
modo particolare per rappresentare distribuzioni geografiche. Sono “carte geografiche” con
colori, simboli e retinature diversi in relazione alla diversa intensità di presenza dei fenomeni
nelle varie zone. Gli svantaggi di questa rappresentazione grafica è che si perdono molti
particolari, viceversa oltre al valore visivo il grafico illustra la diffusione territoriale del
fenomeno.
Pag. 92
Esempio: Tassi di variazione previsti per il 2004, per provincia tratto da “Unioncamere,
Previsioni occupazionali e professionali delle imprese per il 2004, Progetto Excelsior, Roma,
giugno 2004”
Saldo prev.2004
valori %
2,51
1,38
1,05
-1
a
a
a
a
4,46
2,51
1,38
1,05
(25)
(25)
(26)
(27)
Rappresentazione delle variabili
Diagramma cartesiano
Si adatta molto bene alle variabili continue e serie storiche. Riferimento al sistema cartesiano
ortogonale (origine, assi orientati e perpendicolari). Sono rappresentazione di coppie di valori
(X,Y) chiamate coordinate del punto P(x,y). Se il fenomeno varia con continuità (per esempio
la temperatura durante la stagione estiva) i punti si possono congiungere.
Poligono di frequenze
Si applica quando la variabile è continua e si possono congiungere fra di loro i punti centrali
delle basi. Ipotizziamo di considerare il fatturato (in migliaia di euro) di 48 imprese.
Operando con i valori centrali della classe si potrà costruire un poligono di frequenza in
quanto le classi hanno ampiezza uguale.
Pag. 93
Classi di fatturato
in migliaia
Fino a 400
Valore centrale
fi
200
5
400-800
600
12
800-1200
1.000
16
1200-1600
1.400
11
1600-2000
1.800
4
TOTALE
48
20
15
fi 10
5
0
200
600
1.000
1.400
1.800
Istogramma
La distribuzione precedente può essere illustrata anche tramite un istogramma che è una
rappresentazione tramite rettangoli di caratteri continui e semicontinui le cui modalità sono
raggruppate in classi aventi determinata ampiezza.
Distribuzione di frequenza per classi
Classi di Utile
Frequenza
Ampiezza
Classe
densità di
frequenza
1-5 miliardi
5
4
5/4=1,25
5-10 miliardi
15
5
15/5=3
10- 15 miliardi
15
5
15/5=3
15-25 miliardi
10
10
10/10=1
25-50 miliardi
5
25
5/25=0,2
TOTALE
50
Le frequenze delle varie modalità sono uguali all’area dei rettangoli. Per cui:
hi = ni/base (densità di frequenza)
L’ipotesi che si assume e quella di uniforme distribuzione delle frequenze dentro la classe.
Pag. 94
Congiungendo i punti centrali delle basi superiori dei rettangoli di un istogramma si ottiene
una spezzata che viene denominata poligono di frequenze.
di
3
1,25
1
1 5 10
15
25
50
E’ importante ricordare quindi, che nell’istogramma è l’area a rappresentare le frequenze
(assolute o relative) delle varie classi. Le altezze dei rettangoli pertanto non sono
proporzionali alle frequenze, lo sono invece le aree: infatti, l’altezza di ciascun rettangolo è
data dal rapporto tra la frequenza assoluta/relativa o
Pag. 95
Rappresentazioni grafiche per distribuzioni semplici secondo il livello di misurazione dei
caratteri
Tipo di grafico
Grafici a barre e ortogrammi:
a colonne (verticale)
a nastri (orizzontale)
Livello di misurazione dei caratteri
Distribuzioni
semplici
(serie):
caratteri
qualitativi: mutabili sconnesse, mutabili rettilinee
Diagrammi circolari o areogrammi
circolari
Distribuzioni
semplici
(serie):
caratteri
qualitativi: mutabili sconnesse, mutabili rettilinee
Diagrammi in coordinate polari
Distribuzioni
semplici
(serie):
qualitativi: mutabili cicliche
Cartogrammi,
mappe
Distribuzioni
semplici
(serie):
caratteri
qualitativi: mutabili sconnesse riferite a luoghi,
territori, ecc. (serie territoriali)
cartodiagrammi,
caratteri
Istogrammi e poligono di frequenza
Distribuzioni semplici (seriazioni): caratteri
quantitativi: variabili (continue o semicontinue)
divise in classi di valori
Diagrammi in coordinate cartesiane
ortogonali a canne d’organo
Distribuzioni semplici (seriazioni):
quantitativi: variabili discrete
caratteri
Distribuzioni semplici: serie temporali riferite a
fenomeni discreti
Diagrammi in coordinate cartesiane
ortogonali o poligoni di frequenza e
curve di frequenza
Distribuzioni semplici (seriazioni): caratteri
quantitativi: variabili continue e semicontinue
Ogiva o poligono di frequenze
cumulate
Distribuzioni semplici (seriazioni): caratteri
quantitativi: variabili continue, discrete, divise in
classi
Ideogrammi o pictogrammi
diagrammi a figure simboliche
Per distribuzioni semplici e doppie e qualsiasi
tipo di carattere. Di carattere divulgativo ma non
scientifico
o
Distribuzioni semplici: serie temporali riferite a
fenomeni continui o semicontinui
Fonte: Fraire M. Rizzi A., Elementi di Statistica, NIS, Roma, 1991.
Pag. 96
BIBLIOGRAFIA
Corbetta P., Metodologia tecniche della ricerca sociale, Il Mulino, Bologna, 2002
Corbetta P., Gasperoni G., Pisati M., Statistica per la ricerca sociale, Il Mulino, Bologna,
2001
Delvecchio F., Statistica per la ricerca sociale, Cacucci, Bari, 1986
Filippucci C., Qualità delle statistiche e controllo del processo di misura, in Rivista Italiana
di Economia Demografia e Statistica, vol. LIV, n. 2, aprile-giugno 2000
Fraire M. Rizzi A., Elementi di Statistica, NIS, Roma, 1991
Giusti F., Statistica applicata, Cacucci, Bari, 1989
Istat, Stili di vita e condizioni di salute. Indagine Multiscopo sulle famiglie “Aspetti della vita
quotidiana”, collana Informazioni n. 36, Roma 2003
Istat, Indagini sociali telefoniche. Metodologia ed esperienza della statistica ufficiale, Metodi
e norme, Nuova Serie n. 10, Roma 2001
Istat, Programma Statistico Nazionale: triennio 2005-2007, Roma 2005
Kenneth D. Bailey, Metodi della ricerca sociale, 1-I principi fondamentali, 2-I metodi qualitativi,
3-L’inchiesta, 4-L’analisi e l’interpretazione dei dati, Il Mulino, Bologna, 2006.
Leti G., Statistica descrittiva, Il Mulino, Bologna 1989
Kenneth D. Bailey, Metodi della ricerca sociale, 1-I principi fondamentali, 2-I metodi qualitativi,
3-L’inchiesta, 4-L’analisi e l’interpretazione dei dati, Il Mulino, Bologna, 2006.
Zani S., Introduzione all’analisi dei dati nell’era di internet, Giuffrè editore, Milano, 2002
Pisati M., L’analisi dei dati: tecniche quantitative per le scienze sociali, Il Mulino Strumenti,
Bologna, 2003
Pag. 97