C:\mario\lezioni\università\statistica turismo
Transcript
C:\mario\lezioni\università\statistica turismo
Corso di Laurea specialistica/magistrale Interateneo delle Università di Trieste e Udine in “SCIENZE DELLA PREVENZIONE” Appunti per il Corso di STATISTICA SOCIALE anno accademico 2009-2010 docente: Passon Mario Pag. 1 INDICE PREMESSA........................................................................................................................................................................ 3 PRIMO CAPITOLO RICHIAMI ALLA STATISTICA DESCRITTIVA ......................................................................... 5 Requisiti dell’informazione statistica ............................................................................................................................. 6 Concetti statistici generali (richiamo)............................................................................................................................. 8 Concetti riguardanti le rilevazioni statistiche (richiami)............................................................................................... 11 Tipologia dell’informazione statistica (richiami) ......................................................................................................... 13 Standardizzazione di variabili....................................................................................................................................... 22 SECONDO CAPITOLO LE FONTI STATISTICHE UFFICIALI.................................................................................. 24 Le fonti statistiche in Italia ........................................................................................................................................... 24 Il Sistema Statistico Nazionale ..................................................................................................................................... 24 Il Decreto L.gvo n. 322/89 “Norme sul sistema statistico nazionale” .......................................................................... 27 Le pubblicazioni dell’Istat ............................................................................................................................................ 30 Le Fonti internazionali (le statistiche dell’Unione Europea) ........................................................................................ 33 Le pubblicazioni di EUROSTAT ................................................................................................................................. 33 Le statistiche del Ministero della Salute ....................................................................................................................... 35 TERZO CAPITOLO L’INDAGINE STATISTICA......................................................................................................... 37 Progettare l'indagine ..................................................................................................................................................... 37 Definizione degli obiettivi ............................................................................................................................................ 39 La scelta dei caratteri da rilevare (astrazione). ............................................................................................................. 40 Le Classificazioni ......................................................................................................................................................... 42 Analisi delle fonti ......................................................................................................................................................... 45 Disegno di indagine ...................................................................................................................................................... 45 Sistema dei controlli di qualità ..................................................................................................................................... 51 Principali indicatori statistici sulla qualità delle interviste ........................................................................................... 51 QUARTO CAPITOLO LE RILEVAZIONI..................................................................................................................... 54 Tipologia delle rilevazioni ............................................................................................................................................ 56 Le tecniche di raccolta dati ........................................................................................................................................... 56 Piano di rilevazione ...................................................................................................................................................... 58 Classificazione delle Rilevazioni.................................................................................................................................. 58 I Focus group ................................................................................................................................................................ 59 Calendario dell’indagine............................................................................................................................................... 63 QUINTO CAPITOLO IL QUESTIONARIO................................................................................................................... 64 Modello di rilevazione.................................................................................................................................................. 64 Schema di costruzione del questionario........................................................................................................................ 69 L’uso delle scale di valutazione.................................................................................................................................... 70 Qualità dei dati.............................................................................................................................................................. 71 Revisione dei dati ......................................................................................................................................................... 73 Memorizzazione dei dati............................................................................................................................................... 74 SESTO CAPITOLO SISTEMAZIONE DEI DATI IN TABELLE.................................................................................. 79 Distribuzione di frequenze o semplici o analisi monovariata ....................................................................................... 80 L'analisi bivariata ...................................................................................................................................................... 86 SETTIMO CAPITOLO LE RAPPRESENTAZIONI GRAFICHE .................................................................................. 88 Regole da osservare nella compilazione di un grafico.................................................................................................. 88 Rappresentazione delle variabili................................................................................................................................... 93 BIBLIOGRAFIA .............................................................................................................................................................. 97 Pag. 2 PREMESSA Una società dell’informazione come la nostra, complessa, frazionata ed in rapidissima evoluzione, esprime una forte domanda di dati statistici e/o comunque di informazioni demografiche, socio-sanitarie, ambientali, economiche non solo da utilizzare a vari livelli decisionali dai policy makers ma dal mondo politico in generale, dagli imprenditori pubblici e privati, dagli operatori economici e le parti sociali, dai cittadini. Ma una società evoluta ha bisogno di informazioni economico-statistiche indipendenti, attendibili, imparziali, trasparenti ed accessibili, in grado di descrivere le condizioni ed i cambiamenti che avvengono in essa. Solo con queste caratteristiche le statistiche possono essere assunte a supporto di decisioni, per conoscere e capire la realtà demografica e sociale di un’area, la situazione di un’economia (anche e soprattutto locale), di un’impresa o gruppi di imprese: le statistiche dunque come strumento di democrazia partecipata ma sempre più spesso di controllo gestionale nel caso sia delle imprese private sia di quelle pubbliche (controllo politico e organizzativo della pubblica amministrazione). Se vogliamo l’informazione statistica (o meglio economico-statistica) interviene su tutte e tre gli aspetti decisionali: consente ex ante l’analisi dei fabbisogni, delle esigenze, l’emergere dei fattori di debolezza e dei punti di forza di una società, rappresenta uno strumento per monitorare in itinere un intervento, un programma, una iniziativa, Infine da un contributo importante alla fase di valutazione finale (analisi ex post). Tuttavia il problema più evidente riguarda non la disponibilità di statistiche, quanto quello di saperle “leggere ed interpretare”, di utilizzare le fonti più affidabili e coerenti, di comprendere il “reale linguaggio dei numeri”. Per esempio nell’economia l’estrema complessità del comparto sia a livello nazionale che locale, ha determinato la coesistenza di molteplici fonti informative relative a fenomeni in qualche misura collegati tra loro, se non addirittura sovrapposti riguardo al particolare dominio osservato. Le attuali fonti statistiche “ufficiali” in Italia consentono di poter disporre di un quadro informativo piuttosto completo sui diversi aspetti dell’economia sebbene non esaustivo. Uno degli obiettivi del corso, è di diffondere la cultura scientifica della statistica attraverso lo studio delle fasi di ricerca e di formazione dei dati statistici, l’utilizzo diffuso della statistica descrittiva e in ogni caso dei metodi quantitativi, ma soprattutto sviluppare le abilità nell’uso e nell’interpretazione della statistica e delle statistiche (letture delle tabelle e dei grafici) al fine Pag. 3 di prendere decisioni. In particolare una parte importante del corso si articola nella risoluzione di alcuni problemi, attivando cioè un approccio problem solving che necessariamente richiede una mentalità interdisciplinare acquisita nello studio di altre discipline. Un secondo obiettivo che si propone il corso è di conoscere i produttori delle statistiche, ovvero i network nazionali ed internazionali che raccolgono, elaborano, e diffondono l’informazione statistica. Infatti, al fine di offrire risposte adeguate ed attendibili alle esigenze conoscitive dei cittadini, degli studiosi e di coloro che devono fondare le proprie scelte in campo politico, economico e sociale su informazioni di tipo statistico, esiste una pluralità di enti che produce dati statistici di elevata qualità, e che fornisce tali informazioni nell'ottica di un vero e proprio servizio pubblico. Nel caso dell’Italia questa funzione è svolta dal Sistan (Sistema Statistico Nazionale) di cui si specificheranno finalità, compiti, organizzazione. Uno dei primi problemi che si affronteranno, nell'approccio con l'informazione statistica, è quello di orientarsi all'interno delle numerose fonti che producono dati. Il termine "fonte" ha, infatti, una pluralità di significati: in generale si può dire che essa coincide con "qualsiasi entità che consenta di acquisire informazioni o dati che si riferiscono a fenomeni, avvenimenti o gruppi sociali, collocati in un preciso ambito e relativi ad un dato momento temporale". Ovviamente le fonti statistiche contengono dati riguardanti la misura di caratteri qualitativi e quantitativi di un certo fenomeno. Di fronte ad esigenze diversificate è necessario rispondere in modo diversificato evitando, come spesso accade, la standardizzazione delle statistiche, ma informando solo in relazione alle esigenze particolari espresse dall’utilizzatore. “L'informazione statistica ufficiale rappresenta, da sempre, uno strumento di democrazia: offre ai governi, a qualsiasi livello territoriale, elementi cruciali per prendere decisioni coerenti e assicura ai cittadini la possibilità di valutare l'operato di chi amministra. Per questo è un bene pubblico, indispensabile per governare il presente ed il futuro della società. E' importante dunque che la statistica pubblica produca sempre più e sempre meglio, coerentemente con i cambiamenti che investono il tessuto economico e sociale dell'Italia" (Biggeri Luigi, presidente dell'ISTAT in "L'Istituto Nazionale di Statistica 2002/2003"). Nel contempo, è importante mettere in atto un processo educativo e formativo diretto a diffondere la cultura statistica per l’uso, l’analisi e l’interpretazione corretta dei dati, in modo da avere una società non dominata dall’orgia dei dati e dal potere dell’informazione statistica, ma più consapevole del proprio stato e quindi meno soggetta agli alti e bassi delle cifre. Pag. 4 PRIMO CAPITOLO RICHIAMI ALLA STATISTICA DESCRITTIVA “La statistica è il metodo per la raccolta, la classificazione, l’elaborazione, l’analisi, dei dati utilizzati nelle scienze empiriche e per la generalizzazione dei risultati, in termini probabilistici, ai casi non osservati” (S. Zani). Statistica non è quindi sinonimo di statistiche con cui si intende i grafici, le tabelle, gli indici le medie, ecc. ma come la definisce Domenico Piccolo (op. cit.) “Scienza delle decisioni in condizione di incertezza, … che sull’esperienza e sulle evidenze empiriche”. Sua caratteristica principale è che non può prescindere dall’osservazione di dati di fatti. Ma l’osservazione deve seguire delle regole ben precise che sono attinenti sia alla raccolta dei dati che deve essere fatta in forma organica e sistematica, sia alla gestione delle informazioni (i dati elementari). Con i concetti sopra esposti introduciamo l’indagine statistica (o esperimento statistico) che si basa sull’osservazione di fenomeni i quali possono manifestarsi in diversi modi e introduciamo il metodo statistico, assumendo come proprio il criterio induttivo (a partire cioè dall'osservazione dei fatti), il quale opera attraverso l’analisi dei fenomeni collettivi allo scopo di ricavare, pur nella varietà delle singole manifestazioni (varietà che va colta proprio dall’indagine statistica), le leggi soggiacenti ai fenomeni stessi in modo da evidenziarne eventuali regolarità e trarre anche previsioni. La Statistica è quindi la disciplina che studia i fenomeni collettivi di qualsivoglia natura (fisici, biologici, demografici, socioeconomici, ambientali), la cui misura richiede la disponibilità di una massa di osservazioni individuali. Essa mira all’acquisizione, alla classificazione dei dati singoli, alla loro sintesi, per la formulazione di ipotesi e teorie circa i meccanismi di regolazione dei fenomeni stessi e per la loro verifica. Riepilogando Statistica = scienza del collettivo, studio di fatti o fenomeni collettivi. Fenomeni collettivi = costituiti da insiemi di fatti o eventi singoli, omogenei ma variabili nelle manifestazioni individuali, la cui conoscenza richiede una collezione di osservazioni singole. La Statistica si divide i due importanti ambiti di analisi: - la Statistica descrittiva che rappresenta l’insieme dei metodi di analisi che si prefiggono la descrizione dei fenomeni. Molto spesso ci si trova a dover lavorare con un grande Pag. 5 numero di dati di fronte ai quali emerge la necessità di individuare indicatori di sintesi ovvero a procedere ad una descrizione riassuntiva, di individuare gli elementi caratteristici; - la Statistica inferenziale che comporta processi di inferenza in probabilità per l’interpretazione dei risultati dell’analisi. Accanto all’Analisi descrittiva ne emerge una seconda cioè di avanzare delle generalizzazioni sui risultati ottenuti con le osservazioni effettuate. In altre parole, dall’osservazione di un certo numero di casi (campione), si tratta di ricavare la legge del fenomeno (sono metodi che consentono di “inferire”, di “indurre” di “generalizzare”). In termini concreti l’induzione si occupa del passaggio dal campione alla popolazione (o universo) da cui il campione è tratto. La Statistica si propone di 1. raccogliere le informazioni relative a ciascuna manifestazione elementare (micro-dati) di cui si compone il fenomeno oggetto di studio; 2. sintetizzare in forma chiara e comprensibile le informazioni elementari (micro-dati) in dati riassuntivi (macro-dati); 3. interpretare i macro-dati individuando regolarità, rapporti tra i diversi valori assunti, relazioni tra fenomeni oggetto di studio ed i fattori che li influenzano, gli effetti che derivano. Per micro-dato o dato elementare si intende il dato individuale che si riferisce al singolo carattere osservato su ciascuna unità di analisi. Se l’unità di analisi è un aggregato di unità statistiche, come ad esempio la famiglia ed i suoi componenti, il dato relativo all’età o data di nascita, al sesso, al comune o provincia o regione di residenza, al titolo di studio, alle condizioni di salute, ecc. o come ad esempio se l’unità di rilevazione è l’impresa, il fatturato, gli addetti, la natura giuridica, sono da considerarsi dati elementari. Requisiti dell’informazione statistica Esiste una questione preliminare allo sviluppo di una indagine statistica e all’utilizzo delle fonti statistiche che riguarda la qualità dell'informazione che si deve raccogliere e quindi elaborare, una questione che riguarda l'intero processo di misura. Volendo semplificare, se volessimo applicare l'analisi al processo di produzione dell'informazione o del dato possiamo identificare le seguenti importanti dimensioni della qualità, alcune le svilupperemo ulteriormente nel Capitolo relativo a “Le Fonti Statistiche Ufficiali”, (sottolineiamo quelli più importanti): Pag. 6 - - - - - pertinenza o efficacia indica la capacità delle informazioni a soddisfare agli obiettivi conoscitivi dell’indagine, sia quella di soddisfare le esigenze conoscitive degli utilizzatori; accuratezza indica la capacità delle stime di avvicinarsi ai valori incogniti della popolazione. Si tratta di una valutazione essenziale per giudicare la capacità dei dati di rappresentare il fenomeno; tempestività (riguarda la diffusione dei dati) e indica il tempo che intercorre tra la rilevazione dei dati e la loro disponibilità, in altre parole è connessa alla possibilità per gli utenti finali di disporre di dati aggiornati. Una statistica può essere considerata tempestiva se, in rapporto a determinati obiettivi, è diffusa in tempi congrui al loro raggiungimento. Per valutare quantitativamente la tempestività si può sia stabilire nel programma di attività la data di pubblicazione delle statistiche, sia far valutare i tempi della messa a disposizione da un insieme di utenti. La domanda di tempestività può essere indotta sia dall’urgenza dell’informazione, allo scopo ad esempio di prendere decisioni strategiche, sia da una rapidità di mutamento nel fenomeno osservato, tale da ridurre l’obsolescenza dell’informazione prodotta; regolarità (riguarda la diffusione dei dati) e indica la frequenza con cui il dato viene diffuso e quindi la frequenza con cui l’indagine è ripetuta. Non esiste una frequenza ottimale ma essa va valutata alla luce del fenomeno oggetto di studio; accessibilità riguarda la possibilità che gli utilizzatori hanno di avere o di utilizzare le informazioni e le eventuali difficoltà che sussistono per tale accesso; chiarezza riguarda la disponibilità della documentazione sull’indagine (quindi le modalità attraverso le quali è stata condotta); comparabilità esiste se è assicurata la possibilità di effettuare confronti omogenei nel tempo e nello spazio relativamente alla stessa fonte; coerenza concetto connesso al confronto tra più fonti statistiche e riguarda la possibilità di ottenere informazioni non contraddittorie dall'insieme di tali fonti; completezza che si ottiene se il complesso delle statistiche disponibili in un dato sistema o sottosistema statistico è in grado di soddisfare alle esigenze espresse dagli utilizzatori. Per esempio l’argomento Salute e Welfare dall’Istat viene analizzato e studiato seconda i temi della Salute e sanità e dell’Assistenza e previdenza: nel primo caso i temi indagati sono quelli degli Incidenti stradali, dell’Uso e abuso di alcol in Italia, le Tavole di mortalità della popolazione residente, la Salute e la sicurezza sul lavoro, I tumori negli adolescenti e nei giovani adulti, ecc., nel secondo caso i temi rilevati sono Trattamenti pensionistici e beneficiari, gli Interventi e servizi sociali dei Comuni, le Prestazioni pensionistiche, le Cause di lavoro, previdenza e assistenza, ecc.; affidabilità ovvero che le informazioni devono fornire un quadro sufficientemente accurato e preciso dell'oggetto di ricerca. Pag. 7 Concetti statistici generali (richiamo) I concetti chiave corrispondono ad altrettante modalità fondamentali di trattamento dell'informazione: - elencare: in qualunque problema di analisi statistica bisogna innanzitutto essere in grado di elencare con chiarezza quali sono le unità elementari (per esempio l’insieme delle imprese italiane). Queste unità vengono a costituire degli archivi di dati elementari su cui si basano tutte le successive elaborazioni statistiche, e normalmente sono identificate con un codice (ATECO 1 ) e una descrizione (ragione sociale). - classificare: le unità elementari (nel nostro caso le imprese) vengono raggruppate in classi in funzione di determinati attributi ritenuti rilevanti, come ad esempio l'appartenenza a sezioni, divisioni, gruppi, classi, categorie e sotto-categorie di attività economica o qualunque altro criterio (per esempio la natura giuridica). L'esito di una classificazione è comunque l'aggregazione delle unità elementari in un numero finito di classi nell'ambito della medesima classificazione, una unità non può quindi appartenere a più classi contemporaneamente, e l'appartenenza all'aggregato diventa un attributo strutturale non modificabile (se non modificando la classificazione). Un primo criterio di classificazione per attività economica (attività prevalente) delle imprese italiane al livello più alto (il primo livello) abbiamo la sezione 2 A Agricoltura, silvicoltura e pesca B Attività estrattiva C Attività manifatturiere D Fornitura di energia elettrica, gas, vapore e aria condizionata E Fornitura di acqua; reti fognarie, attività di trattamento dei rifiuti e risanamento F Costruzioni G Commercio all’ingrosso e al dettaglio; riparazione di autoveicoli e motocicli H Trasporto e magazzinaggio I Servizi di alloggio e ristorazione J Servizi di informazione e comunicazione K Attività finanziarie e assicurative L Attività immobiliari M Attività professionali, scientifiche e tecniche N Attività amministrative e di servizi di supporto O Amministrazione pubblica e difesa; assicurazione sociale obbligatoria P Istruzione Q Sanità e assistenza sociale 1 Si tratta di una classificazione creata, principalmente, per fini statistici, con l’obiettivo di soddisfare l’esigenza di una comune nomenclatura per la classificazione delle unità di produzione di beni e servizi. Istat, Classificazione delle attività economiche. ATECO 2007, derivata dalla Nace Rev. 2, Metodi e Norme n. 40, Roma 2009 2 L’Ateco 2007 è costituito da 21 Sezioni, 88 Divisioni, 272 Gruppi, 615 Classi, 918 Categorie e 1.224 Sottocategorie Le sezioni sono costituiti da un codice alfabetico costituito una lettera maiuscola. Pag. 8 R Attività artistiche, di intrattenimento e divertimento S Altri servizi pubblici, sociali e personali T Attività di famiglie e convivenze come datori di lavoro per personale domestico; produzione di beni e servizi indifferenziati per uso proprio da parte di famiglie e convivenze U Attività di organizzazioni e organismi extraterritoriali Volendo continuare con la classificazione delle attività economiche ad un livello più dettagliato delle imprese per esempio operanti nella Sanità ed Assistenza Sociale possiamo considerare la classe di attività economica per cui abbiamo a) b) c) d) - i Servizi ospedalieri sono classificati come Q86 e comprendono i Servizi ospedalieri classificati nel codice Q86.1 (Ospedali e case di cura generici, Ospedali e case di cura specialistici, Istituti, cliniche e policlinici universitari, Ospedali e case di cura per lunga degenza ), i Servizi degli Studi medici e odontoiatrici classificati nel codice H86.2 (Servizi degli studi medici di medicina generale, Servizi degli studi medici specialistici e cioè le Prestazioni sanitarie svolte da chirurghi, gli Ambulatori e poliambulatori del Servizio Sanitario Nazionale, le Attività dei centri di radioterapia, le Attività dei centri di dialisi, gli Studi di omeopatia e di agopuntura, i Centri di medicina estetica e Altri studi medici specialistici e poliambulatori), e gli Altri servizi degli Studi medici e odontoiatrici classificati nel codice H86.9 (Laboratori radiografici, Laboratori di analisi cliniche Laboratori di igiene e profilassi, Attività paramediche indipendenti come la Fisioterapia, le Attività svolta da psicologi, i Servizi di ambulanza, delle banche del sangue, le Attività degli ambulatori tricologici, i Servizi di ambulanza, le banche del sangue e altri servizi sanitari); i Servizi di assistenza sanitaria classificati come Q87 e comprendono le Strutture di assistenza infermieristica assistenziale classificati nel codice Q87.1, le Strutture di assistenza residenziale per persone affette da ritardi mentali, disturbi mentali o che abbiano abusato di sostanze stupefacenti Q87.2, le Strutture di assistenza residenziale per anziani e disabili Q87.2, e le Altre strutture di assistenza residenziale classificate come Q87.9; infine l’Assistenza sociale non residenziale Q88; contare: quando le unità elementari sono suddivise in classi, normalmente una prima informazione riguarda il numero di unità appartenenti alle singole classi. Incrociando due classificazioni, e contando il numero di occorrenze nei singoli incroci, si ottengono le cosiddette tabelle di contingenza, che sono degli strumenti di analisi statistica semplici e molto potenti. Pag. 9 Esempio di conteggio delle imprese operanti nella Sanità ed Assistenza Sociale Classe di attività economica n.ro imprese Servizi ospedalieri Servizi degli studi medici e odontoiatrici Altri servizi di assistenza sanitaria Servizi di assistenza sociale residenziale Assistenza sociale non residenziale TOTALE Esempio di incrocio di due classificazioni Classe di attività economica/Regione Piemonte …. ITALIA Servizi ospedalieri Servizi degli studi medici e odontoiatrici Altri servizi di assistenza sanitaria Servizi di assistenza sociale residenziale Assistenza sociale non residenziale TOTALE - - misurare: la maggior parte dei fenomeni può essere misurata adottando una scala di riferimento. Quando esiste una unità di misura, l'informazione quantitativa risultante dal procedimento di misurazione prende il nome di variabile (per esempio le morti a meno di un anno di vita, il numero di nati-vivi, il numero di ricoveri, ecc. Spesso è necessario misurare l'intensità di una variabile in rapporto a quella di un'altra variabile di riferimento (per esempio la durata del ricovero, il tasso natalità e di mortalità ecc.) e allora si costruiscono i cosiddetti indicatori, che dal punto di vista matematico sono generalmente rapporti tra variabili. stratificare: spesso l'analisi di una variabile o indicatore evidenzia l'esigenza di stratificare i dati, analizzando il comportamento all'interno di singole classi e verificando altresì quali differenze vi sono da classe a classe (per esempio la mortalità per sesso o per regione, oppure l’uso di alcol per classe d’età, e ancora gli occupati che dichiarano di essere esporti a fattori di rischio per attività economica), oppure tra l'andamento dell'indicatore nella singola classe e quello tipico nella generalità dei casi (per esempio il tasso di mortalità nella classe d’età 30-39, rispetto al totale). Pag. 10 Occupati che dichiarano di essere esposti a fattori di rischio fisico sul posto di lavoro per settore (per cento occupati con le stesse caratteristiche): II trimestre 2007 Settori di attività economica Maschi Femmine Agricoltura, Caccia, Silvicoltura e Pesca 57,3 47,1 Industria Manifatturiera 50,8 29,2 Costruzioni 66,4 9,1 Commercio 39,0 19,9 TOTALE 44,3 26,7 Fonte: Istat, Salute e sicurezza sul lavoro: II trimestre 2007, Statistiche in breve, 23 dicembre 2008 - - - sintetizzare: l'analisi statistica dei dati deve sempre privilegiare la sintesi. Esistono tecniche statistiche avanzate la cui logica di calcolo è complessa, ma i cui risultati sono di agevole interpretazione e che sono state studiate per sintetizzare il contributo informativo di una molteplicità di variabili. In particolare, l'analisi fattoriale delle corrispondenze è utile quando si voglia sintetizzare i risultati di indagine sui fenomeni effettuate tramite questionari (ad esempio relativamente alla qualità dei servizi), mentre la cluster analysis è indispensabile per classificare le unità elementari di rilevazione in relazione a fenomeni che non possono dar luogo ad un unico criterio di misurazione e suddivisione in classi, ma vengono colti solo considerando simultaneamente una molteplicità di variabili. correlare: l'analisi statistica dei dati può infine servire ad indagare la relazione tra diversi fenomeni, calcolando le misure di correlazione tra le variabili e, con il metodo della regressione lineare o multipla, verificando se esistono leggi di causa-effetto che legano tra di loro le variabili. presentare: una tabella densa di numeri, pur rappresentando già una notevole sintesi, non consente spesso il colpo d'occhio sui fenomeni più significativi. Per questo l'informazione finale viene presentata anche sotto forma di grafici statistici, il cui scopo è dare il giusto risalto ai dati più importanti. Concetti riguardanti le rilevazioni statistiche (richiami) Rilevazione statistica: è il complesso delle operazioni indirizzate all’acquisizione di una o più informazioni su un insieme di elementi oggetto di studio. Per esempio: l’indagine multiscopo sulle Famiglie “Famiglie e soggetto sociali”, svolta dall’ISTAT nel 2009. Popolazione o collettivo statistico o aggregato statistico si intende l’insieme (finito e infinito) delle unità statistiche sulle quali si effettua, tramite osservazioni e sperimentazioni, la rilevazione di uno o più caratteri. Con riferimento all’esempio il collettivo è costituito dalle famiglie di fatto. Pag. 11 Campione: è un qualsiasi sottoinsieme derivato da una popolazione, finalizzato ad uno studio statistico. Con riferimento all’esempio di cui sopra, il campione è costituito dalle famiglie di fatto. Unità statistiche (casi individuali della popolazione o del collettivo) si intendono gli elementi rientranti nel campo di osservazione e sottoposti a rilevazione. Da esse si distinguono le unità di rilevazione, che sono le unità prescelte per effettuare l’intervista. Non sempre le unità statistiche coincidono con quelle di rilevazione. Con riferimento all’esempio le unità statistiche sono i componenti la famiglia. Carattere si intende una qualsiasi quantità o qualità che varia, ossia che può assumere più valori o forme verbali. Con riferimento all’esempio possibili caratteri sono: il sesso, l’età (in anni compiuti), il titolo di studio, la residenza, la cura dei bambini, le reti informali di aiuto, i servizi assistenziali alla famiglia. Modalità si intende l’articolazione del carattere, cioè l’espressione concreta attraverso la quale si manifesta il carattere nelle unità statistiche. Con riferimento all’esempio il carattere “Sesso” si suddivide in Maschi (M) e Femmine (F). Nell’indagine multiscopo il carattere “La cura dei bambini” viene indagata attraverso la seguente domanda: 8.1 A quali tra le seguenti persone adulte, è abitualmente affidato il bambino/ragazzo quando non è con i genitori o a scuola ? (possibili più risposte) Nonni conviventi 1 Nonni non conviventi 2 Fratelli/sorelle maggiorenni 3 Altri parenti conviventi 4 Altri parenti non conviventi 5 Amici, vicini, altri non retribuiti 6 Persone retribuite (baby sitter) 7 Non è affidato ad un adulto 8 Di solito non si verifica la necessità di affidarlo a qualcuno 9 Il carattere “Le reti informali di aiuti” viene indagata attraverso la seguente domanda: 10.1 Nelle ultime 4 settimane ha fornito gratuitamente a persone (parenti o non) che non vivono con Lei qualcuno dei seguenti aiuti ? (leggere tutte le risposte, possibili più risposte) Aiuto economico 01 Prestazioni sanitarie (iniezioni. Medicazioni, ecc.) 02 Accudimento, assistenza di adulti (aiuto a lavarsi, vestirsi, mangiare, ecc.) 03 Accudimento, assistenza ai bambini 04 Aiuto in attività domestiche anche non nella casa della persona aiutata (lavare, stirare, fare la spesa, preparare i pasti, ecc.) 05 Compagnia, accompagnamento, ospitalità 06 Espletamento di pratiche burocratiche (andare alla posta, in banca, ecc.) 07 Pag. 12 Aiuto nell’esecuzione di lavoro extradomestico Aiuto nello studio Aiuto sotto forma di cibo, vestiario, ecc. Altro Nessuno 08 09 10 11 12 Frequenza è il numero di volte in cui si presenta una determinata modalità. In una distribuzione di frequenze rappresenta l’elemento più importante. Serie: si intende l’insieme delle modalità rilevate su una popolazione (o campione) ed organizzate in modo che ad ogni unità statistica corrisponda una ben definita modalità. Con riferimento all’esempio possiamo ottenere la seguente serie di (20) persine per le quali è stata rilevato il carattere “Sesso” M, M, F, M, M, M, F, M, M, F, M, M, M, M, F, F, F, F, F, F Seriazione: si intende l’insieme delle modalità di una popolazione (o campione) organizzate in modo che a ciascuna modalità corrisponda la relativa frequenza. Essa definisce in questo modo distribuzione di frequenze. Con riferimento all’esempio abbiamo” Sesso Spoglio Maschi (M) Frequenze 11 Femmine /F 9 TOTALE 20 20 Tipologia dell’informazione statistica (richiami) Elemento essenziale per l’analisi statistica è dunque l’informazione che viene raccolta presso le unità statistica di una popolazione o collettivo. In termini generali questa/queste informazioni definiscono i caratteri. Quindi i Caratteri sono “misure” di caratteristiche, solitamente elementari, riferite alle unità statistiche. Su ogni unità statistica vengono rilevati diversi aspetti ciascuno dei quali è appunto chiamato carattere. Esso è dunque un qualunque attributo posseduto da una unità statistica. I caratteri si distinguono in qualitativi (mutabili o variabili qualitative) le cui modalità sono espresse in forma verbale e in quantitativi (variabili) le cui modalità sono espressioni numeriche. Pag. 13 Le Mutabili si distinguono in: sconnesse o nominali. Assumono un insieme finito di categorie mutuamente esclusive tali che, per due differenti unità statistiche, si può definire soltanto se queste assumono la stessa o differenti categorie (es.: genere, comune o Stato di residenza) ordinali. Assumono un insieme finito di categorie mutuamente esclusive tali da poter ordinare due unità statistiche secondo il possesso di caratteristiche possedute. Per queste murabili è quindi possibile stabilire una relazione d’ordine tra le unità statistiche (es: titolo di studio) Le Variabili si distinguono in discrete. La caratteristica può essere descritta mediante un numero finito o infinito numerabile di valori numerici, fra i quali abbia senso calcolare una differenza e/o un rapporto (es. imprese, incidenti, stradali, infortunati feriti a causa di incidente stradale, infortunati morti a causa di incidenti stradali, componenti della famiglia). continue. La caratteristica può essere descritta mediante un’infinità non numerabile di valori, fra i quali abbia senso calcolare una differenza e/o un rapporto. Quindi in linea di principio le modalità possono assumere un qualsiasi valore di un intervallo reale (es.: fatturato d’impresa, il tempo impiegato per raggiungere un aeroporto, l’età). In realtà una variabile è continua “sul piano concettuale in quanto, se si considera ciò che avviene in pratica, ogni indagine sarà costretta ad approssimare le misurazioni dei fenomeni reali e quindi, di fatto, a rendere discrete quelle variabili che per definizione sono continue” (D. Piccolo), per esempio l’età viene rilevata in anni compiuti. Caratteri dicotomici sono quelli che assumono due sole modalità: assenza (0) e presenza (1). Nell’indagine multiscopo la domanda: 3.2 E’ affetto da malattie croniche e problemi di salute di lunga durata ? (il termine “lunga durata” si riferisce a malattie o problemi che durano da almeno 6 mesi o si prevede che durino per almeno 6 mesi) No Si 1 2 Caratteri “tempo/spazio” 1. serie storiche (o serie temporali: riferite a modalità di tempo, (es: nati-vivi e morti per mese, incidenti stradali per anno, infortuni sul lavoro per trimestre), esse rappresentano la dinamica di un certo fenomeno registrato istantaneamente (anno, mese, trimestre, settimana) o conteggiato durante un periodo prefisssato; 2. serie cicliche (ordinabili senza che ci sia necessariamente un ordine, quindi ordinabili a piacere es: temperature minime medie giornaliere, morti per mese); Pag. 14 3. serie geografiche (o serie territoriali riferite a modalità territoriali (es: incidenti stradali per regione), esprimono la distribuzione di una variabile in rapporto ad unità statistica espressa come territorio (comuni, distretti, province, regioni, Stati, ecc.). Una singola variabile generalmente viene indicata con la lettera X, mentre le sue modalità sono x 1 , x 2 ,…, x i ,… x k . Quanto le variabili sono di o più si parla di varabili doppie, triple, … multiple e le modalità saranno rispettivamente Coppie ordinate (x 1 , y 1 ) (x 2 , y 2 ) …. Triple ordinate (x 1 , y 1 , z 1 ) ( x 2 , y 2 , z 2 )….. n. ple ordinate (x 1 , y 1 … w 1 ) ( x 2 , y 2 … w 2 )…. Indicatori sintetici delle variabili statistiche (richiami) L’applicazione della statistica richiede, molto spesso, il confronto tra due o più distribuzioni di frequenze per esempio le performances di una struttura ricettiva rispetto ad un’altra o di una località turistica rispetto ad un’altra. Per operare questi confronti è necessario utilizzare misure di sintesi che riassumono importanti aspetti delle variabili oggetto di analisi. Il calcolo di questi indici di sintesi rientra nella Statistica descrittiva la quale analizza tre particolari aspetti di una distribuzione di frequenze: a) la posizione, ovvero la misura della centralità; b) la variabilità, ovvero la “mutevolezza” dei dati; c) la forma, ovvero l’adattamento della distribuzione a dei modelli di riferimento o configurazioni standard. Gli indici di posizione sono grandezze statistiche che sintetizzano i risultati di più osservazioni numericamente compatibili e riguardanti il medesimo oggetto. Questa sintesi dovrà essere rappresentativa della variabile nella sua globalità, deve essere espressa nella stessa unità di misura. Medie (generalità): le più importanti sono la Media aritmetica, la Media Quadratica, la Media Geometrica e la Media Armonica che si ottengono effettuando determinate operazioni sull'insieme di tutti i valori osservati. Concentriamoci sulla Media Aritmetica (o Media la quale esprime una sintesi di una distribuzione statistica): se si tratta di una Serie avremo M (X ) x i 1 i n Se si tratta di una distribuzione di frequenze avremo la media ponderata Pag. 15 M (X ) x * n i1 i n i1 i i Esempio su una serie: Su un gruppo di 15 imprese medie della provincia di Udine intervistate sui fabbisogni formativi in modalità e-learning si è rilevato il n.ro di addetti 100, 95, 80, 94, 90, 100, 96, 88, 82, 65, 70, 85, 77, 95, 100 Calcolare il numero medio di addetti per impresa M(X) = (100+95+80+94+90+100+96+88+82+65+70+85+77+95+ 100)/15 = 87,5 Esempio su una distribuzione di frequenze Sia data la seguente tabella che riporta i Fatturati (espressi in milioni di Euro) di Imprese Commerciali e di Imprese Manifatturiere Classi di Fatturato Imprese Commerciali 15 20 25 10 5 5 0-15 15-30 30-40 40-50 50-60 60-80 Imprese Manifatturiere 10 25 30 15 5 5 Fatturano di più le Imprese Commerciali o quelle Manifatturiere ? Calcoliamo la media, anzi le medie. Classi di Fatturato 0-15 15-30 30-40 40-50 50-60 60-80 TOTALE Imprese Commerciali (2) 15 20 25 10 5 5 80 ai (3) xi’ (4) x i ’n i (5)=(4)*(1) 15 15 10 10 10 20 7,5 22,5 35 45 55 70 112,5 450,0 875,0 450,0 275,0 350,0 2.512,5 La prima elaborazione riguarda il calcolo del valore centrale della classe che sarà lim inf lim sup lim inf 2 dove limite sup – limite inf non è altro che l’ampiezza della classe a i Cominciamo proprio dall’ampiezza (colonna 3). Osserviamo che l’ampiezza è diversa da classe a classe. Il valore centrale valore calcolato nella colonna 4 e utilizzando questo valore la media sarà M (X ) x 'n i i 1 n i 1 dove il numeratore è calcolato nella colonna 5 da cui Pag. 16 i i M(X Com ) = 2.512,5/80 = 31,41 Analogamente per le Imprese Manifatturiere otteniamo M(X Man ) = 2.512,5/80 = 33,19 Quindi le imprese Manifatturiere registrano un fatturato medio superiore a quello delle Imprese Commerciali. Proprietà e difetti della media aritmetica a) la Media è sempre compresa tra il valore minimo e quello massimo della serie o distribuzione (proprietà) b) la Somma gli scarti dalla media e nulla (proprietà) c) la Media gode della proprietà della linearità ovvero se si aggiunge o toglie una costante alla variabile la rispettiva media sarà modificata dello stesso ammontare (proprietà) d) la Media è l’unico valore per cui la Somma degli scarti al quadrato è minima (proprietà) e) la Media risente dei valori estremi della distribuzione in quanto rappresenta il baricentro della distribuzione ed un valore fortemente divergente da tutti gli altri attrae il baricentro nella sua direzione (difetto). Esempio per evidenziare questo difetto: ipotizziamo di aver rilevato in cinque Imprese Manifatturiere ed in cinque Imprese Commerciali l’utile in milioni di euro come riportato nella tabella seguente: Settore Utile rilevato Media aritmetica Manifattura (1,2,3,4,5) 3 Commercio (1,2,3,4,50) 12 La media delle Imprese Manifatturiere (=3) può essere utilizzata come indicatore sintetico della distribuzione, mentre il valore anomalo di 50 nella distribuzione delle Imprese Commerciali rende del tutto inefficace la media del “Settore Commercio”, in quanto essa non rappresenta in modo adeguato né le primi 4 imprese né l’ultima. Medie di posizione: sono valori dell'insieme che godono di particolari proprietà moda o norma è il valore che si presenta più spesso, in altri termini il valore che in una distribuzione di frequenze si trova ad avere la frequenza massima (assoluta o relativa), Pag. 17 Esempio: Nati nei punti nascita del Friuli Venezia Giulia per modalità di parto: anno 2008 Freq. assolute Freq. relative 7.251 0,69 Cesareo con travaglio 1.387 0,132 Cesareo di elezione 1.188 0,113 Con ventosa 667 0,063 Altre Modalità 11 0,01 10.504 1 Modalità di parti Spontaneo TOTALE Fonte: Regione Autonoma FVG,Regione in cifre 2009 La modalità più frequente è “Parto spontaneo” che quindi è la moda della distribuzione. mediana è il valore che, in una successione ordinata, si trova esattamente al posto centrale della distribuzione cioè lascia tanti elementi a sinistra quanti a destra, Per le variabili discrete a) se né dispari Me= x (n+1/2) b) se n è pari Me= (x (n/2) + x (n+1/2) )/2 Per le variabili continue N h 2 Me ( X ) lim inf ( )*a f h 1 h i i quantili (quartili, decili, percentili) sono una generalizzazione della mediana trattandosi di valori che dividono la distribuzione ordinata in tante classe uguali (i quartili in quattro parti, i decili in dieci, i percentili in cento parti uguali). Soffermiamoci ai quartili Primo quartile di una distribuzione di frequenze N h 4 Q 1( X ) lim inf ( )*a f h 1 h i i dove lim inf è il limite inferiore della classe mediana h è la cumulata fino alla classe immediatamente precedente la classe mediana i h 1 f i frequenza della classe mediana ai ampiezza della classe mediana Pag. 18 Esempio su una distribuzione di frequenze Consideriamo la tabella dell’esempio precedente Classi di Fatturato Imprese Commerciali 15 20 25 10 5 5 0-15 15-30 30-40 40-50 50-60 60-80 confrontare i valori mediani Imprese Manifatturiere 10 25 30 15 5 5 Dovremo preliminarmente procedere alla costruzione delle frequenze cumulate (colonna 3) Classi di Fatturato 0-15 15-30 30-40 40-50 50-60 60-80 TOTALE Imprese Commerciali(2) 15 20 25 10 5 5 80 Ni (3) 15 35 60 70 75 80 Per il calcolo della mediana utilizzeremo la formula N hh 2 h 1 Me ( X ) lim inf ( ) * ai fi Per prima cosa determiniamo la posizione mediana cioè con riferimento alle Imprese Commerciali n/2 = 40.a posizione per decidere in quale classe rientra l’x i occupa la 40.a posizione utilizzeremo e frequenze cumulate (colonna 3). La classe mediana è 30-39 anni, pertanto Me ( X Comm ) 30 ( 40 35 ) * 10 25 = 32,0 45 35 ) * 10 30 = 33,3 Analogamente per le Imprese Manifatturiere Me ( X Man ) 30 ( quindi il 50% delle imprese Commerciali fattura meno di 32 milioni di euro, mentre il 50% delle imprese Manifatturiere fatturano meno di 33,3 milioni di euro. Pag. 19 Indicatori di variabilità delle variabili statistiche (richiami) Le misure di tendenza centrale non sono sufficienti per sintetizzare un collettivo statistico; è necessario affiancare a queste misure altri indicatori capaci di fornire informazioni sulla dispersione cioè sulla lontananza/distanza delle varie osservazioni dal valore medio che rappresenta il centro della distribuzione. Quanto minore sarà la distanza delle osservazioni dal centro tanto maggiore sarà la rappresentatività e l’affidabilità del valore medio. Indici assoluti: Campo di variazione (range): differenza tra valore massimo e valore minimo della distribuzione Varianza e scarto quadratico medio: rispettivamente la media quadratica degli scarti dei singoli valori dalla loro media e la radice quadrata della varianza; ( x M ( X )) * n 2 Var ( X ) i 1 i n i 1 n i Esempio su una distribuzione di frequenze Partiamo sempre dalle tabelle già utilizzata in precedenza: Classi di Fatturato Imprese Imprese Commerciali Manifatturiere 0-15 15 10 15-30 20 25 30-40 25 30 40-50 10 15 50-60 5 5 60-80 5 5 Fatto salvo che il fatturato medio delle imprese Commerciali è di 31,41 milioni di euro e quello delle Imprese Manifatturiere di 33,19 milioni di euro, quale delle due distribuzioni presenta maggiore variabilità ? Consideriamo i valori centrali calcolati precedentemente (colonna 3). Classi di Fatturato 0-15 15-30 30-40 40-50 50-60 60-80 TOTALE Imprese Commerciali (2) 15 20 25 10 5 5 80 xi’ (3) (x i ’-M(X))2 f i (4) 7,5 22,5 35 45 55 70 8.572,6 1.586,4 322,9 1.847,9 2.783,3 7.447,4 22.560,5 Si chiede di calcolare le varianze, cominciando dalle Imprese Commerciali Pag. 20 ( x ' M ( X )) * n 2 Var ( X ) i i 1 n i 1 i i Gli scarti dalla media al quadrato moltiplicati per le rispettive frequenze sono calcolati nella colonna 7. Per cui Var(X Comm ) = 22.560,5/80 = 282,01 Analogamente per le Imprese Manifatturiere otteniamo Var(X Man ) = 20.800,3/90 = 231,12 Indici relativi: Coefficiente di variazione: rapporto tra lo scarto quadratico medio e la media al fine di confrontare eliminare l’unità di misura del fenomeno. CV ( X ) (X ) M (x) Infatti, un indice assoluto è idoneo a effettuare il confronto tra la variabilità di due o più distribuzioni se queste hanno la stessa unità di misura o se hanno all’incirca la stessa media. Se questo non accade si utilizza il coefficiente di variazione che rapporta lo scarto quadratico medio (la radice della varianza) alla media ottenendo un numero puro (cioè senza l’unità di misura). Esempio Ipotizziamo che la superficie dei campeggi della località A sia 10.380 mq con uno scarto quadratico medio di 5.735 mq, mentre nella località B abbiamo una media di 130mila mq ed uno scarto quadratico medio di 20mila. I due valori medi si discostano notevolmente l’uno dall’altro quindi non è corretto affermare che la variabilità della superficie dei campeggi sia superiora nella località B rispetto ad A solo perché lo scarto quadratico medio è maggiore, infatti, una diversità più elevata in corrispondenza della media più alta potrebbe essere meno rilevante di una minore variabilità in corrispondenza della media più bassa. E’ necessario calcolare i due coefficienti di variazione CV (A) = 0,554 CV (B) = 0.153 Conclusione: eliminando dal valore l’influenza della media, i campeggi della località A presentano una maggiore variabilità della località B. Pag. 21 Standardizzazione di variabili E’ una procedura molto diffusa in statistica e nell'analisi dei dati mediante la quale è possibile rendere confrontabili variabili identiche appartenenti a distribuzioni diverse, ma anche variabili diverse, o variabili espresse in unità di misura diverse. La variabile standardizzata (Z) misura le deviazioni dalla media aritmetica e ha come unità di misura la deviazione standard. Un dato così trasformato si chiama punto standard o punto z. La variabile standardizzata è: Z x i x dove z rappresenta la distribuzione dei punti standard calcolati a partire da tutti i punti della variabile x; x i è il dato di cui si vuole calcolare il punto z è la media della distribuzione del carattere x x è lo scarto quadratico medio della distribuzione del carattere x Proprietà della distribuzione di una variabile standardizzata Ogni punto della vecchia distribuzione corrisponde ad uno e un solo punto della nuova, e conserva le sue distanze relative da ogni altro punto. Poiché i dati originali sono stati trasformati in scarti dalla media, e la somma algebrica degli scarti dalla media è per definizione 0, tutte le variabili standardizzate hanno media 0. Inoltre, poiché ogni scarto dalla media viene poi diviso per lo scarto-tipo della variabile di partenza, lo scarto-tipo di una qualunque variabile standardizzata è 1. Esempio di Standardizzazione (tratto da Corbetta, Gasperini, Pisati, Statistica per la ricerca sociale, Il Mulino, pag. 85) Silvana e Roberta sono due sorelle che lavorano come redattrici: la prima a Roma lavora per una casa editrice italiana e guadagna 20mila euro all’anno, la seconda lavora a New York per una casa editrice statunitense e guadagna 30mila dollari all’anno. Chi percepisce un reddito maggiore ? Tre sono i modi per rispondere a questa domanda a) utilizzando il tasso di cambio dollaro/euro b) calcolando il potere d’acquisto nei due Paesi c) procedere alla standardizzazione. Noi utilizziamo quest’ultimo procedimento. Dobbiamo però conoscere il reddito medio dei redattori in Italia e negli Stati Uniti. Ipotizziamo che in Italia abbiamo una media di 10mila euro ed una deviazione standard di 2.500 euro; negli Stati Uniti i redattori guadagnano in media 22.500 dollari ed esprimono una deviazione standard di 1.500 dollari Pag. 22 Standardizziamo i redditi delle due sorelle Z roberta 20 mila 10 mila 4 2 .500 Z silvana 30 . 000 22 . 500 5 1 . 500 Silvana presenta un reddito standardizzato di +5 ossia più elevato di quello di Roberta, quindi “guadagna di più”. Statistiche di movimento e di stock Ai fini della rilevazione si debbono distinguere le Statistiche di movimento che si configurano come descrizioni numeriche delle continue modifiche della popolazione statistica in un determinato periodo in relazione ad un fenomeno (per esempio le statistiche sul turismo sono gli arrivi e le presenze negli esercizi alberghieri e/o complementari) dalle Statistiche di stato o di stock, di un determinato fenomeno che sono le descrizioni numeriche della popolazione statistica ad una determinata data (per esempio le statistiche sulle strutture ricettive: numero di esercizi alberghieri, di camere, letti e bagni, di esercizi complementari). In altre parole queste statistiche si configurano come serie storiche riguardanti: a) fenomeni di consistenza la cui consistenza può essere rilevata in ogni istante come appunto l’offerta ospedaliera, posti-letto, il numero degli istituti ecc.); b) fenomeni di flusso che per essere rilevati hanno bisogno di un arco di tempo come appunto i degenti, le giornate di degenza, i nati-vivi, i morti. Pag. 23 SECONDO CAPITOLO LE FONTI STATISTICHE UFFICIALI Lo studio di qualsiasi fenomeno statistico ha come elemento determinante l'analisi delle fonti, ovvero il "prodotto" della raccolta di informazioni effettuata da vari organismi, generalmente pubblici, sia per finalità statistiche sia per assolvere a compiti puramente amministrativi. In questo capitolo analizzeremo in particolare due fonti statistiche: a) il sistema statistico nazionale ed in particolare l’Istituto Nazionale di Statistica; b) il sistema statistico della Comunità Europea (EUROSTAT); c) il Ministero della salute della Salute. Le fonti statistiche in Italia La maggior parte delle statistiche riguardanti il turismo è prodotta dal Sistema Statistico Nazionale (Sistan) istituito con il D. Leg.vo n. 322/89 (Gazz. Uff. 22 settembre 1989, n. 222, "Norme sul Sistema statistico nazionale e sulla riorganizzazione dell'Istituto nazionale di statistica, ai sensi dell'art. 24 della legge 23 agosto 1988, n. 400"). Il Sistan è una rete costituita da organismi pubblici, vale a dire un network pubblico che ha il compito di raccogliere, elaborare, archiviare e diffondere l’informazione statistica. L’elemento centrale del Sistan è l'Istituto nazionale di Statistica (Istat) il quale ha competenza specifica ed ampia, sebbene non esclusiva, in materia. L'Istat è un ente pubblico con personalità giuridica, che agisce sotto il controllo della Presidenza del consiglio dei Ministri ed effettua le più importanti rilevazioni pubbliche italiane di interesse generale, così che i dati pubblicati dall'Istat costituiscono le principali fonti ufficiali di informazione statistica. Con questo decreto la funzione statistica ufficiale non è affidata solo all'Istat, come accadeva nel passato, ma a un ampio numero di soggetti e organismi pubblici con competenze specifiche a livello settoriale e territoriale. Questi organismi operano nel rispetto di una programmazione triennale che definisce i contenuti informativi sui diversi fenomeni collettivi analizzati (Programma Statistico Nazionale). Il Sistema Statistico Nazionale Il Sistema statistico nazionale (Sistan) è stato istituito con il D. Lg.vo 6 settembre 1989 n. 322, in attuazione della delega contenuta nell'art. 24 della legge n. 400/88, legge che ha dettato i princìpi ed i criteri direttivi per la riforma della statistica pubblica. Obiettivo primario del Sistan è quello di fornire al Paese e agli organismi internazionali una informazione statistica ufficiale che soddisfi i principi di affidabilità, imparzialità, pertinenza, tutela della riservatezza, trasparenza, minimo carico sui rispondenti, efficienza ai quali si aggiunge la Pag. 24 tempestività ovvero il tempo che intercorre la tra la raccolta dei dati e la divulgazione dei risultati che deve essere il più breve possibile. Del Sistema fanno parte 3 : 1. 2. l'Istituto Nazionale di Statistica (Istat); le amministrazioni dello Stato (Presidenza del Consiglio dei Ministri, Ministero degli Affari esteri, Ministero dell’Ambiente e tutela del territorio, Ministero delle Attività Produttive, Ministeri per i beni e le attività culturali, Ministero delle Comunicazioni, Ministero della difesa, Ministero dell’Economie e delle Finanze, Ministero della Giustizia, Ministero delle Infrastrutture e dei Trasporti, Ministero dell’Interno, Ministeri dell’Istruzione, dell’Università e della Ricerca, Ministero del Lavoro e delle politiche Sociali, Ministero delle Politiche Agricole e Forestali, Ministero della Salute, Amministrazione autonoma dei Monopoli dello Stato); 4. gli Enti Pubblici ed i soggetti privati come l’Automobile Club d’Italia (ACI), l’Agenzia per le erogazioni in agricoltura (AGEA), l’Agenzia per la protezione dell’ambiente e dei servizi tecnici (APAT), il Consiglio Nazionale dell’Economia e del Lavoro (CNEL), il Consiglio Nazionale delle Ricerche (CNR), il Comitato Olimpico Nazionale (CONI), l’Ente per le nuove tecnologia, l’energia e l’ambiente (ENEA), l’Istituto Nazionale per il Commercio Estero (ICE), l’Istituto Nazionale per l’assicurazione contro gli infortuni sul lavoro (INAIL), l’Istituto nazionale per i dipendenti dell’amministrazione pubblica (INPDAP), l’Istituto Nazionale per la Previdenza Sociale (INPS), l’Istituto Nazionale di Ricerca per gli Alimenti e la Nutrizione (INRAN), l’Istituito di Servizi per il Mercato Agricolo alimentare (ISMEA), l’Istituto Superiore di Sanità (ISS), l’Istituto per la vigilanza sulle assicurazioni private di interesse collettivo (ISVAP), l’Unione Italiana delle Camere di Commercio (UNIONCAMERE), l’Istituto ricerche economiche per la pesca e l’acquacoltura (IREPA), le Ferrovie dello Stato spa, l’Ente nazionale di assistenti agenti e rappresentanti di commercio–Fondazione ENASARCO, la Fondazione “Istituto Guglielmo Tagliacarne”, il Gestore della Rete di Trasmissione nazionale spa–GRTN, le Unioncamere regionali di Liguria, Emilia Romagna e Veneto; 5. le regioni e le province autonome; 4. le amministrazioni a livello provinciale ovvero le Camere di Commercio, Industria, Artigianato e Agricoltura e le province; 5. i comuni singoli o associati; 6. gli enti di informazione statistica come l’Istituto di studi e analisi economica (ISAE). Successivamente sono stati ammessi a far parte del Sistema anche soggetti privati che svolgono funzioni o rendono servizi di interesse pubblico, ovvero si configurino come essenziali per il raggiungimento degli obiettivi del Sistema stesso. Nodo strategico della rete 3 Attività degli Enti del Sistema Statistico Nazionale: anno 2005, in “Giornale del Sistan”, n. 33/2006 Pag. 25 sono le Camere di Commercio le quali svolgono una consistente attività di ricerca statistica sia quali organi di rilevazione primari o intermedi; sia come produttori di statistiche. La loro importanza può essere riassunta nei seguenti punti: - produrre e diffondere informazione statistica in modo fortemente ancorato al territorio ed alle economie locali; - produrre e diffondere informazione statistica all'interno di un sistema, ma nel contempo valorizzando il carattere dell'autonomia cioè le specificità funzionali e territoriali, l'autonomia progettuale e l'autonomia organizzativa. Cominciamo dall’istituzione più importante del Sistan ovvero l'Istituto nazionale di statistica (Istat) che è persona giuridica di diritto pubblico con ordinamento autonomo sottoposta alla vigilanza della Presidenza del consiglio dei ministri. Suoi organi sono il Presidente, il Comitato di indirizzo e coordinamento dell'informazione statistica (Comstat), il Consiglio e il Collegio dei revisori dei conti. Gli Utilizzatori delle informazioni statistiche L'informazione statistica è patrimonio della collettività ed i suoi destinatari sono - gli organi di governo (le amministrazioni centrali e locali); - le istituzioni comunitarie; il mondo della ricerca; le imprese pubbliche e private; le organizzazioni di categoria e sindacali; le associazioni; i mezzi di informazione; i cittadini; la scuola, l'università e le agenzie formative; le organizzazioni internazionali. DISCIPLINA GENERALE DEL SISTEMA STATISTICO NAZIONALE Art. 24 “Delega per la riforma degli enti pubblici di informazione statistica” della Legge 23 agosto 1988, n. 400 - Disciplina dell'attività di Governo e ordinamento della Presidenza del Consiglio dei Ministri delega che è stata attuata con l’emanazione del Decreto legislativo 6 settembre 1989, n. 322 - Norme sul Sistema statistico nazionale e sulla riorganizzazione dell'Istituto nazionale di statistica, ai sensi dell'art. 24 della legge 23 agosto 1988, n. 400 - Capo I Altre disposizioni sul sito http://www.sistan.it visitato nel febbraio 2010 Pag. 26 Consideriamo dunque il Il Decreto L.gvo n. 322/89 “Norme sul sistema statistico nazionale” Gli elementi essenziali del Decreto possono essere sintetizzati nel seguente modo: Capo I - Sistema statistico nazionale Art. 1. Oggetto della disciplina Il presente decreto disciplina, …., le attività di rilevazione, elaborazione, analisi e diffusione e archiviazione dei dati statistici svolte dagli enti ed organismi pubblici di informazione statistica, al fine di realizzare l'unità di indirizzo, l'omogeneità organizzativa e la razionalizzazione dei flussi informativi a livello centrale e locale, nonché l'organizzazione e il funzionamento dell'Istituto nazionale di statistica. L'informazione statistica ufficiale e agli organismi internazionali attraverso il Sistema statistico nazionale. Art. 2. Ordinamento del Sistema statistico nazionale Fanno parte del Sistema statistico nazionale: a) l'Istituto nazionale di statistica (ISTAT); b) gli uffici di statistica centrali e periferici delle amministrazioni dello Stato e delle amministrazioni ed aziende autonome, istituiti ai sensi dell'art. 3; c) gli uffici di statistica delle regioni e delle province autonome; d) gli uffici di statistica delle province; e) gli uffici di statistica dei comuni singoli o associati e delle unità sanitarie locali; f) gli uffici di statistica delle camere di commercio, industria, artigianato e agricoltura; g) gli uffici di statistica, comunque denominati, di amministrazioni e enti pubblici individuati ai sensi dell'art. 4; h) gli altri enti ed organismi pubblici di informazione statistica individuati con decreto del Presidente del Consiglio dei Ministri. Art. 3. Uffici di statistica Presso le amministrazioni centrali dello Stato e presso le aziende autonome sono istituiti uffici di statistica, posti alle dipendenze funzionali dell'ISTAT. Gli uffici di statistica sono ordinati anche secondo le esigenze di carattere tecnico indicate dall'ISTAT. …. Omissis Art. 6. Compiti degli uffici di statistica Gli uffici di statistica del Sistema statistico nazionale, oltre agli alti compiti attribuiti dalla normativa che li riguarda: a) promuovono e realizzano la rilevazione, l'elaborazione, la diffusione e l'archiviazione dei dati statistici che interessano l'amministrazione di appartenenza, nell'ambito del programma statistico nazionale; b) forniscono al Sistema statistico nazionale i dati informativi previsti dal programma statistico nazionale relativi all'amministrazione di appartenenza, anche in forma individuale ma non nominativa ai fini della successiva elaborazione statistica; c) collaborano con le altre amministrazioni per l'esecuzione delle rilevazioni previste dal programma statistico nazionale; d) contribuiscono alla promozione e allo sviluppo informatico a fini statistici degli archivi gestionali e delle raccolte di dati amministrativi. … omissis Art.6 bis Trattamenti di dati personali Pag. 27 1. I soggetti che fanno parte o partecipano al Sistema statistico nazionale possono raccogliere ed ulteriormente trattare i dati personali necessari per perseguire gli scopi statistici previsti dal presente decreto, dalla legge o dalla normativa comunitaria, qualora il trattamento di dati anonimi non permetta di raggiungere i medesimi scopi. 2. Nel programma statistico nazionale sono illustrate le finalità perseguite e le garanzie previste dal presente decreto e dalla legge 31 dicembre 1996, n. 675. Il programma indica anche i dati di cui agli articoli 22 e 24 della medesima legge, le rilevazioni per le quali i dati sono trattati e le modalità di trattamento. Il programma è adottato sentito il Garante per la protezione dei dati personali. 3. Quando sono raccolti per altri scopi, i dati personali possono essere ulteriormente trattati per scopi statistici, se ciò è previsto dal presente decreto, dalla legge, dalla normativa comunitaria o da un regolamento. 4. I dati personali raccolti specificamente per uno scopo possono essere trattati dai soggetti di cui al comma 1 per altri scopi statistici di interesse pubblico previsti ai sensi del comma 3, quando questi ultimi sono chiaramente determinati e di limitata durata. Tale eventualità, al pari di quella prevista del medesimo comma 3, è chiaramente rappresentata agli interessati al momento della raccolta o quando ciò non è possibile, è resa preventivamente nota al pubblico e al Garante nei modi e nei termini previsti dal codice di deontologia e di buona condotta. 5. I dati personali sono resi anonimi dopo la raccolta o quando la loro disponibilità non sia più necessaria per i propri trattamenti statistici. 6. I dati identificativi, qualora possano essere conservati, sono custoditi separatamente da ogni altro dato personale salvo che ciò, in base ad un atto motivato per iscritto, risulti impossibile in ragione delle particolari caratteristiche del trattamento o comporti un impiego di mezzi manifestamente sproporzionato. I dati personali trattati per scopi statistici sono conservati separatamente da ogni altro dato personale trattato per finalità che non richiedano il loro utilizzo. 7. I dati identificativi, qualora possano essere conservati, sono abbinabili ad altri dati, sempre che l'abbinamento sia temporaneo ed essenziale per i propri trattamenti statistici. 8. In caso di esercizio dei diritti dell'interessato ai sensi dell'articolo 13 della legge 31 dicembre 1996, n. 675, l'aggiornamento, la rettificazione o l'integrazione dei dati sono annotate senza modificare questi ultimi qualora il risultato di tali operazioni non produca effetti significativi sull'analisi statistica o sui risultati statistici. Art. 7. Obbligo di fornire dati statistici ….è fatto obbligo a tutte le amministrazioni, enti ed organismi pubblici di fornire tutti i dati e le notizie che vengono loro richiesti per rilevazioni previste dal programma statistico nazionale. Sono sottoposti al medesimo obbligo i soggetti privati per le rilevazioni statistiche, rientranti nel programma stesso … … omissis Art. 8. Segreto di ufficio degli addetti agli uffici di statistica Le norme in materia di segreto d'ufficio previste dal vigente ordinamento dell'impiego civile dello Stato si applicano a tutti gli addetti agli uffici di statistica previsti dagli articoli 3, 4 e 5. …omissis Art. 10. Accesso ai dati statistici I dati elaborati nell'ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività e vengono distribuiti per fini di studio e di ricerca a coloro che li richiedono secondo la disciplina del presente decreto …. Pag. 28 Sono distribuite altresì, ove disponibili, su richiesta motivata e previa autorizzazione del Presidente dell'ISTAT, collezioni campionarie di dati elementari, resi anonimi e privi di ogni riferimento che ne permetta il collegamento con singole persone fisiche e giuridiche. Presso la sede centrale dell'ISTAT in Roma, presso le sedi regionali dell'ISTAT, nonché presso gli uffici di statistica delle prefetture, sono costituiti uffici di collegamento del Sistema statistico nazionale con il pubblico. … omissis… Enti od organismi pubblici, persone giuridiche, società, associazioni e singoli cittadini hanno il diritto di accedere ai dati di cui al comma 1 facendone richiesta agli uffici di cui al comma 3. I dati, se non immediatamente disponibili, vengono consegnati ai richiedenti nel tempo strettamente necessario per la riproduzione, con rimborso delle spese, il cui importo è stabilito dall'ISTAT. …omissis Art. 13. Programma statistico nazionale Le rilevazioni statistiche di interesse pubblico affidate al Sistema statistico nazionale ed i relativi obiettivi sono stabiliti nel programma statistico nazionale. Il programma statistico nazionale ha durata triennale e viene tenuto aggiornato. …omissis Capo II - Organizzazione e funzioni dell'ISTAT Art. 14. Istituto nazionale di statistica L'Istituto centrale di statistica, istituito con legge 9 luglio 1926 n. 1162, assume la denominazione di Istituto nazionale di statistica (ISTAT). L'Istituto nazionale di statistica è persona giuridica di diritto pubblico ed ha ordinamento autonomo secondo le disposizioni del presente decreto. Sono organi dell'Istituto: a) il presidente; b) il comitato per l'indirizzo e il coordinamento dell'informazione statistica; c) il consiglio; d) il collegio dei revisori dei conti. L'ISTAT è sottoposto alla vigilanza del Presidente del Consiglio dei Ministri. Art. 15. Compiti dell'ISTAT L'ISTAT provvede: a) alla predisposizione del programma statistico nazionale; b) all’esecuzione dei censimenti e delle altre rilevazioni statistiche previste dal programma statistico nazionale ed affidate all’esecuzione dell'Istituto; c) all'indirizzo e al coordinamento delle attività statistiche degli enti ed uffici facenti parte del Sistema statistico nazionale di cui all'art. 2; d) all'assistenza tecnica agli enti ed uffici facenti parte del Sistema statistico nazionale di cui all'art. 2, nonché alla valutazione, sulla base dei criteri stabiliti dal comitato di cui all'art. 17, dell'adeguatezza dell'attività di detti enti agli obiettivi del programma statistico nazionale; e) alla predisposizione delle nomenclature e metodologie di base per la classificazione e la rilevazione dei fenomeni di carattere demografico, economico e sociale. Le nomenclature e le metodologie sono vincolanti per gli enti ed organismi facenti parte del Sistema statistico nazionale; f) alla ricerca e allo studio sui risultati dei censimenti e delle rilevazioni effettuate, nonché sulle statistiche riguardanti fenomeni d'interesse nazionale e inserite nel programma triennale; Pag. 29 g) alla pubblicazione e diffusione dei dati, delle analisi e degli studi effettuati dall'Istituto ovvero da altri uffici del Sistema statistico nazionale che non possano provvedervi direttamente; in particolare alla pubblicazione dell'Annuario statistico italiano e del Bollettino mensile di statistica; h) alla promozione e allo sviluppo informatico a fini statistici degli archivi gestionali e delle raccolte di dati amministrativi; i) allo svolgimento di attività di formazione e di qualificazione professionale per gli addetti al Sistema statistico nazionale; l) ai rapporti con enti ed uffici internazionali operanti nel settore dell'informazione statistica; m) alla promozione di studi e ricerche in materia statistica; n) all’esecuzione di particolari elaborazioni statistiche per conto di enti e privati, remunerate a condizioni di mercato. … omissis Le pubblicazioni dell’Istat I risultati dell’attività dell’Istat sono pubblicati in volumi, raccolti in settori di interesse. Alcune pubblicazioni hanno carattere generale come: il Rapporto annuale contiene un'analisi documentata sui problemi emergenti nel Paese; l'Annuario statistico italiano, disponibile anche su cd-rom, presenta le principali tavole statistiche prodotte dall'Istat e dagli altri enti del Sistema statistico nazionale, il Bollettino mensile di statistica che aggiorna mensilmente l'informazione corrente. I settori sono: 1. Ambiente e Territorio: Ambiente, territorio, climatologia 2. Popolazione: Popolazione, matrimoni, nascite, decessi, flussi migratori 3. Sanità e previdenza: Sanità, cause di morte, assistenza, previdenza sociale 4. Cultura: Istruzione, cultura, elezioni, musei e istituzioni similari 5. Famiglia e società: Comportamenti delle famiglie (salute, letture, consumi, etc.) 6. Pubblica Amministrazione: Amministrazioni pubbliche, conti delle amministrazioni locali 7. Giustizia: Giustizia civile e penale, criminalità 8. Conti nazionali: Conti economici nazionali e territoriali 9. Lavoro: Occupati, disoccupati, conflitti di lavoro, retribuzioni 10. Prezzi: Indici dei prezzi alla produzione, all'ingrosso, al consumo 11. Agricoltura: Agricoltura, zootecnia, foreste, caccia e pesca 12. Industria: Industria in senso stretto, attività edilizia, opere pubbliche 13. Servizi: Commercio, turismo 14. Commercio estero: Importazione ed esportazione per settore e paese. Pag. 30 Tra le linee editoriali sviluppate dall’Istat rientrano le Statistiche in breve attraverso le quali vengono anticipati i risultati di indagini, studi e ricerche, per rispondere al requisito di tempestività nella diffusione dell’informazione statistica. Portiamo due esempi con riferimento all’aggiornamento del sito in data 16 febbraio 2010. Il primo riguarda i risultati dell’indagine L’uso e l’abuso di alcol in Italia: anno 2008, documento pubblicato il 23 aprile 2009 e inserito nell’argomento “Salute e Sanità” (cfr homepag del portale www.istat.it). Il documento pubblica “le informazioni sul consumo di alcol in Italia per la popolazione di 11 anni e più, con un approfondimento su alcuni comportamenti a rischio. I dati sono stati raccolti attraverso l'indagine Multiscopo “Aspetti della vita quotidiana”. Il campione comprende circa 19 mila famiglie per un totale di 49 mila individui. Le interviste sono state effettuate nel febbraio 2008”. Alla presente dispensa viene allegato questo documento (ISTAT in breve Uso e abuso di alcol 2008.pdf), dalla cui lettura possiamo evidenziare i seguenti elementi ipotizzando che debbano servire per scrivere un report di lavoro: a) Gli argomenti sviluppati dal rapporto riguardano Le Tendenze e comportamenti emergenti, l’Uso e modalità di consumo di bevande alcoliche, e l’Abuso e comportamenti a rischio nel consumo di bevande alcoliche, attraverso le rappresentazioni tabellari e grafiche. Una particolare analisi è dedicata all’Abuso di alcol, guida dell’auto e discoteca; b) il documento rimanda alle Note informative, circa gli obiettivi della ricerca e la metodologia utilizzata (requisito della chiarezza); c) il documento è completato dal glossario utilizzato. Il secondo esempio di Statistiche in breve riguarda Salute e sicurezza sul lavoro: II trimestre 2007, documento pubblicato il 29 dicembre 2008 e inserito nell’argomento “Sanità e salute” (cfr homepag del portale www.istat.it). Alla presente dispensa viene allegato questo documento (ISTAT Salute e Sicurezza sul lavoro 2007.pdf), dalla cui lettura possiamo evidenziare i seguenti elementi ipotizzando, come sopra, che ci possano servire per scrivere un report di lavoro: a. vengono illustrati i principali risultati con riferimento all’Esposizione a fattori di rischio per la salute sui luoghi di lavoro, ai Problemi di salute causati o aggravati dall’attività lavorativa, agli Infortuni sul lavoro; b. il documento non riporta il paragrafo Note informative, ma il Glossario. Sito internet dell’ISTAT http://www.istat.it Visitato nel febbraio 2010 Centro di diffusione del Friuli Venezia Giulia Trieste, Via C. Battisti, 18 Pag. 31 Modalità di lettura delle pubblicazioni Istat/Sistan Per la lettura delle tavole statistiche sono adoperati i seguenti segni convenzionali: Linea (-): quando il fenomeno non esiste o quando il fenomeno esiste e viene rilevato, ma i casi non si sono verificati. Quattro puntini (....): quando il fenomeno esiste, ma i dati non si conoscono per qualsiasi ragione. Due puntini (..): per i numeri che non raggiungono la metà della cifra dell'ordine minimo considerato. Arrotondamenti: per effetto degli arrotondamenti operati direttamente all’elaboratore, i dati delle tavole possono o non coincidere tra loro per qualche unità in più o in meno. Per questi motivi non sempre si realizza la quadratura verticale o orizzontale nell'ambito della stessa tavola o tavole differenti. Numeri relativi: i numeri relativi (percentuali, quozienti di derivazione, ecc.) sono generalmente calcolati su dati assoluti non arrotondati, mentre molti dati contenuti nelle pubblicazioni sono arrotondati al migliaio, al milione, ecc. Rifacendo i calcoli in base a tali dati assoluti si possono pertanto avere dati relativi che differiscono leggermente da quelli pubblicati. Distribuzione di frequenze per classi di valore di un carattere: nelle tavole che riportano tali classi di valori, come regola generale, gli estremi inferiori di ciascuna classe s'intendono esclusi e gli estremi superiori inclusi nella classe considerata. Ciò non vale per le distribuzioni per età, sia per anni singoli sia per classi, in quanto l'età viene computata in anni compiuti. Così, ad esempio, l'età 0 anni, 1 anno, ecc. si riferisce rispettivamente agli individui dalla nascita al giorno precedente il 1° compleanno e agli individui dal giorno del 1° compleanno al giorno precedente il 2° compleanno e così via. Analogamente nelle distribuzioni secondo classi di età, le classi, ad esempio, fino a 4 anni, 5-9 anni, 10-14 anni, 75 anni e più, includono rispettivamente gli individui dalla nascita al giorno precedente il 5° compleanno, dal giorno del 5° compleanno al giorno precedente il 10° compleanno, dal giorno del 10° compleanno al giorno precedente il 15° compleanno, dal 75° compleanno in poi. Ripartizioni geografiche Italia Nord-Occidentale comprende: Piemonte, Valle d'Aosta, Lombardia, Liguria; Italia Nord-Orientale comprende: Trentino Alto-Adige, Veneto, Friuli Venezia Giulia, Emilia-Romagna; Italia Centrale comprende: Toscana, Umbria, Marche, Lazio. Italia Meridionale comprende: Abruzzo, Molise, Campania, Puglia, Basilicata, Calabria; Italia Insulare comprende: Sicilia, Sardegna. Dati provvisori e rettificati: i dati relativi ai periodi più recenti sono in parte provvisori e, pertanto, suscettibili di rettifiche nelle successive edizioni. I dati contenuti in precedenti pubblicazioni che non concordano con quelli del presente volume si intendono rettificati. Pag. 32 Le Fonti internazionali (le statistiche dell’Unione Europea) L’Eurostat è l’Ufficio Statistico della Comunità Europea e rappresenta la fonte ufficiale di dati statistici armonizzati, attendibili e comparabili relativi agli Stati membri ed alle loro regioni (NUTS 2). La sua mission è quella di fornire all’Unione un servizio di informazione statistica di qualità. Appare opportuno richiamare, anche se parzialmente, l’art. 2 del Regolamento n. 322/97 del Consiglio relativo alle statistiche comunitarie; art 2 che recita “si intende per statistiche comunitarie le informazioni quantitative, aggregate e rappresentative tratte dalla raccolta e dall’elaborazione sistematica di dati prodotti dalle autorità nazionali e dall’autorità comunitaria nel quadro dell’attuazione del Programma Statistico Comunitario ..”. Le autorità Nazionali sono gli Istituti Nazionali di Statistica, mente l’autorità comunitaria e l’Eurostat. In realtà l’obiettivo dell’Eurostat non è solo quello di raccogliere, elaborare e produce statistiche ma anche e soprattutto metodologico, di uniformare concetti e definizioni e di armonizzare i metodi di indagine. Le pubblicazioni di EUROSTAT Soffermiamo la nostra attenzione solo su 1. Statistics in focus (Statistiques en bref) attraverso la quale vengono diffusi in modo sintetico i risultati delle indagini, di studi e ricerche; 2. e sul rapporto “Combating poverty and social exclusion: A statistical portrait of the European Union 2010”, pubblicato il 18 gennaio 2010 la cui finalità risponde ai seguenti obiettivi “Building a more inclusive Europe is considered vital to achieve the EU's goals of sustained economic growth, more and better jobs, and greater social cohesion. It is hoped that such solidarity will be further promoted through the designation of 2010 as the European year for combating poverty and social exclusion. Nevertheless, just over 84 million persons, or 17 % of the EU-27's population were atrisk-of-poverty in 2007, while a similar proportion (17 %) of the total EU-27 population suffered from material deprivation. There was a clear overlap between those who were at-risk-poverty and those suffering from, among others, being unable to face unexpected expenses, afford a holiday, keep their home adequately warm, or being able to afford a car. 'Combating poverty and social exclusion: A statistical portrait of the European Union 2010' presents a broad range of statistical concepts and indicators from social statistics. The publication explores poverty and social exclusion across the 27 Member States, as well as providing (whenever possible) information about candidate and EFTA countries. A data code is included as part of the source under each table and graph to allow readers to easily access extended data sets or the most recent data available on the Eurostat website: http://ec.europa.eu/eurostat”. A titolo di esempio si riporta in allegato alla presente Pag. 33 dispensa, il documento intero (Eurostat, Combating poverty and social exclusion 2010.pdf). Cosa sono le NUTS E’ una ripartizione dei territori nazionali in aree (regioni, land, dipartimenti, ecc) operata secondo alcuni criteri e principi importanti tra i quali il più significativo è rappresentato dal fatto che queste aree hanno, per la normativa in vigore in ogni singolo Stato, un riconoscimento “istituzionale”. Quindi la loro definizione segue anche criteri normativi. In questa direzione l’Eurostat afferma che “le regioni normative sono l'espressione di una volontà politica; i loro limiti sono fissati a seconda dei compiti attribuiti alle comunità territoriali, della consistenza demografica necessaria per effettuare tali compiti in modo efficace ed economico e dei fattori storici, culturali e di altro genere”. Ma vi anche un secondo criterio, chiamato analitico/funzionale per cui “le regioni analitiche (o funzionali) … raggruppano zone utilizzando criteri geografici (ad esempio, altitudine o tipo di terreno) oppure criteri socio-economici (ad esempio, omogeneità, complementarità o polarità delle economie regionali)”.La NUTS è una classificazione gerarchica a tre livelli: ogni Stato membro ha individuato le regioni NUTS 1, ognuna delle quali è a sua volta suddivisa in un numero intero di regioni NUTS 2, e così via. A livello regionale (senza tener conto delle unità amministrative a livello locale) la struttura amministrativa degli Stati membri comprende, in genere, due principali livelli regionali ("Länder" e "Kreise" in Germania, "régions" e "départements" in Francia, "Comunidades autonomas" e "provincias" in Spagna, "regioni" e "province" in Italia, ecc.). In Italia: a) le NUTS 1 sono le Ripartizione b) le NUTS 2 sono le Regioni c) le NUTS 3 sono le province Una importante pubblicazione dell’Eurostat è Statistics in focus (Statistiques en bref) che è suddivisa in otto settori (Agricoltura e pesca, Commercio con l’estero, Economia e finanza, Ambiente ed energia, Industria commerci e servizi, Popolazione e condizioni sociali, Ricerca e tecnologia, Trasporti piè quello delle Statistiche generali), presenta in versione elettronica (PDF), è gratuita e quindi può essere “scaricata”. Portiamo due esempi con riferimento all’aggiornamento del sito in data 16 febbraio 2010. Sito internet dell’EUROSTAT http://europa.eu.int/comm/eurostat Oppure epp.eurostat.cec.eu.int/ Visitato nel febbraio 2010 Pag. 34 Le statistiche del Ministero della Salute Il Ministero della Salute fa parte del Sistema Statistico Nazionale e quindi, condividendo obiettivi, metodologie, classificazione, metodo di lavoro, e inoltre utilizzando informazioni raccolte dal Sistema, produce e pubblica dati statistici di grande importanza. Il ministero opera attraverso l’Ufficio di Statistica il cui compito è legato al “controllo sui flussi informativi ed elaborazione dei dati statistici relativi all'attività del Servizio sanitario nazionale; agli adempimenti relativi al Sistema statistico nazionale (SISTAN); studi e ricerche statistiche; alla relazione sullo stato sanitario nazionale del Paese; alla gestione di osservatori e centri di documentazione”. Approfondiremo l’argomento delle Banche dati e dei Dati Statistici. Il Ministero gestisce le seguenti banche dati: Acque di balneazione, Anagrafe Canina Nazionale, Associazioni nazionali di pazienti, Biblioteca - catalogo on line, Buona pratica di laboratorio, Centri per i trapianti, Classificazione nazionale dei dispositivi medici, Codici diagnosi e interventi chirurgici, Dati epidemiologici malattie infettive, Educazione continua in medicina – eventi, Educazione continua in medicina - progetti, Elenco malattie croniche esenti, I dati del sistema sanitario, Istituti di ricovero e cura a carattere scientifico - sintesi nazionale dati finanziari, Infosalute, strutture e servizi del Servizio sanitario nazionale, Malattie rare - elenco alfabetico, Prodotti fitosanitari Ricerca corrente: progetti e finanziamento, Ricerca finalizzata: progetti e finanziamento, Sistema informativo trapianti, Statistiche sui ricoveri ospedalieri. In particolare possiamo analizzare i Dati epidemiologici malattie infettive, con riferimento all’Epatite A registrati nel Friuli Venezia Giulia nel 2008; otteniamo la seguente tabella Epatite A: Totale 2008: dati provvisori Classi di età Provincia 0-14 15-24 25-64 >=65 ETA' NON NOTA TOTALE M F M F M F M F M F GORIZIA 0 0 0 1 1 2 0 0 0 0 0 1 3 0 4 PORDENONE 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 TRIESTE 0 0 0 1 3 2 0 0 0 0 0 3 3 0 6 UDINE 0 0 0 0 5 0 1 0 0 0 0 6 0 0 6 FRIULI VENEZIA GIULIA 0 0 0 2 10 4 1 0 0 0 0 11 6 0 17 ITALIA 97 65 51 28 489 123 14 11 5 1 0 656 228 2 886 Fonte: Ministero della Salute Pag. 35 N.N. M F N.N. TOT. La ricerca dei “Dati statistici” porta ai seguenti risultati: A) l’Annuario statistico e altre pubblicazioni, B) i Certificato di assistenza al parto (CeDAP), si tratta di informazioni di carattere sanitario, epidemiologico e socio-demografico attraverso la rilevazione degli eventi di nascita, C) la Banca dati del Servizio sanitario nazionale: dati statistici ed economico-finanziari; D) gli Elenchi ASL e le strutture di ricovero, E) una selezione di indicatori chiave del sistema sanitario nazionale sul Contesto demografico, sullo Stato di salute della popolazione, le Risorse e loro utilizzo, le Attività di assistenza sanitaria, la Spesa sanitaria e finanziamento del SSN. In realtà in forte limite di queste informazioni statistiche è rappresentato dalla loro non tempestività piche rappresentano una realtà di quattro/cinque anno indietro. Sembra rispondere meglio al requisito della tempestività la Relazione sullo Stato Sanitario del Paese 2007-2008, pubblicazione nel 2009. Sito internet del ministero della Salute http://www.salute.gov.it// Visitato nel febbraio 2010 Pag. 36 TERZO CAPITOLO L’INDAGINE STATISTICA Un’indagine statistica può configurarsi come un qualsiasi processo produttivo, dove il prodotto finale consiste nel comunicare un’informazione statistica corretta e quindi utilizzabile ai fini decisionali programmatori ed operativi. Scopo dell’indagine è quello di produrre statistiche, ovvero descrizioni riassuntive di carattere quali-quantitativo, riguardanti il collettivo di interesse. Un'indagine nasce seguendo un preciso ciclo di fasi, ognuna orientata alla qualità del prodotto finale. Questa qualità del prodotto finale dipende anche dalla corretta effettuazione di una serie di procedure, ovvero dal controllo che si riesce ad esercitare su ogni azione che produce il risultato finale. Per questo motivo analizzeremo nel dettaglio come si articola un'indagine statistica poiché ogni step (azione) richiede un’attenta programmazione che si esplicita monitorando la rispondenza delle singole attività di cui si compone l’indagine agli obiettivi. Il controllo diventa, infatti, meno problematico quanto migliore è la programmazione delle fasi della ricerca e quanto più accurata è la pianificazione delle azioni che definiscono ogni fase. Una buona programmazione del lavoro è peraltro funzionale alla definizione degli obiettivi, anche se, in prima analisi possono essere espressi in forma generica e non strutturata. La fissazione degli obiettivi generali costituisce, di fatto, la fase di avvio del processo produttivo dei dati. E’ una fase assai delicata dove a partire da ipotesi, considerazioni, indicazioni generiche si passa a definire in modo in più preciso il fenomeno e quindi ad individuare gli obiettivi specifici della ricerca, partendo preliminarmente dalle informazioni risultate più carenti per l’osservazione del fenomeno stesso. L’importanza della programmazione è determinata dalla disponibilità di risorse organizzative e finanziarie ma anche dalle “conoscenze a priori” del fenomeno oggetto di studio, che consente un livello di approfondimento. Progettare l'indagine Si è detto che scopo dell’indagine è quello di produrre statistiche, ovvero descrizioni riassuntive di carattere quantitativo, riguardanti il collettivo di interesse. Generalmente la progettazione, la pianificazione e l’esecuzione di un’indagine è frutto di un impegno multidisciplinare che coinvolge necessariamente diverse professionalità ed ha lo scopo di individuare una precisa domanda di informazione, domanda che l'indagine è chiamata e soddisfare. Pag. 37 L’attività di progettazione deve procedere prendendo in considerazione tutti gli aspetti coinvolti, da quelli riguardanti i fenomeni di interesse e quelli di carattere più operativi (logistici, finanziari, organizzativi e poi, ovviamente, statistici). I principali argomenti da prendere in considerazione sono la definizione degli Obiettivi, la ricerca delle Fonti statistiche, l’individuazione delle Fasi operative, la determinazione di Tempi e costi, la programmazione di un Sistema di controllo della qualità, il piano delle Elaborazioni statistiche ed il piano di Diffusione dei risultati. DEFINIZIONE DEI CONTENUTI INFORMATIVI DEFINIZIONE OBIETTIVI GENERALI PRIMA FORMULAZIONE ANALISI "a priori" DEL FENOMENO PRECISAZIONE DEGLI OBIETTIVI INDIVIDUAZIONE DELL’ UNITA’ DI RILEVAZIONE INDIVIDUAZIONE DEL CAMPO DI OSSERVAZIONE E UNITA’ DI ANALISI SELEZIONE VARIABILI SIGNIFICATIVE (astrazione) ANALISI STATISTICA DELLE UNITA’ E DELLE VARIABILI INDIVIDUATE (la rilevazione dei dati, che comprende anche l’esecuzione di tecniche di controllo della qualità dei dati) a) l’elaborazione statistica dei dati (codifica, revisione manuale ed elettronica, l’elaborazione con metodi statistici e matematici), b) l’interpretazione dei risultati, c) diffusione dei risultati ( stesura di uno o più rapporti di ricerca) Pag. 38 Analizzeremo nel dettaglio queste fasi facendo riferimento a due importanti indagini previste dal Programma Statistico Nazionale ovvero: a) l’Indagine statistica Multiscopo sulle famiglie “Famiglie e soggetti sociali: anno 2009”, realizzata dall’ISTAT; b) l’Indagine statistica Multiscopo sulle famiglie “Aspetti della vita quotidiana anno 2007”, realizzata dall’ISTAT. Definizione degli obiettivi In questa sezione consideriamo quegli aspetti definitori che più di altri sono connessi alla specifica area di interesse che si intende analizzare per mezzo dell’indagine: definizioni e classificazioni delle unità di rilevazione e delle variabili da rilevare. Questi, se non correttamente individuati, possono provocare gravi ricadute su alcune componenti della qualità come la rilevanza e l’accuratezza. Fenomeno di interesse: delimitare precisamente cosa interessa da cosa non interessa ricordando che più ampio è l’arco degli argomenti trattati, maggiori divengono le complessità da affrontare sul piano concettuale statistico ed operativo; definire se interessa descrivere un fenomeno nella sua componente statica o in quella dinamica; specificare se interessa confrontare i risultati con informazioni relative ad altre realtà territoriali; specificare quali ipotesi si intende sottoporre a verifica. Indagine multiscopo: Famiglia e soggetti sociali: anno 2009 È una indagine che indaga la vita delle famiglie Si rilevano i percorsi di vita individuale, le fasi del ciclo di vita familiare, i rapporti interni alla famiglia, le reti di aiuto, le storie lavorative, la vita di coppia, le intenzioni su lavoro e famiglia, … Capire l’evoluzione della famiglia, (calo della natalità, prolungata permanenza dei giovani in famiglia, crescita delle copie di fatti, ritardo nell’autonomia abitativa e lavorativa… Costruire indicatori al fine di programmare ed attivare politiche di intervento sul piano economico e sociale Aspetti della vita quotidiana: anno 2007 È una indagine che interessa la qualità della vita dei cittadini e delle famiglie Si rilevano le abitudini dei cittadini ed i problemi che essi affrontano ogni giorno quindi l’obiettivo dell’indagine è rilevare bisogni, necessità, problemi dei cittadini Approfondisce l’uso dei principali servizi di pubblica utilità ed il grado di soddisfazione Costruire indicatori sociali al fine di programmare ed attivare politiche di intervento sul piano economico e sociale Pag. 39 Popolazione di riferimento. individua con precisione l’insieme di unità statistiche alle quali si intende estendere i risultati dell’indagine; specificare esattamente le condizioni di eleggibilità, ovvero le caratteristiche che determinano l’inclusione (o l’esclusione) delle unità statistiche della popolazione. Indagine multiscopo: Famiglia e soggetti sociali: anno 2009 Le famiglie (universo) ed i suoi componenti. L’unità di rilevazione è la famiglia di fatto. Questa va intesa come “insieme di persone coabitanti e legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da vincoli affettivi. Aspetti della vita quotidiana: anno 2007 Le famiglie (universo) ed i suoi componenti. L’unità di rilevazione è la famiglia di fatto: che non necessariamente coincide con la famiglia anagrafica descritta dallo Stato di famiglia. Per famiglia di fatto si intende un insieme di persone dimoranti abitualmente nella stessa abitazione e legate da vincoli di parentela, affinità, adozione, tutela o amicizia. Due sono le condizioni necessarie perché un insieme di persone formi una famiglia: a) la coabitazione; b) la presenza di un legame di matrimonio, parentela, affinità, adozione, tutela o affettivo. La scelta dei caratteri da rilevare (astrazione). Variabili. Misure di caratteristiche, solitamente elementari, riferite alle unità statistiche. Su ogni unità statistica vengono rilevati diversi aspetti ciascuno dei quali è chiamato carattere. Esso è dunque un qualunque attributo posseduto da una unità statistica. I caratteri si distinguono in qualitativi le cui modalità sono espresse in forma verbale e in quantitativi le cui modalità sono espressioni numeriche. Mutabili: Qualitative sconnesse o nominali. Assumono un insieme finito di categorie mutuamente esclusive tali che, per due differenti unità statistiche, si può definire soltanto se queste assumono la stessa o differenti categorie. Qualitative ordinali. Assumono un insieme finito di categorie mutuamente esclusive tali da poter ordinare due unità statistiche secondo il possesso di caratteristiche possedute. Variabili Quantitative discrete. La caratteristica può essere descritta mediante un numero finito o infinito numerabile di valori numerici, fra i quali abbia senso calcolare una differenza e/o un rapporto (es. numero di posti letto, componenti della famiglia) Pag. 40 Quantitative continue. La caratteristica può essere descritta mediante un’infinità non numerabile di valori, fra i quali abbia senso calcolare una differenza e/o un rapporto (es.: fatturato d’impresa) Caratteri dicotomici sono quelli che assumono due sole modalità: assenza (0) e presenza (1). Caratteri “tempo/spazio” 6. serie storiche (riferite a modalità di tempo, es: fatturato per anno); 7. serie cicliche (ordinabili senza che ci sia necessariamente un ordine, quindi ordinabili a piacere es: temperature minime medie giornaliere, arrivi per mese, tasso di occupazione dell’albergo per giornate della settimana) 8. serie geografiche (riferite a modalità territoriali, es: fatturato per regione). Caratteri Qualitativi sconnessi Qualitativi ordinali Quantitativi discreti Quantitativi continui Dicotomici Indagine multiscopo: Famiglia e soggetti sociali: anno 2009 Sesso, Cittadinanza, Luogo di nascita Titolo di Studio conseguito Domanda 2.1 Attualmente è scritto ad una scuola, corso o istituto ? Aspetti della vita quotidiana: anno 2007 Sesso, Cittadinanza, Stato civile N.ro componenti famiglia Domanda 5.1bis: Quanti figli viventi suoi, adottati o affiliati ha ? Età (in anni compiti) N.ro componenti famiglia Domanda 5.1: Lei ha figli viventi suoi, adottati o affiliati ? Titolo di Studio conseguito Domanda 2.1 Attualmente è scritto ad una scuola, corso o istituto ? Età Domanda 4.1: A che ora esce di casa abitualmente per andare al lavoro o scuola ? Domanda 7.2: Negli ultimi 3 mesi ha fatti ricorso a servizi di day hospital ? Riepilogando: a) una serie sconnessa costituisce una scala nominale se le sue modalità possono essere confrontate in termini di uguale/diverso (per esempio la condizione professionale, il comune di residenza, il luogo della vacanza); b) un carattere qualitativo ordinato (rettilineo o ciclico) costituisce una scala ordinale se le sue modalità possono essere confrontate anche in termini di maggiore/minore (per esempio il titolo di studio); Pag. 41 c) un carattere quantitativo (o ciclico) costituisce una scala intervalli se è possibile “misurare” la distanza tra le sue modalità (per esempio l’età, la spesa sostenuta per una vacanza). Valgono anche le operazioni più/meno. Prospetto esplicativo: Carattere e scale Carattere Qualitativo Quantitativo Serie Scale Modalità ottenuta mediante Sconnessa Nominale Osservazioni Rettilinea Ordinale Variabile Discreta di Variabile Continua enumerazioni intervalli misurazione Fonte: Rondini L. Lezioni di Statistica, Cedam, Padova, pag. 7 Le Classificazioni “Nell’analisi dei dati intendiamo per classificazione quel processo secondo il quale i casi studiati vengono raggruppati in sottoinsiemi (classi) sulla base della loro similarità. Le classi così ottenute devono essere esaustive cioè tutti i casi devono trovare collocazione in una classe e nessuno può restare fuori dal processo di classificazione, e mutuamente esclusive nel senso che un caso può appartenere ad una e una sola classe” 4 . Quindi la classificazione è l’insieme delle categorie assunte da una variabile qualitativa sconnessa o ordinale o quantitativa. Noi qui svilupperemo la classificazione unidimensionale quella cioè relativa ad un solo carattere Definire una classificazione è un momento particolarmente critico: ad esempio misurare il gradimento di un servizio ricorrendo a quattro anziché a cinque categorie (ma anche denominando in modo appena diverso le stesse cinque categorie) può fornire risultati assai diversi. A questo proposito nell’indagine multiscopo l’Istat “Aspetti della vita quotidiana” classifica il giudizio su un servizio in quattro scale di valutazione: infatti, nella parte del questionario rivolta alla famiglia (pag 45) troviamo la domanda 4 Cobetta P. Metodologia e tecniche della ricerca sociale, Il Mulino. 2002, pag. 529 Pag. 42 2.1 La zona in cui abita la famiglia presenta: (una risposta per ogni riga) Molto Abba- Poco Per Non stanza niente so Sporcizia nelle strade 1 2 3 4 5 Difficoltà di parcheggio 1 2 3 4 5 Difficoltà di collegamento con mezzi pubblici 1 2 3 4 5 Traffico 1 2 3 4 5 Inquinamento dell’aria 1 2 3 4 5 Rumore 1 2 3 4 5 Rischio di criminalità 1 2 3 4 5 Odori sgradevoli 1 2 3 4 5 Scarsa illuminazione delle strade 1 2 3 4 5 Cattive condizioni della pavimentaz. stradale 1 2 3 4 5 Questo approccio scelto dall’Istat è poi coerentemente utilizzato in tutte le domande che richiedono di esprimere un giudizio. Inoltre se si desidera confrontare i risultati dell’indagine con altre fonti di informazione disponibili, ricorrere a classificazioni comunemente utilizzate. Per alcune variabili particolarmente complesse da definire (come l’attività economiche, le professioni, le malattie) sono disponibili classificazioni standard riconosciute a livello internazionale. In tutti i casi nel definire una classificazione è opportuno, se possibile, procedere ad aggregazioni di categorie utilizzate da classificazioni già esistenti in modo da preservare almeno in parte la confrontabilità dei risultati dell’indagine. Facciamo qualche esempio Aspetti della vita quotidiana: anno 2007 Classifica il Titolo di Studio la Condizione professionale la Posizione nella professione l’Attività economica Indagine multiscopo: Famiglia e soggetti sociali: anno 2009 Classifica il Titolo di Studio la Condizione professionale la Posizione nella professione l’Attività economica la Tipologia dell’abitazione Pag. 43 Classificazione dei titoli di studio: Dottorato di ricerca o specializzazione post-laurea, Laurea di 4 o più anni (vecchio ordinamento o nuova laurea specialistica a ciclo unico), Laurea specialistica di 2 anni di secondo livello (nuovo ordinamento), Laurea di 3 anni di primo livello (nuovo ordinamento), Diploma universitario, Laurea breve, Scuola diretta a fini speciali, Scuola parauniversitaria, Accademia Belle Arti, Istituto Superiore industria Artistiche, Accademia di arte drammatica, Scuola interpreti e Traduttori, Perfezionamento Accademia di danza, Perfezionamento Conservatorio, Scuola di Archivistica, Perfezionamento Istituto di Musica Pareggiato, Paleografia, Diplomatica, Diploma di scuola media superiore 4-5 anni che permette l’iscrizione all’Università, Diploma di scuola media superiore 2-3 anni che non permette l’iscrizione all’Università, Licenza media inferiore (o avviamento professionale), Licenza elementare, Nessun titolo, sa leggere e scrivere, Nessun titolo, non sa leggere e/o scrivere. Classificazione della condizione professionale: Occupato, In cerca di nuova occupazione, In cerca di prima occupazione, In servizio di leva o in servizio civile sostitutivo, Casalinga, Studente, Inabile al lavoro, Persona ritirata dal lavoro, In altra condizione. Classificazione della Posizione nella professione Alle dipendenze come: Dirigente, Direttivo-Quadro, Impiegato, Capo operaio, operaio, subalterno e assimilati, Apprendista, Lavorante a domicilio per conto di imprese. Autonomo come: Imprenditore, Libero professionista, Lavoratore improprio, Socio di cooperativa di produzione e/o prestazione servizi, Coadiuvante. Pag. 44 Analisi delle fonti C’è tuttavia un’attività estremamente importante per il corretto svolgimento dell’indagine che riguarda l’analisi della documentazione esistente sul fenomeno oggetto di studio. I canali informativi dai quali trarre queste informazioni sono molteplici ma in linea generale si possono individuare quattro fonti: a) le esperienze di ricerca maturate sia in campo nazionale sia in quello internazionale; b) la documentazione bibliografica (dalla quale trarre per esempio aspetti importanti del fenomeno); c) la documentazione statistica (la rete del Sistan); d) Infine i sondaggi presso utenti e/o operatori del settore (interviste agli opinion leader). Disegno di indagine E’ necessario definire qual'è il tipo di indagine più consono a produrre le statistiche che si desiderano: ovvero decidere tra indagine totale (censimento di tutte le unità) e campionaria e, in tal caso, disegnare ed estrarre il campione. Ricorrere ad un’indagine di tipo non opportuno può pregiudicare in tutto o in parte gli scopi della ricerca. Raccogliere informazioni su tutte le unità statistiche implica non solo un aumento insostenibile dei costi, ma anche un maggior numero di errori non campionari tali da limitare questa modalità a casi di eccezionale importanza come i Censimenti o a casi in cui le informazioni sulla totalità delle unità statistiche sono state già raccolte per motivi diversi dell’indagine, come nel caso delle indagini amministrative. Se l’analisi costi/benefici orienta la scelta verso un'indagine campionaria occorre valutare i seguenti aspetti: a) determinare il metodo di selezione del campione in riferimento alla struttura degli archivi di base e alle informazioni in essi contenute, in modo da massimizzare l’efficienza delle stime prodotte, tenendo conto allo stesso tempo dei vincoli da essi imposti; b) dimensionare il campione in modo da garantire stime della precisione desiderata, dati i vincoli di bilancio imposti. Questi due problemi possono essere affrontati utilizzando la teoria del campionamento. Aspetti della vita quotidiana: anno 2007 Indagine campionaria a due stadi: primo stadio i comuni, secondo le famiglie Nell’indagine 2002 relativa agli Stili di vita state intervistate 20.927 famiglie, per un totale di 55.294 individui. Intervista diretta (nei casi in cui l’individuo non era disponibile all’intervista per particolari motivi, le informazioni sono state fornite da un altro componente la famiglia) e autocompilazione diretta da parte del rispondente Diffusione dei risultati: 12 mesi dopo la conclusione della rilevazione Pag. 45 Fin qui le fasi progettuali a cui seguono le Fasi operative Con il generico termine di "fasi operative" si intende individuare tutta la parte del ciclo produttivo di un'indagine che va dalla rilevazione/misurazione delle caratteristiche di interesse sulle unità selezionate fino alla disponibilità dei dati per le analisi statistiche. In questa sede distinguiamo le seguenti fasi operative: RILEVAZIONE DEI DATI: sono dirette e indirette. E' l'operazione di accertamento della presenza del carattere o fenomeno (o del carattere o dei fenomeni) che interessa l’unità statistica e della modalità sotto cui, nella stessa, il carattere o fenomeno si presenta. La rilevazione è indiretta se le informazioni sono tratte da unità diverse da quelle cui le informazioni si riferiscono (es. le fonti statistiche o amministrative), è diretta se sono i possessori delle informazioni a fornirle. Tipicamente, è indiretta la rilevazione svolta su record amministrativi, è diretta la rilevazione svolta mediante questionari autocompilati o somministrati da intervistatori. Esempio di raccolta dati da record amministrativi La fonte è rappresentata dal Registro Imprese delle Camere di Commercio dove ogni impresa con sede in Italia ha l’obbligo di iscrizione. Le informazioni che questi registri contengono sono diverse ma solo alcune possono e hanno valenza di analisi statistica. Vediamo i dati presenti nei registri e indichiamo in corsivo quelli utilizzabili come elaborazione statistica: Ragione sociale, Natura giuridica, Classificazione attività principale (codice ATECO), capitale sociale, Addetti, Descrizione attività, indirizzo, Comune. Tra le forme di rilevazione diretta sono di particolare interesse la rilevazione postale, l’intervista faccia a faccia, l’intervista telefonica, CAPI. CODIFICA: terminata la fase di raccolta dei dati, il ricercatore si trova spesso con una mole notevole di informazioni da elaborare. Una prima attività da avviare è quella di ridurre in forma analizzabile tutta questa mole di informazioni, trascrivendo le informazioni raccolte su supporti magnetici, usando il formalismo della matrice dei dati e utilizzando simboli convenzionali o codici per registrare le singole informazioni in modo il più possibile compatto. In sostanza codificare significa assegnare un distinto simbolo o codice alle risposte previste per ciascuna domanda del questionario. L'operazione di codifica avviene mediante la predisposizione di un Piano di codifica attraverso il quale si definisce una corrispondenza tra i codici delle modalità delle variabili e le risposte ottenute. Il piano di codifica comprende anche il codice delle modalità di "non risposta", il codice di "non pertinenza" della domanda per determinati insieme di unità, l’eventuale ricodifica delle "modalità complementari", come la modalità "Altro (specificare)" Pag. 46 alla fine di una lista di modalità qualitative, nonché la codifica delle risposte ottenute nella forma libera cioè non precodificata. Quindi la codifica può avvenire in due momenti distinti: a priori: quando la stesura del questionario prevede già una prima codifica delle alternative alle risposte. E' questo il caso delle domande chiuse per le quali si prevedono già tutte le alternative; a posteriori: riguarda per lo più domande aperte, difficili da codificare a priori perché il numero delle risposte possibili rimane incerto fino all'ultimo, e permette anche di considerare solo le risposte effettivamente date dagli intervistati, scegliendo la codifica che appare migliore nel caso specifico. Un esempio di codifica “a priori” è contenuta nel questionario dell’indagine dell’Istat sugli Aspetti della vita quotidiana; dalla sezione “Formazione” si riporta la domanda 2.1 È attualmente iscritto ad una delle scuole, dei corsi o istituti sottoelencati? NO ........................... 01 andare a domanda 3.1 SÌ, specificare quale: Corso di studio o formazione post-universitaria Corso di laurea Diploma universitario, Laurea breve vecchio ordinamento, Scuola diretta a fini speciali, Scuola Parauniversitaria .02 03 04 Scuola secondaria superiore: - Istituto professionale 05 - Istituto tecnico 06 07 - Liceo (classico, scientifico, linguistico) - Istituto magistrale .08 - Liceo o istituto artistico .09 - Accademia Belle Arti, Istituto Superiore Industrie Artistiche, Accademia di Arte drammatica, Scuola Interpreti e Traduttori, Perfezionamento Accademia di Danza, Perfezionamento Conservatorio, Scuola di Archivistica, Perfezionamento Istituto di .10 Musica Pareggiato, Paleografia, Diplomatica - Corso di formazione professionale 11 - Scuola media inferiore .12 - Scuola elementare .13 - Scuola dell’infanzia (ex scuola materna) 14 - Asilo nido .15 Si tratta di una domanda filtro in quanto la risposta “NO” fa saltare tutte le domande inerenti i percorsi formativi dei rispondenti, mentre in caso di risposta affermativa i corsi sono classificati per livello. Pag. 47 ELABORAZIONE STATISTICHE: si intende il processo di sommarizzazione ed interpretazione dei dati. L’elaborazione (o analisi) statistica è importante per la predisposizione di nuove indagini sulla base dei risultati di studi pilota o precedenti indagini, per la formulazione di obiettivi realistici riguardanti la qualità, l’identificazione di problemi e di requisiti del processo di produzione. Già prima dell’avvio della raccolta dati è consigliabile che, in linea di massima, si programmi la sistemazione dei dati raccolta in tabelle e come presentarli graficamente. Vanno stabilite le principali elaborazioni a cui sottoporre i macro-dati. Il piano della presentazione tabellare e grafica dei dati e delle principali elaborazioni deve prevedere - distribuzioni di frequenze - tabelle di intensità (analisi preliminari semplici mediante statistiche descrittive quali quantili delle distribuzioni e istogrammi) tabella a doppia entrata tabelle complesse analisi esplorative per l’individuazione di relazioni tra caratteri test di adattamento finalizzati a valutare l’appropriatezza di distribuzioni teoriche nell’adattamento ai dati metodi di rappresentazione grafica stima dei parametri e applicazione di tecniche diagnostiche della regressione. Il primo passo da fare è l'analisi monovariata o univariata ovvero il calcolo delle distribuzioni di frequenza di tutte le variabili, in modo da mettere in luce la distribuzione del fenomeno. Questo primo passaggio serve anche per verificare che le fasi precedenti siano state condotte in modo corretto (in altre parole non vi siano errori di impostazione o di battitura nella matrice dei dati) e anche per avere indicazioni su come raggruppare le modalità di una variabile che ne ha molte (come può essere ad esempio l'età, il fatturato) in un minor numero di modalità più ampie. Successivamente è utile presentare i dati in tabelle a doppia entrata, che permettono di sintetizzare diverse distribuzioni di frequenza e di avere un'idea dell'associazione tra la variabile in riga e quelle in colonna. Utili per sintetizzare le serie di dati sono le tecniche della statistica descrittiva, che consentono di passare da variabili misurate sui singoli individui in una certa popolazione, a variabili che descrivono l'intera popolazione (variabili aggregate), quali le misure di tendenza centrale della distribuzione e le misure di dispersione o di variabilità. Con una misura di tendenza centrale, una di dispersione si possono studiare, come noto dalla Statistica Descrittiva, anche gli indici di asimmetria e di curtosi e quindi descrivere sinteticamente una distribuzione. INTERPRETAZIONE dei risultati: consiste nel determinare la relazione che il ricercatore intravede tra i dati statisticamente elaborati e le ipotesi di ricerca prefissate. Nel linguaggio Pag. 48 statistico, questa fase è denominata "verifica delle ipotesi". Le conclusioni che si traggono dall’interpretazione dei risultati sono che le ipotesi teoriche sono respinte, o come si dice anche confutate, ovvero sono accettate, e allora vanno a corroborare la teoria da cui le ipotesi sono state tratte. Tempi e Costi La programmazione dei tempi e dei costi di esecuzione dell’indagine è un fattore critico per la riuscita della stessa. Tali variabili, infatti, oltre ad influenzarsi reciprocamente, sono fortemente connesse alla qualità dell’informazione prodotta. Nella pratica l’elemento di costo va visto come un vincolo al quale la progettazione deve sottostare senza tenere conto, in molti casi, del livello di errori che risorse carenti possono indurre nelle operazioni programmate. Se, infatti, una disponibilità illimitata di risorse può indurre a sprechi, un impegno di costo troppo limitato può altresì portare al fallimento degli obiettivi dell’indagine con perdite potenzialmente anche maggiori. In tale contesto occorre inserire anche i tempi di esecuzione dell’indagine, tenendo conto della necessità di disporre di dati utilizzabili in un momento il più prossimo possibile a quello di riferimento dell’informazione raccolta (tempestività). La domanda di tempestività può essere indotta sia dall’urgenza dell’informazione, allo scopo ad esempio di prendere decisioni strategiche, sia da una rapidità di mutamento nel fenomeno osservato, tale da ridurre l’obsolescenza dell’informazione prodotta. Anche la tempestività può essere messa in relazione con il costo sostenuto ed alla qualità dei dati prodotti. E’, infatti, lecito chiedersi se, al prezzo di un maggior impiego di risorse, si possa anticipare la diffusione a parità di qualità o viceversa, tenendo fisse le risorse impiegate si possa aumentare la qualità dei dati prodotti, posticipando i tempi di produzione. Ad esempio si può ritenere che, aumentando il numero di rilevatori in un’intervista diretta o telefonica, si possa comprimere il tempo di rilevazione; oppure la qualità dell’informazione prodotta potrebbe essere migliorata conducendo analisi supplementari sui dati al prezzo di un aumento dei tempi di lavorazione. Al contrario si potrebbe decidere di sopportare la diffusione di dati a qualità inferiore, per sopperire all’urgenza di informazione, diffondendo dati preliminari ad indagine non ancora conclusa. In ogni caso occorre predisporre, nel sistema dei controlli di qualità, un adeguato monitoraggio delle risorse impiegate in ciascuna attività condotta, e dei loro tempi di esecuzione, mettendo tali informazioni a confronto con gli altri indicatori di qualità prodotti. Tali informazioni torneranno, infatti, utili sia in fase di validazione, per identificare inefficienze e colli di bottiglia, sia in successive fasi di progettazione della stessa o di altre indagini. Tutte le fasi descritte sono interconnesse: errori commessi in una fase gravano nelle fasi successive. Pag. 49 Per questo, nella fase di progettazione/astrazione dell’indagine è opportuno prefigurare un "profilo degli errori", nel quale si evidenziano le fasi che saranno percorse, gli errori che si rischia di commettere in modo da immaginare le strategie da seguire per prevenire o contenere gli errori. La rilevazione principale di un’indagine è spesso preceduta da un’indagine preliminare o pilota e spesso seguita da indagini per la verifica dell’accuratezza della rilevazione. Se la verifica si basa sulla riproposizione di una parte o di tutto l’insieme dei quesiti posti nella rilevazione principale, l’indagine supplementare si denomina "reintervista". L’indagine pilota è svolta con l’intento di assumere informazioni che possono rendere più efficiente lo svolgimento dell’indagine principale. Può essere utilizzata per sottoporre a verifica un questionario, per avere un’idea del tempo necessario per lo svolgimento dell’intervista presso certi sottoinsiemi di unità, per conoscere la variabilità dei fenomeni che interessano la ricerca e determinare conseguentemente la numerosità del campione sufficiente ad ottenere stime che abbiano un’attendibilità prefissata. L’indagine pilota è condotta, in genere, su piccola scala e su sottoinsiemi mirati della popolazione. Con riferimento allo schema suindicato è possibile configurare la seguente matrice di lavoro: FASI 1.a 2.a 3.a Programmazione Ideazione del quest. Raccolta dati AZIONI COSA Definizione del fenomeno da osservare Caratteri da osservare Indagine preliminare Indagine definitiva Schema concettuale di Natura delle variabili Nomenclatura riferimento DOVE Campo di osservazione Sedi di raccolta dei dati Dettaglio territoriale Unità di rilevazione unità di analisi COME Tipo di rilevazione - questionario - intervista Editing/stampa Promozione Spedizione Selezione e preparazione degli intervistatori QUANDO Calendario Pianificazione delle attività Periodicità Tempi di raccolta Pag. 50 Sistema dei controlli di qualità Per controllo della qualità dei dati si intende quelle metodologie attraverso le quali errori dovuti ad informazioni errate o mancanti vengono corretti. Il sistema dei controlli di qualità è costituito da un insieme di azioni predisposte nell’indagine e finalizzate al trattamento dell’errore non campionario. Le azioni costituenti un sistema di controlli di qualità sono riunite in tre grandi classi. Azioni preventive, predisposte al fine di rendere meno probabile l’insorgere dell’errore. Ad esempio l’invio di una lettera di preavviso ai rispondenti o l’istituzione di un numero verde per le richieste di chiarimento sono due operazioni che dovrebbero servire a facilitare le operazioni di risposte e quindi dovrebbero diminuire le mancate risposte all’indagine. Azioni di controllo in corso d’opera, predisposte al fine di individuare e correggere gli errori nel momento in cui questi insorgono durante il processo di produzione. L’uso dei programmi per la registrazione controllata dei dati costituisce un esempio di tali azioni. Un altro esempio è dato dall’applicazione delle tecniche di identificazione automatica degli errori, le quali servono ad individuarne la presenza di incoerenze nei dati (es.: un professionista con la sola licenza elementare) e la conseguente correzione, ad esempio, per mezzo di un ritorno sul rispondente, o almeno il ripristino dell’informazione con valori accettabili. Un problema importante di ogni indagine, sia essa totale o parziale, è quelle delle mancate risposte o degli errori che possono essere commessi sia nella fase di programmazione sia in quella di esecuzione, errori che possono produrre incongruenze tra informazioni correlate. Azioni di valutazione, predisposte per quantificare il livello di errore non campionario contenuto nei dati prodotti. Tali azioni implicano l’elaborazione di dati raccolti durante l’esecuzione del processo di produzione, ovvero la conduzione di prove ausiliarie o vere e proprie indagini di controllo. A seconda della natura dell’azione di valutazione si ottiene una misura dell’errore che può andare dalla semplice valutazione di quantità ad esso associate (indicatore di qualità) quali i tassi di risposta, a misure dirette di componenti dell’errore totale quali, ad esempio, la varianza semplice di risposta, ottenibile con una reintervista delle unità statistiche. Principali indicatori statistici sulla qualità delle interviste I principali indicatori statistici per il controllo di qualità delle interviste si basano su set di indicatori calcolati sui ‘contatti chiusi’ 5 e di altri indicatori calcolati sui ‘tentativi’ di contatto 6 realizzati. Tali indicatori, calcolati giornalmente durante il periodo di rilevazione, consentono di capire se si stanno verificando problemi nell’esecuzione delle interviste, se l’indagine sta procedendo secondo i ritmi e i tempi previsti e soprattutto di controllare l’idoneità e il rispetto 5 Per contatti chiusi si intendono le seguenti tipologie di esiti: intervista completa, rifiuto, intervista interrotta definitivamente. 6 I tentativi di contatto comprendono, oltre agli esiti riferiti ai contatti ‘chiusi’, le seguenti tipologie: libero, occupato, fax, segreteria telefonica, appuntamento. Pag. 51 delle regole di gestione degli appuntamenti e delle sostituzioni adottate per minimizzare gli errori non campionari, nonché il rendimento degli intervistatori. Quest’ultimo aspetto in particolare è attentamente valutato, giorno per giorno, attraverso l’analisi dei principali tassi (rifiuto, risposta, interruzione, sostituzione, durata media, massima e minima delle interviste, numero medio di rifiuti, ecc.) calcolati per ciascun intervistatore. I tassi di risposta Alla fine di ogni giornata è opportuno “misurare gli esiti” delle interviste attraverso il calcolo dei seguenti indicatori IC = interviste completate IP = interviste parziali o interrotte definitivamente MC = mancato contatto (nella accezione di cui sopra) R = rifiuto TL = telefonate senza risposta (libero ) nel caso di intervista telefonica Indicatori più utilizzati sono: Tasso di sostituzione totale: è calcolato dividendo il numero di unità di rilevazioni sostituite sul numero teorico di unità di rilevazione-campione. Esso include le sostituzioni rese necessarie dagli ‘errori’ di lista, molto elevati in alcune zone soprattutto in caso di intervista telefonica per la presenza di numerici telefonici riferiti ad abitazioni non principali (per esempio le seconde case). Tasso di sostituzione al netto dei mancati contatti: è calcolato dividendo il numero di unità di rilevazione sostituite (depurate dai mancati contatti, cioè dei casi di un numero prestabilito di tentativi di contatto telefonico con esito ‘libero’, effettuati in giorni e orari diversi) sul numero di unità di rilevazione-campione. Tasso di rifiuto: è calcolato dividendo i rifiuti per il totale delle interviste che hanno avuto i seguenti esiti finali: completa, interrotta definitivamente, rifiuto T rif R IC IP R Tasso di risposta: è calcolato dividendo le interviste complete per il totale delle interviste che hanno avuto i seguenti esiti finali: completa, interrotta definitivamente, rifiuto ovvero Trisp IC IC IP R Ovviamente il risultato ideale sarebbe 1 Pag. 52 Tasso di interruzione definitivo: è calcolato dividendo le interviste interrotte definitivamente per il totale delle interviste che hanno avuto i seguenti esiti finali: completa, interrotta definitivamente, rifiuto. Fra gli strumenti adottati per il controllo qualitativo delle interviste, di particolare utilità è la ‘scheda rifiuto’, predisposta all’interno del questionario, in cui vengono riportate le motivazioni del rifiuto e rilevati alcuni dati strutturali di chi rifiuta. Queste informazioni permettono di cogliere in maniera più accurata quali sono le situazioni di rifiuto più diffuse e, conseguentemente, di provvedere ad individuare tecniche e strategie per contenere quanto più possibile il rischio di distorsioni. Errori ricorrenti nella ricerca statistica Fase della ricerca Errore Fonte dell’errore Scelta delle variabili, delle definizioni, delle classificazioni e delle unità Teorico Modello concettuale Definizione del questionario Errori di misura Struttura, lunghezza, vocabolario, quesiti retrospettivi, codifica Rilevazione sul campo Mancate risposte totali o parziali, incongruenze, errori di misura, effetti ricordo Rilevatori Registrazione Errori di misura Operatori Revisione e correzione Errori di misura e di identificazione Revisori Elaborazioni Errori nei calcoli Programma Diffusione Tempestività Riepilogando: gli elementi che caratterizzano ogni rilevazione statistica 1. un fenomeno collettivo 2. gli elementi componenti la collettività (unità statistiche) 3. le caratteristiche da rilevare su ogni unità statistica 4. il luogo dove considerare il fenomeno collettivo 5. il momento al quale la rilevazione deve riferirsi 6. lo strumento da utilizzare (telefono, foglio di carta) Pag. 53 QUARTO CAPITOLO LE RILEVAZIONI E’ il processo finalizzato alla produzione di informazioni statistiche, consistente nella raccolta di dati presso imprese, istituzioni, e persone fisiche e nel loro successivo trattamento. Considerando un insieme qualsiasi di elementi (imprese, persone, famiglie, ecc.) se si desidera conoscere alcune caratteristiche “importanti” è necessario procedere ad una raccolta di informazioni riguardanti quelle caratteristiche che sono presenti in ciascuno degli elementi considerati. Questo tipo di attività prende il nome di rilevazione statistica. Modalità di rilevazione dei dati I dati possono essere rilevati in modo diretto o indiretto. La rilevazione è indiretta se le informazioni sono tratte da unità diverse da quelle cui le informazioni si riferiscono, è diretta se sono i possessori delle informazioni a fornirle. Tipicamente, è indiretta la rilevazione svolta su record amministrativi, oppure utilizzando le fonti statistiche. La rilevazione è diretta se le informazioni sono raccolte direttamente sulle unità statistiche e viene svolta mediante questionari autocompilati o somministrati da intervistatori. Tra le forme di rilevazione diretta sono di particolare interesse la rilevazione postale, l’intervista faccia a faccia e l’intervista telefonica, quella realizzata attraverso la posta elettronica. Indipendentemente dalla tecnica adottata, la rilevazione perseguire tre obiettivi fondamentali: a) individuare l’unità di rilevazione (famiglia, impresa, …) e convincerla a partecipare all’indagine; b) raccogliere l’informazione in modo neutrale, senza cioè distorcerla influenzando il rispondente; c) lasciare una buona impressione per facilitare eventuali contatti futuri (indagini longitudinali, ritorni sul campo, indagini di controllo). Al fine di creare un clima favorevole alla conduzione della rilevazione è opportuno informare e sensibilizzare la popolazione oggetto di indagine. In particolare è opportuno preavvisare le unità selezionate per la rilevazione per mezzo di lettere nelle quali siano evidenziati: lo scopo della ricerca, i benefici dell’informazione raccolta per il collettivo esaminato, il contributo individuale ad un interesse collettivo, la riservatezza della raccolta e l’inserimento casuale fra le unità contattate (solo indagini campionarie). Al fine di agevolare il compito ai rispondenti è Pag. 54 anche auspicabile fornire sempre un recapito telefonico, meglio se gratuito, ed il referente del progetto cui rivolgersi per ulteriori richieste di chiarimenti, commenti o suggerimenti. Con riferimento alle due indagini considerate, sia l’Istat sia l’Unioncamere inviano alle unità di rilevazione una lettera di presentazione delle rispettive indagini. Per l’indagine sugli Aspetti della vita quotidiana i contenuti sono i seguenti Gentile Signora, gentile Signore, l’Istituto nazionale di statistica svolge un’importante rilevazione su alcuni aspetti fondamentali della vita quotidiana. Le informazioni saranno raccolte direttamente presso 24.000 famiglie residenti in 849 Comuni italiani e serviranno a conoscere le abitudini dei cittadini ed i problemi che essi affrontano ogni giorno, l’uso dei principali servizi pubblici ed il grado di soddisfazione su questi ultimi. Questa rilevazione, denominata “Multiscopo sulle famiglie: Aspetti della vita quotidiana”, rientra tra quelle comprese nel Programma statistico nazionale 2004-2006 (codice IST00204), che raccoglie l’insieme delle rilevazioni statistiche necessarie al Paese. La sua famiglia è stata estratta casualmente dalle liste anagrafiche comunali per essere intervistata. Nel mese di febbraio 2006 riceverà presso la sua abitazione la visita di un rilevatore comunale, munito di cartellino identificativo, che rivolgerà alcune domande a Lei ed ai suoi familiari. La sua collaborazione e quella dei suoi familiari sarà preziosa per la buona riuscita della rilevazione e fornirà informazioni utili ai fini della programmazione delle politiche sociali e di quelle sui servizi di pubblica utilità, sia a livello nazionale che locale. Per tale motivo La invito a comunicare il contenuto di questa lettera ai familiari che vivono con Lei nonché a collaborare con noi e ad accogliere con cortese disponibilità l’intervistatore. L’obbligo di risposta per questa rilevazione è sancito dall’art. 7 del d. lgs. 322/89, che prevede sanzioni amministrative in caso di violazione di tale obbligo, e dal D.P.R. 14 luglio 2004. Come previsto dalla normativa vigente, tuttavia, Lei potrà decidere se rispondere o meno ad alcuni quesiti riguardanti dati sensibili che le verranno opportunamente segnalati dall’intervistatore. Le saremo comunque grati se, data l’importanza della ricerca, avrà cura di fornire tutte le informazioni che le verranno richieste. L’Istat è tenuto, per legge, a svolgere questa rilevazione. Le informazioni raccolte, tutelate dal segreto statistico e sottoposte alla normativa sulla protezione dei dati personali, potranno essere utilizzate anche per successivi trattamenti, esclusivamente per fini statistici nell’ambito del Sistema statistico nazionale e saranno diffuse in forma aggregata in modo tale che non sia possibile alcun riferimento alla sua persona o alla sua famiglia, assicurando così la massima riservatezza. Titolare del trattamento dei dati personali raccolti con la presente indagine è l’Istat - Istituto nazionale di statistica, Via Cesare Balbo, 16 - 00184 Roma; responsabile del trattamento è il Direttore centrale per le indagini su condizioni e qualità della vita, al quale potrà rivolgersi anche per quanto riguarda l’esercizio dei diritti dell’interessato. Per ogni ulteriore verifica ed approfondimento potrà rivolgersi all’Istat, telefonando ai numeri 06/4673.4610-4617 o al numero verde (gratuito) 800.637760 dal lunedì al venerdì dalle ore 8.30 alle 13.30. … I passaggi importante (evidenziati in grassetto) di questa lettera sono: a) il fatto che l’indagine prevista per legge fa parte cioè del Programma Statistico Nazionale; Pag. 55 b) l’evidenziazione degli obiettivi, infatti, nella lettera si legge che la rilevazione “… fornirà informazioni utili ai fini della programmazione delle politiche sociali e di quelle sui servizi di pubblica utilità, sia a livello nazionale che locale”; c) che le informazioni raccolte sono elaborate sono per finalità statistiche ovvero che “Le informazioni raccolte, tutelate dal segreto statistico e sottoposte alla normativa sulla protezione dei dati personali, potranno essere utilizzate anche per successivi trattamenti, esclusivamente per fini statistici nell’ambito del Sistema statistico nazionale e saranno diffuse in forma aggregata in modo tale che non sia possibile alcun riferimento alla sua persona o alla sua famiglia, assicurando così la massima riservatezza”; d) che il titolare del trattamento dei dati personali è l’Istat; e) viene spiegato come l’unità di rilevazione è stata selezionata ovvero “La sua famiglia è stata estratta casualmente dalle liste anagrafiche comunali per essere intervistata”; f) viene specificato come la famiglia sarà rilevata ovvero che “riceverà presso la sua abitazione la visita di un rilevatore comunale, munito di cartellino identificativo il rilevatore”; g) infine viene indicato un numero verde. Tipologia delle rilevazioni Le tecniche di rilevazione delle informazioni sulle unità statistiche sono molteplici e dipendono da una serie di parametri connessi agli scopi dell’indagine, alla dimensione del collettivo statistico, ai costi, ai tempi, al livello di significatività desiderato, alla disponibilità delle unità statistiche. Le tecniche più diffuse sono le seguenti: 1) rilevazioni totali (o rilevazione esaustiva) sono estese a tutto il collettivo oggetto di indagine (per esempio i Censimenti). Il termine rilevazione esaustiva si usa talvolta per indicare che, per raggiungere la precisione attesa, è necessario includere tutte le unità della popolazione; 2) rilevazioni campionarie o parziali, riguardano una parte del collettivo e sono diffuse soprattutto per motivi di costo. La rilevazione campionaria qualifica un’indagine statistica come campionaria mentre l’insieme parziale del collettivo viene chiamato campione statistico; 3) rilevazioni indirette utilizzano archivi amministrativi, infatti, vengono effettuate analizzando schedari, modelli, registri, atti. Le tecniche di raccolta dati Le principali tecniche di indagine in uso per condurre una rilevazione sono: Pag. 56 Intervista diretta: viene condotta da un rilevatore che legge le domande e le opzioni di risposta nell’esatto ordine e con lo stesso linguaggio adottati nel questionario riportandovi quindi le risposte così come sono fornite dal rispondente. Vantaggi: si presta meglio ad alcuni disegni di indagine (es.: censimenti e campionamento areale), maggiore è la possibilità di contattare e convincere il rispondente a collaborare, si identifica esattamente il rispondente, c’è la possibilità di istruire il rispondente sul significato delle domande e sul modo corretto di fornire le risposte, flessibilità negli strumenti utilizzabili (audiovisivi, sezioni autocompilate ...), interviste di maggiore durata. Svantaggi: costosa da implementare, necessita di una organizzazione capillare sul territorio, richiede tempi più lunghi di altri metodi per la raccolta dei dati, maggiori rischi di condizionamento. Rilevazioni per via postale il questionario è inviato alle persone che sono invitate a compilarlo e restituirlo in forma anonima. Contestualmente al questionario ma in modo separato si allega una lettera da restituire come prova della compilazione del questionario. Questo tipo di rilevazione pone problemi di non poco conto, soprattutto collegati alle “mancate risposte” o alla stessa non compilazione del questionario da parte delle unità interessate all’indagine. Il contatto postale è difficilmente eseguibile se non si dispone di una lista di indirizzi affidabile. Vantaggi: bassi costi di realizzazione, è richiesta un’organizzazione minore, bassi rischi di condizionamento, è adatta per porre quesiti delicati, disponibilità di tempo per reperire eventuale documentazione necessaria alla compilazione. Svantaggi: tempi lunghi di raccolta, impossibilità di identificare con certezza il rispondente, autoselezione dei rispondenti, minore capacità di ottenere la partecipazione all’indagine (il tema deve essere coinvolgente), più difficile aiutare i rispondenti nella comprensione delle domande e nella compilazione del questionario (importanza della grafica); Intervista telefonica viene condotta al telefono da un intervistatore che legge le domande e le opzioni di risposta nell’esatto ordine e con lo stesso linguaggio adottati nel questionario riportandovi quindi le risposte così come sono fornite dal rispondente. E’ una tecnica che si è notevolmente sviluppata in questi ultimi anni avendo il vantaggio della tempestività nella raccolta delle informazioni, la registrazione ed il controllo automatico nel caso dell’ausilio di tecniche informatiche di supporto (CAT). Vantaggi: costi minori rispetto all’intervista faccia a faccia, tempestività della raccolta dati, non è richiesta un’organizzazione sul territorio, maggiore possibilità di controllo dell’operato dei rilevatori, possibilità di contatto anche per le persone che non si trovano in casa in orari "canonici", bassi rischi di condizionamento e maggiore possibilità di porre quesiti delicati. Pag. 57 Svantaggi: impossibilità di contattare le famiglie senza telefono (possono non risultare completamente significative in quanto non sussiste la totale copertura dell’universo), il rispondente non è identificato con certezza, limitazioni nella lunghezza del questionario e nell’aiuto fornito ai rispondenti; tecniche di indagine CATI (Computer Assisted Telephone Interviewing) e CAPI (Computer Assisted Personal Interviewing). Il questionario è contenuto nel computer cosicché le domande vengono poste così come compaiono sullo schermo e le risposte sono registrate direttamente su supporto magnetico. Vantaggi: alcuni controlli di qualità sono eseguiti dal computer al momento dell’immissione con un conseguente risparmio nelle successive fasi di controllo di qualità, si gestiscono facilmente questionari molto articolati, possono essere predisposte formulazioni alternative delle domande, si accorciano i tempi di completamento dell’indagine (soprattutto nel CATI). Svantaggi: occorre dotare i rilevatori di un Computer portatile (CAPI), è necessario un maggiore addestramento dei rilevatori, ci sono problemi di hardware (CAPI - pesante, lento, batterie,...). Osservazione diretta: l’informazione viene raccolta dal rilevatore per mezzo dei propri sensi o mediante strumenti di misurazione fisici (applicazioni in antropologia, psicologia, geologia, telerilevamento,...). Vantaggi: è preferibile qualora l’informazione fornita da un rispondente non sia considerata sufficientemente precisa; Svantaggi: l’interazione fra osservatore e oggetto osservato riproduce gli stessi problemi di condizionamento che si possono riscontrare con l’uso di rilevatori Piano di rilevazione E' l’insieme delle fasi elementari per l’espletamento della rilevazione dei dati in un’indagine statistica. Il piano di rilevazione comprende sia il piano di campionamento (ovviamente, se l’indagine è di tipo campionario), sia le scelte per la rilevazione (diretta o indiretta, tra i metodi diretti, l’autosomministrazione di questionari o la somministrazione mediante rilevatori), sia la predisposizione degli strumenti (questionario, altro) e la formazione del personale (rilevatori, codificatori, supervisori) da adibire alla rilevazione delle informazioni. Classificazione delle Rilevazioni periodiche o ripetute quelle effettuate a intervalli regolari di tempo (relativa a fenomeni di stato per es: sulle strutture ricettive o la rilevazione sulle forze di lavoro). Pag. 58 Sono chiamate anche indagini ricorrenti in quanto l’indagine viene ripetuta in momenti programmati nel tempo. L’organizzazione adottata non prevede una sovrapposizione, neanche parziale, del campione di unità in differenti occasioni; ripetute con una parziale sovrapposizione del campione sono programmate ad intervalli di tempo regolari con l’uso di panel ruotati. In questo caso le unità statistiche sono introdotte nel campione, indagate per un prefissato numero di occasioni e quindi escluse (ruotate). Lo scopo principale per introdurre una sovrapposizione del campione è quello di ridurre la varianza campionaria delle stime; longitudinali con e senza rotazione hanno lo scopo di seguire un particolare gruppo di unità nel tempo, e creare un record longitudinale per ogni unità osservata. L’obiettivo è quello di studiare le modificazioni intervenute nel collettivo durante il tempo, utilizzando i cambiamenti avvenuti sui record individuali; saltuarie o occasionali effettuate in particolari circostanze: Sono indagini pianificate allo scopo di ottenere stime riferite a caratteristiche possedute dalla popolazione in un singolo istante di tempo (es.: distribuzione per età della popolazione in un dato istante) o riferite a un periodo (es.: distribuzione del fatturato realizzato nell’arco di un anno); preliminare/pilota svolta prima di quella principale con l’intento di assumere informazioni che possono rendere più efficiente lo svolgimento dell’indagine principale. Può essere utilizzata per sottoporre a verifica un questionario, per avere un’idea del tempo necessario per lo svolgimento dell’intervista presso certi sottoinsiemi di unità, per conoscere la variabilità dei fenomeni che interessano la ricerca e determinare conseguentemente la numerosità del campione sufficiente ad ottenere stime che abbiano un’attendibilità prefissata. L’indagine pilota è condotta, in genere, su piccola scala e su sottoinsiemi mirati della popolazione. I Focus group Il focus group è una sorta di intervista di gruppo ovvero un’osservazione fatta su un gruppo di soggetti. In realtà il gruppo di soggetti scelto è inserito in una situazione di dibattito rispetto ad un argomento prestabilito, un dibattito che ha l’obiettivo di fare emergere i pareri e i punti di vista spontanei dei soggetti presi in esame. La finalità dei focus group è quindi di organizzare “una fase di ascolto e di condivisione dei problemi relativi al fenomeno che è oggetto di studio, attraverso testimoni privilegiati” e pertanto il focus group non è altro che “una tecnica di indagine basata sul metodo partecipativo e sulla focalizzazione collettiva delle problematiche”. Pag. 59 Chi sono questi soggetti ovvero i partecipanti ? Vengono selezionati in base alla conoscenza del fenomeno da studiare e quindi Istituzioni centralo e/o locali, Associazioni di categoria, Associazioni sindacali, Istituti di credito, Università e Centri Studi, Attori sociali, ….. Esempio: ipotizziamo di individuare una prima mappa dei possibili interlocutori (stakeholder) istituzionali relativamente ad un progetto che riguardi l’artigianato (progetto di natura economica). Tipologia Denominazione Nominativo Incarico Indirizzo Telefono Email Presidenza Regione Ass. Att. Produttive Ass. Lavoro e Formazione Camera di Commercio Presidenza Albo artigiani Centro Studi La fase successiva riguarderà la verifica delle disponibilità degli stakeholders, per formulare la lista dei partecipanti L’intero dibattito viene annotato (spesso anche registrato o ripreso) e diventa materiale informativo molto utile perché diretto e vero, portatore delle opinioni altrui. Gli scopi di un focus group: a) è un’analisi esplorativa che attraverso una o più discussioni di gruppo, permette di rafforzare o revisionare un’immagine, un’ipotesi, o rivedere conclusioni avanzare dal gruppo di ricerca; b) può assumere anche la funzione di ricerca pilota indagando sulla complessità delle domande di un questionario o per mettere a punto lo stesso; c) può completare altri metodi di indagine poiché, aggiungendo il confronto diretto tra più opinioni, aiuta nelle interpretazioni dei risultati ottenuti con altri metodi di ricerca; d) rende possibile un feedback immediato poiché il confronto consente di fare emergere gli aspetti importanti che un’intervista faccia a faccia non rivelerebbe mai, riducendo notevolmente l’influenza del ricercatore sull’intervistato. Il ruolo del moderatore (coordinatore): costituisce indubbiamente la figura chiave del focus in quanto deve coordinare il gruppo e quindi deve cercare di essere sensibile alle dinamiche del Pag. 60 Questa sua funzione potrà essere svolta limitandosi a “gestire” i punti di discussione o a risollevare o ricondurre la discussione qualora si esca dal tema in oggetto o “la situazione langue”. Peraltro si dovrà avere il supporto di osservatori con il compito di registrare gli interventi e, visto il facile rischio di farsi sfuggire la discussione, su aiuto a riportare la discussione sulla giusta tematica. Modalità di svolgimento del focus group: il moderatore (intervistatore) coordina la discussione con una serie di argomenti più o meno strutturata, molto spesso i temi vengono inviati preliminarmente ai partecipanti. Generalmente il focus viene fatto in una stanza o un’aula dove possono trovare ospitalità gruppi di 8-12 persone. Le fasi di preparazione del focus: La prima questione riguarda la scelta dei partecipanti. Se interessa la comparazione fra gruppi diversi, questi devono essere intervistati separatamente, in questo caso è essenziale specificare le caratteristiche dei partecipanti in relazione agli scopi dell’indagine. Invece per ogni gruppo va perseguita l’omogeneità in modo che i partecipanti siano a proprio agio nel parlare di determinati argomenti poiché si trovano in un gruppo di simili. La seconda questione riguarda la determinazione del numero di sessioni: se l’obiettivo è comparare due gruppi sono necessarie almeno due sessioni per ciascun gruppo. La terza riguarda la presentazione del focus group: è importante avviare la discussione con naturalezza senza chiedere ai partecipanti se ci sono domande prima di iniziare con la scaletta, altrimenti c’è il rischio di perdere il controllo della situazione. Va creato un clima attento e interessato alla discussione. La quarta questione riguarda le domande: per un focus group di due ore, la scaletta ideale dovrebbe essere composta da 10-12 domande ben formulate, che possono essere accompagnate da indagini sul follow-up. L’ultima riguarda la durata: due ore sono più che sufficienti. Suggerimenti pratici: - il linguaggio usato deve essere chiaro e comprensibile a tutti; Pag. 61 - alla fine della discussione è utile riassumere ciò di cui si è parlato e chiedere se si è dimenticato qualcosa; - l’ordine delle domande deve essere logico ed andare dal superficiale al profondo (le prime domande inquadrano il problema, le successive scendono in profondità); - bisogna impedire di saltare da un argomento ad un altro e di dare risposte prima del tempo; - non esistono idee giuste o sbagliate, attenzione a non dare questa sensazione: si va alla ricerca di opinioni, non di soluzioni. L’analisi dei risultati: esistono diverse tecniche che vanno d quelle classiche di analisi dei test a quella della codifica degli argomenti toccati e trascrizione della mappa di codici, alla costruzione di una griglia riassuntiva, all’effettuare comparazione fra i gruppi. L’attendibilità del focus: viene controllata con la ripetizione delle sessioni. I fattori di successo di un focus group sono: - chiarezza degli scopi; - ambiente appropriato; - risorse sufficienti; - partecipanti appropriati (devono essere rappresentativi del gruppo che si vuole studiare); - esperienza del moderatore; - domande efficaci; - accurata elaborazione dei dati; - analisi sistematica e verificabile; - presentazione appropriata; - rispetto dei partecipanti, committenti e metodi. Esempio: il Progetto P.I..LO.T.-FVG, “Piano Integrato per la LOgistica Transfrontaliera del Friuli-Venezia Giulia a sostegno dell''economia di confine”. Il progetto, realizzato nel biennio 2004-05, aveva l’obiettivo di analizzare gli effetti sulle economie di confine derivanti dalla caduta delle barriere doganali, in seguito all’allargamento dell’Unione europea. In particolare si trattava di analizzare non solo gli effetti sull’intera economia locale, ma anche su quelle del comparto di trasporti, in particolare sulle attività doganali. Sono stati realizzati diversi focus group su argomenti diversi che riguardavano: a) la situazione e le prospettive delle imprese doganalistiche, spedizionieristiche e trasportistiche coinvolte nella caduta delle barriere b) gli effetti di valutazione sul territorio del Friuli-Venezia e sulla sua economia dell’allargamento dell’Unione Europea Pag. 62 c) il ruolo e la funzione della Regione Autonoma Friuli-Venezia Giulia nei confronti del processo di ampliamento dell'Unione europea d) le attività di trasporto e di logistica nel Friuli-Venezia Giulia: opportunità e criticità in seguito all’allargamento dell’Unione europea e alla conseguente caduta delle barriere doganali e) le strutture autoportuali ed interportuali del Friuli-Venezia Giulia: problematiche e progettualità in vista della caduta delle barriere doganali. Calendario dell’indagine E’ il periodo durante il quale va effettuata o riferita la rilevazione e va decisa durante il piano di rilevazione. Tale scelta risulta molto importante perché se da un lato vi sono indagini che possono essere effettuate in un qualunque giorno dell'anno, dall’altro ve ne sono altre i cui risultati possono essere “turbati” dalla scelta della data, per esempio un'indagine sui consumi familiari effettuata nelle settimane precedenti il Natale. Pag. 63 QUINTO CAPITOLO IL QUESTIONARIO Modello di rilevazione Strumento di raccolta dei dati (micro-dati) costituito da in insieme strutturato di domande (item a risposta qualitativa e quantitativa) e di relative modalità di risposta registrato su un supporto idoneo per la somministrazione. Il questionario deve essere visto come uno strumento di comunicazione finalizzato a facilitare l’interazione fra il ricercatore, il rilevatore (se presente) e il rispondente, ma affinché possa svolgere il suo ruolo occorre che sia anche uno strumento standardizzato; ovvero domande e comunicazione devono essere identiche per tutti i rispondenti al fine che le informazioni raccolte siano confrontabili fra loro. La sua costruzione è un momento delicato nella fase di pianificazione della ricerca poiché si richiedono competenze tecniche, abilità ed esperienza. Il supporto tradizionale è quello cartaceo, ma nel tempo si è diffusa la tecnica di somministrazione tramite intervista telefonica, telefax e posta elettronica. Affinché la comprensione del questionario non risulti ambigua è importante che il rispondente inquadri il contesto nel quale le domande si collocano. Per questo motivo occorre che la sequenza degli argomenti affrontati sia il più possibile coerente evitando che si verifichino salti radicali. Ma l’ordine stabilito nella sequenza degli argomenti può anche condizionare la risposta, creando distorsioni nei dati. Ad esempio se si vuole un’opinione spontanea sulla soddisfazione nel lavoro è bene non anteporre domande sulle caratteristiche specifiche del lavoro svolto che potrebbero focalizzare l’attenzione su alcuni aspetti particolarmente gradevoli o sgradevoli. I quesiti che implicano uno sforzo di memoria andrebbero collocati verso la metà del questionario, per evitare che all’inizio il rispondente non sia ancora disponibile a tale impegno e alla fine sia troppo stanco. I quesiti su temi delicati da affrontare andrebbero collocati verso la fine per sfruttare la maggiore confidenza e disponibilità ormai acquisita e per non rischiare che un rifiuto a rispondere possa compromettere l’acquisizione delle informazioni collocate sull’ultima parte di questionario. Può configurarsi anche uno schema di intervista strutturata con l’obiettivo di raccogliere informazioni sulle variabili qualitative e quantitative, presso opinion leader Esempio: Ipotizziamo di analizzare il Turismo, in particolare l’offerta (l’ospitalità) di un’economia locale al fine di individuare opportunità per la creazione di nuove imprese. La ricerca si proporrà quindi l’obiettivo di cogliere e poi comprendere le problematiche del settore, di analizzare l’offerta, individuare aree carenti, prospettive imprenditoriali, azioni Pag. 64 promozionali, di accrescere la probabilità di vita delle imprese create nel turismo. In questo caso si decide di intervistare degli opinion leader (al massimo una decina) e si redige il seguente schema di intervista. QUESTIONARIO AGLI OPINION LEADER Stato dell’arte 1) Valutazione qualitativa e quantitativa dell’Offerta (punti di forza/debolezza, analisi per macroaree, …) _________________________________________________________________________ 2) Valutazione qualitativa e quantitativa della Domanda (flussi, motivazioni d’acquisto, opportunità, rischi, …) _________________________________________________________________________ 3) Quali sono le azioni di promozione e marketing territoriale attuali ___________________________________________________________________ programmate/auspicate _____________________________________________________ Prospettive per la creazione di imprese 4) Eventuale presenza di nodi/”colli di bottiglia” strutturali (sollecitare una visione di medio periodo) a) scarsità/carenza di infrastrutture b) scarsità/carenza di offerta ricettiva c) scarsa imprenditorialità d) basso livello delle risorse umane e) altro ______________ 5) Interventi ed iniziative mirati a rimuovere/ridurre i vincoli a) attuali _______________________________________________________________ b) programmati/auspicati __________________________________________________ 6) Quali sono, a suo avviso, le aree o le attività su cui è bene investire prioritariamente _________________________________________________________________________ Nome intervistato: ____________________________________ Data: _________________ Durata dell’intervista: ___________________ Località: ___________________ Intervistatore: ___________________ Pag. 65 Le forme delle interviste e dei questionari possono variare a) da quelle rigidamente standardizzate in cui le domande e le risposte alternative possibili sono predeterminate; b) a quelle del tutto libere e “non strutturate” in cui non c’è predeterminazione né delle domande, né delle risposte alternative. Nel primo caso le domande vengono poste negli stessi termini e nel medesimo ordine a tutti i rispondenti con il vantaggio che le risposte non sono influenzate da diversa formulazione del quesito e si potrà attivare la completa confrontabilità dei dati. Le domande possono essere quindi a: RISPOSTA APERTA o LIBERA: domanda nella quale non sono prefigurate le possibili modalità di risposta, ma si lascia al rispondente e all’eventuale rilevatore la scelta della risposta da registrare. Vantaggi: è minimo il rischio di condizionare il rispondente, sono le uniche domande possibili quando non si conosce il fenomeno (e quindi non si possono ipotizzare risposte), sono utili nel trattare argomenti particolarmente delicati, perché danno all’intervistato la facoltà di motivare comportamenti e/o atteggiamenti. Svantaggi: dilatano tempi e costi della ricerca, comportano un alto rischio di errore nella interpretazione, codifica e registrazione (in quanti si tende a sintetizzare una risposta), la qualità della risposta può essere molto scadente, infatti, il rischio è di incorrere in risposte che sono “luoghi comuni”. RISPOSTE FISSE PREDEFINITE (con una sola risposta e multirisposte): domanda nella quale sono specificate le alternative di risposta (se alle modalità di risposta sono affiancati dei codici, le modalità di risposta si dicono precodificate). Al rispondente è lasciata facoltà di scegliere tra le risposte possibili quella/e che meglio si adatta/no al suo caso personale. Il problema più rilevante riguarda la selezione delle possibili risposte in quanto può accadere che non sempre si conoscono tutte le modalità che il fenomeno può assumere, ma viceversa accade che esso possa essere rappresentato con un numero eccessivo di risposte per cui si pone il problema del loro raggruppamento. Con riferimento all’indagine Aspetti della vita quotidiana è una domanda fissa predefinita la seguente della SEZIONE 13: AMICI Pag. 66 13.1 Con che frequenza si vede con amici nel tempo libero? Tutti i giorni 1 Più di una volta alla settimana ...... 2 Una volta alla settimana ................... 3 Qualche volta al mese (meno di 4) 4 Qualche volta durante l'anno.......... 5 Mai...................................................... 6 Non ho amici....................................... 7 DOMANDE FILTRO (quesito dalla cui risposta dipende la domanda successiva) Le domande filtro permettono di “saltare” uno o più quesiti successivi se sono verificate alcune condizioni. Tale necessità si manifesta quando: occorre indirizzare gruppi particolari di rispondenti verso domande specificatamente rivolte a loro; si vuole evitare di scendere in domande dettagliate quando ciò è inutile; ad esempio per non sottoporre un blocco di domande riguardanti le vacanze svolte nell’anno a coloro che dichiarano di non aver svolto vacanze nell’anno; si vogliono evitare condizionamenti nella risposta; ad esempio non si desidera chiedere opinioni sull’ultimo libro letto nei 12 mesi a chi non ha letto nessun libro nei 12 mesi, per non provocare risposte date allo scopo di non fare "brutta figura". Con riferimento all’indagine Aspetti della vita quotidiana è una domanda filtro la seguente della SEZIONE 11: VACANZA E MOTIVI DELLA NON VACANZA 11.1 Negli ultimi 12 mesi si è recato in vacanza per un periodo di almeno 4 notti consecutive? NO ........................... 00 andare a domanda 11.2 SÌ, quante volte?.................. N. ____ La risposta “NO” consentirà di procedere con le domande del questionario indagando i motivi della non vacanza, mentre la risposta “SI” chiede il numero delle vacanze prima di passare alla Sezione Successiva. RISPOSTE MISTE (si prevedono risposte solo per le modalità principali). Può capitare che gli item delle risposte inserite nel questionario non coprano tutti i possibili casi sia perché viene dimenticata qualche modalità importante sia perché non interessava inserirle tutte. In questo caso si prevede una modalità aperta Altro prevedendo uno spazio per la specificazione. Pag. 67 Con riferimento all’indagine Aspetti della vita quotidiana è una domanda mista la seguente della SEZIONE 11: VACANZA E MOTIVI DELLA NON VACANZA 11.2 Per quali motivi non è andato in vacanza? (possibili più risposte) Per ragioni economiche ..... 1 Per motivi di lavoro o di studio.. 2 Per mancanza di abitudine ........... 3 Perché già residente in località di villeggiatura................... 4 Per motivi di famiglia 5 Per motivi di salute ................................ 6 Per l'età .................................................... 7 Per altri motivi (specificare) ……….................................................. DOMANDE STRUTTURATE: è prevista una serie di risposte predefinite tra le quali il rispondente deve scegliere. Vantaggi: riduce i tempi di codifica e registrazione, aiuto al rispondente, standardizza la domanda. Svantaggi: troppe opzioni concentrano l’attenzione sulle ultime (per es. nell’intervista diretta e telefonica), poche opzioni possono trascurare fatti importanti, il rispondente può rispondere a caso. Esempio Dirigenti Quadri, impiegati Operai TOTALE DIPENDENTI Occupati al 31.12.2005 Uscite previste nel 2006 Entrate previste nel 2006 Occupati previsti al 31.12.2006 Che abbiamo già visto È altresì una domanda strutturata la seguente tratta dall’indagine Aspetti della vita quotidiana alla SEZIONE 3: CORSI E LEZIONI PRIVATE 3.1 Negli ultimi 12 mesi ha frequentato lezioni private o corsi a spese sue o della famiglia? (una risposta per ogni riga) No Solo in alcuni Mesi Solo alcune settim. durante l’estate Per tutto l'anno Recupero scolastico 1 2 3 4 Informatica 1 2 3 4 Lingue 1 2 3 4 Attività artistiche e/o culturali 1 2 3 4 Pag. 68 RISPOSTE CHIUSE che presentano due o tre modalità di risposta. Generalmente vengono utilizzate per verificare la presenza/assenza di un fenomeno. Con riferimento all’indagine Aspetti della vita quotidiana è una domanda chiusa la seguente della SEZIONE 2: FORMAZIONE 2.2 L'asilo, la scuola o l'università a cui è iscritto è pubblica o privata? Pubblica 1 Privata 2 Schema di costruzione del questionario Il procedimento si articolare nelle seguenti fasi: 1. individuazione delle informazioni da chiedere che in generale possono riguardare dati personali, ambientali, comportamentali, ecc. I dati personali servono a fornire la base per una più approfondita comprensione delle risposte riguardanti al fenomeno. Riguardano il sesso, l’età, lo stato civile, l’occupazione il grado di istruzione, la nazionalità ed altri caratteri personali del rispondente. I dati ambientali servono a conoscere le situazioni e le circostanze in cui vivono i rispondenti al fine di spiegare atteggiamenti, azioni e comportamenti. Riguardano il luogo di residenza, il tipo di abitazione, ecc. I dati comportamentali riguardano azioni, atteggiamenti e comportamenti passati e presenti; 2. scelta del tipo di questionario da utilizzare (forma delle domande, ecc.). La sequenza con la quale le domande sono poste è uno degli aspetti del questionario, mediante il quale si può aiutare il rispondente nel compito di fornire le informazioni volute. Al fine di aiutare i rispondenti nel loro compito è importante tenere presenti due stili nell’ordinamento dei quesiti: il primo è la successione a imbuto, si passa cioè da domande generali a domande più particolari per dare tempo al rispondente di focalizzare l’attenzione sul tema proposto, il secondo è la successione ad imbuto rovesciato, si antepongono le domande specifiche a quelle più generali (utile quando si desidera raccogliere opinioni meditate su un determinato argomento); 3. prima traccia di questionario (dove sarà opportuno avvalersi delle esperienze acquisite da altri ricercatori in modo da migliorare la tecnica di rilevazione e di studio ed ottenere dati confrontabili); 4. revisione delle domande (consultazione con esperti); 5. prova del questionario su un gruppo piccolo di persone opportunamente scelte (anche in modo ragionato); 6. stesura conclusiva del questionario e indicazione dei modi per usarlo correttamente. Pag. 69 L’editing ed il linguaggio sono caratteristiche importanti del questionario: alcune regole da seguire sono indispensabili come quella di usare termini semplici (evitando termini tecnici a meno che non sia rivolto ad esperti), usare termini precisi, non utilizzare parole con significato dispregiativo e elogiativo, non proporre domande troppo lunghe, o domande composte da più preposizioni, evitare espressioni negative, utilizzare esempi che indirizzino verso una corretta interpretazione della domanda, evitare però troppe precisazioni all’interno della domanda. L’uso delle scale di valutazione Spesso la ricerca vuole raccogliere un o più giudizi del rispondente su alcuni aspetti del fenomeno in esame. In questo caso si deve convertire il giudizio personale dell’intervistato in una qualche misura nominale, ordinale o numerica da poi elaborare in termini di valutazione. Si costruiscono allora le scale di valutazione. Esempio: Esprima un giudizio sui seguenti servizi offerti (1=molto buono, 5=scarso) Ma la scala di giudizio potrebbe essere anche (1=scars, 5=molto buono) Intrattenimento durante il viaggio 1 2 3 4 5 Informazione depliantistica 1 2 3 4 5 Qualità del ristorante 1 2 3 4 5 Prezzo 1 2 3 4 5 Qualità e puntualità dei trasporti 1 2 3 4 5 Offerta culturale(entrate a musei, visite…) 1 2 3 4 5 Di qualsiasi natura siano le scale, il principio che presiede alla loro definizione è quello dell’esistenza di un continuum, che per comodità viene trasformato in carattere discreto, in punti, all’interno dei quali il rispondente deve scegliere quello che meglio interpreta la sua posizione. Questo principio implica che tra gli elementi costitutivi la scala sia almeno possibile istituire la relazione A è preferibile a B (o A è migliore di B), ma non del tipo A è diverso da B. Le scale di valutazione dovrebbero presentare punti, il più possibile, equidistanti tra di loro, non essendo possibile misurare direttamente le distanze tra i vari atteggiamenti. Le scale possono essere numeriche, come nell’esempio suindicato, che presentano ai rispondenti una gamma di punteggi da attribuire a un qualche fenomeno, ma possono essere anche verbali dove si presenta all’intervistato da un minimo di due ad un massimo di cinque o sei possibili giudizi espressi con delle frasi. Pag. 70 Abbiamo visto precedentemente che l’Istat nell’indagine “Aspetti della vita quotidiana” utilizza una particolare scala di valutazione. L’esempio che si riporta è tratto dalla SEZIONE 8: SERVIZI OSPEDALIERI 8.7 (Con riferimento all'ultimo ricovero) È rimasto soddisfatto dei seguenti aspetti del ricovero? (una risposta per ogni riga) Molto Abbastanza Poco Per niente Non so Assistenza medica...... 1 2 3 4 5 Assistenza infermieristica.............. 1 2 3 4 5 Vitto............................. 1 2 3 4 5 Servizi igienici .............. 1 2 3 4 5 Esiste anche la tecnica del differenziale semantico che si rappresenta come combinazione della scala verbale e numerica. Si presenta come un diagramma ai cui estremi compaiono termini dal significato opposto. Il rispondente segnerà la posizione più congeniale tenendo conto delle diverse alternative all’interno delle quali sta collocando il suo giudizio. Esempio: Esprima un giudizio sulla ristorazione Molto buono Scadente Qualità dei dati L’utilizzo del questionario può comportare certamente degli errori che possono essere di tipo: accidentali: imperfezioni, inesattezze nelle risposte che si presentano senza regolarità; sistematico: che si presentano con regolarità e con il medesimo segno. Quest’ultimo è certamente il più importante e la sua riduzione è indice di una buona programmazione del lavoro. Ora tra i possibili errori c’è ne sono alcuni ricorrenti che vanno segnalati: il dato mancante cioè il dato elementare del quale non sia registrato il codice. Quando manca il dato si possono adottare varie strategie: (a) se ne può ignorare la mancanza se questa è casuale e i dati disponibili sono congrui per la stima, (b) si può rimpiazzare con un codice probabile determinato con una delle tecniche per la "correzione degli errori"; la mancata rilevazione cioè, in una indagine sulla popolazione, l’insuccesso nel tentativo di contatto delle unità destinate a partecipare all’indagine (per trasferimento, assenza ripetuta dal domicilio, morte), o, a contatto avvenuto, nella richiesta di intervista o di compilazione del questionario (per rifiuto, incapacità di collaborare all’indagine etc.). Il problema della mancata rilevazione di unità si pone sia nelle indagini campionarie che in Pag. 71 quelle esaustive. Se non vengono intervistate le unità di rilevazione, perché sono assenti o si rifiutano di collaborare anche dopo ripetuti tentativi di contatto, è importante recuperare informazioni su un campione dei mancati rispondenti o, per lo meno, sulle loro caratteristiche ascrittive mediante un’indagine suppletiva. Le mancate rilevazioni sono diffuse nelle indagini postali; la mancata risposta o non risposta cioè l’assenza di risposta ad una domanda del questionario, in altre parti compilato. Il problema delle mancate risposte può essere affrontato da diversi punti di vista. Una possibilità è quella di determinare statisticamente le risposte ottenibili utilizzando informazioni provenienti da fonti esterne all’indagine (registri, censimenti, etc.) o tramite un supplemento di indagine. Una seconda via è quella dell’utilizzazione delle informazioni raccolte per "dare" alle unità che non si sono espresse, il valore più probabile scegliendolo tra quelle che hanno espresso una risposta valida. Si può anche decidere di escludere dall’analisi l’unità con risposta mancante, ma l’esclusione va effettuata con la consapevolezza che l’analisi delle sole risposte validamente espresse conduce a risultati normalmente distorti; il mancato rispondente cioè l’unità della popolazione o del campione designata a rispondere che non fornisce collaborazione, o all’intero questionario (mancata rilevazione), o ad una singola domanda (mancata risposta). Come valutare questi tipi di errori; in primis controllando che il modello di rilevazione sia compilato in ogni sua parte. Riguardo al dato mancante o incongruente, si tratta di verificare i valori fuori range e le incompatibilità con altre risposte fornite dall’unità di rilevazione. Procedure di controllo e correzione dei dati I metodi di correzione possono essere di tre tipi: a) metodo della correzione deterministica, in base al quale la soluzione a risposte mancanti o incompatibili è fornita dal ricercatore in modo soggettivo; b) metodo della correzione probabilistica, in base al quale le risposte mancanti o incongruenti sono sostituite con delle informazioni valide presenti in altre unità rilevate; c) metodo “manuale”, che sfrutta l’esperienza e le ulteriori informazioni a disposizione delle persone le quali ricostruiscono l’informazione caso per caso. Quest’ultimo approccio manifesta due indicative debolezze, determinate dal lungo tempo necessario nel caso di una matrice dei dati particolarmente ampia e per il fatto che l’intervento manuale può rilevarsi non corretto se la persona non dispone di informazioni suppletive e soprattutto sufficienti per la rettifica del dato. Come ricostruire i valori mancanti o errati Pag. 72 Si utilizza un procedimento basato sul principio della similitudine dei comportamenti delle unità e delle loro risposte. Dall’insieme dei “dati esatti” viene ricercata una unità di rilevazione dalla quale ricavare, per similitudine, il valore da attribuire alla variabile errata con un valore che tuttavia non comporti nuove incompatibilità. Revisione dei dati Il materiale raccolto va sottoposto ad una revisione attenta e approfondita che riguarda sia l’aspetto quantitativo sia quello qualitativo. La revisione quantitativa ha lo scopo di accertare che nessuna unità sia sfuggita alla rilevazione o sia stata rilevata più di una volta. La revisione qualitativa consiste in un esame critico dei dati rilevati, per accertare se siano stati raccolti in conformità alle istruzioni e rispecchino la vera situazione dell'unità rilevata. Dalla revisione qualitativa possono quindi emergere le lacune in cui è incorso il compilatore, tralasciando di comunicare alcune delle informazioni richieste, ma possono emergere anche gli errori di compilazione. La possibilità di colmare a posteriori le lacune nelle unità è possibile nel caso di indagini con modelli nominativi, quando cioè è possibile risalire all’unità di rilevazione, viceversa diventa complicato i modelli sono anonimi. Errori ricorrenti nella proposizione del questionario di programmazione del rispondente del rilevatore/operatore di registrazione Non chiarezza degli obiettivi Non conoscenza del fenomeno da parte dell’intervistato Impreparazione sul questionario (carenza nelle istruzioni) Non corretta predisposizione del questionario Scarsa motivazione a rispondere attentamente Impreparazione sulla conduzione dell’intervista Non corretta predisposizione delle istruzioni per rilevatori Fraintendimento involontario di alcune domande Scarsa motivazione Imprecisioni nel piano di codifica Distorsione volontaria delle risposte Errori di registrazione del valore del dato Carenze nel controllo del lavoro degli intervistatori Condizionamento legato alla presenza di altre persone Errori di registrazione nella posizione del dato nel record Pag. 73 Riepilogo Elementi importanti nella costruzione del questionario sono Organizzare il questionario in aree omogenee per tematiche trattate; adottare un linguaggio comprensibile a tutti gli intervistati, una terminologia precisa chiedendo cose a cui l’intervistato può rispondere; essere precisi nel riferimento temporale delle domande facendo molta attenzione all’uso dei quesiti retrospettivi; collocare le domande in modo che non influenzino le risposte alle successive domande; individuare la lunghezza ottimale del questionario per impegno di tempo, approfondimento di temi e ridondanza delle informazioni; curare l’editing del questionario in modo da facilitare la comprensione e la compilazione; individuare i codici più opportuni per ciascuna modalità di risposta ai quesiti del questionario; prevedere una parte del questionario per i codici identificativi e una per i quesiti sui controlli di qualità. Memorizzazione dei dati E’ la fase di registrazione dei dati mediante la quale i codici, corrispondenti alle risposte date a "domande a risposta chiusa" o apposti con la codificazione delle risposte a "domande a risposta aperta", vengono trasferiti su un supporto idoneo ad eseguire tramite elaboratore le successive operazioni di revisione, correzione ed elaborazione statistica. In questa fase abbiamo due tipi di pulizia; quelli dovuti ad errori di scrittura da parte dei rispondenti e quelli dovuti a risposte errate a causa della non comprensione delle domande, ad esempio quando un intervistato barra due risposte nelle domande che ne richiedono una sola. In questo caso, come nel caso in cui l'intervistato non abbia risposto ad una domanda, il valore da caricare è il "non risposto o missing" ossia informazione mancante, che in genere ha un codice molto diverso dagli altri, ad esempio 9 o 99. Quindi la registrazione comporta l’inserimento su elaboratore elettronico di “record” ovvero l’insieme di dati elementari rilevati su una unità statistica e dà luogo alla matrice dei dati. Ogni riga (record) di questa matrice corrisponde ad un caso (un individuo, un questionario, ecc.). Con il termine matrice dati si intende pertanto un ideale rettangolo che contiene tante righe quante sono le unità di rilevazione (nel caso dell'intervista sono i rispondenti) e tante colonne quante sono le variabili considerate (nel caso dell'intervista le domande). Pag. 74 Matrice dati C*V (casi*variabili) Casi/unità X1 Variabili X2 …. Xr 1 X 11 X 12 … X 1r 2 X 21 X 22 … X 2r … … … … X n1 X n1 … X nr di rilevazione n Ogni singola risposta del questionario verrà tradotta in codici (corrispondenti al Piano di codifica) e incasellata nella sua posizione. I vantaggi sono numerosi, perché non si trascrive tutto il contenuto del questionario, ma solo i codici delle alternative scelte da ciascun intervistato e si rendono più rapide le operazioni di elaborazione statistica dei dati. Con questa organizzazione di dati l'elaboratore elettronico è in grado di eseguire velocemente e in modo automatico le operazioni statistiche richieste. Ritornando alla codifica dei dati, normalmente si utilizzano codici numerici, cioè cifre comprese tra 0 e 9 (ma anche a due cifre in caso di necessità), piuttosto che alfabetici sia perché i numeri sono suscettibili di un miglior trattamento statistico sia perché danno luogo a minor confusione. Esempio: ipotizziamo dunque il seguente questionario che per brevità sintetizziamo ai dati personali del rispondente DATI PERSONALI Età (in anni compiuti): 45 Genere Titolo di studio: Condizione professionale: Provincia di residenza: M F Senza titolo o lic. elementari (cod. 1) Licenza medie (cod. 2) Licenza Superiori (cod. 3) Laurea o affini (cod. 4) Non occupato (cod. 1) Occupato (cod. 2) Udine (usare i codici Istat) D1. E’ stato in vacanza quest’estate? Ecc. Pag. 75 SI (cod. 1) NO (cod. 0) Il caricamento su un normale foglio elettronico (matrice dei dati) utilizzando il piano di codifica sarà: ID Genere Età 1 M 45 4 2 2 F 30 3 3 F 31 4 M 5 M Tit. Studio Cond. Prof. Residenza D.1 ecc. 30 1 … 2 30 1 … 3 2 30 2 … 44 3 2 31 1 27 4 2 93 1 dove ID è il numero identificativo del questionario Queste domande non pongono problemi nella costruzione della matrice dati: sono domande standard (chiuse), codificate, ciascuna delle quali da luogo ad un carattere (mutabile o variabile). Dobbiamo aggiungere alle risposte codificate anche il valore 9 (o 99) per la modalità “non risposto”. Ipotizziamo che nel questionario ci sia la seguente domanda D:12Esprima un giudizio sui seguenti servizi offerti (1=molto buono, 5=scarso) e che a compilazione avvenuto troviamo il seguente risultato (risposte segnare con sfondo grigio). 1. Intrattenimento durante il viaggio 1 2 3 4 5 2. Informazione depliantistica 1 2 3 4 5 3. Qualità del ristorante 1 2 3 4 5 4. Prezzo 1 2 3 4 5 5. Qualità e puntualità dei trasporti 1 2 3 4 5 6. Offerta culturale (entrate a musei, visite…) 1 2 3 4 5 In realtà si tratta di più domande (item) aventi lo stresso formato di risposta (5 alternative da molto buono a scarso). Per comodità grafica del questionario sono raggruppate in un’unica domanda, ma, di fatto, si tratta di 6 domande differenti che daranno luogo a 6 variabili ognuna con la sua risposta. Nella matrice dati risulterà Pag. 76 ID … 12.1 12.2 12.3 12.4 12.5 12.6 1 … 1 4 5 1 4 4 2 dove l’intestazione dalla colonna è determinata dal numero della domanda (12) e dal numero dell’item ovvero 12.1 a cui corrisponde “Intrattenimento durante il viaggio” Ipotizziamo ancora nel questionario ci sia anche le seguenti risposte alla domanda 11.2 Per quali motivi non è andato in vacanza? (possibili più risposte) 1. Per ragioni economiche ..... 1 2. Per motivi di lavoro o di studio.. 2 3. Per mancanza di abitudine ........... 3 4. Perché già residente in località di villeggiatura............... 4 5. Per motivi di famiglia 5 6. Per motivi di salute ................................ 6 7. Per l'età .................................................... 7 8. Per altri motivi (specificare) ……….................................................. La domanda è a risposta multipla ovvero sono possibili più risposte. Una di queste (l’ultima) è una domanda aperta cioè viene offerta all’intervistato la possibilità di rispondere come vuole. Nei primi 7 casi, la domanda genera variabili, tante quante il numero delle risposte che può dare il soggetto, quanto alla domanda aperta essa verrà codificata a posteriori Nella matrice dati risulterà ID … 11.2.1 11.2.2 11.2.3 11.2.4 11.2.5 11.2.6 11.2.5 1 … 1 1 1 0 1 0 0 2 … 11.2.6 dove l’intestazione dalla colonna è determinata dal numero della domanda (11.2) e dal numero della modalità ovvero 11.2.1 a cui corrisponde “Per ragioni economiche” Pag. 77 Tredicesima domanda: si scriva un piano di codifica e una matrice dati per la domanda ? 3.1 Negli ultimi 12 mesi ha frequentato lezioni private o corsi a spese sue o della famiglia? (una risposta per ogni riga) No Solo in alcuni Mesi Solo alcune settim. durante l’estate Per tutto l'anno Recupero scolastico 1 2 3 4 Informatica 1 2 3 4 Lingue 1 2 3 4 Attività artistiche e/o culturali 1 2 3 4 Pag. 78 SESTO CAPITOLO SISTEMAZIONE DEI DATI IN TABELLE La sistemazione dei dati in tabelle ha lo scopo di esporre in forma chiara i risultati di una rilevazione. Le scale nominali ed ordinali danno luogo e “serie”, le scale intervallo a “seriazioni”. In una serie ogni modalità del carattere qualitativo si accompagna al numero di volte in cui essa si presenta nella ricerca (frequenza). Le serie possono essere storiche (riferite a modalità di tempo), rettilinee (quando la modalità presenta una sequenza necessaria con un inizio ed una fine), cicliche (analoghe alle rettilinee dove però l’inizio è scelto a piacere), serie sconnessa o nominale (le modalità non sono comparabili e manca un criterio per ordinarle). La seriazione si presenta con due colonne di numeri: la prima si riferisce alle modalità o intensità del carattere quantitativo, la seconda corrisponde alle frequenze ed il cui totale coincide con la popolazione o aggregato. I dati costituenti serie o seriazioni definiscono tabelle semplici, a doppia entrata (dove i dati si leggono con riferimento all’intestazione della riga e della colonna in cui si trovano) o composite (le modalità accolte non appartengono allo stesso carattere). SCHEMA DELL’ANALISI DEI MACRO-DATI PRESENTAZIONE DEI MACRO-DATI rappresentazioni tabellari e grafiche Analisi delle DISTRIBUZIONI SEMPLICI Indici di tendenza centrale Indici di variabilità Rapporti statistici Analisi delle DISTRIBUZIONI MULTIPLE Confronti TEMPORALI E TERRITORIALI UTILIZZO DEI RISULTATI Non esistono norme generali per la predisposizione delle tabelle, ma si possono suggerire comportamenti il cui rispetto consente di costruire tabelle comprensibili e chiare. Ogni tabella dovrà avere: Pag. 79 a) il titolo che indichi in modo preciso il fenomeno che si rappresenta; b) la prima colonna deve indicare in modo chiaro le modalità del carattere rappresentato così come la prima riga (nel caso di tabelle a "doppia entrata" deve contenere in modo altrettanto chiaro le modalità del carattere posto in colonna; c) le distribuzioni marginali (che si configurano come distribuzioni semplici) devono essere evidenziate in grassetto; d) nelle tabelle con molte colonne è opportuno che ciascuna sia contrassegnata con una lettera dell'alfabeto e un numero progressivo in modo da capire colonne successive che contengono risultati di operazioni con dati di contenuti in colonne precedenti; a) la fonte. Distribuzione di frequenze o semplici o analisi monovariata L'analisi monovariata cioè il calcolo delle distribuzioni di frequenza di tutte le variabili considera solo una variabile per volta, studiando la distribuzione dei dati fra le modalità di quella variabile, rilevando e calcolando i valori caratteristici di tale distribuzione. Questo passaggio serve anche per verificare che le fasi precedenti, in particolare quella della raccolta dati e memorizzazione, siano state condotte senza errori, inoltre è utile per avere indicazioni su come raggruppare le modalità di una variabile (come per esempio l'età) in un minor numero di modalità più ampie. La distribuzione dei dati tra le modalità di una variabile si chiama distribuzione di frequenza. Quindi è il risultato della classificazione di una popolazione o di un campione in rapporto alle modalità di una o più variabili o mutabili. L'analisi monovariata è solo un primo passaggio verso forme più complesse di analisi, ma costituisce un passaggio obbligato e irrinunciabile, perché dà informazioni elementari sulla distribuzione di frequenza di ogni variabile, consentendo anche di individuare errori nel caricamento dei dati. I vantaggi di questo tipo di analisi sono: 1. Permette di scoprire i valori out of range di una distribuzione (controlli di plausibilità): in una distribuzione spesso compaiono valori che non sono stati assegnati ad alcuna modalità della variabile categoriale o che sono impossibili o poco plausibili della variabile cardinale. Per esempio per il carattere sesso sono ovviamente previsti i valori 1 (femmina), 2 (maschio), 0 (informazione mancante). Ogni altro valore che compaia nella distribuzione sarà dovuto a un errore di compilazione del questionario di battitura. Inoltre attraverso la distribuzione di frequenza della singola variabile i valori out of range si riescono a scoprire facilmente, anche se ciò non garantisce affatto l'individuazione di tutti gli errori di battitura. Ipotizziamo di lavorare con la matrice dei dati del capitolo precedente e calcoliamo la distribuzione di frequenze relativamente al carattere “genere”: il primo controllo da effettuare Pag. 80 riguarda il fatto che tutte le modalità dei caratteri siano “plausibili”, appartengano cioè al ventaglio di valori previsti dal piano di codifica. Nel caso del carattere “Genere” dobbiamo attenderci solo le modalità “M” e “F”; se invece il risultato è il seguente Genere Freq. M 50 F 45 FF 1 TOTALE 100 Siamo di fronte ad un risultato non plausibile in quanto la modalità “FF” non è prevista. Probabilmente si tratta di un errore di battitura fatto nella fase di memorizzazione dei dati. Costruiamo ora la distribuzione di frequenza per la domanda D.12 Esprima un giudizio sui seguenti servizi offerti: Intrattenimento durante il viaggio Domanda 12.1 Freq. 1 10 2 15 3 5 4 49 5 20 6 1 TOTALE 100 In questo caso il valore 6 non è previsto i quindi potrebbe essere il risultato di un errore di battittura o di codifica In entrambi i casi la distribuzione di frequenze consente di rilevare l’errore e di correggerlo. 2. Segnala squilibri nella distribuzione e opportunità di aggregazione: una distribuzione è squilibrata se le frequenze delle varie modalità sono equiripartite, nel caso delle variabili nominali, mentre per quelle cardinali si ha uno squilibrio quando i valori e le relative frequenze non si posizionano approssimativamente in modo simmetrico ai due lati della media (vedere unità successive). Alcuni squilibri possono essere provocati da valori estremi della distribuzione troppo alti o troppo bassi, rispetto alla media (per le variabili cardinali); in questo caso, se la logica dell'analisi lo consente, si possono eliminare i valori più estremi (valori aberranti). La distribuzione di frequenze inerente ad una sola variabile si dice anche "univariata", quella congiunta inerente a due variabili si dice "bivariata", quella inerente ad una molteplicità di Pag. 81 variabili si dice "multivariata". Le distribuzioni di frequenza assumono denominazioni diverse a seconda del carattere che esse rappresentano: Carattere Denominazione della distribuzione Mutabile Serie Mutabile ordinata Serie ordinata Mutabile rettilinea Serie rettilinea Mutabile sconnessa Serie sconnessa o nominale Variabile Seriazione Tempo Serie storiche o temporale Luogo Serie territoriale o geografica Distribuzione di frequenza del carattere X dove gli elementi caratterizzanti sono la popolazione o aggregato (N), le modalità del carattere X e le fi frequenze assolute delle unità che presentano la modalità xi del carattere X. Nella statistica si dicono frequenze i numeri che risultano dal conteggio di elementi di una determinata collettività. Le frequenze possono essere costituite da tutti gli elementi della collettività (se portatori del carattere oggetto di studio), o dagli elementi che presentano determinate caratteristiche. Esempio con una mutabile: Consideriamo la domanda vista in precedenza 11.1 Negli ultimi 12 mesi si è recato in vacanza per un periodo di almeno 4 notti consecutive? NO ........................... 00 andare a domanda 11.2 SÌ, quante volte?.................. N. ____ Schema di distribuzione di frequenze semplici X Frequenze (1) (2) SI f1 dove NO f2 TOT N N = j fi Si tratta di una distribuzione di frequenze secondo caratteri qualitativi, nella quale sono rappresentati tutti gli elementi (N) della popolazione. Trattandosi di mutabile è possibile calcolare la moda, le frequenze relative. Pag. 82 Esempio con una variabile: Consideriamo il carattere “Numero dei componenti la famiglia” possiamo ottenere la seguente distribuzione di frequenze semplici X (1) 1 Frequenze (2) f1 2 f2 3 f3 4 f4 5 e più f5 TOT N Si tratta di una distribuzione di frequenze secondo caratteri quantitativi, nella quale sono rappresentati le famiglie (N). Sulla distribuzione di frequenze semplice si può aggiungere ulteriori colonne che illustrano l’applicazione di determinate metodologie della statistica descrittiva. X (1) Frequenze (2) x1 f1 x2 f2 … … xi fi … … xk fk TOT N (2) (3) (4) (5) (6) (7) dove fi% (3) Fi (4) Fc% (5) rFc (6) RFc% (7) F1=f1 N 100 F2=F1+f2 N-f1 Fi=Fi-1+fi N=Fk-1+f k 100 fk 100 frequenze, numero di volte con cui si manifesta la modalità associata frequenze relative o frequenze percentuali (rapporto tra le frequenze assolute ed il totale) frequenze cumulate (che rappresenta il numero di unità statistiche che presentano un’intensità minore o al più uguale alla modalità cui si riferisce, si ottiene sommando alle frequenze di ogni modalità quelle delle modalità precedenti) frequenze cumulate relativa frequenze retrocumulate frequenze retrocumulate relativa N = j fi Considerando che nella tabella è rappresentato un solo carattere essa di chiamerà anche tabella ad una entrata. Pag. 83 Raggruppamento dei dati dove i valori di una variabile sono estesi (per esempio l’età) piuttosto che elencare uno ad uno i valori è più agevole riunirli in classi di intensità. Esempio: consideriamo proprio la domanda età con riferimento all’indagine “Aspetti della vita quotidiana” possiamo ottenere ragionevolmente la seguente distribuzione di frequenze X (1) … Frequenze (2) … 17 f2 18 f3 19 f4 20 f5 21 f6 22 f7 … … TOT N Distribuzione che potrebbe terminare con un numero di righe assolutamente illeggibile dal punto di vista statistico. In questo caso è opportuno raggruppare il carattere in classi come nel seguente esempio Ampiezza della X Frequenze x i, valore centrale (1) (2) della classe classe x1 – x2 f1 (x2 – x1)/2 x2 – x1 … f2 … … xi – xi+1 … (xi+1 – xi)/2 xi+1 – xi … … (xk – xk-1)/2 xk – xk-1 … xk-1 – xk fk TOT N Un esempio di classificazione operato dall’Istat con riferimento all’indagine “Aspetti della vita quotidiana” è il seguente Pag. 84 Prospetto 2.2 – Coppie con figli per classe di età del figlio più piccolo – Medie 2001-2002, 2003-2005 (per 100 coppie con figli) CLASSI DI ETÀ DEL FIGLIO PIÙ PICCOLO 2001-2002 2003-2005 Fino a 5 anni 25,7 26,4 6-13 23,8 23,3 14-17 10,8 11,3 18-24 18,5 17,5 25 e più 21,3 21,7 TOTALE (in migliaia) 9.658 9.553 Fonte: Istat, La vita quotidiana nel 2005. Indagine multiscopo sulle famiglie“Aspetti della vita quotidiana” Anno 2005, Informazioni n. 4, Roma 2007 In modo analogo si potrà operare se il carattere rilevato è il Valore della produzione (in euro) di un distretto, così come determinato dal bilancio che le Società sono obbligate a depositate presso le Camere di Commercio. La serie dei dati rappresentata in una matrice dati potrebbe essere di questo tipo ID Ragione sociale … 1 ….. … Valore della produzione 2005 6.409.334,00 2 …. … 8.103.172,00 3 …. 3.727.821,00 4 …. 6.490.873,00 5 …. 661.803,00 6 …. 215.517,00 …. …. In questo caso è molto probabile che nessun fatturato sia uguale ad un altro, ottenendo quindi una distribuzione di frequenze anomala. E’ possibile operare in questo modo raggruppando i valori per classi Pag. 85 Valore della produzione (1) Frequenze (2) Frequenze relative (3) Fino a 1,0 milione di Euro f1 f1/N da 1,0 a 2,5 milioni di Euro f2 … da 2,5 a 5,0 milioni di Euro f3 da 5,0 a 15 milioni di Euro f4 oltre 15 milioni di Euro f5 TOT N … 1 L'analisi bivariata Una tecnica di analisi dei dati si dice bivariata se si occupa della distribuzione di due variabili congiuntamente considerate (distribuzione congiunta). Lo scopo è di stabilire se esiste una associazione tra le due variabili, dove "associazione" si può considerare l'opposto di indipendenza. Per esempio, una popolazione può essere classificata nella stessa tabella rispetto ad età o classi d’età e sesso, incrociati in modo opportuno, oppure età, sesso e stato civile. Sta al ricercatore trovare il modo più opportuno di presentare i risultati della classificazione sulle due o tre dimensioni; per esempio, con riferimento alle tre variabili succitate (età, sesso e stato civile), si possono porre l’incrocio di stato civile e sesso nel senso delle righe e l’età nel senso delle colonne. Le Tabella a doppia entrata X (1) y1 Y yj (2) x1 – x2 f 11 f 1j f 1j f1. f i1 f ij Fic fi. xk-1 – xk f k1 f kj Fkc fk. TOT (4) f.1 f.j f.c f.. (6) Yc TOT(5) … xi – xi+1 … (1) modalità del carattere X (carattere quantitativo continuo), ampiezza della classe (differenza tra limite inferiore e limite superiore), intervallo fra due classi (differenza tra i valori centrali di classe adiacenti); (2) modalità del carattere Y (carattere quantitativo discreto); (3) fij frequenze assolute congiunte ovvero il numero di unità appartenenti alla classe xi – xi+ 1 del carattere X e che hanno modalità yj del carattere Y; Pag. 86 (4) f.j distribuzione marginale del carattere Y (corrisponde alla distribuzione di frequenza della variabile Y); (5) fi. distribuzione marginale del carattere X (corrisponde alla distribuzione di frequenza della variabile X); (6) f.. popolazione o aggregato. Si noti che fi. = j fij rappresenta la distribuzione condizionata del carattere Y secondo la classe xi – xi+1 f. j = i fij rappresenta la distribuzione condizionata del carattere X secondo la modalità yj f.. = i j fij = i fi. = j f.j Per ognuna delle due distribuzioni si possono calcolare le frequenze relative, e se X e Y sono due variabili, ordinate e rettilinee, si possono determinare le frequenze cumulate e retrocumulate assolute e relative. Inoltre nel caso di caratteri quantitativi è possibile calcolare i valori medi sia rispetto alle frequenze marginali sia a quelle condizionate. Pag. 87 SETTIMO CAPITOLO LE RAPPRESENTAZIONI GRAFICHE La rappresentazione grafica dei dati consente di cogliere con immediatezza (maggiore rispetto a quella tabellare) le principali caratteristiche della distribuzione statistica. Un grafico rappresenta dei numeri (distribuzioni statistiche semplici) e quindi deve esserci una corrispondenza tra i numeri e punti, angoli, superfici, linee (cioè le entità geometriche che definiscono un grafico). Regole da osservare nella compilazione di un grafico La rappresentazione deve essere sempre completamente autonoma dalla tabella che l'ha originata (un grafico può essere pubblicato mentre la tabella no), potendo anche essere impiegata indipendentemente da essa, e deve contenere perciò tutte le indicazioni necessarie per la sua precisa interpretazione. 1. Titolo: cioè l'esatto contenuto del grafico deve potersi ricavare dal suo titolo, nel quale quindi deve essere specificato l'oggetto della rappresentazione, l'epoca e l'ambito territoriale a cui i dati, e perciò il grafico, si riferiscono. Vanno inoltre indicati chiaramente quali sono i caratteri che sono stati osservati sulle unità; 2. Unità di misura (su Y/ordinata ed eventualmente su X/ascissa): vanno sempre indicate le unità di misura, sia i segmenti assunti come unità di misura delle grandezze lineari, sia le unità di superficie prese come unità di misura nelle rappresentazioni areali. Qualora gli elementi distintivi siano a colori o a tratteggi vanno indicati i valori corrispondenti; 3. Eventuali troncamenti di scala: devono essere indicati con interruzioni degli assi; 4. Rappresentazioni di più serie (caratteri): se in uno stesso grafico si rappresentano più fenomeni, vanno differenziati i segni o i tratteggi e accanto ad ogni rappresentazione va indicato il fenomeno a cui si riferisce. In ogni caso è da evitare che il grafico appaia aggrovigliato e confuso ed è meglio allora ricorrere a più grafici paralleli; 5. Fonte: nel grafico va riportata la fonte da cui si sono ricavati i dati; 6. Le diciture, i dati numerici e tutte le indicazioni necessarie per la comprensione del grafico devono essere leggibili guardando la rappresentazione dalla base e quindi devono essere disposti parallelamente alla base. Quando per motivi di spazio sono necessarie anche diciture disposte in altre direzioni, queste devono essere poste in modo che siano leggibili se osservate dal lato a destra della base, ossia dal primo lato successivo alla base nella rotazione antioraria. Anche se i grafici hanno lo scopo prevalente di fornire una sintesi del fenomeno, il lettore/osservatore può essere indotto ad effettuare considerazioni di dettaglio e pertanto è opportuno consentirgli scendere nel dettaglio dell’analisi facendo si che il grafico contenga, Pag. 88 quando è possibile, anche l'indicazione dei dati che rappresenta o, in caso contrario, sia accompagnato dall'esposizione dei dati in forma tabellare. Quando vi è la possibilità di più di un tipo di rappresentazione grafica, è preferibile in linea di massima scegliere la più semplice. E’ possibile rappresentare graficamente oltre alle frequenze assolute, le frequenze relative, le frequenze cumulate e le frequenze retrocumulate, numeri indici, variazioni percentuali calcolate su numeri indici. Rappresentazione di mutabili Pictogrammi: disegno per la rappresentazione di quantità. Una delle applicazioni pittoriche alla rappresentazione di frequenze o intensità di fenomeni consiste nel disegnare una figura stilizzata di ampiezza proporzionale al fenomeno; un’altra è quella di rappresentare una serie di figure o simboli in proporzione all’ampiezza del fenomeno. Sono grafici di tipo prevalentemente “divulgativo” e non molto rigorosi, quindi sono da utilizzare con parsimonia e soprattutto con cautela. Per esempio se si deve rappresentare il numero di aerei charter arrivati per provenienza, accanto all’indicazione della modalità (provenienza) si rappresenta un simbolo dove = 10 arrivi Distribuzione di frequenza di una mutabile (ordinabile) Esempio: arrivi rilevati in Italia nel 1996 e nel 1997, classificati per categoria dell’albergo Arrivi (in migliaia) 1997 1996 968 897 4 stelle 18.168 17.811 3 stelle 26.442 25.901 2 stelle 9.392 9.741 1 stella 3.817 4.103 Residenze turistico-alberghiere 1.279 1.137 TOTALE 60.064 59.590 Categoria 5 stelle e 5 stelle lusso che potremo rappresentare con un Ortogramma a nastri (grafici a barre orizzontali e barre verticali). Si tratta di rappresentazione tramite rettangoli di mutabili. I rettangoli hanno tutti la stessa base e un’altezza proporzionale all’intensità (o frequenza) del fenomeno. Si possono rappresentare barre "composite", ossia suddivise in sezioni di lunghezza proporzionale alla dimensione relativa delle componenti in cui si ripartisce il fenomeno che la barra rappresenta. Di solito, per distinguere le componenti, si usano retinature di varia intensità o colore. Per Pag. 89 rappresentare fenomeni che variano in aumento o in diminuzione, si possono rappresentare barre orientate in direzioni opposte, sopra e sotto la linea dello zero. Res. tur.-albergh. 1996 1 stella 1997 2 stelle 3 stelle 4 stelle 5 stelle e oltre 0 5.000 10.000 15.000 20.000 25.000 30.000 Distribuzione di frequenza di una mutabile (sconnessa) Esempio: gli arrivi rilevati in Italia nel 1997, classificati per località: Categoria Arrivi (in migliaia) % Città di interesse storico ed artistico 20.254 28,7% Località montane 6.772 9,6% Località lacuali 4.063 5,8% Località marine 16.780 23,7% Località termali 2.665 3,8% Località collinari e di interesse vario 2.467 3,5% Capoluoghi di provincia 5.988 8,5% Altre località 11.664 16,5% TOTALE 60.064 100 Che rappresenteremo con un diagramma a settori circolari. Si tratta di un metodo diagrammatico di rappresentazione nel quale le parti che compongono un totale sono rappresentate da settori di un cerchio. Gli angoli dei settori sono proporzionali al peso della componente sul totale. E’ anche detto "diagramma a torta". I moderni programmi di calcolo automatico sono predisposti per evidenziare graficamente una o più parti di particolare interesse. Si usa per rappresentare mutabili statistiche non ordinabili e, a volte, serie territoriali. Si divide la circonferenza in settori proporzionali all’intensità del fenomeno. 360 : N = : fi Pag. 90 Città di interesse storico ed artistico 17% 28% Località montane Località lacuali 8% Località marine 3% Località termali 10% 4% Località collinari e di interesse vario Capoluoghi di provincia 24% 6% Altre località Rappresentazione delle mutabili secondo un carattere ordinato in maniera ciclica Diagramma polare: questa rappresentazione grafica si utilizza quando si opera con variabili ordinali connesse alla circolarità del tempo (ore, giorni, mese), dove il cerchio è suddiviso in parti (24 per le ore, 7 per i giorni, 12 per i mesi) e sui raggi viene segnato e poi unito il valore delle frequenze. Esempio: arrivi per mese (serie ciclica) in Italia nel 1997 Mese Gennaio Febbraio Marzo Aprile Maggio Giugno Luglio Agosto Settembre Ottobre Novembre Dicembre Totale Arrivi nel 1997 3.187 3.657 5.282 5.631 7.065 7.244 8.941 10.582 7.215 5.268 3.141 3.421 70.634 % 4,5% 5,2% 7,5% 8,0% 10,0% 10,3% 12,7% 15,0% 10,2% 7,5% 4,4% 4,8% 100 Questo grafico fissa preliminarmente l’asse polare (da un punto 0 esce una semiretta) e successivamente il verso di rotazione (antiorario). Sull’asse polare si assume come unità di misura delle frequenze o delle intensità, un determinato segmento, mentre come unità di misura degli angoli il grado. Pag. 91 Ogni punto del grafico è individuato da due coordinate: l’argomento (angolo formato dall’asse vettore col raggio-vettore) ed il raggio vettore che rappresenta la distanza tra lo 0 ed il punto P. L’angolo giro è diviso tra le modalità della mutabile (se una settimana 360/7, se un anno 360/12). Su ciascuna semiretta si riporta un segmento per cui il raggio-vettore è uguale alla frequenza della modalità. Congiungendo i vari punti si ottiene una coordinata polare. Qualche volta, con centro in 0, si traccia una circonferenza con raggio uguale alla media aritmetica del fenomeno. Così si può vedere quali sono i giorni in cui l’intensità o la frequenza del fenomeno eccede oppure è inferiore alla media. Gennaio 12.000 Dicembre Febbraio 9.000 Novembre Marzo 6.000 3.000 0 Ottobre Aprile Settembre Maggio Agosto Giugno Luglio Cartogramma Diagramma che rappresenta informazioni statistiche di tipo descrittivo mediante simboli, tratteggi o colori diversi, o mappe. E’ una tecnica di rappresentazione grafica che si presta in modo particolare per rappresentare distribuzioni geografiche. Sono “carte geografiche” con colori, simboli e retinature diversi in relazione alla diversa intensità di presenza dei fenomeni nelle varie zone. Gli svantaggi di questa rappresentazione grafica è che si perdono molti particolari, viceversa oltre al valore visivo il grafico illustra la diffusione territoriale del fenomeno. Pag. 92 Esempio: Tassi di variazione previsti per il 2004, per provincia tratto da “Unioncamere, Previsioni occupazionali e professionali delle imprese per il 2004, Progetto Excelsior, Roma, giugno 2004” Saldo prev.2004 valori % 2,51 1,38 1,05 -1 a a a a 4,46 2,51 1,38 1,05 (25) (25) (26) (27) Rappresentazione delle variabili Diagramma cartesiano Si adatta molto bene alle variabili continue e serie storiche. Riferimento al sistema cartesiano ortogonale (origine, assi orientati e perpendicolari). Sono rappresentazione di coppie di valori (X,Y) chiamate coordinate del punto P(x,y). Se il fenomeno varia con continuità (per esempio la temperatura durante la stagione estiva) i punti si possono congiungere. Poligono di frequenze Si applica quando la variabile è continua e si possono congiungere fra di loro i punti centrali delle basi. Ipotizziamo di considerare il fatturato (in migliaia di euro) di 48 imprese. Operando con i valori centrali della classe si potrà costruire un poligono di frequenza in quanto le classi hanno ampiezza uguale. Pag. 93 Classi di fatturato in migliaia Fino a 400 Valore centrale fi 200 5 400-800 600 12 800-1200 1.000 16 1200-1600 1.400 11 1600-2000 1.800 4 TOTALE 48 20 15 fi 10 5 0 200 600 1.000 1.400 1.800 Istogramma La distribuzione precedente può essere illustrata anche tramite un istogramma che è una rappresentazione tramite rettangoli di caratteri continui e semicontinui le cui modalità sono raggruppate in classi aventi determinata ampiezza. Distribuzione di frequenza per classi Classi di Utile Frequenza Ampiezza Classe densità di frequenza 1-5 miliardi 5 4 5/4=1,25 5-10 miliardi 15 5 15/5=3 10- 15 miliardi 15 5 15/5=3 15-25 miliardi 10 10 10/10=1 25-50 miliardi 5 25 5/25=0,2 TOTALE 50 Le frequenze delle varie modalità sono uguali all’area dei rettangoli. Per cui: hi = ni/base (densità di frequenza) L’ipotesi che si assume e quella di uniforme distribuzione delle frequenze dentro la classe. Pag. 94 Congiungendo i punti centrali delle basi superiori dei rettangoli di un istogramma si ottiene una spezzata che viene denominata poligono di frequenze. di 3 1,25 1 1 5 10 15 25 50 E’ importante ricordare quindi, che nell’istogramma è l’area a rappresentare le frequenze (assolute o relative) delle varie classi. Le altezze dei rettangoli pertanto non sono proporzionali alle frequenze, lo sono invece le aree: infatti, l’altezza di ciascun rettangolo è data dal rapporto tra la frequenza assoluta/relativa o Pag. 95 Rappresentazioni grafiche per distribuzioni semplici secondo il livello di misurazione dei caratteri Tipo di grafico Grafici a barre e ortogrammi: a colonne (verticale) a nastri (orizzontale) Livello di misurazione dei caratteri Distribuzioni semplici (serie): caratteri qualitativi: mutabili sconnesse, mutabili rettilinee Diagrammi circolari o areogrammi circolari Distribuzioni semplici (serie): caratteri qualitativi: mutabili sconnesse, mutabili rettilinee Diagrammi in coordinate polari Distribuzioni semplici (serie): qualitativi: mutabili cicliche Cartogrammi, mappe Distribuzioni semplici (serie): caratteri qualitativi: mutabili sconnesse riferite a luoghi, territori, ecc. (serie territoriali) cartodiagrammi, caratteri Istogrammi e poligono di frequenza Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili (continue o semicontinue) divise in classi di valori Diagrammi in coordinate cartesiane ortogonali a canne d’organo Distribuzioni semplici (seriazioni): quantitativi: variabili discrete caratteri Distribuzioni semplici: serie temporali riferite a fenomeni discreti Diagrammi in coordinate cartesiane ortogonali o poligoni di frequenza e curve di frequenza Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili continue e semicontinue Ogiva o poligono di frequenze cumulate Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili continue, discrete, divise in classi Ideogrammi o pictogrammi diagrammi a figure simboliche Per distribuzioni semplici e doppie e qualsiasi tipo di carattere. Di carattere divulgativo ma non scientifico o Distribuzioni semplici: serie temporali riferite a fenomeni continui o semicontinui Fonte: Fraire M. Rizzi A., Elementi di Statistica, NIS, Roma, 1991. Pag. 96 BIBLIOGRAFIA Corbetta P., Metodologia tecniche della ricerca sociale, Il Mulino, Bologna, 2002 Corbetta P., Gasperoni G., Pisati M., Statistica per la ricerca sociale, Il Mulino, Bologna, 2001 Delvecchio F., Statistica per la ricerca sociale, Cacucci, Bari, 1986 Filippucci C., Qualità delle statistiche e controllo del processo di misura, in Rivista Italiana di Economia Demografia e Statistica, vol. LIV, n. 2, aprile-giugno 2000 Fraire M. Rizzi A., Elementi di Statistica, NIS, Roma, 1991 Giusti F., Statistica applicata, Cacucci, Bari, 1989 Istat, Stili di vita e condizioni di salute. Indagine Multiscopo sulle famiglie “Aspetti della vita quotidiana”, collana Informazioni n. 36, Roma 2003 Istat, Indagini sociali telefoniche. Metodologia ed esperienza della statistica ufficiale, Metodi e norme, Nuova Serie n. 10, Roma 2001 Istat, Programma Statistico Nazionale: triennio 2005-2007, Roma 2005 Kenneth D. Bailey, Metodi della ricerca sociale, 1-I principi fondamentali, 2-I metodi qualitativi, 3-L’inchiesta, 4-L’analisi e l’interpretazione dei dati, Il Mulino, Bologna, 2006. Leti G., Statistica descrittiva, Il Mulino, Bologna 1989 Kenneth D. Bailey, Metodi della ricerca sociale, 1-I principi fondamentali, 2-I metodi qualitativi, 3-L’inchiesta, 4-L’analisi e l’interpretazione dei dati, Il Mulino, Bologna, 2006. Zani S., Introduzione all’analisi dei dati nell’era di internet, Giuffrè editore, Milano, 2002 Pisati M., L’analisi dei dati: tecniche quantitative per le scienze sociali, Il Mulino Strumenti, Bologna, 2003 Pag. 97