lezione 2b - distribuzioni statistiche
Transcript
lezione 2b - distribuzioni statistiche
Rappresentazione tabellare dei dati Elaborazione dei dati Quando si raccolgono informazioni su un determinato fenomeno (v. anche matrice dei dati) ci si trova ad avere un gran mole di informazioni; quindi il problema diventa “sintetizzare la massa di dati grezzi” in pochi numeri o indici utilizzando metodi di sintesi che descrivano i dati. Elaborazione dei dati La distribuzione di un determinato collettivo secondo alcuni caratteri contiene tutte le informazioni sul collettivo che, spesso però sono troppe e quindi diventa difficile acquisirle tutte insieme o utilizzarle per fare confronti, ma occorrono delle sintesi (o elaborazioni). Le “sintesi” dei dati facilitano la mente nell’acquisizione delle informazioni ma fanno anche perdere parte dell’informazione. Le elaborazioni che si possono fare dipendono dal tipo di carattere (qualitativo o quantitativo) Sistemazione dei dati in tabella: spoglio 563472323264393 203346542367342 513437021315045 0 ||| 1 ||| 2 IIIII II 3 IIIII IIIII II 4 5 6 7 8 9 Sistemazione dei dati in tabella: spoglio 563472323264393 203346542367342 513437021315045 xi 0 1 2 3 4 5 6 7 8 9 frequenze assolute 3 3 7 12 7 5 4 3 0 1 45 Dato un certo numero di unità statistiche la prima operazione di sintesi è “contare” quante volte si presenta un determinato carattere sul collettivo di riferimento Frequenza assoluta: è il numero di volte con cui si presenta una data modalità Distribuzione di frequenza: è la tabella che associa ad ogni modalità la sua frequenza Età-xi 15-24 25-34 35-44 45-54 55-64 65-74 75-84 >=85 frequenze assolute frequenze cumulate Decessi ni relative fi Ni 3 0.00068 14 0.00317 63 0.01424 240 0.05426 722 0.16324 1,206 0.27267 1,455 0.32896 720 0.16279 4,423 1.00000 frequenze relative cumulate Fi frequenze assolute retrocumulate Ni' frequenze relative retrocumulate Fi' Frequenze Frequenza relativa: si ottiene rapportando la frequenza assoluta al numero totale delle osservazioni ni fi = N ni 0 ≤ fi = ≤ 1 N La Frequenza percentuale si calcola moltiplicando ogni frequenza relativa per 100 ni pi = ×100 N 0 ≤ ni ≤ N Frequenze cumulate e retrocumulate • La frequenza cumulata di una modalità corrisponde al numero (o alla percentuale) di casi che presentano quella modalità o una modalità precedente • La frequenza retrocumulata di una modalità corrisponde al numero (o alla percentuale) di casi che presentano quella modalità o una modalità successiva • La frequenza cumulata si può calcolare solo se la variabile è ordinale o quantitativa. Essa è data dalla somma della frequenza assoluta, relativa o percentuale, della modalità i-esima con tutte le frequenze (assolute, relative o percentuali) precedenti: precedenti Cumulata assoluta: Ni= n1 + n2 + ……….ni Cumulata relativa: Fi= f1 + f2 + ……….fi Distribuzione statistica di due caratteri: tabella di contingenza Decessi yi Età-xi 15-24 25-34 35-44 45-54 55-64 65-74 75-84 >=85 TOTALE Malattie cardiache Malattie dell'apparato respiratorio 1 3 24 93 324 450 560 298 1753 Tumori 0 2 14 17 42 334 446 228 1083 1 5 22 95 298 345 435 157 1358 Altro TOTALE 1 4 3 35 58 77 14 37 229 3 14 63 240 722 1,206 1,455 720 4,423 DISTRIBUZIONI PARZIALI PER CLASSI DI ETA’ DISTRIBUZIONI MARGINALI DISTRIBUZIONI PARZIALI PER CAUSA DI DECESSO Distribuzione statistica di quantità Classi di spesa N° aziende sanitaria- xi sanitarie ni <= 10000 10000--|20000 20000--|40000 > 40000 7 20 20 3 50 Ammontare di spesa 35000 270000 600000 160000 1065000 Distribuzione di quantità: è la tabella che associa ad ogni modalità l’ammontare del carattere che è imputabile a quella data modalità. Esempio di distribuzione di frequenza e di quantità REGIONI E RIPARTIZIONI La serie geografica è la tavola statistica che descrive la distribuzione di un carattere nello spazio Distribuzione di quantità Spesa sanitaria delle famiglie per regione in milioni di euro correnti Anno 2003 Piemonte Valle d'Aosta Lombardia Trentino-Alto Adige Veneto Friuli-Venezia Giulia Liguria Emilia-Romagna Toscana Umbria Marche Distribuzione Lazio Abruzzo frequenza Molise Campania Puglia Basilicata Calabria Sicilia Sardegna ITALIA di 2097 57 4476 418 2077 631 715 2148 1512 288 617 2404 413 118 1765 1311 150 668 1381 502 23748 Famiglie per regione Censimento 2001dati in milioni 1.8 0.1 3.7 0.4 1.7 0.5 0.7 1.7 1.4 0.3 0.5 2.0 0.5 0.1 1.9 1.4 0.2 0.7 1.8 0.6 21.8 Carattere quantitativo SERIAZIONE Carattere qualitativo SERIE La Serie storica è la tavola statistica che descrive l’andamento di un carattere nel tempo Tempo t N° pazienti dimessi 2001 245 2002 213 2003 187 2004 201