VARIABILI E DISTRIBUZIONI DI FREQUENZA
Transcript
VARIABILI E DISTRIBUZIONI DI FREQUENZA
VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011 1 RAPPRESENTARE I DATI: TABELLE E GRAFICI Un insieme di misure è detto serie statistica o serie dei dati 1) Una sua prima elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente. 2) Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. 3) Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. DISTRIBUZIONE DI FREQUENZA 2 RAPPRESENTARE I DATI: TABELLE E GRAFICI Consideriamo una variabile ottenuta dal conteggio del numero di giorni di incubazione del virus influenzale trascorsi dal momenti dell’inoculazione del virus in una cavia (variabile discreta). n=45 X = (x1, x2, … , x45) = (5, 6, 3, 4, … , 5, 0, 4, 5) 3 RAPPRESENTARE I DATI: TABELLE E GRAFICI Il primo passaggio, in una distribuzione discreta, consiste nel definire le classi: 1) identificare il valore minimo (0, nei dati della tabella) e quello massimo (9), 2) contare quante volte compare ogni valore (modalità o intervalli di classe) (cioè quante sono le cavie con uguale numero di giorni di incubazione del virus). 3) Si ottiene la seguente tabella: 4 RAPPRESENTARE I DATI: TABELLE E GRAFICI 5 PERCHÉ USARE LE FREQUENZE RELATIVE? Per il confronto della distribuzione di una variabile in campioni di dimensioni diverse Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B. 6 PERCHÉ USARE LE FREQUENZE RELATIVE? FREQUENZE ASSOLUTE GRUPPO A GRUPPO B 90 EFFETTO ni (A) ni(B) 80 70 60 migliorato invariato peggiorato 50 80 20 33 53 14 50 40 30 20 150 100 10 0 migliorato invariato peggiorato 7 PERCHÉ USARE LE FREQUENZE RELATIVE? EFFETTO ni (A) ni(B) pi (A) pi(B) migliorato invariato peggiorato 50 80 20 33 53 14 0,33 0,53 0,14 0,33 0,53 0,14 150 100 1,00 1,00 FREQUENZE RELATIVE 0,60 0,50 0,40 GRUPPO A GRUPPO B 0,30 0,20 0,10 8 0,00 migliorato invariato peggiorato RAPPRESENTARE I DATI: TABELLE E GRAFICI La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale di osservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% delle cavie sviluppa il virus in meno di 5 giorni; il 56% al massimo 3 in giorni). 9 RAPPRESENTARE I DATI: TABELLE E GRAFICI Consideriamo l’altezza di un gruppo di pazienti visitati in un ambulatorio ortopedico (variabile continua). 10 RAPPRESENTARE I DATI: TABELLE E GRAFICI Non conviene fare una classe per ogni cm. raggruppamento in classi (arbitrario), che comprendano più modalità di espressione. Classe F. Ass. F. relat F. Cumul Xi ni fi Fi [60-80) 1 2.5 2.5 [80-100) 3 7.5 10.0 [100-120) 10 25.5 35.0 [120-140) 12 30.0 65.0 [140-160) 7 17.5 82.5 [160-180) 5 12.5 95.0 [180-200) 2 5.0 100.0 11 Costruiamo gli intervalli di frequenza: Trovo il valore minimo e il valore massimo min = 60 cm max = 200 cm Calcolo il campo di variazione (range): Xmax− Xmin r = 140 Stabilire il numero degli intervalli k=7 Calcolare l’ampiezza degli intervalli: δi= Range / k δi = 140/7 =20 Costruisco gli intervalli di classe (esclusivi ed esaustivi) Conto il numero di individui per ogni classe 12 RAPPRESENTARE I DATI: TABELLE E GRAFICI Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso: X= grado del trauma xi: 0=assente 1=trauma lieve 2=trauma grave 3=lesioni permanenti 4=decesso 0 2 1 1 1 2 0 0 1 0 1 1 0 0 0 3 1 2 0 1 1 0 0 1 0 1 1 0 2 0 0 0 1 0 1 0 2 1 2 0 0 2 0 1 0 1 0 1 0 3 1 2 0 0 0 0 1 0 0 0 1 0 1 0 1 0 2 0 1 2 1 2 0 1 0 2 2 1 0 1 0 0 0 0 4 0 1 1 2 0 0 2 1 0 2 0 0 2 1 0 13 Costruzione della tabella e calcolo di frequenze relative: VARIABILE QUALITATIVA MODALITA' frequenza frequenza assoluta ni relativa n i /n assente 48 48/100 = 0,48 lieve 32 0,32 grave 17 0,17 2 1 0,02 0,01 lesioni permanenti decesso TOTALE 100 k=5 14 COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZA 1. definire un criterio di classificazione delle osservazioni ⇒ definizione delle modalità (variabile qualitativa) ⇒ definizione degli intervalli di classe (variabile quantitativa) IL CRITERIO DI CLASSIFICAZIONE DEVE ESSERE 1. ESAUSTIVO: devono essere riportate tutte le modalità o i valori assunti dalla variabile 2. NON AMBIGUO: le modalità/gli intervalli di classe devono essere mutuamente esclusivi Ω Ωj Ω4 Ω3 Ω1 Ω2 5 2 6 3 1 7 4 ogni unità statistica deve essere assegnata ad una unica modalità o intervallo di classe 15 R Esempio Variabile quantativa: classificazione dell’età in anni compiuti SCORRETTA CORRETTA 0-10 0-9 10-20 10-19 ….. ….. 70-80 70-79 ≥ 80 Variabile qualitativa: classificazione del colore dei capelli SCORRETTA CORRETTA Nero Nero Chiaro Castano Biondo Biondo Rosso Rosso 16 2. Assegnare ad ogni valore (modalità/intervallo di classe) la frequenza (assoluta e/o relativa) corrispondente FREQUENZA ASSOLUTA (ni) numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile ⇒ 0 ≤ ni ≤ n ⇒ ΣKi=1 ni = n1 + n2 + .. + nK = n ottenuta tramite un CONTEGGIO n= numero totale delle osservazioni K= numero dei valori/modalità/classi della variabile 17 FREQUENZA RELATIVA: (pi = ni / n) rapporto tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile e la dimensione campionaria ⇒ 0 ≤ pi ≤ 1 ⇒ ΣKi=1 pi = p1 + p2 + .. + pK = 1 FREQUENZA RELATIVA PERCENTUALE: (pi% = ni / n * 100) indica quanto volte un fenomeno si manifesta su una casistica di 100 osservazioni ⇒ 0% ≤ pi% ≤ 100% ⇒ ΣKi=1 pi % = p1 % + p2 % + .. + pK % = 100% 18 FREQUENZA CUMULATA FREQUENZA ASSOLUTA CUMULATA (Fi) numero di osservazioni il cui valore è inferiore o uguale ad una data modalità o a un dato valore xi Fi (-∞ )=0 Fi (+ ∞ )=n FREQUENZA RELATIVA CUMULATA (Pi = Fi / n; Pi% = Fi /n * 100%) Pi (-∞ )=0 Pi (+ ∞ )=1 19 MISURE D’ORDINE IN UNA DISTRIBUZIONE SCOPO: descrivere la posizione di un dato individuale nell’ambito di una distribuzione RANGO: posizione di un’osservazione xi in una serie di dati ordinati in modo crescente RANGO PERCENTILICO: sia xi la i-esima osservazione di un campione di n unità ordinate in modo crescente. Il rango percentilico corrispondente è dato da: rango (xi) Rp = *100% n+1 20 Esempio: nelle seguenti tabelle si riportano le osservazioni del peso per n soggetti n=6 PESO (kg) 53 55 60 61 63 65 Rango = 3 Rp = 3 / (6+1)*100 = 43% n = 60 PESO (kg) 53 55 60 61 63 65 ….. 92 Rango = 3 Rp = 3 / (60+1)*100 = 5% 21 RAPPRESENTAZIONI GRAFICHE DEI DATI Le rappresentazioni grafiche servono per evidenziare in modo semplice le caratteristiche fondamentali di una distribuzione di frequenza. Le rappresentazioni grafiche sono numerose e debbono essere scelte in rapporto al tipo di dati e quindi alla scala utilizzata. 22 GRAFICI PER DATI QUANTITATIVI Variabili continue misurate su scale ad intervallo o di rapporto (altezza, peso, emoglobina, pressione arteriosa, colesterolo ematico….) ISTOGRAMMI O POLIGONI 23 Gli istogrammi sono grafici a barre verticali accostate, nei quali: - le misure della variabile sono riportate lungo l'asse orizzontale, - l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o quella percentuale, con cui compaiono i valori di ogni classe. 24 I poligoni • Rappresentazione di valori relativi o di percentuali, in quanto è implicito che l’area totale sottesa sia uguale a 1 o 100%. • L'asse orizzontale rappresenta il fenomeno (valore variabile), mentre l'asse verticale rappresenta la frequenza o percentuale di ogni classe (relativa o cumulata). • Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una linea spezzata : A) i punti centrali superiori di ogni classe se frequenza relativa, B) i punti estremi superiori destri dei rettangoli se frequenza cumulata. 25 POLIGONO FREQUENZE RELATIVE 35 30 25 20 15 10 5 0 [60-80) [80-100) [100-120) [120-140) [140-160) [160-180) [180-200) 26 POLIGONO FREQUENZE CUMULATE 120 100 80 60 40 20 0 80 100 120 140 160 180 200 27 Sempre sugli istogrammi… • Un istogramma deve essere inteso come una rappresentazione di un area: le superfici dei vari rettangoli devono essere proporzionali alle frequenze corrispondenti. • Se le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le loro altezze risultano proporzionali alle frequenze che rappresentano. • Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo. • se le ampiezze delle classi sono diverse le frequenze sono rappresentate dalle superfici e quindi è necessario rendere l'altezza proporzionale 28 GRAFICI PER DATI QUALITATIVI Variabili nominali o ordinali (sesso, città di provenienza, intensità del dolore, numero colonie batteriche, numero linfonodi metastatici ….) DIAGRAMMI A BARRE O GRAFICI A TORTA 29 DIAGRAMMI A BARRE Rettangoli con basi uguali ed altezze proporzionali alle frequenze dei vari gruppi considerati. • I Rettangoli non sono tra loro contigui, ma distaccati; • Sull’asse delle ascisse vengono riportati nomi, numeri interi, etichette o simboli; • Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche avendo solo un significato simbolico. 0,6 0,5 0,4 0,3 0,2 0,1 0 assente lieve grave lesioni permanenti decesso 30 MA ANCHE…. 0,6 0,5 0,4 Ospedale A Ospedale B 0,3 0,2 0,1 0 assente lieve grave lesioni permanenti decesso 100% 90% decesso 80% lesioni permanenti 70% grave 60% lieve 50% assente 40% 30% 20% 10% 0% Ospedale A Ospedale B 31 GRAFICI A TORTA (AEREOGRAMMI) • si divide un cerchio in parti proporzionali alle classi di frequenza; • la somma di tutte le classi è uguale all’unità (1 o 100%). Ospedale A assente lieve grave 17; 17% 2; 2% 1; 1% lesioni permanenti decesso 48; 48% 32; 32% 32 DIAGRAMMI IN SINTESI ISTOGRAMMA A CANNE D’ORGANO DIAGRAMMA A BARRE variabile continua variabile discreta variabile qualitativa 1. rettangoli adiacenti 2. le basi dei rettangoli possono essere diverse 3. frequenza sempre proporzionale all’AREA dei rettangoli (anche all’altezza se basi uguali) 1. barre separate (per evidenziare la non continuità dei valori / la distinzione tra le modalità) 2. le basi delle barre sono tutte di uguale ampiezza 3. frequenza proporzionale ALTEZZA delle barre alla 33 ESERCIZIO I dati seguenti si riferiscono al tipo di parto di 50 neonati in Italia: X = tipo di parto xi = normale forcipe cesareo → 0 → 1 → 2 0 2 0 0 0 2 0 0 2 0 0 0 2 0 0 0 0 0 0 2 0 2 0 0 0 2 0 0 2 2 0 0 2 0 0 2 0 0 2 0 0 1 0 0 2 0 0 2 0 0 Determinare la distribuzione di frequenza frequenza modalità assoluta xi ni frequenza relativa pi frequenza relativa percentuale pi (%) normale 35 35/50 = 0.70 (35/50)*100 = 70% forcipe 1 1/50 = 0.02 (1/50)*100 = 2% cesareo 14 14/50 = 0.28 (14/50)*100 = 28% TOTALE 50 1.00 100% 34 ESERCIZIO Nella tabella seguente sono riportati i dati relativi ad uno studio sulla crescita condotto su 40 soggetti: Distanza in mm fra il centro della ghiandola pituitaria e la fossa pterigo-mascellare: 16 21 23 24 19 21 23 24 19 21 23 24 20 22 23 25 20 22 23 25 20 22 23 25 20 22 23 25 21 22 24 26 21 22 24 26 21 23 24 27 1. Costruire 4 intervalli di frequenza 2. Costruire la tabella di frequenza riportando frequenze assolute, frequenze relative e frequenze cumulate relative. 35 SOLUZIONE ESERCIZIO Valore minimo=16 mm valore massimo =27 mm Campo di variazione (range): 27-16=11 Numero degli intervalli: k=4 Ampiezza degli intervalli: δi= 11/4 = 2.75 ~3 TABELLA DI FREQUENZA: classe 16-18 19-21 22-24 25-27 ni 1 12 20 7 40 pi 2,5% 30,0% 50,0% 17,5% 100,0% Fi 1 13 33 40 Pi 2,5% 32,5% 82,5% 100,0% 36 TABELLA DI FREQUENZA ni statura in classi [150-155) [155-160) [160-165) [165-170) [170-175) [175-180) [180-185) [185-190) [190-195) TOTALE Freq. Assoluta pi Fi Pi Freq. Relativa (%) Freq. Assoluta Cumulata Freq. Relativa Cumulata (%) 1 1/125= 8 8/125= 24 24/125= 34 27 19 9 1 2 125 0.8% 6.4% 19.2% 27.2% 21.6% 15.2% 7.2% 0.8% 1.6% 100.0% 1 1+8 9 1+8+24 33 1+8+24+34 67 94 113 122 123 125 125 0.8% 0,8+6,4 7.2% 0,8+6,4+19,2 26.4% 0,8+6,4+19,2+27,2 53.6% 75.2% 90.4% 97.6% 98.4% 100.0% 37 ISTOGRAMMA e POLIGONO DELLE FREQUENZE CUMULATE (CURVA AD OGIVA) 100% 90% L’L’OGIVA OGIVAsisiottiene ottieneunendo unendoi i punti punticorrispondenti corrispondentiaiaiLIMITI LIMITI SUPERIORI SUPERIORIdidiciascuna ciascunaclasse classe della delladistribuzione distribuzionecumulata cumulata 80% 70% 60% 50% 40% 30% 20% 10% 0% 150 155 160 165 170 175 180 185 190 statura (cm) 195 38 RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE DI FREQUENZA DI UNA VARIABILE QUANTITATIVA: POLIGONO DELLE FREQUENZE SEMPLICI E CUMULATE 100% 90% 80% curva ad ogiva (poligono delle frequenze relative cumulate) 70% 60% 50% 40% 30% poligono delle frequenze relative 20% 10% 0% 150 155 160 165 170 175 180 185 190 statura (cm) 195 39