Esercizio 4 (Greco): Esercitazione 3

Commenti

Transcript

Esercizio 4 (Greco): Esercitazione 3
Risoluzione esercizio 4
Esercitazione 3
Punto a)
Determinare la distribuzione congiunta della tabella.
Colesterolo
<219
220-259
>259
totale
A lato è riportata la distribuzione congiunta
delle frequenze assolute. Rapportando
le frequenze assolute alla taglia, ho ottenuto
la distribuzione congiunta delle frequenze
relative.
Disturbi cardiaci
totale
20
553
573
31
439
470
41
245
286
92
1237
1329
Dist. Cong. Freq. Relative:
Colesterolo
<219
220-259
>259
totale
Disturbi cardiaci
totale
0,015
0,416
0,4311551
0,02
0,33
0,353649
0,03
0,18
0,215199
0,069224 0,930775
1,00
Punto b) Distribuzione condizionata ("disturbi cardiaci"|"colesterolo"):
Per calcolare la distribuzione condizionata sotto riportata, ho rapportato le marginali di riga del carattere
"colesterolo" per il totale delle marginali di riga:
Colesterolo
<219
220-259
>259
Disturbi cardiaci
0,0348
0,967
0,056
0,933
0,139
0,8558
totale
1,00
1,00
1,00
Ad esempio: 0,0348= 0,015/0,43
Punto c) costruzione del mosaic plot.
Per la costruzione del mosaic plot, (che mi fornisce informazioni in merito all'indipendenza dei caratteri esaminati
e mi consente di rappresentare graficamente la distribuzione condizionata), prima di tutto ho costruito
un quadrato di lato 1; al passo successivo l'ho suddiviso in 3 parti in base alla marginale "colesterolo" e infine
ho ulteriormente suddiviso le 3 partizioni in base alle frequenze della distribuzione condizionata.
0,0348
0,056
0,139
0,967
0,933
0,8558
< 219
220-259
>259
0,43
0,35
0,215
Punto d) Per stabilire se tra i due caratteri esiste un legame associativo, ho calcolato l'indice di connessione di
Risoluzione esercizio 4
Esercitazione 3
Cramer.
Distribuzione frequenze relative se indipendenti: verifico che le frequenze relative congiunte siano il prodotto
delle frequenze relative marginali, per riconoscere se le due variabili sono indipendenti.
Colesterolo
Disturbi cardiaci
totale
Colesterolo
<219
0,431151*0,06922 0,431151*0,9307
4=0,029845996 75= 0,401304572
0,43115
220-259
0,353649*0,06922 0,353649*0,9307
4=0,024480998 75 =0,329167648
0,35
220-259
0,215199*0,06922 0,215199*0,9307
4 =0,014896935 75=0,200301849
0,21
>259
>259
totale
≈0,069
<219
Disturbi cardiaci
0,029845996*
1329=39,67
533,33
32,535
437,46
19,8
266,2
≈0,93
I valori ottenuti nella tabella a sinistra, vanno
moltiplicati per la taglia (1329), al fine di ottenere le
frequenze assolute se indipendenti (nij)
Al passo successivo è necessario innanzitutto fare la differenza tra la tabella delle frequenze assolute e quella
delle frequenze assolute se indipendenti, al fine di poter studiare la connessione tra i due caratteri:
Distrib. Congiunta freq. Assolute
Colesterolo
Disturbi cardiaci
totale
Dist. Congiunta freq. Assolute se indipendenti
Colesterolo
Disturbi cardiaci
<219
220-259
>259
totale
573
470
286
1329
<219
220-259
>259
Colesterolo
Disturbi cardiaci
-19,67
19,67
-1,54
1,54
21,2
-21,2
20
31
41
92
553
439
245
1237
<219
220-259
>259
0,029845996*
1329=39,67
533,33
32,535
19,8
437,46
266,2
E' importante che
la somma dei
valori sulle righe e
sulle colonne
faccia zero
La tabella ottenuta deve essere normalizzata dividendo ciascun valore per le frequenze assolute se indipendenti
(ottenendo così:
Cij).
<219
-0,4958
0,03688
220-259
-0,047
0,0035
Ultimo passaggio prima di calcolare l'indice di
connessione è quello di elevare al quadrato e
moltiplicare per le frequenze assolute se indipendenti i
1,07
-0,0796
valori ottenuti. (Ottenendo così:
Colesterolo
>259
Disturbi cardiaci
Cij^2 * nij)
Risoluzione esercizio 4
Esercitazione 3
Colesterolo
<219
220-259
>259
Disturbi cardiaci
9,75
0,0718
22,669
0,7254
0,0053
1,6866
Cr*=√[∑∑c
ij
* nij]/[n*min(r-1,s-1)]
Dall'indice calcolato si evince
un moderato livello di
connessione tra i due caratteri.
Cr*=√(34,91/1329*1)=0,16
Punto e)
Per il calcolo delle probabilità richieste dalla traccia, ho costruito il diagramma ad albero:
0,43
"<219"
0,35
"220-259"
0,215
">259"
"DIST. SI"
0,0348
P("DIST SI"|"<219")
"DIST. NO"
0,967
P("DIST NO"|"<219")
"DIST. SI"
0,056
P("DIST SI"|"220-259")
"DIST NO"
0,933
P("DIST NO"|"220-259")
"DIST. SI"
"DIST. NO"
0,139
0,8558
P("DIST SI"|">259")
P("DIST NO"|">259")
Considerando normali valori del colesterolo compresi tra [220;259], ho calcolato la probabilità che scelto a caso
un paziente, questo abbia un valore del colesterolo non-normale:
P("<219"U">259")= P("<219")+P(">259")= 0,43+0,215= 0,645
Punto f) Probabilità che scelto a caso un soggetto, questo, sia sano; ossia non soffra di disturbi cardiaci né di
valori anomali del colesterolo.
P("DIST. NO" П "220-259") = P("DIST. NO"|"220-259")*P("220-259")= 0,933*0,35 = 0,32655
Punto g) Probabilità che un soggetto scelto a caso soffra di colesterolo alto e non soffra di disturbi cardiaci:
P("DIST. NO" П ">259") = P("DIST. NO"|">259")*P(">259")= 0,8558*0,215=0,1839
Punto h) Probabilità che un soggetto scelto a caso soffra di colesterolo alto se non soffre di disturbi cardiaci.
Risoluzione esercizio 4
Esercitazione 3
P(">259|"DIST. NO")=
P(">259"П "DIST.NO")
P("DIST.NO")
Al numeratore ho utilizzato la probabilità
dell'intersezione, mentre al denominatore
ho applicato il teorema delle alternative:
P(A|B)= ∑ P(A|Bi)*P(Bi).
Teorema delle alternative
"<219"
0,43
0,35
"220-259"
0,215
">259"
P("DIST. NO")= P("DIST.NO"|"<219")*P("<219")+P("DIST.NO"|"220-259")*P("220-259")+
P("DIST.NO"|">259")*P(">259")=
"DIST. SI"
"DIST. NO"
"DIST. SI"
"DIST NO"
"DIST. SI"
"DIST. NO"
0,0348
0,967
0,056
0,933
0,139
0,8558
P("DIST SI"|"<219")
P("DIST NO"|"<219")
P("DIST SI"|"220-259")
P("DIST NO"|"220-259")
P("DIST SI"|">259")
P("DIST NO"|">259")
P("DIST. NO")= (0,967*0,43)+(0,933*0,35)+(0,8558*0,215)= 0,93
In definitiva:
P(">259|"DIST. NO")=
0,1839
0,93
0,1978
Punto i) Probabilità che un soggetto non soffra di disturbi cardiaci se soffre di colesterolo alto.
P("DIST. NO"|">259")= [P("DIST. NO"П ">259")/P(">259")] = 0,1839/0,215 = 0,855
Punto j) Tra i livelli di colesterolo, qual è la causa più probabile di disturbi cardiaci?
Per rispondere a tale quesito, ho deciso di applicare il Teorema di Bayes secondo cui: individuato l'effetto "B", si
valuta la probabilità che la causa sia stata "A".
Secondo l'approccio bayesiano: P(A|B)=] P(B|A)*P(A)] / P(B)
0,43
0,35
0,215
"<219"
"220-259"
">259"
"DIST. SI"
"DIST. NO"
"DIST. SI"
"DIST NO"
"DIST. SI"
"DIST. NO"
0,0348
0,967
0,056
0,933
0,139
0,8558
P("DIST SI"|"<219")
P("DIST NO"|"<219")
P("DIST SI"|"220-259")
P("DIST NO"|"220-259")
P("DIST SI"|">259")
P("DIST NO"|">259")
Risoluzione esercizio 4
Esercitazione 3
Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo "<219"?
P("DIST.SI"|"<219")*P("<219")
P("DIST.SI")
P("<219"|"DIST. SI")=
Teorema delle alternative
0,0348*0,43
(0,0348*0,43)+(0,056*0,35)+(0,139*0,215)
P("<219"|"DIST. SI")=
Nel 23% dei casi il
colesterolo basso, causa
disturbi cardiaci.
Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo per valori compresi tra: 220 e 259?
P("<219"|"DIST. SI")=
P("220-259"|"DIST.SI")=
P("220-259"|"DIST.SI")=
0,23
P("DIST.SI"|"220-259")*P("220-259")
P("DIST.SI")
0,056*0,35
0,064449
P("220-259"|"DIST.SI")=
0,3
Nel 30% dei casi, il
colesterolo compreso tra
220 e 259, causa disturbi
cardiaci.
Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo per valori superiori a 259?
P(">259"|"DIST.SI")=
P(">259"|"DIST.SI")=
Nel 46% dei casi
il colest. Alto
causa disturbi
cardiaci.
P("DIST.SI"|">259")*P(">259")
P("DIST.SI")
0,139*0,215
0,064449
P(">259"|"DIST.SI")=
0,46
In definitiva osservando le tre diverse probabilità ottenute possiamo dedurre che: è il colesterolo
alto, (ossia ">259"), la causa più probabile dei disturbi cardiaci.
ho ottenuto
Risoluzione esercizio 4
Esercitazione 3
Risoluzione esercizio 4
Esercitazione 3
Risoluzione esercizio 4
Esercitazione 3
Risoluzione esercizio 4
Esercitazione 3
Risoluzione esercizio 4
Esercitazione 3