svolgimento dell`esame prima sessione di luglio

Transcript

svolgimento dell`esame prima sessione di luglio
Primo esame di luglio
1) caricare i dati sulle feci di sciacallo e genetta usando il comando data(preybiom).I dati
consistono in 2196 tipi di organismi ritrovati in 953 feci di sciacallo o genetta provenienti da
due siti,Costruire un modello lineare additivo stretto per predirre la biomassa (variabile
'biomasse') usando le variabili category (tipo di resto organico), sp (sciacallo o genetta), e
saison (stagione).
1. Verif icare se alcuni stati della variabile category sono ridondanti
2. quale stagioni tende a produrre oggetti nelle feci con biomassa maggiore
3. chi tra sciacallo o genetta tende a lasciare resti con biomassa maggiore
R:
1.1) per verif icare se alcuni livelli o stati della variabile categorica 'category' sono
ridondanti dunque hanno effetti nel modello non statisticamente diversi uso il Tukey
HSD test. Il test riporta i risultati per ogni paragone a coppia a coppia e tiene conto
del problema dei testi molteplici (i p value sono già calibrati alla molteplicità di test ).
Scelgo una soglia di 0.05 e noto che molti dei confronti a coppie sono maggiori di
tale valore
>TukeyHSD(aov(lm(biomasse~category+sp+saison, data=preybiom)))
$category
diff
lwr
upr
p adj
ind-dech
1.79356529 -2.3410367 5.9281672 0.9351982
ins-dech
0.37401940 -1.3379671 2.0860059 0.9995621
mam-dech
3.38446267
1.6719809 5.0969444 0.0000000
mol-dech
-2.29492522 -4.9054711 0.3156207 0.1424024
oisauv-dech
1.13587197 -0.9857989 3.2575428 0.7982801
oisdom-dech
8.26942730
6.2336900 10.3051646 0.0000000
rept-dech
-2.34004096 -6.1047792 1.4246972 0.6214529
vege-dech
1.37577849 -0.5133058 3.2648627 0.3850445
vegn-dech
-0.69817342 -2.4199516 1.0236048 0.9572595
ins-ind
-1.41954589 -5.2993345 2.4602427 0.9782341
mam-ind
1.59089738 -2.2891098 5.4709045 0.9541579
mol-ind
-4.08849051 -8.4401352 0.2631542 0.0866381
oisauv-ind
-0.65769332 -4.7348674 3.4194808 0.9999654
oisdom-ind
6.47586201
2.4427382 10.5089859 0.0000176
rept-ind
-4.13360625 -9.2614826 0.9942701 0.2411126
vege-ind
-0.41778681 -4.3789105 3.5433369 0.9999991
vegn-ind
-2.49173871 -6.3758579 1.3923805 0.5765170
mam-ins
3.01044326
2.0668227 3.9540639 0.0000000
mol-ins
-2.66894462 -4.8536130 -0.4842762 0.0044228
oisauv-ins
0.76185257 -0.8063672 2.3300724 0.8765837
oisdom-ins
7.89540790
6.4455623 9.3452535 0.0000000
rept-ins
-2.71406036 -6.1970303 0.7689096 0.2865711
vege-ins
1.00175908 -0.2337430 2.2372612 0.2336490
vegn-ins
-1.07219283 -2.0325814 -0.1118042 0.0151071
mol-mam
-5.67938789 -7.8644444 -3.4943314 0.0000000
oisauv-mam
-2.24859069 -3.8173511 -0.6798303 0.0002548
oisdom-mam
4.88496464
3.4345342 6.3353951 0.0000000
rept-mam
-5.72450363 -9.2077171 -2.2412902 0.0000094
vege-mam
-2.00868418 -3.2448725 -0.7724959 0.0000128
vegn-mam
-4.08263609 -5.0439073 -3.1213649 0.0000000
oisauv-mol
3.43079719
0.9121933 5.9494011 0.0007025
oisdom-mol
10.56435252
8.1177008 13.0110042 0.0000000
rept-mol
-0.04511574 -4.0470068 3.9567753 1.0000000
vege-mol
3.67070370
1.3446518 5.9967556 0.0000275
vegn-mol
1.59675180 -0.5955982 3.7891018 0.3849392
oisdom-oisauv
7.13355533
5.2171415 9.0499691 0.0000000
rept-oisauv
-3.47591293 -7.1774895 0.2256637 0.0870079
vege-oisauv
0.23990651 -1.5199386 1.9997516 0.9999919
vegn-oisauv
rept-oisdom
vege-oisdom
vegn-oisdom
vege-rept
vegn-rept
vegn-vege
-1.83404540 -3.4129487 -0.2551421 0.0090637
-10.60946826 -14.2624682 -6.9564683 0.0000000
-6.89364882 -8.5488811 -5.2384165 0.0000000
-8.96760073 -10.4289956 -7.5062059 0.0000000
3.71581944
0.1424707 7.2891682 0.0338561
1.64186754 -1.8459258 5.1296609 0.8960691
-2.07395191 -3.3229867 -0.8249171 0.0000071
>summary(lm(biomasse~category+sp+saison, data=preybiom))
Call:
lm(formula = biomasse ~ category + sp + saison, data = preybiom)
Residuals:
Min
1Q Median
3Q
Max
-11.9597 -2.8301 -0.8367 1.4536 34.5763
Coefficients:
(Intercept)
categoryind
categoryins
categorymam
categorymol
categoryoisauv
categoryoisdom
categoryrept
categoryvege
categoryvegn
spG
saisonHD
saisonHP
saisonS
saisonSD
saisonSP
--Signif. codes:
Estimate Std. Error t value Pr(>|t|)
5.4418
0.6147
8.852 < 2e-16 ***
2.0673
1.3073
1.581 0.113946
0.8844
0.5426
1.630 0.103260
3.9050
0.5419
7.206 7.93e-13 ***
-1.9449
0.8254 -2.356 0.018546 *
1.7438
0.6720
2.595 0.009520 **
7.7732
0.6460 12.034 < 2e-16 ***
-0.9738
1.1950 -0.815 0.415197
1.6061
0.6009
2.673 0.007573 **
-0.4398
0.5443 -0.808 0.419235
-2.9593
0.2313 -12.793 < 2e-16 ***
-1.4518
0.4788 -3.032 0.002459 **
-1.0562
0.4725 -2.235 0.025495 *
-1.3917
0.5827 -2.388 0.017005 *
-1.6103
0.4505 -3.575 0.000358 ***
-2.0613
0.4668 -4.415 1.06e-05 ***
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.827 on 2180 degrees of freedom
Multiple R-squared: 0.2675,
Adjusted R-squared: 0.2625
F-statistic: 53.07 on 15 and 2180 DF, p-value: < 2.2e-16
1.2)Tutti i parametri di stagione hanno coefficiente negativo dunque lo stato usato
nell'intercetta ha valori medi di biomassa più grandi. Dunque lo stagione H produce
tipi di agglomerati nelle feci con biomasse più importanti
1.3) Tutti i parametri di stagione hanno coefficiente negativo dunque lo stato usato
nell'intercetta ha valori medi di biomassa più grandi. Dunque lo sciacallo produce
tipi di agglomerati nelle feci con biomasse più importanti. Il risultato non sorprende
essendo lo sciacallo più grande della genetta.
2) E’ noto che la percentuale di persone che hanno i capelli rossi in Piemonte, in Sardegna
e nelle Marche `e rispettivamente del 5%, 1% e 2%. Le tre regioni hanno rispettivamente
4.5, 2, 1.5 milioni di abitanti.
Calcolare la probabilità' che la regione di origine di una persona, scelta a caso tra gli
abitanti delle tre regioni, sia il Piemonte, supposto che :
a) abbia i capelli rossi
b) non abbia i capelli rossi
R:
Posto che R e NR sono quelli con capelli rossi e no e P,S,M sono le 3 regioni
noi vogliamo sapere il valore di P(P ∩ R) ( probabilità dell'evento intersezione
“essere piemontese” ed “avere i capelli rossi”) e P(P ∩ NR) sapendo che :
P(P)=4,5/8=0.5625
P(S)=2/8=0.25
P(M)=1,5/8=0.1875
P(R | P)=0.05
P(R | S)=0.01
P(R | M)= 0.02
R e NR sono due eventi complementari
Da questi dati posso dire che:
La probabilità dell'intersezione dei due eventi P e R e' uguale al prodotto della
probabilità di P e quella di R sapendo che l'evento P e' vero (probabilità
condizionale).
P(P ∩ R)=P(P)*P(R | P)=0.5625*0.05=0.028
P(P ∩ NR)=P(P)*P(NR | P)=P(P)*(1-P(R | P))=0.5625*0.95=0.534
3)
In un centro di monitoraggio di qualità delle acque si trova un campione contaminato al
giorno. Ogni campione trovato contaminato va sottoposto ad ulteriori controlli. Il gestori
decide di tagliare le spese e comprare ogni mese 30 kit di controllo ulteriore. Qual'e' la
probabilità che i kit finiscano prima della fine del mese?
Se np uguale a 1 in un giorno e' uguale a 30 in 30 giorni
allora k>30 eventi e lambda=30
1-ppois(30,30)=0.4516485
4)Una coppia vorrebbe avere una bambina, quanti figli deve pensare di fare per avere una
probabilità superiore del 0.99 di avere almeno una bambina, assumendo equiprobabilità di
avere figli maschi e femmine.
R:
Si definiscono le variabili. Provo valori di n da 1 a 20
>k=0;n=1:20; p=0.5
> min(which(1-dbinom(k,n,p)>0.99))
7
1-dbinom(k,n,p) mi da tutte le probabilità di avere almeno una femmina data una
certa dimensione di famiglia da 1 a 20
1-dbinom(k,n,p)>0.99 definisce quali soluzioni soddisfano il criterio
la funzione min identif ica la soluzione meno impegnativa
5) In una popolazione omogenea ci si aspetta che la distribuzione dei genotipi segua
l'equilibrio di hardy weiberg in cui data una frequenza di due alleli p e q i tre possibili
genotipi (pp, pq, qq) abbiano le frequenze p 2 , 2pq e q2.
Usando il test del chi quadro vedere se una popolazione e' omogenea se osservo 36
persone con gruppo sanguigno AA, 47 AB e 23 BB. Le frequenze degli alleli sono 2*36+
47 A, 2*23+47 B.
R:
> A=2*36+ 47
> B=2*23+47
> A=A/(A+B)
> B=1-A
>B
[1] 0.4386792
> p=c(A^2,2*A*B,B^2)
>p
[1] 0.3150810 0.4924795 0.1924395
> x=c(36,47,23)
H0=gli osservati sono stati generati da un processo che segue il modello su cui ho
calcolati gli attesi
HA= il modello non spiega gli osservati
> chisq.test(x=x,p=p, rescale.p=TRUE)
Chi-squared test for given probabilities
data: x
X-squared = 1.0529, df = 2, p-value = 0.5907
Usando una soglia di 0.05 possiamo dire che non ci sono deviazioni sensibili dal
modello di hardy-weimberg (0.5907>>0.05)
P.S. Notare che i gradi di libertà (df) sono erronei, anche se nell'esame non sarebbe
conteggiato come errore. Il programma assume che le probabilità p sono state
ottenute a prescindere dai dati osservati, mentre in realtà l'atteso ha usato
l'osservazione per stimare due parametri ( la frequenza di A e B)
Dunque 3 osservazione – 2 parametri = 1 grado