compito del 28 luglio svolto

Transcript

compito del 28 luglio svolto
Regole per l'esame
ad ogni studente verranno consegnati con una memoria USB questo file, un
glossario di termini R e alcuni file di dati. Alla fine dell'esame sempre con un
memoria USB verranno ritirati i compiti.Svolgere gli esercizi usando R e trascrivere
i risultati commenti e conclusioni in un documento di OpenOffice o altro programma
di video scrittura in formato doc o rtf o txt salvando in un file con il proprio nome e
cognome. In intestazione del file mettere nome cognome, numero matricola
(opzionale), e data.
Ricordarsi di includere nelle risposte sia i comandi di R usati che le i risultati
ottenuti.
Non includere pero' le prove, solo le operazioni decisive. Inoltre alcuni dei risultati
di R sono molti lunghi dunque riportare solo la parte del risultato rilevante per la
risposta.
Una risposta non commentata e' una risposta carente se non nulla. Sempre
commentare i risultati ed esplicitare sempre qual'è l'ipotesi zero e qual'è l'ipotesi
alternativa nelle domande che richiedono un test.
1)Un laboratorio di analisi della qualità di confezioni di farmaci dopo diversi anni di
esercizio ha un media di 2 lotti di pillole scartate su diverse migliaia processati in
una settimana. Assumendo che le procedure che determinano la qualità dei lotti
sia indipendenti tra di essi e che le procedure siano rimaste le stesse durante tutti
gli anni di esercizio, qual'e' la probabilità di scartare in una settimana 11 lotti o più?
R:
i possibili eventi sono due ( da scartare o no) ma non sono disponibili le
informazioni per impostare un modello binomiale ( n,k,p) ma solo la media dei
successi (n*p) e il valore k di interesse (k>=11). Si dice inoltre che il numero n
degli esperimenti e' grande pur essendo n*p piccolo (2) dunque p<<n ed e'
applicabile un approssimazione poissoniana
>1-ppois(10,2)
8.308224e-06
2)Caricare i dati sulle feci di sciacallo e genetta usando il comando
preybiom=read.table('preybiom.txt')
I dati consistono in 2196 tipi di organismi ritrovati in 953 feci di sciacallo o genetta
provenienti da due siti,
1. Trovare il miglior modello lineare per predirre la biomassa (variabile
'biomasse') usando le variabili category (tipo di resto organico), sp (sciacallo
o genetta), e saison (stagione).
2. Verificare con i grafici diagnostici gli assunti dei modelli lineari
3. Verificare che tutti gli stati della variabile stagione siano statisticamente
diversi tra loro
R1:
provo il modello completo con interazioni con un primo giro di modelli semplificati:
tutte le categorie additive e le categorie a due a due con interazione.
I modelli sono confrontati con un test anova ( analisi della varianza)
H0= il modello più semplice non differisce nella quantità di varianza residua dal
modello più complesso più di quanto atteso per la differenza di numero di
parametri
HA=la differenza in varianza residua e' piu grande dell'atteso
Il livello di significativita prescelto e' 0.01
> completo.lm<-lm(biomasse~ saison *category * sp, data=preybiom)
> completoadd.lm<-lm(biomasse~category + sp+ saison, data=preybiom)
> catsp.lm<-lm(biomasse~category * sp, data=preybiom)
> spsaison.lm<-lm(biomasse~ sp*saison, data=preybiom)
> catsaison.lm<-lm(biomasse~ category*saison, data=preybiom)
> anova(completo.lm,spsaison.lm )
Analysis of Variance Table
Model 1: biomasse ~ saison * category * sp
Model 2: biomasse ~ sp * saison
Res.Df RSS Df Sum of Sq
F Pr(>F)
1 2103 45724
2 2186 62012 -83 -16288 9.0257 < 2.2e-16 ***
--Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1
> anova(completo.lm,catsaison.lm )
Analysis of Variance Table
Model 1: biomasse ~ saison * category * sp
Model 2: biomasse ~ category * saison
Res.Df RSS Df Sum of Sq
F Pr(>F)
1 2103 45724
2 2138 51735 -35 -6011 7.8988 < 2.2e-16 ***
--Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1
> anova(completo.lm,catsp.lm )
Analysis of Variance Table
Model 1: biomasse ~ saison * category * sp
Model 2: biomasse ~ category * sp
Res.Df RSS Df Sum of Sq
F Pr(>F)
1 2103 45724
2 2176 49346 -73 -3621 2.2816 8.037e-09 ***
--Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1
> anova(completo.lm,completoadd.lm )
Analysis of Variance Table
Model 1: biomasse ~ saison * category * sp
Model 2: biomasse ~ category + sp + saison
Res.Df RSS Df Sum of Sq
F Pr(>F)
1 2103 45724
2 2180 50803 -77 -5078 3.0334 < 2.2e-16 ***
--Signif. Codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1
Tutte i test anova di confronto fra modelli sono altamente significativi dunque il
modello completo e' ritenuto l'unico accettabile e non proseguo nell'analisi degli
altri modelli possibili
Verifico gli assunti del modello lineare e osservo che gli scarti dall'atteso
aumentano di intensità ( ma non di direzione ) all'aumentare del valore della
variabile dipendente.
Questo e' in contrasto con l'assunto di omogeneita di distribuzione degli scarti
rispetto ai valori delle osservazioni e probabilmente va risolto trovando un
trasformazioni non lineare che soddisfi questo requisito. Spesso le variabili
biologiche di volume o peso vogliono trasformazioni logaritmiche
3)Caricare il dataset Titanic. I dati raccolti riguardano i passeggeri del Titanic e
raccolgono informazioni sulla classe del biglietto, l'eta ( adulti o bambini), il genere
e se sono sopravvissuti o no.
Creare le seguenti tavole di contigenza
Genere=Titanic[1,,2,]+Titanic[2,,2,]+Titanic[3,,2,]
Classi =Titanic[,1,2,]+Titanic[,2,2,]
Verificare l'indipendenza della variabile Sopravvivenza dalla variabile Genere e
Classe.
4)Caricare il data set chickwts. I dati descrivono il peso di 71 pulcini della stessa
cresciti sin dalla nascita con 6 mangimi diversi
Costruire le seguenti due variabili :
horsebean = chickwts [chickwts[,2]=='horsebean',1]
casein = chickwts [chickwts[,2]=='casein',1]
Verificare che esiste una differenza tra il mangime “casein” e “horsebean” con un
livello di significatività del 0.01
5) Ci sono tre eventi A,B, C indipendenti con probabilità di avvenire
rispettivamente di 1/2, 1/4, 1/8. Nota bene gli eventi non sono alternativi (la somma
delle loro probabilità degli eventi e' maggiore di uno)
1. Qual'e' la probabilità che uno solo di questi eventi avvenga?
P(singolo evento)=P(A U nonB U nonC)+P(A U nonB U nonC)+P(A U nonB U
nonC)
2. Posto che uno solo degli eventi possibili sia avvenuto qual'e' la probabilità
che l'unico eventi sia l'evento A ?
P(A| singolo evento)