Esercitazioni - Università degli Studi della Basilicata

Transcript

Esercitazioni - Università degli Studi della Basilicata
Esercitazioni
1. Per ognuna delle seguenti variabili dire di che tipo di variabile si tratta e la scala di misura
di riferimento:
a. Numero di telefoni per famiglia.
b. Tipo di telefono usato principalmente.
c. Durata (in minuti) delle chiamate.
d. Esistenza di una linea telefonica collegata ad un modem.
e. Compagnia telefonica.
a. Discreta, quantitativa numerica; b. nominale; c. quantitativa rapporto; d. nominale; e.
nominale
2. Descrivere le tre distribuzioni degli istogrammi riportati di seguito e associare ciascun
istogramma al boxplot corrispondente.
(a)-(2); (1)-(c); (b)-(3)
3. Selezionare il Datasetvoti sulla pagina web del corso. Importare i voti contenuti nel file in R.
Calcolare
A) la votazione più bassa e quella più alta; determinare il campo di variazione;
> max(Voti)-min(Voti)
[1] 12
B) determinare le votazioni dei 5 migliori studenti;
C) determinare le votazioni dei 5 peggiori studenti.
> sort(Voti)
[1] 18 18 18 19 19 20 20 21 21 21 21 22 22 22 22 22 23 23 23 24 25 25 28 28 29
[26] 29 29 30 30 30
D) Effettuare un grafico della funzione di ripartizione cumulativa.
> plot.ecdf(Voti,col.points='blue',col.hor='red',lwd=4,main='F. Rip. empirica')
>
E) Quale percentuale di studenti ha avuto una votazione pari a 25 o più?
> ecdfx<-ecdf(Voti)
> 1-ecdfx(24)
[1] 0.3333333
F) Quale percentuale di studenti ha avuto una votazione inferiore a 26?
> ecdfx(25)
[1] 0.7333333
>
G) Quale voto minimo ha avuto il 40% degli studenti migliori?
> quantile(Voti,0.60)
60%
23
H) Che voto ha preso il 65-esimo percentile?
> quantile(Voti,0.65)
65%
23.85
I) Quale percentuale di studenti ha avuto una votazione maggiore di 21 ma non più alta di
25?
> ecdfx(25)-ecdfx(21)
[1] 0.3666667
J) Costruire un istogramma del campione e costruire la tabella delle frequenze relative.
> objhist<-hist(Voti,prob=TRUE, col='blue',labels=T,main='Voti',xlab='Voti')
> str(objhist)
List of 6
$ breaks : num [1:7] 18 20 22 24 26 28 30
$ counts : int [1:6] 7 9 4 2 2 6
$ density : num [1:6] 0.1167 0.15 0.0667 0.0333 0.0333 ...
$ mids : num [1:6] 19 21 23 25 27 29
$ xname : chr "Voti"
$ equidist: logi TRUE
- attr(*, "class")= chr "histogram"
K) Calcolare la media del campione e confrontarla con quella ottenuta usando la tabella
delle frequenze relative.
> mean(Voti)
[1] 23.4
>library(‘Hmisc’)
> wtd.mean(objhist$mids,objhist$counts)
[1] 23.06667
L) Costruire il box-plot.
> boxplot(Voti,col='red',main='Boxplot Voti')
>
M) Calcolare il coefficiente di asimmetria e confrontarlo con la differenza tra media e
mediana.
> library('e1071')
> skewness(Voti)
[1] 0.4297937
N) Determinare gli indici di dispersione.
> IQR(Voti)
[1] 6.25
> sd(Voti)
[1] 3.961887
>
O) Determinare la percentuale di dati compresa tra (media-dev.st; media +dev.st.).
> mean(Voti)-sd(Voti)
[1] 19.43811
> mean(Voti)+sd(Voti)
[1] 27.36189
> ecdfx((mean(Voti)+sd(Voti))-ecdfx(mean(Voti)-sd(Voti)))
[1] 0.7333333
P) Nel datasetvoti2, c’è un secondo insieme di dati. Confrontare l’analisi dei dati di questo
secondo insieme con il primo insieme assegnato.
> boxplot(Voti,Voti2,col=c('blue','red'),main='I scuola vs II scuola')
>
4. Si consideri la seguente distribuzione del personale addetto alla R&S per settore
istituzionale e per tipo di ricerca:
Settori
Ricerca di Base
istituzionali
Enti di Ricerca
10868
Università
23507
Stato ed altri
1897
enti
Imprese
606
pubbliche
Imprese private
1275
Ricerca
Applicata
10069
18806
4141
Sviluppo
Sperimentale
4459
4701
1730
9613
9963
16594
23942
a) Quale tipo di dati sono?
nominali
b) Costruire la tavola delle frequenze relative ed effettuare un grafico a torta della variabile
ricerca di base.
> ricercabase<-c(10868,23507,1897,606,1275)
> fr.rel<-ricercabase/sum(ricercabase)
> round(fr.rel*100,2)
[1] 28.49 61.61 4.97 1.59 3.34
> obj<-data.frame(round(fr.rel*100,2))
> labels<-c('Enti di ricerca','Università','Stato ed altri enti','Imprese pubbliche','Imprese
private')
> rownames(obj)<-labels
> percentlabels<-round(fr.rel*100,2)
> pielabels<- paste(percentlabels, "%", sep="")
> pie(fr.rel, main="Ricerca di base", col=rainbow(5), labels=pielabels, cex=0.8)
> legend('topleft', c('Enti di ricerca','Università','Stato ed altri enti','Imprese
pubbliche','Imprese private'), cex=0.8, fill=rainbow(4))
>
c) Stabilire quale tra le tre variabili è maggiormente etereogenea?
%ricerca di base
> 1-fr.rel%*%fr.rel
[,1]
[1,] 0.535408
%ricerca applicata
> ricercaappl<-c(10069,18806,4141,9613,16594)
> fr.rel<-ricercaappl/sum(ricercaappl)
> 1-fr.rel%*%fr.rel
[,1]
[1,] 0.7605128
% sviluppo sperimentale
> sviluppo<-c(4459,4701,1730,9963,23942)
> fr.rel<-sviluppo/sum(sviluppo)
> 1-fr.rel%*%fr.rel
[,1]
[1,] 0.6424506
Max eter. 4/5=0.8
d) Quale indice di posizione è possibile fornire?
Moda
5. Importare il datasetgiudizio e costruire una tabella delle frequenze.
a) Determinare la mediana.
b) Costruire un istogramma.
> obj<-table(Giudizi)
> obj
Giudizi
Buona
Discreta
20
6
Eccellente Molto_buona Molto_scarsa
3
9
1
1
Scarsa
> barplot(obj,col=rainbow(6),main='Giudizi')
6. La tabella si riferisce alle vendite in euro di due concessionarie di macchine usate nel corso
degli anni. Effettuare un grafico per confrontare le vendite. Quale azienda ha avuto un
rendimento migliore?
Anni
1997
1998
1999
2000
2001
2002
Azienda X
1444
1756
2110
2423
1943
1974
Azienda Y
1547
2136
1874
1458
1887
2014
> plot(anni,aziendaX,type='b',lwd=4,col='red',ylim=range(1400,2400))
> par(new=TRUE)
> plot(anni,aziendaY,type='b',lwd=4,col='blue',ylim=range(1400,2400))
> > mean(aziendaX)
[1] 1941.667
> mean(aziendaY)
[1] 1819.333
> sd(aziendaX)
[1] 329.6087
> sd(aziendaY)
[1] 264.7517
> summary(aziendaX)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1444 1803 1958 1942 2076 2423
> summary(aziendaY)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1458 1629 1880 1819 1982 2136
>