Esercitazioni - Università degli Studi della Basilicata
Transcript
Esercitazioni - Università degli Studi della Basilicata
Esercitazioni 1. Per ognuna delle seguenti variabili dire di che tipo di variabile si tratta e la scala di misura di riferimento: a. Numero di telefoni per famiglia. b. Tipo di telefono usato principalmente. c. Durata (in minuti) delle chiamate. d. Esistenza di una linea telefonica collegata ad un modem. e. Compagnia telefonica. a. Discreta, quantitativa numerica; b. nominale; c. quantitativa rapporto; d. nominale; e. nominale 2. Descrivere le tre distribuzioni degli istogrammi riportati di seguito e associare ciascun istogramma al boxplot corrispondente. (a)-(2); (1)-(c); (b)-(3) 3. Selezionare il Datasetvoti sulla pagina web del corso. Importare i voti contenuti nel file in R. Calcolare A) la votazione più bassa e quella più alta; determinare il campo di variazione; > max(Voti)-min(Voti) [1] 12 B) determinare le votazioni dei 5 migliori studenti; C) determinare le votazioni dei 5 peggiori studenti. > sort(Voti) [1] 18 18 18 19 19 20 20 21 21 21 21 22 22 22 22 22 23 23 23 24 25 25 28 28 29 [26] 29 29 30 30 30 D) Effettuare un grafico della funzione di ripartizione cumulativa. > plot.ecdf(Voti,col.points='blue',col.hor='red',lwd=4,main='F. Rip. empirica') > E) Quale percentuale di studenti ha avuto una votazione pari a 25 o più? > ecdfx<-ecdf(Voti) > 1-ecdfx(24) [1] 0.3333333 F) Quale percentuale di studenti ha avuto una votazione inferiore a 26? > ecdfx(25) [1] 0.7333333 > G) Quale voto minimo ha avuto il 40% degli studenti migliori? > quantile(Voti,0.60) 60% 23 H) Che voto ha preso il 65-esimo percentile? > quantile(Voti,0.65) 65% 23.85 I) Quale percentuale di studenti ha avuto una votazione maggiore di 21 ma non più alta di 25? > ecdfx(25)-ecdfx(21) [1] 0.3666667 J) Costruire un istogramma del campione e costruire la tabella delle frequenze relative. > objhist<-hist(Voti,prob=TRUE, col='blue',labels=T,main='Voti',xlab='Voti') > str(objhist) List of 6 $ breaks : num [1:7] 18 20 22 24 26 28 30 $ counts : int [1:6] 7 9 4 2 2 6 $ density : num [1:6] 0.1167 0.15 0.0667 0.0333 0.0333 ... $ mids : num [1:6] 19 21 23 25 27 29 $ xname : chr "Voti" $ equidist: logi TRUE - attr(*, "class")= chr "histogram" K) Calcolare la media del campione e confrontarla con quella ottenuta usando la tabella delle frequenze relative. > mean(Voti) [1] 23.4 >library(‘Hmisc’) > wtd.mean(objhist$mids,objhist$counts) [1] 23.06667 L) Costruire il box-plot. > boxplot(Voti,col='red',main='Boxplot Voti') > M) Calcolare il coefficiente di asimmetria e confrontarlo con la differenza tra media e mediana. > library('e1071') > skewness(Voti) [1] 0.4297937 N) Determinare gli indici di dispersione. > IQR(Voti) [1] 6.25 > sd(Voti) [1] 3.961887 > O) Determinare la percentuale di dati compresa tra (media-dev.st; media +dev.st.). > mean(Voti)-sd(Voti) [1] 19.43811 > mean(Voti)+sd(Voti) [1] 27.36189 > ecdfx((mean(Voti)+sd(Voti))-ecdfx(mean(Voti)-sd(Voti))) [1] 0.7333333 P) Nel datasetvoti2, c’è un secondo insieme di dati. Confrontare l’analisi dei dati di questo secondo insieme con il primo insieme assegnato. > boxplot(Voti,Voti2,col=c('blue','red'),main='I scuola vs II scuola') > 4. Si consideri la seguente distribuzione del personale addetto alla R&S per settore istituzionale e per tipo di ricerca: Settori Ricerca di Base istituzionali Enti di Ricerca 10868 Università 23507 Stato ed altri 1897 enti Imprese 606 pubbliche Imprese private 1275 Ricerca Applicata 10069 18806 4141 Sviluppo Sperimentale 4459 4701 1730 9613 9963 16594 23942 a) Quale tipo di dati sono? nominali b) Costruire la tavola delle frequenze relative ed effettuare un grafico a torta della variabile ricerca di base. > ricercabase<-c(10868,23507,1897,606,1275) > fr.rel<-ricercabase/sum(ricercabase) > round(fr.rel*100,2) [1] 28.49 61.61 4.97 1.59 3.34 > obj<-data.frame(round(fr.rel*100,2)) > labels<-c('Enti di ricerca','Università','Stato ed altri enti','Imprese pubbliche','Imprese private') > rownames(obj)<-labels > percentlabels<-round(fr.rel*100,2) > pielabels<- paste(percentlabels, "%", sep="") > pie(fr.rel, main="Ricerca di base", col=rainbow(5), labels=pielabels, cex=0.8) > legend('topleft', c('Enti di ricerca','Università','Stato ed altri enti','Imprese pubbliche','Imprese private'), cex=0.8, fill=rainbow(4)) > c) Stabilire quale tra le tre variabili è maggiormente etereogenea? %ricerca di base > 1-fr.rel%*%fr.rel [,1] [1,] 0.535408 %ricerca applicata > ricercaappl<-c(10069,18806,4141,9613,16594) > fr.rel<-ricercaappl/sum(ricercaappl) > 1-fr.rel%*%fr.rel [,1] [1,] 0.7605128 % sviluppo sperimentale > sviluppo<-c(4459,4701,1730,9963,23942) > fr.rel<-sviluppo/sum(sviluppo) > 1-fr.rel%*%fr.rel [,1] [1,] 0.6424506 Max eter. 4/5=0.8 d) Quale indice di posizione è possibile fornire? Moda 5. Importare il datasetgiudizio e costruire una tabella delle frequenze. a) Determinare la mediana. b) Costruire un istogramma. > obj<-table(Giudizi) > obj Giudizi Buona Discreta 20 6 Eccellente Molto_buona Molto_scarsa 3 9 1 1 Scarsa > barplot(obj,col=rainbow(6),main='Giudizi') 6. La tabella si riferisce alle vendite in euro di due concessionarie di macchine usate nel corso degli anni. Effettuare un grafico per confrontare le vendite. Quale azienda ha avuto un rendimento migliore? Anni 1997 1998 1999 2000 2001 2002 Azienda X 1444 1756 2110 2423 1943 1974 Azienda Y 1547 2136 1874 1458 1887 2014 > plot(anni,aziendaX,type='b',lwd=4,col='red',ylim=range(1400,2400)) > par(new=TRUE) > plot(anni,aziendaY,type='b',lwd=4,col='blue',ylim=range(1400,2400)) > > mean(aziendaX) [1] 1941.667 > mean(aziendaY) [1] 1819.333 > sd(aziendaX) [1] 329.6087 > sd(aziendaY) [1] 264.7517 > summary(aziendaX) Min. 1st Qu. Median Mean 3rd Qu. Max. 1444 1803 1958 1942 2076 2423 > summary(aziendaY) Min. 1st Qu. Median Mean 3rd Qu. Max. 1458 1629 1880 1819 1982 2136 >