Statistica

Transcript

Statistica
Statistica
●
Modulo del corso di matematica: perché studiare matematica a
biotec?
●
docente: dott. Roberto Chignola, Ricercatore Area 06 (Medicina),
SSD Patologia generale: cos'è? perché?
●
riferimenti web: [email protected];
http://profs.sci.univr.it/~chignola/
●
dove sono: c/o Dip. di Biotecnologie, palazzo CV1, stanza 2.05
●
quando ricevo: praticamente sempre, o in studio o in lab. (porta
accanto)
●
tel.: 045 802 7953
Statistica
Testo di riferimento:
Analisi statistica dei dati biologici
Michael C. Whitlock, Dolph Schulter
ed. ital. a cura di Giorgio Bertorelle
Zanichelli
costo: € 50.50
è tanto?
e le “slides” del docente?
Perché il docente è un biologo?
Gli autori del vostro libro:
Michael Whitlock è professore di Zoologia presso la
University of British Columbia.
Dolph Schluter è professore di Zoologia e Canada
Research Chair presso lo Zoology Department e il
Biodiversity Research Center della University of British
Columbia.
Perché il docente è un biologo?
fonte Wikipedia, voce “valore atteso”:
Perché il docente è un biologo?
fonte Wikipedia, link a “spazio di misura”:
Perché il docente è un biologo?
...e infine, fonte Wikipedia, link a “sigma-algebra”:
Perché il docente è un biologo?
Risposta: non lo so ma è meglio per voi!
●
Corso essenzialmente pratico
●
Esempi reali e tratti anche dal mio lavoro di laboratorio
●
Matematica ridotta ma NON assente
Natura e Matematica
[Lotario Sarsi] forse stima che la filosofia sia un libro e una
fantasia d’un uomo, come l’Iliade e l’Orlando Furioso, libri
ne’ quali la meno importante cosa è che quello che vi è
scritto sia vero. Signor Sarsi, la cosa non istà così. La
filosofia è scritta in questo grandissimo libro che
continuamente ci sta aperto innanzi a gli occhi (io dico
l'universo), ma non si può intendere se prima non s'impara a
intender la lingua, e conoscer i caratteri, ne' quali è scritto.
Egli è scritto in lingua matematica, e i caratteri son triangoli,
cerchi, ed altre figure geometriche, senza i quali mezi è
impossibile a intenderne umanamente parola; senza questi è
un aggirarsi vanamente per un oscuro laberinto.
Lotario Sarsi è in realtà Orazio Grassi, gesuita, con
cui Galileo ebbe una disputa sull'origine delle comete
(tre comete apparvero nel 1618)
1564-1642
Statistica
Metodo scientifico: metodo ipotetico-deduttivo
Karl R. Popper (1902-1994)
da: S. McKillup, Statistics explained,
Cambridge University Press, 2005
Metodo scientifico
Da dove arrivano le ipotesi?
●
●
●
osservazioni in “campo” o in “lab” su campioni
misure dirette
misure indirette
Come si saggiano (“testano”) le predizioni?
●
●
ulteriori osservazioni su nuovi campioni
esperimenti opportunamente pianificati
Statistica
Metodo scientifico
Come si prende la decisione su un'ipotesi?
il risultato di un saggio può dare due esiti:
1. i risultati sono consistenti con l'ipotesi iniziale
2. i risultati sono inconsistenti con l'ipotesi che
pertanto PUÒ essere rifiutata
Se poi l'ipotesi è accettata, resiste ad ulteriori
verifiche e assume carattere di generalità allora
può diventare una teoria.
Nulla vieta che la teoria possa essere rifiutata in
futuro.
Statistica e
teoria delle
probabilità
Metodo scientifico
Ipotesi nulla: H0
la molecola NON è efficace
verifica Ipotesi
sulla base dei miei studi
formulo l'ipotesi: la
molecola che ho isolato
e studiato potrebbe
essere efficace nella
cura dei tumori
Ipotesi alternativa: H1
la molecola è efficace
Statistica
Cosa fanno allora la statistica e la teoria delle probabilità?
●
permettono di pianificare correttamente gli esperimenti di
verifica
●
permettono di descrivere e misurare diversi aspetti della
natura basandosi su campioni (statistica descrittiva)
●
permettono di stimare una grandezza incognita di una
popolazione partendo dalle misure effettuate su campioni
(inferenza statistica)
●
forniscono un criterio oggettivo per accettare (e non rifiutare)
l'ipotesi nulla oppure l'ipotesi alternativa
Implicazioni
La verifica delle ipotesi ha una natura probabilistica!
●
nessuna ipotesi o teoria può essere dimostrata
●
in scienza non esiste alcuna verità assoluta
metodo scientifico: parentesi
...secondo Popper il metodo scientifico procede secondo una sequenza costituita da
formulazione e falsificazione delle ipotesi. Dunque le ipotesi (e le teorie) sono sempre
a rischio di essere falsificate. Ma le cose vanno davvero così?
Thomas Khun (1922-1996) pensa che le cose non stiano esattamente così. Le ipotesi
che resistono ad una prima fase di verifica assumono subito una certa connotazione di
generalità e vengono quindi accettate come “paradigmi”. I paradigmi si consolidano e
tendono a resistere maggiormente ai tentativi di falsificazione futuri. Eventualmente i
paradigmi vengono aggiustati per comprendere possibili osservazioni contrarie. È solo
quando le evidenze negative diventano così tante da non poter essere trascurate che il
paradigma crolla. Al crollo del paradigma si ha una rivoluzione scientifica.
Anche Imre Lakatos (1922-1974) critica Popper e pensa che quelle che siamo soliti
considerare 'teorie' sono in realtà gruppi di teorie leggermente differenti tra loro, le quali
condividono alcuni principi, definibili 'nucleo'. Lakatos definisce 'programmi di ricerca' tali
gruppi. Gli scienziati coinvolti nel programma difendono il nucleo teoretico dai tentativi di
falsificazione cingendolo di una serie di ipotesi ausiliarie. Mentre Popper generalmente
screditava simili misure dichiarandole 'ad hoc', Lakatos intendeva mostrare che lo
sviluppo e la messa a punto di ipotesi protettive non è necessariamente un male, per un
programma di ricerca. Invece che tra teorie vere e false, Lakatos preferisce distinguere
tra programmi di ricerca progressivi e degenerativi. I programmi di ricerca progressivi
crescono e sono caratterizzati dalla scoperta di nuovi fatti. I programmi degenerativi sono
caratterizzati dalla mancanza di crescita o dal moltiplicarsi di ipotesi protettive che non
conducono a fatti nuovi.
metodo scientifico: esempio
metodo scientifico: esempio
osservazioni
ipotesi
falsificazione
nuova ipotesi
test
metodo scientifico: esempio
Nuova ipotesi sotto
forma di modello
matematico
metodo scientifico: esempio
test di
falsificazione di
due “sotto-ipotesi”
metodo scientifico: esempio
Test di
falsificazione
della nuova
ipotesi. Uso di
metodi
Bayesiani per
falsificare
l'ipotesi nulla
Variabili e dati
Dunque, la falsificazione delle ipotesi richiede delle “osservazioni” condotte sul
sistema che stiamo studiando.
Variabile = qualsiasi caratteristica, attributo o misura relativa al “sistema” che stiamo
osservando (es. individuo, cellula, organismo, molecola....)
Dato = risultato grezzo delle misurazioni (o semplicemente “misura”)
esempi di variabili:
●
●
●
●
●
●
●
temperatura del corpo umano
pressione sanguigna
numero di mitocondri nelle cellule di un particolare tipo
quantità di ATP prodotta da un certo tipo cellulare
geni espressi da una cellula
specie di batteri che colonizzano un dato ambiente
.....
Data una certa unità sperimentale (cellula, individuo, organismo,...) posso misurare
una variabile, due variabili, più variabili e ottenere un insieme di osservazioni
Univariato, Bivariato, Multivariato per il sistema
Variabili e dati
es. una variabile: raggio cellulare (µm), campione di cellule umane di
carcinoma mammario
dati = {11.414, 8.317, 6.981, 10.073, 7.75, 8.754, 7.004, 8.126, 7.652, 7.863,
8.728, 8., 7.946, 8.457, 7.207, 11.385, 7.558, 7.139, 6.805,8.085, 8.281,
8.089, 9.365, 7.95, 7.257, 8.285, 8.892, 8.806, 7.466, 7.817, 8.114, 8.065,
9.146, 9.149, 7.042, 7.678, 8.847, 7.863, 9.224, 9.005, 7.631, 7.143, 7.725,
7.293, 8.709, 7.855, 8.943, 9.995...}
n. di cellule misurate = 410
Variabili e dati
es. due variabili: raggio di sferoidi tumorali (µm) e concentrazione di ATP
degli stessi sferoidi (µM)
dati = {{353.09, 3.08}, {363.28, 4.11}, {326.85, 3.13}, {350.28, 4.28}, {356.34,
3.03}, {347.13, 3.42}, {356.56, 3.9}, {343.35, 3.58}, {341.55, 3.32}, {349.68,
3.48}, {355.12, 2.94}, {350.43, 3.67}, {351.7, 3.76}, {325.35, 4.14}, {338.05,
3.21}, {344.04, 3.19}, {339.48, 0.48}, {346.83, 3.6}, {362.75, 3.83}, {342.61,
3.07}, {354.11, 3.41}, {346.93, 4.19}, {352.5, 2.08}, {360.38, 3.25}, {334.95,
2.85}, {354.71, 3.39}, {346.69, 2.4}, {338.34, 4.24}, {344.92, 3.45}, {355.8,
3.63}, {357.83, 4.17}, {366.85, 3.41}, {348.48, 0.47}, {352.84, 3.67}, {348.03,
3.71}, {359.44, 3.45},...}
n. sferoidi = 120
Variabili e dati
es. molte variabili: attivazione di 5 proteine (Syk, NFkB, Erk, p38, JNK) a seguito di 3
diversi stimoli (basale, H2O2, IgM) in cellule di leucemia cronica prelevate da pazienti
(misure in unità di fluorescenza)
dati:
pazienti (tot. 27)
....
Variabili e dati
nominali (se non c'è un ordine
intrinseco)
es. gruppo sanguigno A, B, 0, AB
es. sintomo
Qualitative o categoriche
ordinali (se i valori possono essere
ordinati)
es. gravità dei sintomi in base ad una
scala arbitraria
Variabili
A valori continui
es. raggio cellulare, temperatura corporea...
Quantitative
A valori discreti
es. numero di mitocondri in cellule
Variabili quantitative continue
Il dato numerico viene ottenuto mediante una misurazione e dunque utilizzando uno
strumento. Tra due misure ci possono essere infinite altre misure.
Es.:
misuro la concentrazione di ATP in uno sferoide tumorale e ottengo il valore di 3.08
µM. Un altro sferoide può restituire il valore 3.078 µM, un altro 3.079 µM, un altro
ancora 3.0795 µM....
Un problema generale è: ma quante cifre dopo la virgola devo considerare (e
soprattutto mostrare)? Ha senso riportare un valore come 3.079562133...µM o si può
arrotondare? Se sì come e perché?
Commento: questo è un aspetto NON ovvio né banale...
Strumenti di misura
Caratteristiche
●
Sensibilità = limite inferiore del campo di misura dello strumento
●
Portata (o fondo scala) = limite superiore del campo di misura
●
Risoluzione = minima variazione apprezzabile della grandezza in esame attraverso
tutto il campo di misura
●
Ripetibilità (affidabilità) = capacità dello strumento di fornire misure uguali della
stessa grandezza entro la sua risoluzione
●
Prontezza = tempo necessario affinché lo strumento risponda ad una variazione della
grandezza in esame
●
Precisione = errore relativo di misura e dovuto alla incertezza inevitabilmente
associata alla misura stessa (questo è un concetto statistico!)
Strumenti di misura
Strumenti di misura
Errore!
Strumenti di misura
Dunque il termometro ha un campo di misura che va da 0 ºC a 42ºC e ha una
RISOLUZIONE di 0.1 ºC
Pertanto lo strumento rileva le differenze di temperatura ad es. tra 37.1 e 37.2 ma
NON tra 37.1 e 37.15
Dunque NON ha senso considerare per questa misura più di una cifra decimale!
Strumenti di misura
Precisione e accuratezza
Dati di una variabile (discreta)
Es. misuro il numero di mitocondri in un campione di 50 cellule e ottengo la
sequenza*:
dati = {44, 47, 53, 44, 49, 52, 43, 45, 58, 52, 48, 55, 49, 50, 47, 57, 47, 52, 50, 49,
55, 50, 52, 55, 46, 56, 44, 49, 45, 52, 50, 43, 48, 50, 57, 53, 54, 57, 56, 42, 49, 46,
51, 55, 49, 47, 48, 47, 57, 51}
dunque la prima cellula ha 44 mitocondri, la seconda 47, la terza 53, la quarta
ancora 44, e così via fino alla cinquantesima.
Cosa posso dire di questi dati? O meglio: che cosa i dati mi stanno raccontando?
questo grafico non è molto utile a
scoprire un possibile pattern nei dati
*questo è un esperimento di fantasia e NON condotto in lab con cellule
Dati di una variabile (discreta)
indice (i)
N. mitocondri
Frequenza
1
42
1
dati = {44, 47, 53, 44, 49, 52, 43, 45, 58, 52, 48, 55,
49, 50, 47, 57, 47, 52, 50, 49, 55, 50, 52, 55, 46, 56,
44, 49, 45, 52, 50, 43, 48, 50, 57, 53, 54, 57, 56, 42,
49, 46, 51, 55, 49, 47, 48, 47, 57, 51}
2
43
2
3
44
3
4
45
2
1) ordino i dati, ad es. dal valore più
piccolo a quello più grande (NB i dati sono
ordinabili):
5
46
2
6
47
5
7
48
3
datiOrd = {42, 43, 43, 44, 44, 44, 45, 45,
46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49,
49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51,
51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55,
55, 55, 56, 56, 57, 57, 57, 57, 58}
8
49
6
9
50
5
10
51
2
11
52
5
12
53
2
13
54
1
14
55
4
15
56
2
16
57
4
17
58
1
2) conto quante occorrenze ci sono per
ogni valore.
Dati di una variabile (discreta)
indice (i)
N. mitocondri
Frequenza
1
42
1
2
43
2
3
44
3
4
45
2
5
46
2
6
47
5
7
48
3
8
49
6
9
50
5
10
51
2
11
52
5
12
53
2
13
54
1
14
55
4
15
56
2
16
57
4
17
58
1
Totale
2505
50
distribuzione di frequenza (assoluta)
Dati di una variabile (discreta)
indice (i)
N. mitocondri
Frequenza (n)
f
1
42
1
0.02
2
43
2
0.04
3
44
3
0.06
4
45
2
0.04
5
46
2
0.04
6
47
5
0.1
7
48
3
0.06
8
49
6
0.12
9
50
5
0.1
10
51
2
0.04
11
52
5
0.1
12
53
2
0.04
13
54
1
0.02
14
55
4
0.08
15
56
2
0.04
16
57
4
0.08
17
58
1
0.02
Totale
2505
50
1
N = numero totale di cellule del
campione
n = frequenza assoluta di cellule
contenenti mitocondri di una data
numerosità
si noti che:
f = frequenza relativa
e si noti che:
Dati di una variabile (discreta)
indice (i)
N. mitocondri
Frequenza (n)
f
1
42
1
0.02
2
43
2
0.04
3
44
3
0.06
4
45
2
0.04
5
46
2
0.04
6
47
5
0.1
7
48
3
0.06
8
49
6
0.12
9
50
5
0.1
10
51
2
0.04
11
52
5
0.1
12
53
2
0.04
13
54
1
0.02
14
55
4
0.08
15
56
2
0.04
16
57
4
0.08
17
58
1
0.02
Totale
2505
50
1
Dati di una variabile (discreta)
N. mitocondri
Frequenza (n)
f
42
1
0.02
43
2
0.04
44
3
0.06
45
2
0.04
46
2
0.04
47
5
0.1
Questi intervalli si
chiamano bin e nulla
vieta di considerare bin di
diversa grandezza.
48
3
0.06
49
6
0.12
50
5
0.1
51
2
0.04
Ad es: conto quante
cellule hanno un numero
di mitocondri m compreso
tra [42,44[ o, in simboli:
52
5
0.1
53
2
0.04
54
1
0.02
55
4
0.08
56
2
0.04
57
4
0.08
58
1
0.02
Totale
50
1
si noti che abbiamo
considerato intervalli di 1
mitocondrio.
Ad es.:
e dunque bin = 2
46-45=1
Dati di una variabile (discreta)
N. mitocondri
Frequenza (n)
f
N. mitocondri
Frequenza (n)
f
42
1
0.02
[42,44[
3
0.06
43
2
0.04
[44,46[
5
0.1
44
3
0.06
[46,48[
7
0.14
45
2
0.04
[48,50[
9
0.18
46
2
0.04
[50,52[
7
0.14
47
5
0.1
[52,54[
7
0.14
48
3
0.06
[54,56[
5
0.1
49
6
0.12
[56,58[
6
0.12
50
5
0.1
[58,60[
1
0.02
51
2
0.04
Totale
50
1
52
5
0.1
53
2
0.04
54
1
0.02
55
4
0.08
56
2
0.04
57
4
0.08
58
1
0.02
Totale
50
1
bin=1
bin=2
Dati di una variabile (discreta)
bin=1
bin=2
bin=4
Dati di una variabile (continua)
es. una variabile: raggio cellulare (µm), campione di cellule umane di
carcinoma mammario (NB dati di lab)
dati = {11.414, 8.317, 6.981, 10.073, 7.75, 8.754, 7.004, 8.126, 7.652, 7.863,
8.728, 8., 7.946, 8.457, 7.207, 11.385, 7.558, 7.139, 6.805,8.085, 8.281,
8.089, 9.365, 7.95, 7.257, 8.285, 8.892, 8.806, 7.466, 7.817, 8.114, 8.065,
9.146, 9.149, 7.042, 7.678, 8.847, 7.863, 9.224, 9.005, 7.631, 7.143, 7.725,
7.293, 8.709, 7.855, 8.943, 9.995...}
n. di cellule misurate = 410
Dati di una variabile (continua)
bin = 0.01 µm
bin = 0.1 µm
effetto del binning
bin = 0.5 µm
Dati di una variabile (continua)
esiste dunque un criterio oggettivo per stabilire la grandezza del bin?
NO, ma esiste una formula empirica per stabilire - in prima approssimazione - in
quanti bins suddividere i dati:
dove N è la numerosità del campione.
Es. N = 410 cellule e
possibile bimodalità
ha un significato biologico?
1
10
possibile outlier
Dati di una variabile
indice (i)
N. mitocondri
Frequenza (n)
f
F
1
42
1
0.02
0.02
2
43
2
0.04
0.06
3
44
3
0.06
0.12
4
45
2
0.04
0.16
5
46
2
0.04
0.2
6
47
5
0.1
0.3
7
48
3
0.06
0.36
8
49
6
0.12
0.48
9
50
5
0.1
0.58
10
51
2
0.04
0.62
11
52
5
0.1
0.72
12
53
2
0.04
0.76
13
54
1
0.02
0.78
14
55
4
0.08
0.86
15
56
2
0.04
0.9
16
57
4
0.08
0.98
17
58
1
0.02
1
Totale
2505
50
1
...
F = frequenza relativa
cumulativa
Dati di una variabile: indici di posizione
NB se e solo se i dati sono ordinabili
Percentile = valore al di sotto dei quali è situato l'X% dei dati
es. 50-esimo percentile = valore al di sotto (e al di sopra) del quale sta il 50% dei dati
Quantile di ordine α = valore nell'intervallo [0,1] che divide i dati in due parti
proporzionali a α e (1-α)
es. 0.5-quantile = i dati vengono divisi in due parti pari a 0.5 e (1-0.5)=0.5. Dunque
metà dei dati sta da una parte e metà dall'altra. Pertanto 0.5-quantile = 50-esimo
percentile
Particolari quantili:
quartili = quantili di ordine 1/4, 2/4, 3/4
centili = quantili di ordine 1/100, 2/100, ..., 99/100 = percentili
cioè: prendo i dati e li divido in 4 (quartili) o 100 (centili) parti uguali
Dati di una variabile: indici di posizione
es. dati ordinati e relativi al numero di mitocondri per cellula
datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49,
49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57,
58}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
42
43
43
44
44
44
45
45
46
46
47
47
47
47
47
48
48
48
49
49
49
49
49
49
50
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
50
50
50
50
51
51
52
52
52
52
52
53
53
54
55
55
55
55
56
56
57
57
57
57
58
50-esimo percentile (o 0.5-quantile) = 50 mitocondri
primo quartile (o quantile di ordine 1/4) = 47 mitocondri
terzo quartile (o quantile di ordine 3/4) = 53 mitocondri
NB diversi metodi di calcolo
(es numero totale di dati
dispari o pari). A noi non
interessa perché ci pensano i
calcolatori!
Dati di una variabile: indici di posizione
Mediana = 50-esimo percentile (o 0.5-quantile)
Dati di una variabile: indici di posizione
Moda = valore a cui corrisponde la frequenza più alta
distribuzione unimodale
distribuzione bimodale
Dati di una variabile: indici di posizione
Media
dati = {44, 47, 53, 44, 49, 52, 43, 45, 58, 52, 48, 55, 49, 50, 47, 57, 47, 52, 50, 49, 55, 50, 52, 55, 46, 56, 44, 49, 45, 52,
50, 43, 48, 50, 57, 53, 54, 57, 56, 42, 49, 46, 51, 55, 49, 47, 48, 47, 57, 51}
dati = numero di mitocondri in ogni cellula
N = 50 cellule
mitocondri per cellula
Dati di una variabile: indici di posizione
Media
...prendiamo però i dati ordinati
datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49,
49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57,
58}
frequenze relative
classe ci
dunque, se c sono le classi “numero di mitocondri” posso scrivere anche:
Distribuzioni
media=mediana=moda
distribuzione simmetrica
Distribuzioni
media
mediana
distribuzione assimetrica (skewed) a dx
moda
distribuzione assimetrica (skewed) a sx
Distribuzioni
Anno 2015, tutti gli Atenei del nord-Italia. Totale 18848 studenti. Soglia 20 punti.
media = 24.16
mediana = 23.1
moda = 17.5 (accidenti!)
Box and whisker plot
es. dati ordinati e relativi al numero di mitocondri per cellula
datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49,
49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57,
58}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
42
43
43
44
44
44
45
45
46
46
47
47
47
47
47
48
48
48
49
49
49
49
49
49
50
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
50
50
50
50
51
51
52
52
52
52
52
53
53
54
55
55
55
55
56
56
57
57
57
57
58
50-esimo percentile (o 0.5-quantile) = 50 mitocondri
mediana
primo quartile (o quantile di ordine 1/4) = 47 mitocondri estremo inferiore del Box
terzo quartile (o quantile di ordine 3/4) = 53 mitocondri
estremo superiore del Box
Range interquartile = 53-47 = 6 mitocondri
estremi = 6 x 1.5 = 9 mitocondri
massima lunghezza dei
Whiskers olte il box
Box and whisker plot
50-esimo percentile (o 0.5-quantile) = 50 mitocondri
mediana
primo quartile (o quantile di ordine 1/4) = 47 mitocondri estremo inferiore del Box
terzo quartile (o quantile di ordine 3/4) = 53 mitocondri estremo superiore del Box
Range interquartile = 53-47 = 6 mitocondri
massima lunghezza dei
Whiskers oltre il box
estremi = 6 x 1.5 = 9 mitocondri
53+9 = 62 ma non ci sono dati pari a 62 mitocondri
e dunque il whisker si ferma al dato più alto (58
mitocondri)
sup. box
mediana
inf. box
47-9 = 38 ma non ci sono dati pari a 38 mitocondri
e dunque il whisker si ferma al dato più basso (42
mitocondri)
Box and whisker plot
es.:
dati = {1, 3, 4, 6, 7, 9, 10, 12, 25}
mediana = 7; primo quartile = 4; terzo quartile = 10, range interquartile = 6 unità
il whisker sotto il box arriva fino a = 7-6 = 1
il whisker sopra il box arriva fino a = 10+6 = 16: il dato=12 è compreso ma il dato=25 no
dunque il whisker si estende fino a 12, l'ultimo dato compreso
possibile outlier
Box and whisker plot
Box and whisker plot
This work is licensed under a Creative Commons AttributionNonCommercial 4.0 International License.
see: http://creativecommons.org/licenses/by-nc/4.0/
Roberto Chignola
Università di Verona
[email protected]