Metodi statistici in genetica forense

Transcript

Metodi statistici in genetica forense
GENETISTI FORENSI ITALIANI
Metodi statistici
in genetica forense
terza edizione
Carla Bini
Federica Alessandrini
Bologna, 6-7 Giugno 2016
Thore Egeland
Oskar Hansson
GENETISTI FORENSI ITALIANI
Thore Egeland
Professore di statistica alla Norwegian University of Life Sciences (NMBU),
progetti correlati a Familias
Oskar Hansson
Senior Forensic Scientist (Norwegian Institute of Public Health)
Carla Bini
Biologa, genetista forense, Medicina Legale, UNIBO
Federica Alessandrini
Biologa, genetista forense, Medicina Legale, UNIVPM
Bologna, 6-7 Giugno 2016
GENETISTI FORENSI ITALIANI
Calcolo biostatistico
indagini di paternità e
parentela
Bologna, 6-7 Giugno 2016
Principi generali
1. Per valutare l'incertezza di una data ipotesi è
necessario considerare almeno una ipotesi alternativa
2. L’interpretazione scientifica si basa su domande del
tipo: «qual è la probabilità dell’evidenza data
l’ipotesi?»
3. L'evidenza scientifica è condizionata non solo dalle
due ipotesi fatte, anche dal contesto entro cui tali
ipotesi devono essere valutate
1. Formulazione ipotesi
Nel caso di un test di paternità le ipotesi alternative
formulate sono:
H1: PP è il padre di F
H2: Un altro uomo non imparentato è il padre di F
2. Probabilità di E data H
Likelihood = Pr(evidenza|ipotesi) = Pr(E|H)
Likelihood ratio (LR)
Misura la strenght of the evidence in relazione ad una
ipotesi
E’ la probabilità dell’evidenza data quella particolare
ipotesi in rapporto alla probabilità dell’evidenza l’ipotesi
alternativa
P(E|H1)
LR =
P(E|H2)
Paternità Standard
pA=0.05
PP
M
A/A
B/B
F
A/B
LR = PI =
Probabilità dell’evidenza assunto che PP è il padre (H1)
Probabilità dell’evidenza assunto che un uomo a caso è il padre (H2)
=
P(F|M,PP)
P(F|M)
=
1
pA
=
1
0.05
= 20
Interpretazione: il dato osservato è 20 volte più probabile
assumendo che PP sia il padre di F, in confronto all’ipotesi
alternativa che un uomo a caso sia il padre.
Paternità Standard
pC=0.1
PP
M
C/D
E/E
F
C/E
LR = PI =
P(F|M,PP)
P(F|M)
=
0.5
pC
=
0.5
0.1
= 5
Interpretazione: il dato osservato è 5 volte più probabile assumendo
che PP sia il padre di F, in confronto all’ipotesi alternativa che un
uomo a caso sia il padre.
Paternità Standard
PA=0.05
PC=0.1
PP
M
A/A
C/D
B/B
E/E
F
A/B
C/E
LR = CPI =
P(F|M,PP)
P(F|M)
=
1
pA
0.5
*
pC
=
1
0.05
0.5
*
0.1
= 20*5 = 100
Interpretazione: il dato osservato è 100 volte più probabile
assumendo che PP sia il padre di F, in confronto all’ipotesi
alternativa che un uomo a caso sia il padre.
ERRORE
Una affermazione riguardo la probabilità delle ipotesi
data l’evidenza:
E’ 100 volte più probabile che PP sia il padre di C
piuttosto che un altro uomo non imparentato sia il padre
di C
Diremmo qualcosa di P(H1|E) e P(H2|E) che non
conosciamo
Formule per calcolo LR
Madre
Figlio
Presunto Padre
A
A
AB
A
AB
AB
A
AB
BC
AB
A
AB
AB
A
AC
BC
AB
AB
BC
AB
AC
BD
AB
AC
A
A
A
AB
A
A
B
AB
A
BC
AB
A
AB
AB
AC
AB
AB
A
AB
AB
AB
LR=PI
0.5/pA
1/pA
0.5/(pA+pB)
1/(pA+pB)
Interpretazione dei risultati
(LG SIGU sulle analisi genetiche di accertamento parentale, 2013)
Esclusione
Il Gruppo di Lavoro, per addivenire all’esclusione di compatibilità
biologica, suggerisce un valore di rapporto di verosimiglianza
inferiore a 1:10.000 (Brenner C, 2004).
Attribuzione
Il Gruppo di Lavoro, per definire l’attribuzione, suggerisce un valore
di rapporto di verosimiglianza superiore a 10.000:1.
Inconclusività
Conseguentemente si definisce inconclusivo qualsiasi risultato che
generi un rapporto di verosimiglianza compreso tra 1:10.000 e
10.000:1.
Probabilità di Paternità: P(Hp|E) = W
La probabilità di paternità W sulla base dell’osservazione dei profili
genetici (probabilità a posteriori) richiede una stima (soggettiva)
delle probabilità a priori P(Hp) e P(Hd) valutate sulla base delle sole
evidenze circostanziali (non genetiche)
Teorema di Bayes:
P Hp E =
Quando P(Hp) = P(Hd)=1/2 P Hp E =
=
P(E|Hp
P(E|Hp + P(E|Hd
Formula di
Essen-Moller
=
P Hp P(E|Hp
P Hp P(E|Hp +P Hd P(E|Hd
P Hp P(E|Hp
P Hp P(E|Hp +P Hd P(E|Hd
P(E|Hp /P(E|Hp
P(E|Hp + P(E|Hd /P(E|Hp
=
𝐋𝐑
1
=
1 + 1/LR 𝐋𝐑 + 𝟏
=
COMPLICAZIONI
1. Mutazioni
2. Alleli silenti
3. Theta – correction
4. Pedigrees complessi
Mutazioni
Mutazioni: è il prezzo da pagare per avere marcatori altamente
polimorfici e non codificanti
 Somatiche
individuo
 Germinali
progenie
Abbiamo buoni dati per stimare il tasso di mutazione:
American Association of Blood Banks (AABB) 2003 Annual Report
http://www.cstl.nist.gov/strbase/mutation.htm
Tasso di mutazione (probabilità di un cambiamento nel DNA da
una generazione all’altra) varia con:
 Sesso (M>F)
 Locus
 Età
Modelli per le mutazioni
Per tenere in considerazione la possibilità di mutazioni si sono
sviluppati dei modelli parametrici:
 Matematicamente coerenti
 Formulati in termini di parametri che possono essere interpretati
 Ragionevoli dal punto di vista biologico
Modelli per le mutazioni:
 «Equal»
 «Stepwise»
«extended stepwise»
 «stationary» (stabile)
 «unstationary» (non stabile)
Modello stabile: introducendo una persona non tipizzata nel
pedigree il valore di LR non cambia.
Questa è una proprietà ragionevole, poiché le informazioni non
rilevanti non dovrebbero cambiare il risultato
Matrici per le mutazioni
La matrice specifica il modello
Due alleli: 1 e 2
Probabilità di mutare da 1 a 2 = 0.01
Probabilità di mutare da 2 a 1 = 0.01
M=
m11
m12
m21
m22
M=
0.99
0.01
0.01
0.99
Tre alleli: 1, 2 e 3
m11
m12
m13
M= m21
m22
m23
m31
m32
m33
M1=
0,990
0,005
0,005
0,005
0,990
0,005
0,005
0,005
0,990
Somma
1
1
1
M2=
0,990
0,005
0,001
0,009
0,990
0,009
0,001
0,005
0,990
1
1
1
Intervallo di mutazione: Mutation range r
Mutation range (r) = 0.1
la probabilità di mutazione decresce di 1/10 per ogni ulteriore
differenza di unità ripetuta
m11
m12
m13
M= m21
m22
m23
m31
m32
m33
Somma
M2=
0,990
0,009
0,001
1
0,005
0,990
0,005
1
0,001
0,009
0,990
1
Mutation range = 0.001/0.009 = 0.1111
Qual è il modello «giusto»?
Alleli silenti
PP
M
B/-
A/-
LR =
pS(pA+pS)
(pA+pS)2(pB+2pS)+pApS(pB+2pS)
F
A/-
0.05(0.1+0.05)
(0.1+0.05)2(0.1+2*0.05)+0.1*0.05(0.1+2*0.05)
= 1.363636
Theta – correction (ϴ)
Problema: persone non imparentate imparentate!
Soluzione: Theta – correction (ϴ)
ϴ è la probabilità che 2 alleli presi a caso siano identici per discendenza (IBD)
Equilibrio di HW
Theta-correction (ϴ)
2 alleli, A e B
pA=0.4, pB=0.6
Omozigoti AA: ϴpA+ pA2(1-ϴ)
Eterozigoti AB: 2pA pB(1-ϴ)
Se ϴ=0.1 (suggerito 0.01)
A/A= 0.42
=0.16
A/B= 2*0.4*0.6 =0.48
B/B= 0.62
=0.36
1.00
A/A= 0.1*0.4+0.42(1-0.1)
A/B= 2*0.4*0.6(1-0.1)
B/B= 0.1*0.6+0.62(1-0.1)
=0.184
=0.432
=0.384
1.00
Theta – correction (ϴ)
Se x alleli sono di tipo A su un totale di n alleli campionati dalla
sottopopolazione, la probabilità che il successivo sia di tipo A è
xϴ + (1- ϴ)pA
1 + (n- 1) ϴ
Esempio
PP
M
A/A
B/B
1
LR=
P(F ha A|non paternità)
F
A/B
x=2
n=4
P(F ha A|non paternità) =
2ϴ + (1- ϴ)pA
1 + (4- 1) ϴ
LR=
1 + 3ϴ
2ϴ + (1- ϴ)pA
ϴ riduce il valore di LR: approccio conservativo
Pedigrees complessi
 Paternità deficitarie
 Ricostruzione di linee parentali
 Incesti
 ……