Modello collaborativo per migliorare l`accuratezza dell`OCR del

Transcript

Modello collaborativo per migliorare l`accuratezza dell`OCR del
Modello collaborativo per migliorare l’accuratezza
dell’OCR del Greco antico
Federico Boschetti∗
[email protected]
Project – Tufts University, Boston MA
CIMeC – Univ. degli Studi di Trento
∗ Perseus
Verona, 3–4 Marzo 2010
Federico Boschetti
Modello collaborativo per migliorare l’OCR
1/ 30
Introduzione
Metodologia
Risultati
Discussione
Overview
1
Introduzione
2
Metodologia
3
Risultati
4
Discussione
Federico Boschetti
Modello collaborativo per migliorare l’OCR
2/ 30
Introduzione
Metodologia
Risultati
Discussione
Introduzione
La nuova generazione di corpora greci e latini ha spostato
l’interesse dai testi digitali alle edizioni digitali. Infatti nella
creazione delle prime collezioni digitali, prefazioni,
introduzioni, indici, bibliografie, note, apparati critici e varianti
testuali presenti in edizioni differenti abitualmente non
venivano presi in considerazione.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
2/ 30
Edizione
critica
Critical edition
Federico Boschetti
Introduzione
Overview
Metodologia
Textual Structures
Risultati
Mapping
Discussione
Results and Conclusions
Critical edition
Register of collations
Repertory of conjectures
Editions and Repertories
Modello
collaborativoAlignment
per migliorare
l’OCR and Linkage of Interpretations
Federico
Boschetti
of Variants
3/ 30
Introduzione
Overview
Metodologia
Textual Structures
Risultati
Mapping
Discussione
Results and Conclusions
Critical edition
Register of collations
Repertory of conjectures
Editions and Repertories
Testo
apparato critico
Criticale edition
Federico Boschetti
Modello
collaborativoAlignment
per migliorare
l’OCR and Linkage of Interpretations
Federico
Boschetti
of Variants
4/ 30
Introduzione
Overview
Metodologia
Textual Structures
Risultati
Mapping
Discussione
Results and Conclusions
Critical edition
Register of collations
Repertory of conjectures
Editions and Repertories
Testo
apparato critico
Criticale edition
Federico Boschetti
Modello
collaborativoAlignment
per migliorare
l’OCR and Linkage of Interpretations
Federico
Boschetti
of Variants
4/ 30
Introduzione
Metodologia
Risultati
Discussione
Peculiarità dell’OCR applicato ad edizioni critiche dei
classici
Il layout è diviso in diversi specchi con differente
dimensione del carattere.
Il Greco antico usa un ampio set di caratteri per
rappresentare le combinazioni di spiriti e accenti sulle
vocali.
Le edizioni critiche sono multilingui.
Gli esemplari di edizioni del XIX e del XX secolo possono
avere pagine di testo danneggiate.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
5/ 30
Introduzione
Metodologia
Risultati
Discussione
Studi affini
Si possono dividere i lavori relativi alla digitalizzazione dei testi
antichi in tre gruppi:
Il primo gruppo fornisce strumenti e metodi per l’analisi e
la correzione assistita da computer.
Il secondo gruppo di studi si occupa delle strategie e delle
interfacce per registrare le varianti e le congetture.
Il terzo gruppo riguarda i metodi per migliorare
l’accuratezza dell’OCR tramite tecniche di post-processing
sull’output di applicazioni per l’OCR.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
6/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Overview
1
Introduzione
2
Metodologia
Allineamento multiplo
Selezione dei caratteri
Spell-checking
3
Risultati
4
Discussione
Federico Boschetti
Modello collaborativo per migliorare l’OCR
7/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Edizioni usate per acquisire dati sperimentali
Ateneo, Deipnosophistae
Meineke (1858): Teubner [senza apparato]
Kaibel (1887): Teubner [apparato ricco]
Gulick (1951): Loeb [apparato minimo]
Eschilo, Tragedie
Hermann (1852): Weidmann [senza apparato]
Campioni
Cinque pagine sono state scelte a caso per addestrare le singole
applicazioni per l’OCR.
Altre cinque pagine sono state scelte a caso per addestrare il classificatore
bayesiano.
È stato applicato un metodo di valutazione incrociata, usando per
l’addestramento tutte le pagine tranne quella da testare.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
7/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Edizione di Hermann (1852)
Federico Boschetti
Modello collaborativo per migliorare l’OCR
8/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Abbyy Fine Reader 9.0
FineReader è in grado di compiere complesse analisi del
layout e di riconoscere testi multilingui.
Anche se il Greco politonico non è implementato
nativamente, è possibile addestrare FineReader a
riconoscere nuovi caratteri, associando l’immagine dei glifi
ai corrispondenti codici Unicode.
Dopo l’addestramento, FineReader dà i risultati migliori
per quanto riguarda l’accuratezza.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
9/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Ideatech Anagnostis 4.1
Anagnostis è l’unica applicazione capace di riconoscere,
anche senza addestramento, il Greco antico. Tuttavia
l’addestramento può migliorare il riconoscimento.
Spiriti e accenti sono trattati separatamente dal corpo del
carattere, migliorando la precisione del sistema di
riconoscimento.
Anagnostis non è in grado di riconoscere sequenze di
Greco politonico e caratteri latini, come si incontrano
abitualmente negli apparati critici.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
10/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Ocropus 0.3/Tesseract 2.03
OCRopus è attualmente una delle applicazioni open
source per l’OCR che danno risultati più accurati.
OCRopus/Tesseract necessita un addestramento ad hoc
per riconoscere il Greco politonico (o qualsiasi nuovo set
di caratteri). Il riconoscimento di set misti di caratteri dà
risultati accettabili.
Il formato dell’output è solo testo oppure xhtml arricchito
con un microformat che registra le posizioni delle parole
(o anche dei singoli caratteri) sull’immagine della pagina.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
11/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Allineamento degli output delle tre applicazioni
Esempio di progressive multiple sequence alignment
Federico Boschetti
Modello collaborativo per migliorare l’OCR
12/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Il classificatore bayesiano
Perché usare un classificatore bayesiano
L’allineamento in se stesso non è sufficiente a determinare il
carattere più probabile: anche se due applicazioni concordano, ma
sono poco affidabili per il riconoscimento di uno specifico
carattere, il carattere più probabile potrebbe essere fornito dalla
terza applicazione in disaccordo.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
13/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Il classificatore bayesiano
La probabilità che la posizione corrente nell’originale pagina
stampata e0 contenga il carattere x, dato che la prima applicazione
e1 fornisce il carattere c1 , la seconda applicazione e2 fornisce il
carattere c2 e la terza applicazione e3 fornisce il carattere c3 , è
espressa dalla formula:
P(e0 = x|e1 = c1 , e2 = c2 , e3 = c3 )
dove, in generale, P(E0 |E1 , E2 , E3 ), denota la probabilità a
posteriori per l’evento E0 , data la congiunzione degli eventi
E 1 ∩ E2 ∩ E3 .
Federico Boschetti
Modello collaborativo per migliorare l’OCR
14/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Il classificatore bayesiano
Sviluppando la formula precedente e rispettando le tipiche
assunzioni richieste da un naive Bayesian classifier, si ottiene
x0 = arg maxx
Q3
i=1 P(ei
= ci |e0 = x) ∗ P(e0 = x)1/3
dove ei è una specifica applicazione e ci è il carattere fornito da
quell’applicazione; e0 è la posizione corrente sulla originaria pagina
a stampa e x è il carattere corretto effettivamente in quella
posizione.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
14/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Il classificatore bayesiano
Cinque pagine di ciascun output dell’OCR sono state allineate con
la ground truth, per calcolare la probabilità associata a ciascun
error pattern.
Secondo la formula precedente, la probabilità è espressa da
C (a→b)
C (b)
∗
C (b)
N
1/3
Il primo fattore di questo valore esprime la probabilità che, dato un carattere a
nell’output dell’OCR, rappresenti un carattere b nella ground truth. È
costituito dal numero di occorrenze dell’allineamento corrente, C (a → b),
diviso per il numero totale di occorrenze del carattere b nella ground truth,
C (b). Il secondo fattore di questo valore è la radice cubica di C (b) diviso per il
numero totale di caratteri, N. Questo fattore è usato per tutte le applicazioni
di OCR, perché è basato soltanto sulla ground truth.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
14/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Selezione della sequenza più probabile di caratteri
Š
l
l
o
c
|
|
|
|
|
Š
l
l
o
c
|
|
|
|
;
l
l
o
c
Š
l
l
o
c
Federico Boschetti
|
d
|
|
d
|
|
d
e
k
e
Ð
|
|
|
|
|
|
â
k
e
Ð
n
o
u
|
|
n
|
o
u
|
|
ì
â
q
e
;
t
o
u
â
k
e
Ð
n
o
u
p
|
*
a
Ø
|
|
|
|
p
a
Ø
c
|
k
a
@
c
t
p
a
Ø
c
t
ì
d
|
.
c
|
t
|
|
d
|
|
|
|
t
ì
ì
d
|
|
|
ì
d
è
r
|
|
ê
|
|
ê
g
o
n
h
n
|
|
|
|
|
¡
n
u
s
e
n
¢
n
n
s
i
n
n
¢
n
u
s
e
n
|
|
|
|
r
g
o
n
R
U
o
r
g
o
|
Modello collaborativo per migliorare l’OCR
|
|
u
|
s
e
|
n
.
FineReader
;
OCRopus
.
.
Anagnostis
Risultato
|
15/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Selezione della sequenza più probabile di caratteri
h
n
u
|
|
|
|
|
¡
n
u
s
e
n
¢
n
n
s
i
n
¢
n
u
s
e
n
|
Federico Boschetti
s
e
|
n
.
FineReader
;
OCRopus
.
.
Anagnostis
Risultato
|
Modello collaborativo per migliorare l’OCR
16/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Spell-checking supportato dai risultati dell’OCR
Output di FineReader
RegEx per tutte le applic. OCR
Suggerimenti dello spell-checker
Risultati
âxer mwsen
âxer á
?[mi]wsen
[woº]p[ao]s[eì]n
[eé]n
e??pˆshc
[eâ][Îu]junt[š ]rion
pr[¸À]toc
[KQH][ÔÜØ]roc
[eê]jhke
[DL]udÀn
l[aˆ][äå]n
[«¢]las[et]?n
e?i?[uî]frwo?n
âxer mwse, âxer mwsè, âxhr mwsen
âxer mwsen
ºpasen, ºpasèn, spˆsen
ºpasen
wpasen
en
epˆshc
âÎjuntšrion
pr¸toc
KÔroc
ejhke
DudÀn
lˆän
«lasen
eufrwn
Federico Boschetti
(34. elemento)
pˆsùc ... pˆshc (11. elemento)
ân, ân ... én
én
pˆshc,
pˆshc
eÎjunt rion, eÎjunt riìn, eÎjunt¨ri
eÎjunt rion
prÀtoc, prÀtìc, prwtäc
prÀtoc
KÜroc, KÜrìc, KÔproc
KÜroc
êjhke, êjekè, j¨ke
DuÀn, DidÀn ... LudÀn
êjhke
(6. item)
LudÀn
laän, laìn, Lˆiìn
laän
¢lasen, ¢lasèn, ¢asen
¢lasen
âÔfrwn, EÖfrwn,
eÖfrwn (corretto)
Modello collaborativo per migliorare l’OCR
eufrwn
17/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Suggerimenti correttamente accettati
Output di FineReader
wpasen
RegEx per tutte le applic. OCR
[woº]p[ao]s[eì]n
Suggerimenti dello spell-checker
ºpasen, ºpasèn, spˆsen
Risultato
ºpasen
Federico Boschetti
Modello collaborativo per migliorare l’OCR
18/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Suggerimenti correttamente rifiutati
Output di FineReader
âxer mwsen
RegEx per tutte le applic. OCR
âxer á
?[mi]wsen
Suggerimenti dello spell-checker
âxer mwse, âxer mwsè, âxhr mwsen
Risultato
âxer mwsen
Federico Boschetti
Modello collaborativo per migliorare l’OCR
19/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Suggerimenti scorrettamente rifiutati
Output di FineReader
eufrwn
RegEx per tutte le applic. OCR
? ?[uî]frwo?n
e i
Suggerimenti dello spell-checker
âÔfrwn, EÖfrwn,
eÖfrwn (corretto)
Risultato
eufrwn
Federico Boschetti
Modello collaborativo per migliorare l’OCR
20/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Overview
1
Introduzione
2
Metodologia
3
Risultati
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
4
Discussione
Federico Boschetti
Modello collaborativo per migliorare l’OCR
20/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Risultato dell’allineamento sottoposto a spell-checking
FineReader
]^_`ab
Ocropus
ef_bgb
Anagnostis
baugg_vu
Result
"$%&'
(((((((((((((((((((((((((
"$%&'
"$%&'
(((((((((((((((((((((((((
"$%&'
\N)?"$%&'
(A((((66(6(((A(((((((((((
"$%&'
"$%&'
(((((((((((((((((((((((((
"$%&'
)*,./%0121&45'
((((((((((((((((((((((((((((6((
)*,./%0121&75'
)*,./%0121&EEE'
(((((((((((((((((((((((((((UUU(
)*,./%0121&75'
)EE./%012h1&75'
((AUU(((((((((((((((6((((((((((
)*,./%0121&75'
)*,./%0121&75'
(((((((((((((((((((((((((((((((
)*,./%0121&75'
$/%*.891:;09"%<'
((((((((((((((((((((((((((((
$/%*.891:;09"%<'
$/%*.891c;09"%<'
(((((((((((((((6((((((((((((
$/%*.891:;09"%<'
$/%*.891:;0d"%<'
((((((((((((((((((((((6(((((
$/%*.891:;09"%<'
$/%*.891:;09"%<'
((((((((((((((((((((((((((((
$/%*.891:;09"%<'
=%$>1$:,/1<4?@$2'
(((((((((((((((A((((((BB6(((((
=%$>1$:C/1EEF@$2'
=%$>1$cC/1F@$2'
(((((((((((((6((((((((((((((
=%$>1$:C/1F@$2'
=%$>1$:,)/1F@$2'
(6(((((((((((((A6(((((((((((
=%$>1$:C/1F@$2'
=%$>1$:C/1F@$2'
((((((((((((((((((((((((((((
=%$>1$:C/1F@$2'
GI.%&%J1:>K/%L/M'
(((((((((((((((((((((((((((((((
GI.%&%J1:>K/%L/M'
GI.%&%J1c>K/%L/O'
((((((((((6(((((((((((((((((A((
GI.%&%J1:>K/%L/M'
jIh%&%1:k::K/%L/hl'
A(6(((((A(((((6666((((6(((((6(B(
GI.%&%J1:>K/%L/ME'
GI.%&%J1:>K/%L/M'
(((((((((((((((((((((((((((((((
GI.%&%J1:>K/%L/M'
)1I%@NO9%&1%@P1%L9R'
((((((((((((((((((((A(((((((((((((
)1I%@NO9%&1%SP1%L9R'
)1Id@NO9d&1dSP1%L98'
(((((A((((((((A((((A(((((((((((A((
)1I%@NO9%&1%SP1%L9R'
)1I%@N/:n%&1%SP1%)E\'
(((A(((((((AB6(((((((((((((((6(UA((
)1I%@NOE9%&1%SP1%L9R'
)1I%@NO9%&1%SP1%L9R'
((((((((((((((((((((((((((((((((((
)1I%@NO9%&1%SP1%L9R'
)1/T1EL9&N.8$>%%&E4'
(((((((((U(A(((((((((((((((((((((((U6(
)1/T1:;L9&N.8$>%%&7V'
)1/T1:;LN9&N.8$>N%&EEE'
(((((((((((((6(((((((((((((((6((((UUU(
)1/T1:;L9&N.8$>%%&7V'
E@1:L&N.8$E%%ooE'
((U6AA(((((A((6(((((((((((((U(((66(U6(
)1/T1:;L9&N.8$>%%&7V'
)1/T1:;L9&N.8$>%%&EE'
(((((((((((((((((((((((((((((((((((UU(
)1/T1:;L9&N.8$>%%&7V'
IW%.TI@N%X0$/I%@'
(((((((((((((((((((((((((((((((
IW%.TI@N%X0$/I%@'
IW%.TI@NdX0$/OI%@'
((((((((((((A((((((((((A(((((((
IW%.TI@N%X0$/I%@'
:%.ENp@N%UN0$I%@'
6(6((((U66(((((BA(((6(((((((((((
IW%.TI@N%EX0$/I%@'
IW%.TI@N%X0$/I%@'
(((((((((((((((((((((((((((((((
IW%.TI@N%X0$/I%@'
%..%YZ"N[%"2N&'
(((((((((((((((((((((((((((
%..%YZ"N[%"2N&'
%..%YZ"N[d"2N&'
((((((((((((((((((A((((((((
%..%YZ"N[%"2N&'
%..%rZ"N:t%"2N&'
(((((6(((((((((((B6(((((((((
%..%YZ"NE[%"2N&'
%..%YZ"N[%"2N&'
(((((((((((((((((((((((((((
%..%YZ"N[%"2N&'
$>@"01/)*1>@"1.\'
(((((((((((((((((((((((((((((
$>@"01/)*1>@"1.\'
$>@"01/)*1>@"1.\'
(((((((((((((((((((((((((((((
$>@"01/)*1>@"1.\'
$h@"01):@"1.\'
(A(((((((6(((6(6(6(((((((A(((
$>@"01/)*1>@"1.\'
$>@"01/)*1>@"1.\'
(((((((((((((((((((((((((((((
$>@"01/)*1>@"1.\'
Federico Boschetti
Modello collaborativo per migliorare l’OCR
21/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Risultato dell’allineamento sottoposto a spell-checking
Federico Boschetti
Modello collaborativo per migliorare l’OCR
21/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Risultato dell’allineamento sottoposto a spell-checking
. ˆ A u dÀn
| | | | || | || | ||| | |˜ | | | | ||++# | | | |
 b rodiaÐtwn d á p etai
 b rodiaÐtwn d é p etai
FineReader
L u dÀn
’ é p etai L u d Àn
| | | | || | || | |||˜| | | | | | || | | | | |
 b rodiaÐtwn d
Ocropus
 b rodiaÐtwn d é p etai L u d Àn
’ á k etai L u d Àn
| # | | || | || | ||| | |˜# | | | || | | | | |
 r rodiaÐtwn d
Anagnostis
 b rodiaÐtwn d é p etai L u d Àn
 b rodiaÐtwn d é p etai L u d Àn
| | | | || | || | ||| | | | | | | | || | | | | |
Risultato
 b rodiaÐtwn d é p etai L u d Àn
Federico Boschetti
Modello collaborativo per migliorare l’OCR
21/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Valutazione dell’accuratezza
accuratezza =
Federico Boschetti
corrispondenze
corrispondenze+substituzioni+inserzioni+cancellazioni
Modello collaborativo per migliorare l’OCR
22/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Accuratezza: singole applicazioni
Edizione
Gulick (Loeb)
Kaibel (Teubner)
Meineke (Teubner)
Hermann (Weidmann)
Federico Boschetti
FR senza built-in training
FR con built-in training
OCRopus
Anagnostis
96.44%
93.11%
94.54%
97.41%
94.35%
93.15%
93.79%
–
92.63%
95.19%
92.88%
91.84%
93.15%
92.97%
91.78%
78.64%
Modello collaborativo per migliorare l’OCR
23/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Accuratezza: allineamento e spell-checking
Edizioni
Gulick (Loeb)
guadagno
Kaibel (Teubner)
guadagno
Meineke (Teubner)
guadagno
Hermann (Weidmann)
guadagno
Federico Boschetti
Allineam. e spell-checking
FR allineato
99.01%
+2.57%
98.17%
+2.98%
97.46%
+2.92%
98.91%
+1.50%
98.02%
+1.58%
95.45%
+0.26%
96.15%
+1.61%
–
–
Modello collaborativo per migliorare l’OCR
Applicazione migliore
96.44%
0.00%
95.19%
0.0%
94.54%
0.00%
97.41%
0.00%
24/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Accuratezza: apparato critico
Gulick
guadagno
Kaibel
guadagno
Federico Boschetti
Allineamento e spell-checking
FR con b.-in
OCRopus
Anagnostis
90.88%
+2.89%
93.14%
+3.60%
87.99%
0.0%
87.68%
-1.86%
64.79%
-23.20%
89.54%
0.0%
59.08%
-28.91%
57.11%
-32.43%
Modello collaborativo per migliorare l’OCR
25/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Mappatura del testo corretto sull’immagine
Federico Boschetti
Modello collaborativo per migliorare l’OCR
26/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Mappatura del testo corretto sull’immagine
Correzione j e s m À
n
ân
SurakoÔsaic
fhsÈ
toØc
panteleÐoic
tÀ
| | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | |
Originale
jesmÀn
ân
SurakoÔsaic
fhsÈ
toØc
panteleÐoic
n
|
t o ;n
djvuxml
[...]
<LINE>
<WORD coords=”114,194,249,233”>jesmÀn</WORD>
<WORD coords=”271,187,312,233”>ân</WORD>
<WORD coords=”332,187,574,233”>SurakoÔsaic</WORD>
<WORD coords=”593,187,678,234”>fhsÈ</WORD>
<WORD coords=”697,187,767,234”>toØc</WORD>
<WORD coords=”787,187,1007,234”>PanteleÐoic</WORD>
<WORD coords=”1027,187,1078,234”>tÀn</WORD>
</LINE>
[...]
Federico Boschetti
Modello collaborativo per migliorare l’OCR
26/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Overview
1
Introduzione
2
Metodologia
3
Risultati
4
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Federico Boschetti
Modello collaborativo per migliorare l’OCR
27/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Il diagramma di flusso per digitalizzazioni massicce di
edizioni di classici
Addestramento delle applicazioni per l’OCR (circa cinque
pagine per libro).
OCR.
Allineamento multiplo.
Correzioni tramite regular expressions riusabili.
Correzioni manuali.
Valutazione dell’accuratezza dei testi corretti.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
27/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Il modello collaborativo
Forze in gioco
L’installazione del software per l’OCR e per l’allineamento può
presentare serie difficoltà, perché spesso ancora in beta
version.
Le operazioni di training sono dispendiose in termini di tempo.
Uno stesso training set può essere usato su esemplari con
caratteristiche simili.
Versioni digitali diverse basate su un medesimo esemplare
possono essere usate per l’allineamento e quindi per
aumentare l’accuratezza complessiva.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
28/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Il modello collaborativo
Scenario
Su archive.org oppure books.google.com non è difficile
trovare più di una copia digitale basata sulla medesima
edizione o (più raramente) sul medesimo esemplare.
Anche se spesso il Greco non è riconosciuto, le parti in
caratteri Latini possono essere riusate per migliorare
l’accuratezza.
Gruppi indipendenti di specialisti interessati alle medesime
edizioni possono trarre vantaggio dalla condivisione di
trascrizioni digitali, anche se solo parzialmente corrette.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
28/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Il modello collaborativo
Soluzione proposta
Fornire metadata che permettano di identificare in modo univoco
non solo autore ed opera, ma anche edizione, esemplare e scansione.
Rendere disponibili i training sets, fornendo metadata sulla
scansione su cui sono basati e sull’accuratezza raggiunta, grazie a
questi, su una o più scansioni.
Fornire la ground truth, associata ad oppurtini metadata, di un
numero minimo di pagine (cinque?, dieci?) che permetta di valutare
l’accuratezza dei diversi OCR e allineamenti applicati alle medesime
scansioni.
Usare webservices per l’esecuzione dell’OCR.
Procedere alla correzione manuale tramite l’eccellente piattaforma
collaborativa fornita da Wikisource (wikisource.org)
Federico Boschetti
Modello collaborativo per migliorare l’OCR
28/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Conclusione
Per andare oltre i digital incunabula è necessario creare
un’affidabile biblioteca digitale di edizioni critiche. Una
soddisfacente accuratezza dell’OCR per l’intero contenuto di
un’edizione critica (testo e apparato) che permetta di
abbattere i costi delle correzioni manuali, è uno dei primi,
necessari passi per creare una nuova generazione di corpora
testuali.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
29/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Direzioni future
Analisi del layout: riconoscimento automatico degli
specchi di testo, dell’apparato critico, delle note, etc.
Federico Boschetti
Modello collaborativo per migliorare l’OCR
30/ 30
Introduzione
Metodologia
Risultati
Discussione
Grazie per l’attenzione
Federico Boschetti
Modello collaborativo per migliorare l’OCR
30/ 30
Introduzione
Metodologia
Risultati
Discussione
Bibliografia
S. Feng, R. Manmatha: A Hierarchical, HMM-based Automatic Evaluation of OCR Accuracy for a Digital
Library of Books. JCDL 2006, 109–118 (2006)
W.B. Lund, E.K. Ringger: Improving Optical Character Recognition through Efficient Multiple System
Alignment, JCDL (2009)
M. Reynaert: Non-interactive OCR Post-correction for Giga-Scale Digitization Projects. A. Gelbukh (ed.):
CICLing 2008, LNCS 4919, 617–630 (2008)
M. Reynaert: All, and only, the Errors: more Complete and Consistent Spelling and OCR-Error Correction
Evaluation. 6th International Conference on Language Resources and Evaluation 2008, 1867–1872 (2008)
C. Ringlstetter, K. Schulz, S. Mihov, K. Louka: The same is not the same - postcorrection of alphabet
confusion errors in mixed-alphabet OCR recognition. 8th International Conference on Document Analysis
and Recognition, 1, 406–410 (2005)
M. Spencer, C. Howe: Collating texts using progressive multiple alignment. Computer and the Humanities,
37, 1, 97–109 (2003)
G. Stewart, G. Crane, A. Babeu: A New Generation of Textual Corpora. JCDL 2007, 356–365 (2007)
L. Zhuang, X. Zhu: An OCR Post-processing Approach Based on Multi-knowledge. 9th International
Conference on Knowledge-Based Intelligent Information and Engineering Systems, 346–352 (2005)
Federico Boschetti
Modello collaborativo per migliorare l’OCR
30/ 30

Documenti analoghi

Scarica il file PDF

Scarica il file PDF basso livello di confidenza, cioè di probabilità di essere stata riconosciuta correttamente, il programma propone comunque la lettera segnalando l’incertezza. Il software che svolge l’operazione di...

Dettagli

Abstracts - Universitetet i Bergen

Abstracts - Universitetet i Bergen opera) scritte in caratteri latini sono fruibili tramite motori di ricerca, in quanto il testo, creato dall'OCR, è mappato sull'immagine della pagina. Al contrario, nella quasi totalità dei casi, l...

Dettagli