Modello collaborativo per migliorare l`accuratezza dell`OCR del

Transcript

Modello collaborativo per migliorare l’accuratezza
dell’OCR del Greco antico
Federico Boschetti∗
[email protected]
Project – Tufts University, Boston MA
CIMeC – Univ. degli Studi di Trento
∗ Perseus
Verona, 3–4 Marzo 2010
Federico Boschetti
Modello collaborativo per migliorare l’OCR
1/ 30
Introduzione
Metodologia
Risultati
Discussione
Overview
1
Introduzione
2
Metodologia
3
Risultati
4
Discussione
Federico Boschetti
2/ 30
Introduzione
Metodologia
Risultati
Discussione
Introduzione
La nuova generazione di corpora greci e latini ha spostato
l’interesse dai testi digitali alle edizioni digitali. Infatti nella
creazione delle prime collezioni digitali, prefazioni,
introduzioni, indici, bibliografie, note, apparati critici e varianti
testuali presenti in edizioni differenti abitualmente non
venivano presi in considerazione.
Federico Boschetti
2/ 30
Edizione
critica
Critical edition
Federico Boschetti
Introduzione
Overview
Metodologia
Textual Structures
Risultati
Mapping
Discussione
Results and Conclusions
Critical edition
Register of collations
Repertory of conjectures
Editions and Repertories
Modello
collaborativoAlignment
per migliorare
l’OCR and Linkage of Interpretations
Federico
Boschetti
of Variants
3/ 30
Introduzione
Overview
Metodologia
Textual Structures
Risultati
Mapping
Discussione
Critical edition
Testo
apparato critico
Criticale edition
Federico Boschetti
Modello
per migliorare
Federico
Boschetti
of Variants
4/ 30
Introduzione
Overview
Metodologia
Textual Structures
Risultati
Mapping
Discussione
Critical edition
Testo
apparato critico
Criticale edition
Federico Boschetti
Modello
per migliorare
Federico
Boschetti
of Variants
4/ 30
Introduzione
Metodologia
Risultati
Discussione
Peculiarità dell’OCR applicato ad edizioni critiche dei
classici
Il layout è diviso in diversi specchi con differente
dimensione del carattere.
Il Greco antico usa un ampio set di caratteri per
rappresentare le combinazioni di spiriti e accenti sulle
vocali.
Le edizioni critiche sono multilingui.
Gli esemplari di edizioni del XIX e del XX secolo possono
avere pagine di testo danneggiate.
Federico Boschetti
5/ 30
Introduzione
Metodologia
Risultati
Discussione
Studi affini
Si possono dividere i lavori relativi alla digitalizzazione dei testi
antichi in tre gruppi:
Il primo gruppo fornisce strumenti e metodi per l’analisi e
la correzione assistita da computer.
Il secondo gruppo di studi si occupa delle strategie e delle
interfacce per registrare le varianti e le congetture.
Il terzo gruppo riguarda i metodi per migliorare
l’accuratezza dell’OCR tramite tecniche di post-processing
sull’output di applicazioni per l’OCR.
Federico Boschetti
6/ 30
Introduzione
Metodologia
Risultati
Discussione
Allineamento multiplo
Selezione dei caratteri
Spell-checking
Overview
1
Introduzione
2
Metodologia
Spell-checking
3
Risultati
4
Discussione
Federico Boschetti
7/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Edizioni usate per acquisire dati sperimentali
Ateneo, Deipnosophistae
Meineke (1858): Teubner [senza apparato]
Kaibel (1887): Teubner [apparato ricco]
Gulick (1951): Loeb [apparato minimo]
Eschilo, Tragedie
Hermann (1852): Weidmann [senza apparato]
Campioni
Cinque pagine sono state scelte a caso per addestrare le singole
applicazioni per l’OCR.
Altre cinque pagine sono state scelte a caso per addestrare il classificatore
bayesiano.
È stato applicato un metodo di valutazione incrociata, usando per
l’addestramento tutte le pagine tranne quella da testare.
Federico Boschetti
7/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Edizione di Hermann (1852)
Federico Boschetti
8/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Abbyy Fine Reader 9.0
FineReader è in grado di compiere complesse analisi del
layout e di riconoscere testi multilingui.
Anche se il Greco politonico non è implementato
nativamente, è possibile addestrare FineReader a
riconoscere nuovi caratteri, associando l’immagine dei glifi
ai corrispondenti codici Unicode.
Dopo l’addestramento, FineReader dà i risultati migliori
per quanto riguarda l’accuratezza.
Federico Boschetti
9/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Ideatech Anagnostis 4.1
Anagnostis è l’unica applicazione capace di riconoscere,
anche senza addestramento, il Greco antico. Tuttavia
l’addestramento può migliorare il riconoscimento.
Spiriti e accenti sono trattati separatamente dal corpo del
carattere, migliorando la precisione del sistema di
riconoscimento.
Anagnostis non è in grado di riconoscere sequenze di
Greco politonico e caratteri latini, come si incontrano
abitualmente negli apparati critici.
Federico Boschetti
10/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Ocropus 0.3/Tesseract 2.03
OCRopus è attualmente una delle applicazioni open
source per l’OCR che danno risultati più accurati.
OCRopus/Tesseract necessita un addestramento ad hoc
per riconoscere il Greco politonico (o qualsiasi nuovo set
di caratteri). Il riconoscimento di set misti di caratteri dà
risultati accettabili.
Il formato dell’output è solo testo oppure xhtml arricchito
con un microformat che registra le posizioni delle parole
(o anche dei singoli caratteri) sull’immagine della pagina.
Federico Boschetti
11/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Allineamento degli output delle tre applicazioni
Esempio di progressive multiple sequence alignment
Federico Boschetti
12/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Il classificatore bayesiano
Perché usare un classificatore bayesiano
L’allineamento in se stesso non è sufficiente a determinare il
carattere più probabile: anche se due applicazioni concordano, ma
sono poco affidabili per il riconoscimento di uno specifico
carattere, il carattere più probabile potrebbe essere fornito dalla
terza applicazione in disaccordo.
Federico Boschetti
13/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
La probabilità che la posizione corrente nell’originale pagina
stampata e0 contenga il carattere x, dato che la prima applicazione
e1 fornisce il carattere c1 , la seconda applicazione e2 fornisce il
carattere c2 e la terza applicazione e3 fornisce il carattere c3 , è
espressa dalla formula:
P(e0 = x|e1 = c1 , e2 = c2 , e3 = c3 )
dove, in generale, P(E0 |E1 , E2 , E3 ), denota la probabilità a
posteriori per l’evento E0 , data la congiunzione degli eventi
E 1 ∩ E2 ∩ E3 .
Federico Boschetti
14/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Sviluppando la formula precedente e rispettando le tipiche
assunzioni richieste da un naive Bayesian classifier, si ottiene
x0 = arg maxx
Q3
i=1 P(ei
= ci |e0 = x) ∗ P(e0 = x)1/3
dove ei è una specifica applicazione e ci è il carattere fornito da
quell’applicazione; e0 è la posizione corrente sulla originaria pagina
a stampa e x è il carattere corretto effettivamente in quella
posizione.
Federico Boschetti
14/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Cinque pagine di ciascun output dell’OCR sono state allineate con
la ground truth, per calcolare la probabilità associata a ciascun
error pattern.
Secondo la formula precedente, la probabilità è espressa da
C (a→b)
C (b)
∗
C (b)
N
1/3
Il primo fattore di questo valore esprime la probabilità che, dato un carattere a
nell’output dell’OCR, rappresenti un carattere b nella ground truth. È
costituito dal numero di occorrenze dell’allineamento corrente, C (a → b),
diviso per il numero totale di occorrenze del carattere b nella ground truth,
C (b). Il secondo fattore di questo valore è la radice cubica di C (b) diviso per il
numero totale di caratteri, N. Questo fattore è usato per tutte le applicazioni
di OCR, perché è basato soltanto sulla ground truth.
Federico Boschetti
14/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Selezione della sequenza più probabile di caratteri

l
l
o
c
|
|
|
|
;
l
l
o
c

l
l
o
c
Federico Boschetti
|
d
|
|
d
|
|
d
e
k
e
Ð
|
|
|
|
|
|
â
k
e
Ð
n
o
u
|
|
n
|
o
u
|
|
ì
â
q
e
;
t
o
u
â
k
e
Ð
n
o
u
p
|
*
a
Ø
|
|
|
|
p
a
Ø
c
|
k
a
@
c
t
p
a
Ø
c
t
ì
d
|
.
c
|
t
|
|
d
|
|
|
|
t
ì
ì
d
|
|
|
ì
d
è
r
|
|
ê
|
|
ê
g
o
n
h
n
|
|
|
|
|
¡
n
u
s
e
n
¢
n
n
s
i
n
n
¢
n
u
s
e
n
|
|
|
|
r
g
o
n
R
U
o
r
g
o
|
|
|
u
|
s
e
|
n
.
FineReader
;
OCRopus
.
.
Anagnostis
Risultato
|
15/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Selezione della sequenza più probabile di caratteri
h
n
u
|
|
|
|
|
¡
n
u
s
e
n
¢
n
n
s
i
n
¢
n
u
s
e
n
|
Federico Boschetti
s
e
|
n
.
FineReader
;
OCRopus
.
.
Anagnostis
Risultato
|
16/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Spell-checking supportato dai risultati dell’OCR
Output di FineReader
RegEx per tutte le applic. OCR
Suggerimenti dello spell-checker
Risultati
âxer mwsen
âxer á
?[mi]wsen
[woº]p[ao]s[eì]n
[eé]n
e??pshc
[eâ][Îu]junt[ ]rion
pr[¸À]toc
[KQH][ÔÜØ]roc
[eê]jhke
[DL]udÀn
l[a][äå]n
[«¢]las[et]?n
e?i?[uî]frwo?n
âxer mwse, âxer mwsè, âxhr mwsen
âxer mwsen
ºpasen, ºpasèn, spsen
ºpasen
wpasen
en
epshc
âÎjuntrion
pr¸toc
KÔroc
ejhke
DudÀn
län
«lasen
eufrwn
Federico Boschetti
(34. elemento)
psùc ... pshc (11. elemento)
ân, ân ... én
én
pshc,
pshc
eÎjunt rion, eÎjunt riìn, eÎjunt¨ri
eÎjunt rion
prÀtoc, prÀtìc, prwtäc
prÀtoc
KÜroc, KÜrìc, KÔproc
KÜroc
êjhke, êjekè, j¨ke
DuÀn, DidÀn ... LudÀn
êjhke
(6. item)
LudÀn
laän, laìn, Liìn
laän
¢lasen, ¢lasèn, ¢asen
¢lasen
âÔfrwn, EÖfrwn,
eÖfrwn (corretto)
eufrwn
17/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Suggerimenti correttamente accettati
wpasen
[woº]p[ao]s[eì]n
ºpasen, ºpasèn, spsen
Risultato
ºpasen
Federico Boschetti
18/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Suggerimenti correttamente rifiutati
âxer mwsen
âxer á
?[mi]wsen
âxer mwse, âxer mwsè, âxhr mwsen
Risultato
âxer mwsen
Federico Boschetti
19/ 30
Introduzione
Metodologia
Risultati
Discussione
Spell-checking
Suggerimenti scorrettamente rifiutati
eufrwn
? ?[uî]frwo?n
e i
âÔfrwn, EÖfrwn,
eÖfrwn (corretto)
Risultato
eufrwn
Federico Boschetti
20/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza delle singole applicazioni per l’OCR
Accuratezza del testo allineato sottoposto allo spell-checker
Accuratezza dell’apparato critico
Mappatura del testo corretto sull’immagine
Overview
1
Introduzione
2
Metodologia
3
Risultati
4
Discussione
Federico Boschetti
20/ 30
Introduzione
Metodologia
Risultati
Discussione
Risultato dell’allineamento sottoposto a spell-checking
FineReader
]^_`ab
Ocropus
ef_bgb
Anagnostis
baugg_vu
Result
"$%&'
(((((((((((((((((((((((((
"$%&'
"$%&'
(((((((((((((((((((((((((
"$%&'
\N)?"$%&'
(A((((66(6(((A(((((((((((
"$%&'
"$%&'
(((((((((((((((((((((((((
"$%&'
)*,./%0121&45'
((((((((((((((((((((((((((((6((
)*,./%0121&75'
)*,./%0121&EEE'
(((((((((((((((((((((((((((UUU(
)*,./%0121&75'
)EE./%012h1&75'
((AUU(((((((((((((((6((((((((((
)*,./%0121&75'
)*,./%0121&75'
(((((((((((((((((((((((((((((((
)*,./%0121&75'
$/%*.891:;09"%<'
((((((((((((((((((((((((((((
$/%*.891:;09"%<'
$/%*.891c;09"%<'
(((((((((((((((6((((((((((((
$/%*.891:;09"%<'
$/%*.891:;0d"%<'
((((((((((((((((((((((6(((((
$/%*.891:;09"%<'
$/%*.891:;09"%<'
((((((((((((((((((((((((((((
$/%*.891:;09"%<'
=%$>1$:,/1<4?@$2'
(((((((((((((((A((((((BB6(((((
=%$>1$:C/1EEF@$2'
=%$>1$cC/1F@$2'
(((((((((((((6((((((((((((((
=%$>1$:C/1F@$2'
=%$>1$:,)/1F@$2'
(6(((((((((((((A6(((((((((((
=%$>1$:C/1F@$2'
=%$>1$:C/1F@$2'
((((((((((((((((((((((((((((
=%$>1$:C/1F@$2'
GI.%&%J1:>K/%L/M'
(((((((((((((((((((((((((((((((
GI.%&%J1:>K/%L/M'
GI.%&%J1c>K/%L/O'
((((((((((6(((((((((((((((((A((
GI.%&%J1:>K/%L/M'
jIh%&%1:k::K/%L/hl'
A(6(((((A(((((6666((((6(((((6(B(
GI.%&%J1:>K/%L/ME'
GI.%&%J1:>K/%L/M'
(((((((((((((((((((((((((((((((
GI.%&%J1:>K/%L/M'
)1I%@NO9%&1%@P1%L9R'
((((((((((((((((((((A(((((((((((((
)1I%@NO9%&1%SP1%L9R'
)1Id@NO9d&1dSP1%L98'
(((((A((((((((A((((A(((((((((((A((
)1I%@NO9%&1%SP1%L9R'
)1I%@N/:n%&1%SP1%)E\'
(((A(((((((AB6(((((((((((((((6(UA((
)1I%@NOE9%&1%SP1%L9R'
)1I%@NO9%&1%SP1%L9R'
((((((((((((((((((((((((((((((((((
)1I%@NO9%&1%SP1%L9R'
)1/T1EL9&N.8$>%%&E4'
(((((((((U(A(((((((((((((((((((((((U6(
)1/T1:;L9&N.8$>%%&7V'
)1/T1:;LN9&N.8$>N%&EEE'
(((((((((((((6(((((((((((((((6((((UUU(
)1/T1:;L9&N.8$>%%&7V'
E@1:L&N.8$E%%ooE'
((U6AA(((((A((6(((((((((((((U(((66(U6(
)1/T1:;L9&N.8$>%%&7V'
)1/T1:;L9&N.8$>%%&EE'
(((((((((((((((((((((((((((((((((((UU(
)1/T1:;L9&N.8$>%%&7V'
IW%.TI@N%X0$/I%@'
(((((((((((((((((((((((((((((((
IW%.TI@N%X0$/I%@'
IW%.TI@NdX0$/OI%@'
((((((((((((A((((((((((A(((((((
IW%.TI@N%X0$/I%@'
:%.ENp@N%UN0$I%@'
6(6((((U66(((((BA(((6(((((((((((
IW%.TI@N%EX0$/I%@'
IW%.TI@N%X0$/I%@'
(((((((((((((((((((((((((((((((
IW%.TI@N%X0$/I%@'
%..%YZ"N[%"2N&'
(((((((((((((((((((((((((((
%..%YZ"N[%"2N&'
%..%YZ"N[d"2N&'
((((((((((((((((((A((((((((
%..%YZ"N[%"2N&'
%..%rZ"N:t%"2N&'
(((((6(((((((((((B6(((((((((
%..%YZ"NE[%"2N&'
%..%YZ"N[%"2N&'
(((((((((((((((((((((((((((
%..%YZ"N[%"2N&'
$>@"01/)*1>@"1.\'
(((((((((((((((((((((((((((((
$>@"01/)*1>@"1.\'
$>@"01/)*1>@"1.\'
(((((((((((((((((((((((((((((
$>@"01/)*1>@"1.\'
$h@"01):@"1.\'
(A(((((((6(((6(6(6(((((((A(((
$>@"01/)*1>@"1.\'
$>@"01/)*1>@"1.\'
(((((((((((((((((((((((((((((
$>@"01/)*1>@"1.\'
Federico Boschetti
21/ 30
Introduzione
Metodologia
Risultati
Discussione
Federico Boschetti
21/ 30
Introduzione
Metodologia
Risultati
Discussione
. ˆ A u dÀn
| | | | || | || | ||| | |˜ | | | | ||++# | | | |
b rodiaÐtwn d á p etai
b rodiaÐtwn d é p etai
FineReader
L u dÀn
’ é p etai L u d Àn
| | | | || | || | |||˜| | | | | | || | | | | |
b rodiaÐtwn d
Ocropus
b rodiaÐtwn d é p etai L u d Àn
’ á k etai L u d Àn
| # | | || | || | ||| | |˜# | | | || | | | | |
r rodiaÐtwn d
Anagnostis
| | | | || | || | ||| | | | | | | | || | | | | |
Risultato
Federico Boschetti
21/ 30
Introduzione
Metodologia
Risultati
Discussione
Valutazione dell’accuratezza
accuratezza =
Federico Boschetti
corrispondenze
corrispondenze+substituzioni+inserzioni+cancellazioni
22/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza: singole applicazioni
Edizione
Gulick (Loeb)
Kaibel (Teubner)
Meineke (Teubner)
Hermann (Weidmann)
Federico Boschetti
FR senza built-in training
FR con built-in training
OCRopus
Anagnostis
96.44%
93.11%
94.54%
97.41%
94.35%
93.15%
93.79%
–
92.63%
95.19%
92.88%
91.84%
93.15%
92.97%
91.78%
78.64%
23/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza: allineamento e spell-checking
Edizioni
Gulick (Loeb)
guadagno
Kaibel (Teubner)
guadagno
Meineke (Teubner)
guadagno
Hermann (Weidmann)
guadagno
Federico Boschetti
Allineam. e spell-checking
FR allineato
99.01%
+2.57%
98.17%
+2.98%
97.46%
+2.92%
98.91%
+1.50%
98.02%
+1.58%
95.45%
+0.26%
96.15%
+1.61%
–
–
Applicazione migliore
96.44%
0.00%
95.19%
0.0%
94.54%
0.00%
97.41%
0.00%
24/ 30
Introduzione
Metodologia
Risultati
Discussione
Accuratezza: apparato critico
Gulick
guadagno
Kaibel
guadagno
Federico Boschetti
Allineamento e spell-checking
FR con b.-in
OCRopus
Anagnostis
90.88%
+2.89%
93.14%
+3.60%
87.99%
0.0%
87.68%
-1.86%
64.79%
-23.20%
89.54%
0.0%
59.08%
-28.91%
57.11%
-32.43%
25/ 30
Introduzione
Metodologia
Risultati
Discussione
Federico Boschetti
26/ 30
Introduzione
Metodologia
Risultati
Discussione
Correzione j e s m À
n
ân
SurakoÔsaic
fhsÈ
toØc
panteleÐoic
tÀ
| | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | |
Originale
jesmÀn
ân
SurakoÔsaic
fhsÈ
toØc
panteleÐoic
n
|
t o ;n
djvuxml
[...]
<LINE>
<WORD coords=”114,194,249,233”>jesmÀn</WORD>
<WORD coords=”271,187,312,233”>ân</WORD>
<WORD coords=”332,187,574,233”>SurakoÔsaic</WORD>
<WORD coords=”593,187,678,234”>fhsÈ</WORD>
<WORD coords=”697,187,767,234”>toØc</WORD>
<WORD coords=”787,187,1007,234”>PanteleÐoic</WORD>
<WORD coords=”1027,187,1078,234”>tÀn</WORD>
</LINE>
[...]
Federico Boschetti
26/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Modello collaborativo
Conclusione
Overview
1
Introduzione
2
Metodologia
3
Risultati
4
Discussione
Diagramma di flusso
Conclusione
Federico Boschetti
27/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Conclusione
Il diagramma di flusso per digitalizzazioni massicce di
edizioni di classici
Addestramento delle applicazioni per l’OCR (circa cinque
pagine per libro).
OCR.
Allineamento multiplo.
Correzioni tramite regular expressions riusabili.
Correzioni manuali.
Valutazione dell’accuratezza dei testi corretti.
Federico Boschetti
27/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Conclusione
Il modello collaborativo
Forze in gioco
L’installazione del software per l’OCR e per l’allineamento può
presentare serie difficoltà, perché spesso ancora in beta
version.
Le operazioni di training sono dispendiose in termini di tempo.
Uno stesso training set può essere usato su esemplari con
caratteristiche simili.
Versioni digitali diverse basate su un medesimo esemplare
possono essere usate per l’allineamento e quindi per
aumentare l’accuratezza complessiva.
Federico Boschetti
28/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Conclusione
Scenario
Su archive.org oppure books.google.com non è difficile
trovare più di una copia digitale basata sulla medesima
edizione o (più raramente) sul medesimo esemplare.
Anche se spesso il Greco non è riconosciuto, le parti in
caratteri Latini possono essere riusate per migliorare
l’accuratezza.
Gruppi indipendenti di specialisti interessati alle medesime
edizioni possono trarre vantaggio dalla condivisione di
trascrizioni digitali, anche se solo parzialmente corrette.
Federico Boschetti
28/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Conclusione
Soluzione proposta
Fornire metadata che permettano di identificare in modo univoco
non solo autore ed opera, ma anche edizione, esemplare e scansione.
Rendere disponibili i training sets, fornendo metadata sulla
scansione su cui sono basati e sull’accuratezza raggiunta, grazie a
questi, su una o più scansioni.
Fornire la ground truth, associata ad oppurtini metadata, di un
numero minimo di pagine (cinque?, dieci?) che permetta di valutare
l’accuratezza dei diversi OCR e allineamenti applicati alle medesime
scansioni.
Usare webservices per l’esecuzione dell’OCR.
Procedere alla correzione manuale tramite l’eccellente piattaforma
collaborativa fornita da Wikisource (wikisource.org)
Federico Boschetti
28/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Conclusione
Conclusione
Per andare oltre i digital incunabula è necessario creare
un’affidabile biblioteca digitale di edizioni critiche. Una
soddisfacente accuratezza dell’OCR per l’intero contenuto di
un’edizione critica (testo e apparato) che permetta di
abbattere i costi delle correzioni manuali, è uno dei primi,
necessari passi per creare una nuova generazione di corpora
testuali.
Federico Boschetti
29/ 30
Introduzione
Metodologia
Risultati
Discussione
Diagramma di flusso
Conclusione
Direzioni future
Analisi del layout: riconoscimento automatico degli
specchi di testo, dell’apparato critico, delle note, etc.
Federico Boschetti
30/ 30
Introduzione
Metodologia
Risultati
Discussione
Grazie per l’attenzione
Federico Boschetti
30/ 30
Introduzione
Metodologia
Risultati
Discussione
Bibliografia
S. Feng, R. Manmatha: A Hierarchical, HMM-based Automatic Evaluation of OCR Accuracy for a Digital
Library of Books. JCDL 2006, 109–118 (2006)
W.B. Lund, E.K. Ringger: Improving Optical Character Recognition through Efficient Multiple System
Alignment, JCDL (2009)
M. Reynaert: Non-interactive OCR Post-correction for Giga-Scale Digitization Projects. A. Gelbukh (ed.):
CICLing 2008, LNCS 4919, 617–630 (2008)
M. Reynaert: All, and only, the Errors: more Complete and Consistent Spelling and OCR-Error Correction
Evaluation. 6th International Conference on Language Resources and Evaluation 2008, 1867–1872 (2008)
C. Ringlstetter, K. Schulz, S. Mihov, K. Louka: The same is not the same - postcorrection of alphabet
confusion errors in mixed-alphabet OCR recognition. 8th International Conference on Document Analysis
and Recognition, 1, 406–410 (2005)
M. Spencer, C. Howe: Collating texts using progressive multiple alignment. Computer and the Humanities,
37, 1, 97–109 (2003)
G. Stewart, G. Crane, A. Babeu: A New Generation of Textual Corpora. JCDL 2007, 356–365 (2007)
L. Zhuang, X. Zhu: An OCR Post-processing Approach Based on Multi-knowledge. 9th International
Conference on Knowledge-Based Intelligent Information and Engineering Systems, 346–352 (2005)
Federico Boschetti
30/ 30