Software OCR - TechnéDonne

Transcript

Software OCR - TechnéDonne
TechnéDonne: un portale di genere sulle nuove tecnologie
Software OCR
Inviato da Beatrice Cristofoli
giovedì 22 marzo 2007
Domanda inviata alle 17:00 il 20-03-2007
Buongiorno, avrei bisogno del vostro aiuto.
Mi capita spesso per lavoro di dover raccogliere degli articoli di giornali in varie lingue.
Ho l’abitudine di conservarli passandoli allo scanner e salvandoli come immagini .jpg , per poter avere una ‘rassegna
stampa’ sempre disponibile ed evitare di essere sommersa di carta.
Mi piacerebbe poter lavorare su questi articoli, mi sarebbe per esempio utile farne una traduzione anche approssimativa
con un programma di traduzione automatica, ma come si fa partendo da un’immagine .jpg?
Risposta:
Questo articolo fa seguito a Scansione di un testo, in cui si illustrava come utilizzare il programma di scansione del
nostro scanner per acquisire pagine di testo in un formato editabile.
Se il programma di scansione predefinito del nostro scanner non vi permette di salvare l'acquisizione in formato
testo(.txt, .doc), dobbiamo installare un programma OCR, che utilizzeremo per convertire in file di testo il file immagine
ottenuto dalla scansione.
Dunque installeremo il programma SimpleOCR, che è gratuito, di facile installazione ed efficiente.
- Scarichiamo SimpleOCR da qui e aspettiamo qualche minuto fino allo scaricamento del file IstSocr.exe
- Doppio click sul file eseguibile scaricato
- Seguiamo la semplice procedura di installazione (Fig.1)
Ora dobbiamo scaricare i file del dizionario; infatti SimpleOCR supporta varie lingue, l'inglese, il tedesco, il francese, lo
spagnolo, il portoghese e l'italiano. Grazie a questi supporti è molto più bravo nel riconoscere le parole di un testo che
deve riconoscere: spiegherò meglio nel seguito questo concetto con un esempio pratico.
- Scarichiamo il dizionario di italiano 'Italian.exe' da qui.
- Spostiamo Italian.exe nella directory bin nel percorso di installazione di SimpleOCR, nel mio caso
'C:\Programmi\SimpleOCR\Bin' (Fig.2)
http://www.technedonne.it
Realizzata con Joomla!
Generata: 1 December, 2010, 13:36
TechnéDonne: un portale di genere sulle nuove tecnologie
- Doppio click sul programma 'Italian.exe', che scompatterà alcuni file necessari nelle directory corrette.
- Un ultimo passo e avremo finito: entriamo nella directory 'C:\Programmi\SimpleOCR\Bin\Dict' in cui dovremmo trovare
vari file, alcuni con estensione .wdc, altri con estensione .jdt. Fateci caso, il file italiano.wdc manca.
Non so come mai non viene generato questo file, in ogni caso ho provato a fare una copia di uno qualsiasi degli altri file
.wdc, ho rinominato la copia in italiano.wdc e ho verificato che questo trucchetto è sufficiente a far funzionare
SimpleOCR col supporto per la lingua italiana. (Fig.3)
Ci resta da provare SimpleOCR.
- Avviamo il programma con un doppio click sul collegamento sul Desktop (Fig.4)
- Vengono aperte due maschere sovrapposte. La prima ci informa del fatto che questo programma sa risonoscere sia
caratteri stampati('Machine print'), che caratteri scritti a mano('Hand writing'). La prima funzionalità sarà sempre disponibile
gratuitamente, la seconda è disponibile in prova per soli 14 giorni.(Fig.5)
- Selezioniamo 'Machine print' e la prima maschera sparirà
- Nella seconda macchina selezioniamo la lingua 'Language' e clicchiamo sul tasto Select. Importante! La lingua che si
seleziona deve essere la lingua del testo che deve essere riconosciuto; il programma infatti è disponibile nella versione
gratuita solo con intefaccia inglese, per cui continueremo a vedere i comandi tutti in inglese. Quello che facciamo
selezionando la lingua è dire al programma che il testo da analizzare è in una cerca lingua e che quindi deve utilizzare il
dizionario opportuno.
- Ora il nostro programma è avviato: cliccando sul tasto 'Add Page' potremo scegliere se iniziare una nuova scansione,
oppure caricare un file immagine fra quelli prodotti in prevedenza dal nostro scanner.(Fig.6)
- Quando la pagina sarà stata caricata, premeremo sul tasto 'Continue'
- Clicchiamo su 'Convert to Text'.
- Abbiamo finito. Il programma ci propone un testo con delle parole scritte in rosso: sono le parole che il programma non
ha trovato nel suo dizionario e che quindi ci propone di sostituire con parole conosciute; si tratta di un sistema di
correzione automatica, analogo a quello di Word.
Fig. 1 Seguiamo la semplice procedura di installazione
Fig. 2 Spostiamo Italian.exe nella directory bin
http://www.technedonne.it
Realizzata con Joomla!
Generata: 1 December, 2010, 13:36
TechnéDonne: un portale di genere sulle nuove tecnologie
Fig. 3 ho rinominato la copia in italiano.wdc
Fig. 4 Avviamo il programma con un doppio click sul collegamento sul Desktop
Fig. 5 Vengono aperte due maschere sovrapposte
Fig. 6 cliccando sul tasto 'Add Page' potremo scegliere se iniziare una nuova scansione, oppure caricare un file
immagine fra quelli prodotti in prevedenza dal nostro scanner
http://www.technedonne.it
Realizzata con Joomla!
Generata: 1 December, 2010, 13:36