Software OCR - TechnéDonne
Transcript
Software OCR - TechnéDonne
TechnéDonne: un portale di genere sulle nuove tecnologie Software OCR Inviato da Beatrice Cristofoli giovedì 22 marzo 2007 Domanda inviata alle 17:00 il 20-03-2007 Buongiorno, avrei bisogno del vostro aiuto. Mi capita spesso per lavoro di dover raccogliere degli articoli di giornali in varie lingue. Ho l’abitudine di conservarli passandoli allo scanner e salvandoli come immagini .jpg , per poter avere una ‘rassegna stampa’ sempre disponibile ed evitare di essere sommersa di carta. Mi piacerebbe poter lavorare su questi articoli, mi sarebbe per esempio utile farne una traduzione anche approssimativa con un programma di traduzione automatica, ma come si fa partendo da un’immagine .jpg? Risposta: Questo articolo fa seguito a Scansione di un testo, in cui si illustrava come utilizzare il programma di scansione del nostro scanner per acquisire pagine di testo in un formato editabile. Se il programma di scansione predefinito del nostro scanner non vi permette di salvare l'acquisizione in formato testo(.txt, .doc), dobbiamo installare un programma OCR, che utilizzeremo per convertire in file di testo il file immagine ottenuto dalla scansione. Dunque installeremo il programma SimpleOCR, che è gratuito, di facile installazione ed efficiente. - Scarichiamo SimpleOCR da qui e aspettiamo qualche minuto fino allo scaricamento del file IstSocr.exe - Doppio click sul file eseguibile scaricato - Seguiamo la semplice procedura di installazione (Fig.1) Ora dobbiamo scaricare i file del dizionario; infatti SimpleOCR supporta varie lingue, l'inglese, il tedesco, il francese, lo spagnolo, il portoghese e l'italiano. Grazie a questi supporti è molto più bravo nel riconoscere le parole di un testo che deve riconoscere: spiegherò meglio nel seguito questo concetto con un esempio pratico. - Scarichiamo il dizionario di italiano 'Italian.exe' da qui. - Spostiamo Italian.exe nella directory bin nel percorso di installazione di SimpleOCR, nel mio caso 'C:\Programmi\SimpleOCR\Bin' (Fig.2) http://www.technedonne.it Realizzata con Joomla! Generata: 1 December, 2010, 13:36 TechnéDonne: un portale di genere sulle nuove tecnologie - Doppio click sul programma 'Italian.exe', che scompatterà alcuni file necessari nelle directory corrette. - Un ultimo passo e avremo finito: entriamo nella directory 'C:\Programmi\SimpleOCR\Bin\Dict' in cui dovremmo trovare vari file, alcuni con estensione .wdc, altri con estensione .jdt. Fateci caso, il file italiano.wdc manca. Non so come mai non viene generato questo file, in ogni caso ho provato a fare una copia di uno qualsiasi degli altri file .wdc, ho rinominato la copia in italiano.wdc e ho verificato che questo trucchetto è sufficiente a far funzionare SimpleOCR col supporto per la lingua italiana. (Fig.3) Ci resta da provare SimpleOCR. - Avviamo il programma con un doppio click sul collegamento sul Desktop (Fig.4) - Vengono aperte due maschere sovrapposte. La prima ci informa del fatto che questo programma sa risonoscere sia caratteri stampati('Machine print'), che caratteri scritti a mano('Hand writing'). La prima funzionalità sarà sempre disponibile gratuitamente, la seconda è disponibile in prova per soli 14 giorni.(Fig.5) - Selezioniamo 'Machine print' e la prima maschera sparirà - Nella seconda macchina selezioniamo la lingua 'Language' e clicchiamo sul tasto Select. Importante! La lingua che si seleziona deve essere la lingua del testo che deve essere riconosciuto; il programma infatti è disponibile nella versione gratuita solo con intefaccia inglese, per cui continueremo a vedere i comandi tutti in inglese. Quello che facciamo selezionando la lingua è dire al programma che il testo da analizzare è in una cerca lingua e che quindi deve utilizzare il dizionario opportuno. - Ora il nostro programma è avviato: cliccando sul tasto 'Add Page' potremo scegliere se iniziare una nuova scansione, oppure caricare un file immagine fra quelli prodotti in prevedenza dal nostro scanner.(Fig.6) - Quando la pagina sarà stata caricata, premeremo sul tasto 'Continue' - Clicchiamo su 'Convert to Text'. - Abbiamo finito. Il programma ci propone un testo con delle parole scritte in rosso: sono le parole che il programma non ha trovato nel suo dizionario e che quindi ci propone di sostituire con parole conosciute; si tratta di un sistema di correzione automatica, analogo a quello di Word. Fig. 1 Seguiamo la semplice procedura di installazione Fig. 2 Spostiamo Italian.exe nella directory bin http://www.technedonne.it Realizzata con Joomla! Generata: 1 December, 2010, 13:36 TechnéDonne: un portale di genere sulle nuove tecnologie Fig. 3 ho rinominato la copia in italiano.wdc Fig. 4 Avviamo il programma con un doppio click sul collegamento sul Desktop Fig. 5 Vengono aperte due maschere sovrapposte Fig. 6 cliccando sul tasto 'Add Page' potremo scegliere se iniziare una nuova scansione, oppure caricare un file immagine fra quelli prodotti in prevedenza dal nostro scanner http://www.technedonne.it Realizzata con Joomla! Generata: 1 December, 2010, 13:36