Da PDF a DOC/RTF/ODT su Windows e su GNU/Linux

Commenti

Transcript

Da PDF a DOC/RTF/ODT su Windows e su GNU/Linux
Da PDF a DOC/RTF/ODT su Windows e su GNU/Linux
(ovviamente con strumenti gratuiti)
Augusto Scatolini ([email protected]) ([email protected])
Miniguida n. 185
Ver. 1.0 maggio 2013
Una delle richieste più frequenti da parte di colleghi e utenti è un programma gratuito per convertire
un documento PDF in Word. Ovviamente tutti questi utenti usano Windows, vista la richiesta.
Premesso che tali programmi esistono, fanno un buon lavoro, ma sono a pagamento.
In questa miniguida vedremo se c'è qualcosa decente e gratuito su Windows 8. ma l'esercizio si può
ripetere anche su Win 7 o Win XP, e come fare su GNU/Linux.
Ovviamente i programmi che vedremo si basano tutti sul processo OCR.
I sistemi di riconoscimento ottico dei caratteri, detti anche OCR (dall'inglese optical character
recognition) sono programmi dedicati alla conversione di un'immagine contenente testo,
solitamente acquisite tramite scanner, in testo digitale modificabile con un normale editor. Il testo
può essere convertito in formato ASCII semplice, Unicode o, nel caso dei sistemi più avanzati, in un
formato contenente anche l'impaginazione del documento.
http://it.wikipedia.org/wiki/Riconoscimento_ottico_dei_caratteri
Iniziamo con Freeocr.
Ci rechiamo su www.brothersoft.com e cerchiamo FreeOCR 4.2
scarichiamo il file
di installazione e
avviamo
l'eseguibile
Una volta installato e avviato avremo FreeOCR in funzione
Come esempio ho caricato sul programma una Deliberazione di Giunta del Comune di Campagnano
di Roma
sul pannello di destra si può vedere l'anteprima della conversione
Questo è il risultato visto su Word 2010
Il testo c'è, il risultato non è entusiasmante ma con un po' di lavoro si può ricostruire il documento
originario.
Si può fare di meglio?
Andiamo su www.flippdf.com e scarichiamo Flip PDF to Word - freeware
Installiamo il file eseguibile
e avviamo il programma
carichiamo il solito file PDF
e vediamo il risultato dopo aver avviato e concluso il processo di riconoscimento ottico
abbiamo migliorato ma occorre ancora operare sul file per avere un documento fruibile.
Si può fare di meglio?
Andiamo su www.hellopdf.com e scarichiamo FREE PDF to WORD CONVERTER
Avviamo l'eseguibile per l'installazione
Questo è il programma
carichiamo il solito file PDF
Questo è il risultato su Word, decisamente meglio, c'è ancora un problema:
il testo è stato riconosciuto e esportato a blocchi. Come si può notare portando il cursore sulla prima
riga si può può notare che la stringa è contenuta in un riquadro. Non è gravissimo ma il testo della
pagina non è fluido.
Si può fare di meglio?
Andiamo su www.nemopdf.com e scarichiamo Free Nemo PDF to Word
Avviamo l'installazione
Questo è il programma
Carichiamo il solito file PDF
convertiamo il file
il risultato è perfetto.
E su GNU/Linux cosa si può fare?
Su Ubuntu 12.04 è sufficiente installare (con Synaptic per esempio) il sistema multi- lingue OCR
cuneiform (il motore)
e il programma ocrfeeder che usa cuneiform come motore
avviamo ocrfeeder e carichiamo il solito file PDF
Il risultato, su Writer, non è esaltante. Il testo c'é ma tutto il resto no: formattazione e caratteri.
Si può fare di meglio?
Si può installare Free Nemo PDF to Word su Ubuntu tramite Wine
Questo è Free Nemo PDF to Word su Ubuntu
carichiamo il solito file PDF e settiamo il percorso di output
Quando il processo di di riconoscimento ottico è terminato, il programma ci propone di aprire il file
con Word
ma Word su Ubuntu non c'è (anche se lo installiamo tramite Wine non lo riconosce, e quindi il file
non viene nemmeno salvato.
La soluzione è nei settaggi del programma: bisogna impostare il formato di output in RTF e non in
DOC e di non aprire il file alla fine del riconoscimento ottico.
In questo modo il file RTF viene salvato nella directory che abbiamo impostato ma all'apertura del
file con Writer il sistema (il mio) è andato in crash.
Ancora non so se è stata una casualità, ma per risolvere il problema (evitare un secondo crash) ho
aperto il file RTF con Abiword e l'ho salvato in DOC.
Il risultato del file DOC aperto con Writer sulla prossima pagina
non è perfetto ma ci possiamo accontentare!
FINE
Questo documento è rilasciato con licenza Copyleft
(tutti i rovesci sono riservati) altre miniguide su
http://www.comunecampagnano.it/gnu/miniguide.htm
oppure direttamente su http://miniguide.tk
sito consigliato: http://www.linux4campagnano.net
blog consigliato: http://campagnano-rap.blogspot.com