Guida: come digitalizzare un documento stampato



Tramite una stampante è possibile ottenere un documento in carta a partire da un file salvato sul computer. E’ possibile anche il processo inverso? Ottenere un file sul computer a partire da un documento stampato? La risposta è sì, e in questo caso viene in aiuto lo scanner. Tuttavia il semplice processo di scansione produce una immagine, che non consente quindi di modificare il documento digitalizzato. E’ possibile, partendo da un documento stampato, ottenerne una versione digitalizzata sul computer e modificabile? La risposta è sì e qui viene in aiuto la tecnologia OCR (Optical Character Recognition), che consente di ricavare il testo da un documento stampato attraverso un algoritmo di lettura ottica dei caratteri, che funziona con l’ausilio di uno scanner. OCR, oltre a funzionare con l’ausilio di uno scanner, può essere utilizzato anche con una immagine già salvata sul computer e che si desidera digitalizzare.

Di programmi OCR ne esistono parecchi, tuttavia la scelta di un software di questo tipo ricade sulla qualità dell’algoritmo e sul prezzo. In questa guida verrà mostrato l’uso di un programma OCR gratuito e che in aggiunta si basa su un algoritmo molto preciso. Il programma in questione è FreeOCR. FreeOCR si basa sul progetto open-source OCR Tesseract, un progetto al quale ha contribuito anche Google. Per digitalizzare un documento bisogna seguire questa procedura:

1.) Scaricare ed installare il programma;

2.) Seguire le istruzioni di questa pagina per installare lingue aggiuntive (tra cui l’Italiano) al fine di potere digitalizzare pagine nelle lingue scelte;

3.) Eseguire il programma e scegliere se scannerizzare o aprire un file salvato. Nella colonna di sinistra appare il file caricato o l’immagine scannerizzata, mentre nella colonna di destra appare il testo semplice ottenuto dalla digitalizzazione.

L’immagine allegata a questo articolo mostra la schermata del programma.

Annunci sponsorizzati:
Condividi su Facebook Condividi su Twitter!
Pinterest