OCR: riconoscimento ottico dei caratteri, ovvero, che me ne faccio dello scanner?



Molti di noi, specialmente in ufficio, non hanno resistito alla tentazione di dotarsi di uno scanner, magari acquistato come accessorio a corredo di un computer, macchina meravigliosa capace di trasportare sullo schermo del nostro pc stampe fotografiche, negativi, diapositive ma, soprattutto, testi, scatenando gli entusiasmi di chi si vedeva finalmente liberato dalla fatica di ridigitare per intero un documento solo per poterlo modificare leggermente…

All’improvviso, però, ai primi tentativi di digitalizzare il fatidico documento, il bel sogno è finito di botto: infatti, se il nostro scanner non è accompagnato da un software specifico, il documento appare, sì, in tutta la sua bellezza sul nostro schermo ma, come un vero e proprio miraggio, resta lì a irriderci senza che si possa far nulla se non guardarlo e mostrarlo agli amici…

Forse esagero, ma mi è capitato recentemente di sentirmi rivolgere questa amara osservazione: “Si, ho lo scanner, ma non lo uso più: a cosa mi serve se non posso modificare poi quello che ottengo?” e di leggervi tutta la frustrazione di chi aveva tutta l’intenzione di mettere a frutto la tecnologia per migliorare il proprio lavoro, e si è visto sbattere la porta in faccia da chi credeva suo alleato.

In realtà lo scanner non ha imbrogliato nessuno, ma spesso è mancata una corretta informazione sulle risorse necessarie a farlo funzionare a dovere. Ecco, allora una piccola guida per fare un po’ di chiarezza.

Accendiamo lo scanner

Apriamo il programma di scansione (ad esempio “Fax e Scanner di Windows”); procedendo in quest’ordine siamo certi che il programma riconosca immediatamente la presenza dello scanner.

Prendiamo il nostro foglio, appoggiamolo sul ripiano dello scanner, facendo attenzione che aderisca bene al piano in tutte le sue parti (eventualmente poggiamoci sopra un blocchetto di fogli o un altro piccolo peso distribuito su tutta la superficie del documento) .

Facciamo partire la scansione: nella scelta delle opzioni facciamo attenzione a due parametri in particolare: la risoluzione, che ci dice quanto precisa sarà la lettura dal dispositivo, e il colore, che avrà ripercussioni su come lo scanner interpreta le variazioni di colore nel documento: per un testo dattiloscritto non particolarmente piccolo, la migliore risoluzione è 200 dpi (dot per inch ossia punti per pollice); una risoluzione più alta, infatti, farebbe sì che lo scanner rilevi anche le imprecisioni del foglio, causando confusione nella fase successiva; invece il colore va impostato su gradazioni di grigio, in modo da non ottenere fasce nere dove il foglio si allontana dal ripiano di scansione (come spesso accade per documenti formati da più pagine).

Adesso arriva il bello: se cerchiamo di salvare il nostro documento digitalizzato, vedremo che potremo scegliere tra diversi formati, tutti però utilizzati solo per le immagini: questo perchè il risultato della scansione è sempre e solo un’immagine.

Quindi ora abbiamo bisogno di un altro programma, diverso da quello che ha fatto la scansione: il nostro programma OCR, ossia Optical Character Recognition, riconoscimento dei caratteri ottici.

Questo programma interpreta i segni presenti nell’immagine risultato della scansione, ricavando un testo più possibile vicino a quello contenuto nel nostro documento, di cui ora abbiamo una copia liberamente modificabile: infatti il programma OCR ci dà la possibilità di copiare ed incollare il testo ottenuto in un documento, salvarlo come file di testo (formato txt, ossia testo non formattato, in pratica abbiamo il testo ma non le impostazioni come margini e interlinea) ma spesso anche di esportarlo in Word, creando in automatico un documento che lo contenga.

Ora potete tornare a sognare… o no?

Per la serie “non è tutt’oro quel che riluce”, c’è un problema: quando prima ho detto che il programma OCR ricava un testo “più possibile vicino” a quello del documento originale, molti di voi avranno sentito un piccolo brivido lungo la schiena, e a ragione: si, perchè il riconoscimento dei caratteri ottici è una procedura molto complessa, oggetto continuo di studio da parte dei ricercatori, che sviluppano sempre nuove tecniche (e algoritmi) per aumentare il grado di accuratezza del riconoscimento. Quindi programmi OCR assolutamente infallibili non esistono ancora, sebbene sui caratteri dattiloscritti si raggiunga spesso un buon grado di affidabilità. Inoltre, poiché questi software sono prodotti esteri, bisogna assicurarsi che per il programma scelto sia stato creato il dizionario di italiano, cosa che non sempre accade.

Fatta questa premessa, non disperate: esistono soluzioni, per di più gratuite, che possono aiutarvi non poco nel vostro lavoro.

Tra i programmi che ho esaminato, che funzionano con il sistema operativo Windows, due si sono rivelati di particolare interesse: SimpleOCR e FreeOCR.

SimpleOCR

La caratteristica più interessante di questo software è la possibilità che ha di “imparare” progressivamente a riconoscere i vocaboli da voi più utilizzati, inserendoli nel dizionario. Infatti, la tecnica delle reti neurali utilizzata dal programma gli permette di apprendere dai propri errori: questo procedimento assicura in teoria risultati sempre più accurati man mano che usiamo il programma, che così finisce per adattarsi perfettamente al lessico da noi più utilizzato.

Tuttavia, non molti hanno il tempo, mentre lavorano, di mettersi a correggere i vocaboli sbagliati, e così il software resta “ignorante” e noi, spazientiti per tanta stupidità, ci ritroviamo a ticchettare sulla tastiera. Per quelli di voi che sono invece patiti per le nuove tecnologie e l’intelligenza artificiale e vogliono provare a lavorare “insieme” ad un programma, SimpleOcr è scaricabile dalla pagina di download SimpleOCR, mentre il dizionario di italiano si trova sul sito CharacTell.

FreeOCR

Esistono diversi modi alternativi per scaricarlo da internet e installarlo; quello che segue sembra il più veloce (e funziona con il nuovo Windows 7):

Andiamo sul sito free OCR;

Clicchiamo sul link 1)FreeOcr;

Si apre la pagina Scanning Software: clicchiamo su “Download here”.

Scegliamo di salvare il file sul computer: come buona abitudine, non apriamo mai direttamente un file da internet, ma salviamolo sempre sul computer, in modo da sottoporlo, prima di usarlo, alla scansione antivirus.

Dopo la scansione, copiamo il file su C: e clicchiamo due volte per eseguire l’installazione (per Windows 7 il programma ha bisogno di installare .Net Framework V2.0 di Microsoft, cosa a cui provvederà da solo).

A questo punto il programma c’è ma parla ancora inglese.

Andiamo all’indirizzo tesseract OCR e scegliamo di scaricare e salvare sul computer il file tesseract-2.00.ita.tar.gz .

Apriamo il file con un programma di decompressione (Winzip, ad esempio) e scegliamo di estrarre il contenuto: sul computer è comparsa la cartella tesseract-2.00.ita, apriamola e troveremo la cartella tessdata, che contiene i file del dizionario di italiano.

Apriamo la cartella tessdata, selezioniamo tutti i file e clicchiamo con il tasto destro del mouse selezionando il comando “Copia”.

Andiamo in c:/Windows, troviamo e apriamo la cartella tessdata (questa è quella creata da FreeOcr per contenere il dizionario inglese) e incolliamo al suo interno i nostri file di italiano: così avremo nella stessa cartella sia i file del dizionario in inglese che quelli del dizionario di italiano.

Ora è tutto installato correttamente e possiamo iniziare ad usare FreeOcr: ci accorgiamo subito che è tutto molto intuitivo. Nella casella a discesa selezioniamo “ita” per la lingua e siamo pronti a partire: possiamo acquisire un documento con lo scanner, aprire un’immagine (se ad esempio abbiamo digitalizzato il nostro documento già con un altro programma), oppure aprire un documento in pdf che vorremmo modificare. L’unica nota a cui fare attenzione, come ricorda lo stesso programma, è usare la selezione rettangolare per isolare la porzione dell’immagine da sottoporre al riconoscimento, evitando che le imperfezioni del foglio (tipicamente i bordi scuri) possano creare confusione.

Esistono anche altre soluzioni, come i servizi OCR online, ad esempio:

i2OCR: l’ho testato su un’immagine di un breve articolo di giornale di carattere non tecnico e sul paragrafo iniziale di una tesi di informatica; un buon risultato, anche se commette alcuni errori (principalmente con la sillaba fi, le vocali accentate e le virgolette) .

Va leggermente in difficoltà in presenza di termini più tecnici e meno diffusi.

Testato invece su un esempio di indice ha ricavato il testo ma non i numeri di pagina corrispondenti.

Facilissimo da usare e veloce nell’esecuzione.

L’ultimo dilemma a questo punto è: installare un software sul proprio computer o usufruire si un servizio online?

Molto dipende dai nostri vincoli: se abbiamo problemi di privacy (ad esempio perchè i documenti che trattiamo riguardano i nostri clienti), ci potremmo sentire più tranquilli con il software installato sul nostro pc; in questo caso, dovremo provvedere noi all’ installazione del prodotto e del dizionario italiano e a tenerci informati su nuovi prodotti o nuove versioni.

Se non abbiamo problemi di privacy e possiamo accedere ad internet senza problemi, i servizi online ci sollevano dalle incombenze appena viste.

Quelli visti sono solo alcuni esempi, in rete è possibile trovare molte informazioni e molti prodotti, ora che sapete cosa cercare!

Annunci sponsorizzati:
Condividi su Facebook Condividi su Twitter!
Pinterest