.: HosiriS :.

Informatica e non solo

Linux ed OCR: convertire immagini in testo

Posted by hosiris su giugno 16, 2010

Siamo molto spesso abituati a creare delle scansioni di documenti che teniamo memorizzati sul PC. Spesso si richiede che i testi contenuti siano modificati. A volte i produttori degli scanner forniscono un software OCR, ma spesso l’utente deve trovare delle soluzioni ad-hoc. Su Linux ci vengono in aiuto una serie di software open, come tesseract.
Sul sistema è già presente il software per effettuare le scansioni (XSane), ma è necessario installare i seguenti:

$ sudo apt-get install imagemagick tesseract-ocr tesseract-ocr-ita

Imagemagick è un software che ci permette di modificare il formato delle immagini, qualora siano diverse da tiff. Voglio puntualizzare che in fase di acquisizione le immagini vanno salvate in tiff in bianco e nero, che è diverso da scala di grigi.
Avendo a disposizione l’immagine, è sufficiente dare il seguente comando:

$ tesseract input.tiff output.txt -l ita

In questo modo verrà creato un file txt contenente il testo prelevato dall’immagine.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

 
%d blogger cliccano Mi Piace per questo: