.: HosiriS :.

Informatica e non solo

Archive for 16 giugno 2010

Linux ed OCR: convertire immagini in testo

Posted by hosiris su giugno 16, 2010

Siamo molto spesso abituati a creare delle scansioni di documenti che teniamo memorizzati sul PC. Spesso si richiede che i testi contenuti siano modificati. A volte i produttori degli scanner forniscono un software OCR, ma spesso l’utente deve trovare delle soluzioni ad-hoc. Su Linux ci vengono in aiuto una serie di software open, come tesseract.
Sul sistema è già presente il software per effettuare le scansioni (XSane), ma è necessario installare i seguenti:

$ sudo apt-get install imagemagick tesseract-ocr tesseract-ocr-ita

Imagemagick è un software che ci permette di modificare il formato delle immagini, qualora siano diverse da tiff. Voglio puntualizzare che in fase di acquisizione le immagini vanno salvate in tiff in bianco e nero, che è diverso da scala di grigi.
Avendo a disposizione l’immagine, è sufficiente dare il seguente comando:

$ tesseract input.tiff output.txt -l ita

In questo modo verrà creato un file txt contenente il testo prelevato dall’immagine.

Posted in Informatica, Linux, Ubuntu | Leave a Comment »