## page was renamed from Grafica/OCR
#format wiki
#LANGUAGE it
<
>
<>
<>
<>
= Introduzione =
Con l'acronimo OCR (Optical Character Recognition), si indica una suite di riconoscimento ottico dei caratteri, che consente di convertire le scansioni documenti o immagini contenente testo, in testo semplice. Ciò permette di risparmiare spazio sul disco, modificare il testo o fare ricerche all'interno di esso.
Strumenti OCR, per i sistemi Linux sono: '''OCRFeeder''', '''gImageReader''', '''YAGF''', '''Tesseract''' e '''!CuneiForm'''.
= Motori OCR =
== Tesseract ==
Occorre configurare i motori OCR (Optical Character Recognition), uno dei principali, molto utilizzato è senz'altro [[#Tesseract|Tesseract]].
{{{#!wiki important
'''Tesseract''' accetta solo immagini con l'estensione `.tif`. L'immagine non deve avere estensione file `.tiff`.
}}}
* [[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:/tesseract-ocr|tesseract-ocr]].
=== Lingua di conversione ===
{{{#!wiki note
Per quanto riguarda il funzionamento alla conversione è necessario installare i pacchetti delle lingue di traduzione. Consultare la [[https://manpages.ubuntu.com/manpages/jammy/man1/tesseract.1.html|pagina manuale]].
}}}
Per convertire testi in Italiano, installare il pacchetto [[apt://tesseract-ocr-ita|tesseract-ocr-ita]].
== Ocrad ==
* [[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:/ocrad|ocrad]].
== Gocr ==
* [[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:gocr|gocr]].
= Acquisizione da terminale =
Per ottimizzare le immagini per l'acquisizione con '''Tesseract''', assicurarsi che l'immagine sia '''RGB''' o in '''Scala di grigi'''.<
>Procedere come segue:
0. Digitare nel [[AmministrazioneSistema/Terminale|terminale]] il seguente comando:{{{
tesseract [OPTIONS] [CONFIGFILE]
}}}
{{{#!wiki note
Sostituire `` con il percorso e il nome del file di input da convertire.<
>Sostituire `` con il percorso e il nome del output.
}}}
== PDF multipagine ==
Spesso, i documenti scansionati vengono salvati come immagini in documenti `.pdf`.<
>Usare '''!ImageMagick'''.
{{{#!wiki note
Le singole pagine possono essere estratte come file `.tiff` per poi essere processate con '''Tesseract'''.
}}}
* [[AmministrazioneSistema/InstallareProgrammi|Installare]] i pacchetti [[apt://imagemagick|imagemagick]] e [[apt://convert|convert]].
Di seguito viene mostrato l'utilizzo di uno [[Programmazione/Script|script]] per automatizzare il processo:
0. Creare nella propria '''Home''' il file per lo script.
0. Aprire con un [[Ufficio/EditorDiTesto|editor di testo]] il file `tesseract_multipagine.sh` e copiare al suo interno le seguenti stringhe:{{{
#!
#!/bin/bash
PAGINE=100 # set to the number of pages in the PDF
SORGENTE=book.pdf # set to the file name of the PDF
OUTPUT=book.txt # set to the final output file
RESOLUTION=600 # set to the resolution the scanner used (the higher, the better)
touch $OUTPUT
for i in `seq 1 $PAGINE`; do
convert -monochrome -density $RESOLUTION $SORGENTE\[$i\] page$i.tif
tesseract page$i.tif page$i
cat $OUTPUT page$i.txt > temp.txt
rm $OUTPUT
rm page$i.tif
rm page$i.txt
mv temp.txt $OUTPUT
done
}}}
0. Prima dell'utilizzo impostare nel file `tesseract_multipagine.sh` le voci come da tabella:
|| '''Voce''' ||<50%:>'''Descrizione''' ||
||