## page was renamed from Grafica/OCR
#format wiki
#language it
<
>
<>
<>
= Introduzione =
Con l'acronimo OCR (Optical Character Recognition), si indica una suite di riconoscimento ottico dei caratteri, che consente di convertire le scansioni documenti o immagini contenente testo, in testo semplice. Ciò permette di risparmiare spazio sul disco, modificare il testo o fare ricerche all'interno di esso.
Strumenti OCR, per i sistemi Linux sono: '''OCRFeeder''', '''gImageReader''', '''YAGF''', '''Tesseract''' e '''!CuneiForm'''.
= Motori OCR =
== Tesseract ==
Occorre configurare i motori OCR (Optical Character Recognition), uno dei principali, molto utilizzato è senz'altro [[#Tesseract|Tesseract]].
{{{#!wiki important
'''Tesseract''' accetta solo immagini con l'estensione `.tif`. L'immagine non deve avere estensione file `.tiff`.
}}}
[[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:/tesseract-ocr|tesseract-ocr]].
=== Lingua di conversione ===
{{{#!wiki note
Per quanto riguarda il funzionamento alla conversione è necessario installare i pacchetti delle lingue di traduzione. Consultare la [[https://manpages.ubuntu.com/manpages/jammy/man1/tesseract.1.html|pagina manuale]].
}}}
Per convertire testi in Italiano, installare il pacchetto [[apt://tesseract-ocr-ita|tesseract-ocr-ita]].
== Ocrad ==
[[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt://ocrad|ocrad]].
== Gocr ==
[[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt://gocr|gocr]].
= Acquisizione da terminale =
Per ottimizzare le immagini per l'acquisizione con '''Tesseract''':
0. Assicurarsi che l'immagine sia '''RGB''' o in '''Scala di grigi'''.
0. Digitare nel [[AmministrazioneSistema/Terminale|terminale]] il seguente comando:{{{
tesseract [OPTIONS] [CONFIGFILE]
}}}
sostituendo: `` con il percorso e il nome del file di input da convertire, `` con il percorso e il nome del output.
== PDF multipagine ==
Spesso i documenti scansionati vengono salvati come immagini in documenti `.pdf`.<
>
È possibile usare '''!ImageMagick'''.
{{{#!wiki note
Le singole pagine possono essere estratte come file `.tiff` per poi essere processate con '''Tesseract'''.
}}}
[[AmministrazioneSistema/InstallareProgrammi|Installare]] i pacchetti [[apt://imagemagick|imagemagick]] e [[apt://convert|convert]].
Di seguito viene mostrato l'utilizzo di uno [[Programmazione/Script|script]] per automatizzare il processo:
0. Creare nella propria '''Home''' il file per lo script.
0. Aprire con un [[Ufficio/EditorDiTesto|editor di testo]] il file `tesseract_multipagine.sh` e copiare al suo interno le seguenti stringhe:{{{
#!
#!/bin/bash
PAGINE=100 # set to the number of pages in the PDF
SORGENTE=book.pdf # set to the file name of the PDF
OUTPUT=book.txt # set to the final output file
RESOLUTION=600 # set to the resolution the scanner used (the higher, the better)
touch $OUTPUT
for i in `seq 1 $PAGINE`; do
convert -monochrome -density $RESOLUTION $SORGENTE\[$i\] page$i.tif
tesseract page$i.tif page$i
cat $OUTPUT page$i.txt > temp.txt
rm $OUTPUT
rm page$i.tif
rm page$i.txt
mv temp.txt $OUTPUT
done
}}}
0. Prima dell'utilizzo impostare nel file `tesseract_multipagine.sh` le voci come da tabella:
||<:> '''Voce''' ||<50%:>'''Descrizione''' ||
||<:> '''PAGINE''' || inserire il numero di pagine desiderato ||
||<:> '''SORGENTE''' || indicare il nome del file da trasformare in `.pdf` ||
||<:> '''OUTPUT''' || indicare il nome del nuovo documento in `.pdf` ||
||<:> '''RESOLUTION''' || impostare la risoluzione desiderata ||
Salvare quindi il file e uscire dall'editor di testo.
0. Aggiungere i [[AmministrazioneSistema/PermessiFile#Assegnare_i_permessi_di_esecuzione|premessi di esecuzione]] digitando nel [[AmministrazioneSistema/Terminale|terminale]] il comando:{{{
chmod +x tesseract_multipagine.sh
}}}
0. Per avviare lo script digitare:{{{
./tesseract_multipagine.sh
}}}
== Cuneiform ==
'''Cuneiform''', oltre al riconoscimento del testo, esegue anche l'analisi del layout e riconoscimento del formato del testo. Supporta diverse lingue.
[[AmministrazioneSistema/InstallareProgrammi|Installare]] i pacchetti [[apt://cuneiform|cuneiform]] e [[apt://convert|convert]].
Viene qui mostrata una procedura tramite [[Programmazione/Script|script]] per trasformare immagini (`.jpg`, meglio se `.tif`) contenenti testo, in file di testo `.txt` semplice.
0. Creare e aprire con un [[Ufficio/EditorDiTesto|editor di testo]] nella propria '''Home''' il file script `script_cuneiform.sh`.
0. Copiare al suo interno le seguenti stringhe:{{{
#!
#!/bin/bash
if [ "$1" ] && [ -e "$1" ]; then
TMPF=$(mktemp XXXXXXXX.tif)
DEST="$2"
if [ ! "$DEST" ]; then
DEST="${1%.*}.txt"
if [ -e "$DEST" ]; then
echo "$DEST already exists; please provide a new textfile name" >&2
exit 1
fi
fi
/usr/bin/convert "$1" -colorspace Gray -depth 8 -resample 200x200 $TMPF \
&& /usr/bin/cuneiform -o "$DEST" $TMPF
EX=$?
/bin/rm -f $TMPF
[ $EX -eq 0 ] && [ "$TERM" ] && echo "created $DEST"
exit $EX
else
echo "Usage: $0 imagefile [textfile]" >&2
echo " creates a plain text file with the text found in imagefile" >&2
exit 1
fi
}}}
Salvare quindi il file e chiuderlo.
0. Aggiungere i [[AmministrazioneSistema/PermessiFile#Assegnare_i_permessi_di_esecuzione|premessi di esecuzione]] digitando nel [[AmministrazioneSistema/Terminale|terminale]] il comando:{{{
chmod +x script_cuneiform.sh
}}}
0.Per eseguire lo [[Programmazione/Script|script]] digitare nel [[AmministrazioneSistema/Terminale|terminale]] il comando:{{{
./script_cuneiform.sh /percorso_file/immagine.tif
}}}
sostituendo `/percorso_file/immagine.tif`, con il percorso e il nome dell'immagine da convertire in file di testo.
Al termine della procedura verrà creato nella medesima cartella il file `immagine.txt`.
= Uso da interfaccia grafica =
== OCRFeeder ==
'''OCRFeeder''' è fornito di una pratica interfaccia grafica ai motori OCR. Riproduce pagine di un documento cartaceo in digitale.
[[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:/ocrfeeder|ocrfeeder]].
Per importare un file:
0. [[AmbienteGrafico/AvviareProgrammi|Avviare]] l'applicazione '''OCRFeeder'''.
0. Selezionare il file da convertire, dal menù '''''File → Apri'''''.
0. Avviare la conversione dal menù '''''File → Esporta'''''.
{{{#!wiki note
Se si deve convertire un file da scanner, scegliere dal menù '''''File → Importa pagina dallo scanner''''' da cui si deve importare un file `.pdf` seguendo il menù '''''File → Importa PDF'''''.
}}}
{{{#!wiki tip
È possibile modificare le opzioni di conversioni con i menù a destra. In particolare è possibile scegliere un motore di conversione diverso da quello predefinito.
}}}
== gImageReader ==
[[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:/gimagereader|gimagereader]].
0. [[AmbienteGrafico/AvviareProgrammi|Avviare]] l'applicazione '''gImageReader'''.
0. Selezionare il file da convertire seguendo il menu '''''File → Aggiungi immagini'''''.
0. Selezionare l'area testo nell'immagine aperta.
0. Cliccare con il tasto destro mouse sull'area selezionata, quindi cliccare su '''Riconosci'''.
== YAGF ==
[[AmministrazioneSistema/InstallareProgrammi|Installare]] il pacchetto [[apt:/yagf|yagf]].
=== Configurazione ===
0. [[AmbienteGrafico/AvviareProgrammi|Avviare]] l'applicazione '''YAGF'''.
0. Selezionare il menù '''''Modifica → Impostazioni'''''.
0. Selezionare la scheda '''OCR e Linguaggi''':
* '''Motore OCR''': [[#ocr|impostare]] il motore '''OCR''' da usare e il percorso di archiviazione
* '''Linguaggi riconosciuti''': scegliere se usare un singolo linguaggio o più di uno e quali.
0. Selezionare la scheda '''Elaborazioni Immagini''' e configurare come elaborare le immagini.
0. Selezionare la scheda '''Apparenza Programma''' e configurare il linguaggio usato.
0. Fare clic sul tasto '''OK'''.
=== Caricamento immagini ===
Sono disponibili tre modalità facendo clic sulle corrispondenti icone:
* Aprire un'immagine archiviata nel sistema.
* Scansionare direttamente un documento tramite [[Hardware/StampantiScanner|scanner]].
* Incollare l'immagine precedentemente copiata negli appunti.
=== Elaborare immagine ===
Selezionare l'icona con scritto «'''ocr'''» in rosso o in blu, rispettivamente per riconoscere la singola pagina mostrata o tutte le pagine selezionate.
=== Salvataggio immagini ===
Fare clic sull'icona corrispondente.
Per le altre funzioni selezionare il menù '''''Aiuto → Aiuto in linea'''''.
= Ulteriori risorse =
* [[https://github.com/tesseract-ocr|Sito ufficiale di Tesseract]]
* [[http://www.gnu.org/software/ocrad/ocrad.html|Sito ufficiale di GNU Ocrad]]
* [[http://jocr.sourceforge.net/|Sito ufficiale di GOCR]]
* [[https://help.ubuntu.com/community/OCR/|Documento originale]]
* [[https://github.com/ocropus/ocr2021|Sito ufficiale di Ocropus]]
----
CategoryGrafica