gImageReader, come estrapolare un testo da PDF ed immagini su Linux

di Matteo Gatti · Pubblicato 12 Marzo 2021 · Aggiornato 7 Dicembre 2023

Spesso può capitare di volersi salvare porzioni di testo da un e-book o da un PDF ma si opta per fare dei semplici screenshot.

Creare i propri appunti avendo a disposizione un motore OCR, quindi, velocizza moltissimo la loro stesura.

Nell’articolo di oggi vi segnalo un’interessante utility che serve proprio a questo scopo, gImageReader. Questo tool open source altro non è che un front-end per Tesseract OCR, programma per l’estrazione di testi da immagini e file PDF in GNU/Linux. Disponibile per tutte le principali distribuzioni, è distribuito anche per Windows.

Cos’è gImageReader

Tesseract nasce nei laboratori di HP tra il 1985 e il 1994. Dopo alcuni aggiornamenti distribuiti durante gli anni ’90, realativi al porting dell’applicazione su Windows e la migrazione da C a C++, la casa americana nel 2005 decise di rendere il progetto open source. Dal 2006 lo sviluppo passò a Google. Il motore OCR contenuto nell’utility, acronimo di Optical Character Recognition, consente di scansionare testi da un’immagine o da un file in formato PDF. Può rilevare diverse lingue per impostazione predefinita e supporta anche la scansione tramite caratteri Unicode.

gimagereader tesseract ocr open source image example

Il principale limite di Tesseract è l’assenza di una GUI, funziona solo da riga di comando. Per sopperire a questa mancanza, potete affidarvi a gImageReader, che semplifica l’utilizzo di questo potente strumento dotandolo di un’interfaccia grafica. Per procedere all’installazione della GUI, quindi, dovete in primis installare esplicitamente i language pack di Tesseract. Vediamo come procedere su Ubuntu e derivate.

La prima cosa da fare è installare Tesseract, per farlo eseguite le seguenti istruzioni:

sudo apt install tesseract-ocr-ita

sudo add-apt-repository ppa:sandromani/gimagereader

sudo apt update sudo apt install gimagereader

gimagereader tesseract ocr open source install

Gli utenti Fedora e Debian non dovranno aggiungere alcun repository esterno, poichè il pacchetto di gImageReader è incluso nei repository preinstallati. Una volta completata l’installazione, aprendo l’applicazione, vi troverete una GUI estremamaente semplice da utilizzare. Basterà, infatti, importare il file e scegliere se riconoscere tutto il testo o solo alcune selezioni, e le lingua.

Se siete interessati a questo progetto open source, vi invito a consultare la pagina GitHub di gImageReader dove trovate le indicazioni per installarlo anche su Arch, SUSE, Fedora etc.

Seguiteci sul nostro canale Telegram, sulla nostra pagina Facebook e su Google News. Nel campo qui sotto è possibile commentare e creare spunti di discussione inerenti le tematiche trattate sul blog.

Fonte: https://www.lffl.org/2021/03/guida-gimagereader-tesseract-gui.html

Visited 50 times, 1 visit(s) today

Se vuoi sostenerci, puoi farlo acquistando qualsiasi cosa dai diversi link di affiliazione che abbiamo nel nostro sito o partendo da qui oppure alcune di queste distribuzioni GNU/Linux che sono disponibili sul nostro negozio online, quelle mancanti possono essere comunque richieste, e su cui trovi anche PC, NAS e il ns ServerOne. Se ti senti generoso, puoi anche donarmi solo 1€ o più se vuoi con PayPal e aiutarmi a continuare a pubblicare più contenuti come questo. Grazie!

Hai dubbi o problemi? Ti aiutiamo noi!

Se vuoi rimanere sempre aggiornato, iscriviti al nostro canale Telegram.
Se vuoi ricevere supporto per qualsiasi dubbio o problema, iscriviti alla nostra community Facebook o gruppo Telegram.

Cosa ne pensi? Fateci sapere i vostri pensieri nei commenti qui sotto.
Ti piace quello che leggi? Per favore condividilo con gli altri.