gImageReader, come estrapolare un testo da PDF ed immagini su Linux
Spesso può capitare di volersi salvare porzioni di testo da un e-book o da un PDF ma si opta per fare dei semplici screenshot.
Creare i propri appunti avendo a disposizione un motore OCR, quindi, velocizza moltissimo la loro stesura.
Nell’articolo di oggi vi segnalo un’interessante utility che serve proprio a questo scopo, gImageReader. Questo tool open source altro non è che un front-end per Tesseract OCR, programma per l’estrazione di testi da immagini e file PDF in GNU/Linux. Disponibile per tutte le principali distribuzioni, è distribuito anche per Windows.
Cos’è gImageReader
Tesseract nasce nei laboratori di HP tra il 1985 e il 1994. Dopo alcuni aggiornamenti distribuiti durante gli anni ’90, realativi al porting dell’applicazione su Windows e la migrazione da C a C++, la casa americana nel 2005 decise di rendere il progetto open source. Dal 2006 lo sviluppo passò a Google. Il motore OCR contenuto nell’utility, acronimo di Optical Character Recognition, consente di scansionare testi da un’immagine o da un file in formato PDF. Può rilevare diverse lingue per impostazione predefinita e supporta anche la scansione tramite caratteri Unicode.
Il principale limite di Tesseract è l’assenza di una GUI, funziona solo da riga di comando. Per sopperire a questa mancanza, potete affidarvi a gImageReader, che semplifica l’utilizzo di questo potente strumento dotandolo di un’interfaccia grafica. Per procedere all’installazione della GUI, quindi, dovete in primis installare esplicitamente i language pack di Tesseract. Vediamo come procedere su Ubuntu e derivate.
La prima cosa da fare è installare Tesseract, per farlo eseguite le seguenti istruzioni:
sudo apt install tesseract-ocr-ita
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update sudo apt install gimagereader
Gli utenti Fedora e Debian non dovranno aggiungere alcun repository esterno, poichè il pacchetto di gImageReader è incluso nei repository preinstallati. Una volta completata l’installazione, aprendo l’applicazione, vi troverete una GUI estremamaente semplice da utilizzare. Basterà, infatti, importare il file e scegliere se riconoscere tutto il testo o solo alcune selezioni, e le lingua.
Se siete interessati a questo progetto open source, vi invito a consultare la pagina GitHub di gImageReader dove trovate le indicazioni per installarlo anche su Arch, SUSE, Fedora etc.
Seguiteci sul nostro canale Telegram, sulla nostra pagina Facebook e su Google News. Nel campo qui sotto è possibile commentare e creare spunti di discussione inerenti le tematiche trattate sul blog.
Fonte: https://www.lffl.org/2021/03/guida-gimagereader-tesseract-gui.html
Se vuoi sostenerci, puoi farlo acquistando qualsiasi cosa dai diversi link di affiliazione che abbiamo nel nostro sito o partendo da qui oppure alcune di queste distribuzioni GNU/Linux che sono disponibili sul nostro negozio online, quelle mancanti possono essere comunque richieste, e su cui trovi anche PC, NAS e il ns ServerOne. Se ti senti generoso, puoi anche donarmi solo 1€ o più se vuoi con PayPal e aiutarmi a continuare a pubblicare più contenuti come questo. Grazie!
Hai dubbi o problemi? Ti aiutiamo noi!
Se vuoi rimanere sempre aggiornato, iscriviti al nostro canale Telegram.Se vuoi ricevere supporto per qualsiasi dubbio o problema, iscriviti alla nostra community Facebook o gruppo Telegram.
Cosa ne pensi? Fateci sapere i vostri pensieri nei commenti qui sotto.
Ti piace quello che leggi? Per favore condividilo con gli altri.