PDF con OCR: come estrarre il testo

By Nicola Alessi

impostazioni

OCR deriva dalla parola Optical character recognition, ovvero il riconoscimento ottico dei caratteri e molto spesso se ne è sentito parlare. Ma se volessimo applicare questo riconoscimento anche all’interno di un file pdf?

La prima cosa da fare è quella di controllare se il file risulta essere protetto dalla protezione anti-copia. Per verificarlo è sufficiente aprire il file in questione e recarsi nelle Proprietà dal menu File. Se si legge Consenti accanto alle voci Copia contenuto e Stampa, significa che il file non ha alcuna protezione e dunque non dovrebbero esserci problemi nell’estrazione del testo dal file. Se non si riuscisse a copiare ed estrarre il testo dal PDF è altamente probabile che il documento in questione sia stato creato con delle semplici immagini acquisite da scanner.

Adesso, prima di passare alla fase di OCR, è necessario controllare che sia attivato lo strumento di selezione e per farlo basterà cliccare su un qualsiasi punto del vostro foglio pdf con il tasto destro. Una volta selezionato il testo basta cliccare CTRL+C per copiarlo.

Arrivati a questo punto possiamo vedere alcune alternative per effettuare l’OCR da PDF.

OCR con Office Lens

Office Lens, l’applicazione di Microsoft Office si rivela particolarmente utile per tutti coloro i quali si ritrovano spesso davanti a documenti cartacei e desiderano effettuarne l’OCR senza neppure ricorrere all’utilizzo di uno scanner.

L’app di Office Lens si dimostra molto efficace e semplice da usare: è sufficiente puntare la fotocamera dello smartphone/tablet sul documento da acquisire. Dopo l’acquisizione, scegliendo di salvare il documento come PDF su Onedrive il suo contenuto verrà automaticamente sottoposto a OCR.

Per verificare che tutto sia andato a buon fine basterà aprire il file PDF in Office Online (previo login su OneDrive) e dunque appurare il fatto che ora sia possibile selezionare spezzoni di testo, copiarli attraverso il CTRL+C per poi incollarlo da qualsiasi altra parte senza alcun tipo di problema.

OCR integrato in Office Online

Se si ha già il documento PDF composto da sole immagini (e dunque non si deve digitalizzare come fatto in precedenza) è possibile caricarlo su OneDrive quindi trasformare il file in Word cliccando sul suo nome, scegliendo Modifica in Word.

Anche in questo caso la conversione verrà gestita da Microsoft in automatico ed una volta conclusa si potrà aprire il documento su Word Online ed utilizzare nuovamente la combinazione di tasti CTRL+C per copiare il testo.

OCR con PDF-XChange Viewer

Una soluzione alternativa a Office Online consiste nell’utilizzare il programma PDF-XChange Viewer. Questa applicazione ha implementato un modulo OCR abbastanza completo capace di effettuare il riconoscimento dei caratteri contenuti all’interno di un PDF rendendolo un testo estraibile.

La cosa che lo rende un validissimo ( e molto efficace) strumento è la possibilità di scaricare un dizionario italiano da inserire all’interno del programma. Va precisato, inoltre, che i file trattati con questo programma rimarranno tutti in locale e dunque non ci sarà alcun bisogno di appoggiarsi al cloud.

OCR con Microsoft OneNote

Anche il noto software di Microsoft, OneNote, permette di lanciare l’OCR sulle pagine precedentemente digitalizzate tramite il proprio smartphone. L’applicazione è disponibile negli store ai seguenti link:

Il principio di funzionamento è praticamente identico a quello di OfficeLens, basterà infatti utilizzare la fotocamera del proprio smartphone/tablet per digitalizzare il documento per poi darlo in pasto al programma che, grazie al suo modulo OCR, renderà copiabile il testo permettendone l’estrazione.

L’articolo PDF con OCR: come estrarre il testo appare per la prima volta su ChimeraRevo – Il miglior volto della tecnologia.

Visited 9 times, 1 visit(s) today
Se vuoi sostenerci, puoi farlo acquistando qualsiasi cosa dai diversi link di affiliazione che abbiamo nel nostro sito o partendo da qui oppure alcune di queste distribuzioni GNU/Linux che sono disponibili sul nostro negozio online, quelle mancanti possono essere comunque richieste, e su cui trovi anche PC, NAS e il ns ServerOne. Se ti senti generoso, puoi anche donarmi solo 1€ o più se vuoi con PayPal e aiutarmi a continuare a pubblicare più contenuti come questo. Grazie!

Hai dubbi o problemi? Ti aiutiamo noi!

Se vuoi rimanere sempre aggiornato, iscriviti al nostro canale Telegram.
Se vuoi ricevere supporto per qualsiasi dubbio o problema, iscriviti alla nostra community Facebook o gruppo Telegram.
Cosa ne pensi? Fateci sapere i vostri pensieri nei commenti qui sotto.
Ti piace quello che leggi? Per favore condividilo con gli altri.
Amazon Music
Scopri le ultime offerte per dischi ssd su Acquista su Amazon
Scopri le ultime offerte per memorie RAM DDR su Acquista su Amazon
Scopri le ultime offerte per Chromebook su Acquista su Amazon
Scopri le ultime offerte per Raspberry su Acquista su Amazon

Potrebbero interessarti anche...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.