Das Programm OCRFeeder vereinfacht das Importieren, Zuschneiden und Konvertieren von gescannten bzw. abfotografierten Dokumenten durch Kombination mehrerer Tools in einer Anwendung. Die Texterkennung erfolgt mittels Tesseract-OCR und die ebenfalls integrierte Layoutanalyse erledigt Unpaper. Scans lassen sich nach erfolgter Verarbeitung anschließend als ODT-Dokument speichern und in Libre Office weiter verarbeiten und neu formatieren. Ein direkter Export ins HTML- als auch PDF-Format ist ebenso möglich.
Für Debian, Ubuntu und Linux Mint liegen die benötigten Programm-Komponenten in den Paketquellen zur Installation bereit:
Code: Alles auswählen
sudo apt install ocrfeeder tesseract-ocr-deu
Sie finden die Anwendung unter Menü -> Grafik -> OCRFeeder oder via [Strg] + [alt] + [F2] nach Eingabe von OCRFeeder.
Ein häufiges Anwendungs-Szenario: Es liegen mehrseitige Text- und Bilddokumente bzw. kombiniert nurmehr in gedruckter Form vor. Um zwischenzeitliche Textaktualisierungen durchzuführen, müssten die entsprechenden Seiten dazu neu getippt werden. Bei wenigen vertretbar, bei vielen ein immenser Zeitaufwand. Einfacher ist es, die Dokumente einzuscannen und anschließend in Libre Office neu zu editieren.
Bevor wir loslegen können, muss noch eine Einstellung kontrolliert werden. Dazu starten Sie OCRFeeder, wechseln in der Menüzeile zu Bearbeiten -> Einstellungen zum Reiter »Werkzeuge«. Falls noch nicht geschehen, setzen Sie ein Häkchen im unteren Bereich in »Bilder begradigen«. Mit Klick auf das »+« -Zeichen lassen sich nun Dokumente und Bildmaterial aus diversen Quellen hinzufügen.
Um im Beispiel zu folgen, importieren wir das erste Dokument vom Scanner. Klicken Sie auf Datei -> Seite vom Scanner importieren. Die erfolgreiche Scannersuche bestätigen Sie noch.
Die erste Seite wird gescannt und erscheint nun im Programmfenster. Klicken Sie jetzt auf den Schalter «Automatische Detektion». Diese Layoutanalyse teilt die Seite in Bereiche auf, die Tesseract einzeln übergeben werden. Im Vorschaufenster wird das Teilergebnis der Texterkennung ausgegeben... Sind Sie mit dem Ergebnis zufrieden, importieren Sie das nächste Dokument und verfahren wie beschrieben.
Ist es nur eine Seite, exportieren Sie diese mit Klick auf dem entsprechenden Schalter in der Symbolleiste.
Bei mehreren Seiten markieren Sie diese, es folgt ein Klick auf vorgenannten Schalter... Wählen Sie einen Speicherort und vergeben einen passenden Namen.
Das so exportierte Dokument kann nun in Libre Office geöffnet, weiter verarbeitet und neu formatiert werden.
Überflüssige Elemente markieren und entfernen Sie... Es lassen sich zudem auch ein- oder mehrseitige PDF-Dokumente in OCRFeeder importieren und in einem Rutsch ins HTML- bzw. ODT-Format exportieren.