OCRFeeder - Digitalisierung und Weiterverarbeiten von Dokumenten

Büro-Software
Beiträge: 239
Registriert: Fr 16. Jul 2021, 08:49
Has thanked: 59 times
Been thanked: 165 times

OCRFeeder - Digitalisierung und Weiterverarbeiten von Dokumenten

Beitrag von beluga »

bild 1.jpg
OCRFeeder - Aufgeräumte Startseite

Das Programm OCRFeeder vereinfacht das Importieren, Zuschneiden und Konvertieren von gescannten bzw. abfotografierten Dokumenten durch Kombination mehrerer Tools in einer Anwendung. Die Texterkennung erfolgt mittels Tesseract-OCR und die ebenfalls integrierte Layoutanalyse erledigt Unpaper. Scans lassen sich nach erfolgter Verarbeitung anschließend als ODT-Dokument speichern und in Libre Office weiter verarbeiten und neu formatieren. Ein direkter Export ins HTML- als auch PDF-Format ist ebenso möglich.
Für Debian, Ubuntu und Linux Mint liegen die benötigten Programm-Komponenten in den Paketquellen zur Installation bereit:

Code: Alles auswählen

sudo apt install ocrfeeder tesseract-ocr-deu
Für die Erkennung deutschsprachiger Texte ist die Sprachdatei tesseract-ocr-deu zwingend erforderlich.

Sie finden die Anwendung unter Menü -> Grafik -> OCRFeeder oder via [Strg] + [alt] + [F2] nach Eingabe von OCRFeeder.

Ein häufiges Anwendungs-Szenario: Es liegen mehrseitige Text- und Bilddokumente bzw. kombiniert nurmehr in gedruckter Form vor. Um zwischenzeitliche Textaktualisierungen durchzuführen, müssten die entsprechenden Seiten dazu neu getippt werden. Bei wenigen vertretbar, bei vielen ein immenser Zeitaufwand. Einfacher ist es, die Dokumente einzuscannen und anschließend in Libre Office neu zu editieren.

Bevor wir loslegen können, muss noch eine Einstellung kontrolliert werden. Dazu starten Sie OCRFeeder, wechseln in der Menüzeile zu Bearbeiten -> Einstellungen zum Reiter »Werkzeuge«. Falls noch nicht geschehen, setzen Sie ein Häkchen im unteren Bereich in »Bilder begradigen«.
bild 2.jpg
Mit Klick auf das »+« -Zeichen lassen sich nun Dokumente und Bildmaterial aus diversen Quellen hinzufügen.
Um im Beispiel zu folgen, importieren wir das erste Dokument vom Scanner. Klicken Sie auf Datei -> Seite vom Scanner importieren.
bild 3.jpg
Die erfolgreiche Scannersuche bestätigen Sie noch.
Die erste Seite wird gescannt und erscheint nun im Programmfenster. Klicken Sie jetzt auf den Schalter «Automatische Detektion».
bild 4.jpg
Diese Layoutanalyse teilt die Seite in Bereiche auf, die Tesseract einzeln übergeben werden. Im Vorschaufenster wird das Teilergebnis der Texterkennung ausgegeben...
bild 5.jpg
Sind Sie mit dem Ergebnis zufrieden, importieren Sie das nächste Dokument und verfahren wie beschrieben.

Ist es nur eine Seite, exportieren Sie diese mit Klick auf dem entsprechenden Schalter in der Symbolleiste.
Bei mehreren Seiten markieren Sie diese, es folgt ein Klick auf vorgenannten Schalter...
bild 6.jpg
Wählen Sie einen Speicherort und vergeben einen passenden Namen.
Das so exportierte Dokument kann nun in Libre Office geöffnet, weiter verarbeitet und neu formatiert werden.
Überflüssige Elemente markieren und entfernen Sie...
bild 7.jpg
Es lassen sich zudem auch ein- oder mehrseitige PDF-Dokumente in OCRFeeder importieren und in einem Rutsch ins HTML- bzw. ODT-Format exportieren.
Beiträge: 23
Registriert: Di 20. Jul 2021, 18:10
Been thanked: 8 times

Re: OCRFeeder - Digitalisierung und Weiterverarbeiten von Dokumenten

Beitrag von Josef_K »

Für Debian, Ubuntu und Linux Mint liegen die benötigten Programm-Komponenten in den Paketquellen zur Installation bereit

sudo apt install ocrfeeder tesseract-ocr-deu
Bei Arch und Derivaten wird tesseract-data-deu und tesseract-data-osd benötigt.

Code: Alles auswählen

~ $ pacman -Qs tesseract
local/tesseract 5.2.0-1
    An OCR program
local/tesseract-data-deu 2:4.1.0-3 (tesseract-data)
    Tesseract OCR data (deu)
local/tesseract-data-osd 2:4.1.0-3
    Tesseract OCR data (osd)
Ich funktioniere nur dank Koffein, Sarkasmus und unangemessenen Gedanken.
Gesperrt Vorheriges ThemaNächstes Thema

Wer ist online?

Mitglieder in diesem Forum: Semrush [Bot] und 1 Gast