• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Probleme bei PDF und OCR

mikem

Newbie
Hallo,

ich habe zwei Dinge vor, die ich nicht hinbekomme, da ich die passende Software nicht finde.

1. Ich möchte einiges einscannen und dann den Text per OCR extrahieren.

2. Ich möchte den Text aus PDF-Dateien extrahieren. Bei vielen Dokumenten funktioniert das Auswahl-Werkzeug für Text nicht.

Ich habe im Netz natürlich Hinweise zu ABBYY und tesseract gefunden. Aber ich habe keinen Weg entdeckt, diese Programme per YAST zu installieren. Die Installation von *.tar.gz-Dateien traue ich mir nicht zu. Die Beschreibungen scheinen immer für Leute gedacht, die eigentlich wissen, wie es geht.

Meine Software:
openSUSE 13.1
KDE 4.11.5
Adobe Reader 9.4.2
Okular 0.17.5
XSane 0.998
Habe ich noch etwas vergessen?

Am liebsten wären mir Repositories, die ich unter YaST einbinden kann, damit auch die Abhängigkeiten aufgelöst werden.

Ach ja. Ich habe versucht, hier nach PDF und OCR zu suchen. Diese Suchbegriffe führten aber nur zu der Meldung "Es wurden keine passenden Ergebnisse gefunden.".

Liebe Grüße
Mike Merten
 

tomm.fa

Administrator
Teammitglied

halo44

Hacker
Hallo mikem,

Die Texterkennung von PDF-Dokumenten mittels Tesseract oder Cuneiform ist nur mit
einem Umweg über YAGF möglich.

Installiert werden Tesseract, Cuneiform und YAGF aus dem Lazy_Kent-Repo :

http://download/opensuse.org/repositories/home:/Lazy_Kent/openSUSE_13.1

Gruss H.
 
OP
M

mikem

Newbie
Hallo Halo44,

besten Dank für Deine Antwort.

Hinweis für Newbees wie mich:
Die url lautet URL: http://download.opensuse.org/repositories/home:/Lazy_Kent/openSUSE_13.1
Den ersten Schrägstrich also durch einen Punkt ersetzen.
Die drei Programme habe ich mit YaST installiert. Heute Nachmittag werde ich Zeit haben, um die mal auszuprobieren.

Liebe Grüße
Mike Merten
 

halo44

Hacker
Als Hilfestellung kann ich Dir noch einen Auszug meiner Mini-Dokumentation, die ich mir beim "ausprobieren" notiert habe, bieten :

Zunächst werden die PDF-Dokumente mit YAGF in jpg-Bilder umgesetzt.

Diese Bilder können dann mit Tesseract oder Cuneiform in Text umgesetzt werden.

1.) Programm aufrufen

2.) Datei / Aus PDF importieren ...

3.) Erstmalig muß ausgewählt werden, daß die Ausgabe für das Programm tesseract oder
cuneiform bestimmt ist. Dies kann über Einstellungen jederzeit geändert werden.

4.) Sprache, Datei und gewünschte Seiten oder ganzes Dokument auswählen

5.) Zielordner für die Ausgabe wählen (muß leer sein)

6.) Das Dokument wird jetzt umgesetzt (dauert) und liegt anschließend als Bild(er) im
Zielordner vor

7.) Bild(er) öffnen und Texterkennung für aktuelle oder alle Seiten wählen

8.) Ausgabedatei speichern und z.B. mit Textmaker weiterverarbeiten.

Gruss H.
 
OP
M

mikem

Newbie
Hallo Spielwurm,

Dein Link bringt's nicht mehr. Der Link auf die Paketquelle erzeugt nur einen Error 404.

Gruß
Mike Merten
 
OP
M

mikem

Newbie
Hallo Halo44,

irgend etwas mache ich falsch.

Ich habe YAGF gestartet und per "open image" eine PDF-Datei geöffnet. Die Anzahl der Seiten bekommt YAGF offenbar mit, aber das Vorschaufenster ist einfach nur schwarz.

Was muß ich anders machen?

Liebe Grüße
Mike Merten
 

halo44

Hacker
mikem schrieb:
... Was muß ich anders machen? ...
Es gibt eigentlich nichts falsch zu machen : YAGF starten > File > Open Image und die pdf-Datei auswählen. Dabei sollten die Haken bei "Entire Document" und "Don't Deskew Pages" gesetzt sein.

Danach werden in der linken Seitenleiste Mini-Kacheln für jede erkannte Seite angezeigt. Nicht erkannte Teile (z.B. Bilder) bleiben schwarz. Klickt man eine der Seiten an, so wird eine Vorschau im linken grösseren Fenster angezeigt. Nach Klick auf Recognize wird der erkannte Text im rechten größeren Fenster angezeigt (dauert etwas) und kann anschließend gespeichert werden.

Beim Testen mit mehreren pdf-Dokumenten bin ich allerdings bei einigen auf den gleichen Fehler gestossen, den auch Du hattest. Das liegt also offensichtlich am pdf-Dokument. Ich weiß derzeit noch nicht, warum das passiert. Ich bleibe allerdings dran. Kann dauern.

Allerdings habe ich auch bei den "nicht erkannten" Dokumenten festgestellt, daß auch wenn die Vorschau schwarz bleibt, die Seite schon korrekt erkannt wird. Das kannst Du im Verzeichnis /home/Benutzername/.config/yagf/pdfout kontrollieren. Hier landen temporär (solange YAGF nicht beendet ist) die pdf-Seiten als page-1.jpg usw. Bitte beachte den Punkt im Pfad bei .config, es handelt sich nämlich um ein verstecktes Verzeichnis.

Diese kann man sogar über die Kommandozeile mit
Code:
tesseract eingabe ausgabe
texterkennen lassen, was natürlich umständlich ist.

Versuch mal verschiedene pdf-Dateien. Vielleicht kannst Du ja auch einzelne normal verarbeiten.

Gruss H.
 

halo44

Hacker
So inzwischen kann ich auch die pdf-Dokumente erfolgreich umsetzen, die bisher bei mir Fehler brachten.

In YAGF : Edit > Settings > Image Processing. Hier alle Haken (also bei Crop Image when loaded, Deskew loaded Images, Preprocess Images when loaded) wegnehmen! und YAGF neu starten.

Danach kannst Du hoffentlich auch Deine Dokumente umsetzen.

Übrigens bei Settings > OCR and Languages sollte natürlich tesseract (Pfad /usr/share) und German ausgewählt sein.

Gruss H.
 
Mit gimagereader aus diesem Repo (für 13.1) geht das auch recht einfach. Tesseract ist im oss-Repo verfügbar. Es sollten die passenden Sprachpakete für die jeweilige Sprache installiert sein. Dann z.B. die Image-Datei (z.B. jpeg) oder auch das PDF (kann mehrseitig sein) mit Gimage-Reader öffnen oder einscannen, Bereich festlegen (oder auch alles) und starten. Klappt sehr gut!
 
Oben