• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Volltextsuche in PDF

jra

Member
Hallo,

folgendes Szenario:

gescannte Dokumente, teilweise handschriftlich, wurden in PDF gewandelt. Nun soll eine Volltextsuche dieser Dateien möglich sein.

Wie, bzw. mit welchen Programmen ist so etwas unter Linux zu verwirklichen?

Gruß
Jörg (Raber)
 
Es gibt unter Linux OCR Software, doch sind die Ergebnisse eher schlecht als Recht und das bei Maschinenschrift. Handschriftlich wird es wohl noch duesterer.
 
OP
J

jra

Member
Die Befürchtung habe ich inzwischen auch. Maschinell erstellte PDFs lassen sich gut mit der Google Desktopsuche erfassen, aber gescannte Doks....
 
Das eigentlich Prob. ist wohl das die Handschriftlichen Seiten als Bild eingescannt wurden. Das Bild wurde dann in eine PDF importiert und enthält da es ein Bild ist keinen richtigen Text mit Formatierungen etc. Mir ist keine Software bekannt die eine Art VollPixelreihenvollgsuche fuer Bilder kann. Einzigste Moeglichkeit wäre eben durch eine OCR Software den Text erkennen zu lassen um ihn wieder als reine Textdatei auf dem Rechner zu speichern die dann wiederum durchsucht werden kann wie jede Textdatei. Doch da eben gerade diese Erkennung schon bei Maschinenschrift nicht der Bringer ist, wenn das Eingangsmaterial nicht wirklich super ist wird das bei Handschrift wohl so gut wie unmoeglich sein. Aber vl. meldet sich noch jemand.
 
Oben