• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Text aus pdf auslesen

Stejo

Member
Hallo,

gibt es ein Programm, mit dem man aus pdf-Dateien den Text auslesen kann? Die Formatierung sollte dabei ungefähr erhalten bleiben, da ich diese Daten in eine Datenbank einlesen möchte.

Grüße
Stejo
 

whois

Ultimate Guru
Hi

Probier mal pdftotext oder pdf2text aus, obwohl ich nicht weiss ob die Formatierung da erhalren bleibt.

http://linux.die.net/man/1/pdftotext


cu
 

nbkr

Guru
Bei PDFtotext geht sowohl die Formatierung als auch das Layout verloren. Einzig die Reihenfolge der Buchstaben bleibt erhalten. Soll heißen der letzte Abstand, bleibt der letzte. Allerdings gilt das nur für Text der nicht in Spalten gesetzt ist. Bei Spalten wird es wieder schwieriger.
 
OP
Stejo

Stejo

Member
Vielen Dank für die schnellen Antworten. Ich habe mit den verschiedenen Programmen gespielt. PDFedit kommt meinen Anforderungen am nächsten. Da werden die Spalten in der pdf-Datei in die Textdatei übernommen.

Grüße
Stejo
 
Oben