Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
gibt es ein Programm, mit dem man aus pdf-Dateien den Text auslesen kann? Die Formatierung sollte dabei ungefähr erhalten bleiben, da ich diese Daten in eine Datenbank einlesen möchte.
Bei PDFtotext geht sowohl die Formatierung als auch das Layout verloren. Einzig die Reihenfolge der Buchstaben bleibt erhalten. Soll heißen der letzte Abstand, bleibt der letzte. Allerdings gilt das nur für Text der nicht in Spalten gesetzt ist. Bei Spalten wird es wieder schwieriger.
Vielen Dank für die schnellen Antworten. Ich habe mit den verschiedenen Programmen gespielt. PDFedit kommt meinen Anforderungen am nächsten. Da werden die Spalten in der pdf-Datei in die Textdatei übernommen.