Diese Website existiert nur weil wir Werbung mit AdSense ausliefern.
Bitte den AdBlocker daher auf dieser Website ausschalten! Danke.

Selektiv PDFs aus Zips extrahieren.

Alles rund um die verschiedenen Konsolen und shells sowie die Programmierung unter Linux

Moderator: Moderatoren

Antworten
Flash
Member
Member
Beiträge: 210
Registriert: 24. Nov 2005, 17:54

Selektiv PDFs aus Zips extrahieren.

Beitrag von Flash » 26. Apr 2018, 08:29

Angenommen ihr habt einen Ordner voller ZIPs. In diesen ZIPs sind Text-PDFs gespeichert.

Ich habe diesen Codeschnipsel um alle PDFs mit einem bestimmten String in den ZIPs zu finden:

Code: Alles auswählen

#!/bin/bash
for z in *.zip
do
  zipinfo -1 "$z" |  # Get the list of filenames in the zip file
    while IFS= read -r f
    do
      unzip -p "$z" "$f" | # Extract each PDF to standard output instead of a file
        pdftotext - - | # Then convert it to text, reading from stdin, writing to stdout
        grep -q 1234 && echo "$z -> $f" # And finally grep the text
    done
done 
Wie schreibe ich das um, dass
1. der Suchstring (hier 1234) als parameter übergeben werden kann
2. das gefundene PDF extrahiert und abgespeichert wird.

Werbung:
abgdf
Guru
Guru
Beiträge: 3096
Registriert: 13. Apr 2004, 21:15

Re: Selektiv PDFs aus Zips extrahieren.

Beitrag von abgdf » 26. Apr 2018, 14:31

Funktioniert der Code-Schnipsel denn? Hast Du ihn schonmal auf nur zwei pdfs (eins mit dem String, eines ohne den String) (von Deinen pdfs!) getestet? Wenn nicht, dann mach' das erstmal.

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste