• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

wget rekursiv

jmetzen

Newbie
Hallo,
habe ein kleines Problem mit wget:
Wenn ich mit
wget -q -r -l0 www.beispiel.de
eine Seite runterlade, folgt er ja bekanntermaßen allen Links.
Ich will diesmal jedoch nicht das ganze System abspeichern, sondern lediglich die Html-Files mittels grep durchsuchen:
wget -q -r -l0 -O - www.beispiel.de | grep something
Das greppen funktioniert auch, leider wird durch das Umlenken der Files auf die Standardausgabe verhindert, das weiterhin rekursiv den Links gefolgt wird.

Hat jemand ne Idee wie man das lösen kann?

Gruß, Jan
 

moenk

Administrator
Teammitglied
Ich würd mir den Luxus leisten in ein temporäres Verzeichnis zum mirrorn (wget -m) und dann darin zu suchen, das kann danach ja wieder weg (rm -rf).
 
OP
J

jmetzen

Newbie
Das würd sicher gehen, allerdings wäre es mir lieber, wenn das ganze direkt durchsucht würde und dann die HTML-Files verworfen...
Das ganze soll einen vereinfachten Harvester simulieren, um in einem Seminar zu zeigen, wie einfach Spammer an E-Mail Adressen kommen.
 
Oben