wget rekursiv

jmetzen · 14 Apr. 2005

Hallo,
habe ein kleines Problem mit wget:
Wenn ich mit
wget -q -r -l0 www.beispiel.de
eine Seite runterlade, folgt er ja bekanntermaßen allen Links.
Ich will diesmal jedoch nicht das ganze System abspeichern, sondern lediglich die Html-Files mittels grep durchsuchen:
wget -q -r -l0 -O - www.beispiel.de | grep something
Das greppen funktioniert auch, leider wird durch das Umlenken der Files auf die Standardausgabe verhindert, das weiterhin rekursiv den Links gefolgt wird.

Hat jemand ne Idee wie man das lösen kann?

Gruß, Jan

moenk · 14 Apr. 2005

Ich würd mir den Luxus leisten in ein temporäres Verzeichnis zum mirrorn (wget -m) und dann darin zu suchen, das kann danach ja wieder weg (rm -rf).

jmetzen · 14 Apr. 2005

Das würd sicher gehen, allerdings wäre es mir lieber, wenn das ganze direkt durchsucht würde und dann die HTML-Files verworfen...
Das ganze soll einen vereinfachten Harvester simulieren, um in einem Seminar zu zeigen, wie einfach Spammer an E-Mail Adressen kommen.

wget rekursiv

jmetzen

Newbie

moenk

Administrator

jmetzen

Newbie