• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

mit wget https seite herunterladen

byron1778

Hacker
Hallo Forum,

ich habe hier schon gesucht, aber leider nichts dementsprechendes gefunden.
Ich wuerde mir gerne mit wget folgende Seite herunterladen:



  • https://www.bwin.com/de/betsnew.aspx?SportID=4

Dazu habe ich schon folgendes versucht

Code:
wget --no-check-certificate https://www.bwin.com/de/betsnew.aspx?SportID=4

wget --no-check-certificate --cookies=on https://www.bwin.com/de/betsnew.aspx?SportID=4

Denn in genau dieser Seite moechte ich mir dann mittels einer RegExp die verschiedenen Fussballmannschaften Englands heraussuchen!
Leider haben beide Befehle nicht funktioniert, weiss vll, jemand wie ich genau diese eine Seite bekommen kann?

Danke vielmals!
 
Hmm, die eigentliche Seite kann doch ohne Probleme mit wget gezogen werden. Das der dynamisch erzeugte Content dabei "auf der Strecke" bleibt, ist normal. Was Du noch probieren könntest, wäre die Seite rekursiv herunter zu laden "wget -r NAME" und zu schauen ob sich in einer der Unterseiten die gewünschten Infos befinden.
 
OP
B

byron1778

Hacker
Ja, das stimmt, die Hauptseite laesst sich ohne Probleme runterladen, nur leider eben nicht die spezielle Seite.
wget -r habe ich auch versucht, nur nach 5 Minuten runterladens und laenger habe ich dann abgebrochen, weil er nicht mehr aufhoerte.
Bei wget -t folgt er ja allen Links auf der Seite, bedeutet das aber auch, dass er dann in den anderen Seiten den Links auch wieder folgt?
Kann ich mir irgendwie nicht vorstellen, weil sonst wuerde ich das ganze Internet in meinen Haenden bald halten :)
 

regexer

Advanced Hacker
byron1778 schrieb:
Denn in genau dieser Seite moechte ich mir dann mittels einer RegExp die verschiedenen Fussballmannschaften Englands heraussuchen!
Tu dir einen gefallen, und nimm dafür eine andere Scriptsprache und einen entsprechenden Parser. Mit RegExp allein wird man glaube ich nicht glücklich.

Ich würde perl nehmen und die Seite nicht mit wget, sondern mit dem Perl-Paket LWP versuchen zu laden. Dann einen HTML-Parser benutzen.
 
OP
B

byron1778

Hacker
Ok, danke Dir.
Kannte es nur mit wget und wollte dann mit Perl und einer RegExp arbeiten. Wie ich gesehen habe ist die Seite immer nach dem gleichen Schema aufgebaut, somit waere ich mit einer RegExp auch durchgekommen, denke ich mir zumindest.
Es ist immer zuerst Mannschaft, dann eine bestimmte Anzahl von HTML Tags, dann die Quote, dann wieder HTML Tag und so fort.
Aber danke vielmals fuer den Tipp mit dem Perl Tool!
Werde ich mir anschaun!
 

lin-x

Newbie
Ich glaube am einfachsten ist es mit
Code:
lin@lin-x:~$  w3m -dump_source https://www.bwin.com/de/betsnew.aspx?SportID=4 >>bwin.htm



______________________________
6c48bb17872c696ef5dbb24a60f4fbf3
http://lin-x.de
 
Oben