mit wget https seite herunterladen

byron1778 · 3 Juli 2008

Hallo Forum,

ich habe hier schon gesucht, aber leider nichts dementsprechendes gefunden.
Ich wuerde mir gerne mit wget folgende Seite herunterladen:

https://www.bwin.com/de/betsnew.aspx?SportID=4

Dazu habe ich schon folgendes versucht

Code:

wget --no-check-certificate https://www.bwin.com/de/betsnew.aspx?SportID=4

wget --no-check-certificate --cookies=on https://www.bwin.com/de/betsnew.aspx?SportID=4

Denn in genau dieser Seite moechte ich mir dann mittels einer RegExp die verschiedenen Fussballmannschaften Englands heraussuchen!
Leider haben beide Befehle nicht funktioniert, weiss vll, jemand wie ich genau diese eine Seite bekommen kann?

Danke vielmals!

Geier0815 · 4 Juli 2008

Hmm, die eigentliche Seite kann doch ohne Probleme mit wget gezogen werden. Das der dynamisch erzeugte Content dabei "auf der Strecke" bleibt, ist normal. Was Du noch probieren könntest, wäre die Seite rekursiv herunter zu laden "wget -r NAME" und zu schauen ob sich in einer der Unterseiten die gewünschten Infos befinden.

byron1778 · 4 Juli 2008

Ja, das stimmt, die Hauptseite laesst sich ohne Probleme runterladen, nur leider eben nicht die spezielle Seite.
wget -r habe ich auch versucht, nur nach 5 Minuten runterladens und laenger habe ich dann abgebrochen, weil er nicht mehr aufhoerte.
Bei wget -t folgt er ja allen Links auf der Seite, bedeutet das aber auch, dass er dann in den anderen Seiten den Links auch wieder folgt?
Kann ich mir irgendwie nicht vorstellen, weil sonst wuerde ich das ganze Internet in meinen Haenden bald halten

regexer · 4 Juli 2008

byron1778 schrieb:
Denn in genau dieser Seite moechte ich mir dann mittels einer RegExp die verschiedenen Fussballmannschaften Englands heraussuchen!

Tu dir einen gefallen, und nimm dafür eine andere Scriptsprache und einen entsprechenden Parser. Mit RegExp allein wird man glaube ich nicht glücklich.

Ich würde perl nehmen und die Seite nicht mit wget, sondern mit dem Perl-Paket LWP versuchen zu laden. Dann einen HTML-Parser benutzen.

byron1778 · 4 Juli 2008

Ok, danke Dir.
Kannte es nur mit wget und wollte dann mit Perl und einer RegExp arbeiten. Wie ich gesehen habe ist die Seite immer nach dem gleichen Schema aufgebaut, somit waere ich mit einer RegExp auch durchgekommen, denke ich mir zumindest.
Es ist immer zuerst Mannschaft, dann eine bestimmte Anzahl von HTML Tags, dann die Quote, dann wieder HTML Tag und so fort.
Aber danke vielmals fuer den Tipp mit dem Perl Tool!
Werde ich mir anschaun!

regexer · 4 Juli 2008

byron1778 schrieb:
Aber danke vielmals fuer den Tipp mit dem Perl Tool!

Code:

perldoc lwp
perldoc lwpcook
perldoc HTML::Parse

lin-x · 6 Juli 2008

Ich glaube am einfachsten ist es mit

Code:

lin@lin-x:~$  w3m -dump_source https://www.bwin.com/de/betsnew.aspx?SportID=4 >>bwin.htm

______________________________
6c48bb17872c696ef5dbb24a60f4fbf3
http://lin-x.de

mit wget https seite herunterladen

byron1778

Geier0815

byron1778

regexer

byron1778

regexer

lin-x