• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[solved] HTML-Datei für wget vorbereiten

Hallo,

ich habe hier eine Link-Sammlung als HTML-Datei liegen und möchte nun die Links aus der Datei an wget übergeben.

Dazu müsste ich alles, was nicht zu Link gehört entfernen.

<a href="http://www.bla.de/index12.html">bla bla bla</a>

<a href=" und ">bla bla bla</a> müssen weg damit wget diesen Link lesen kann.

Mein erster ansatz war :

Code:
cat index12.html | grep "http://"

nun komme ich nicht weiter.
 

ninguno

Member
wie schaut denn die link datei aus? aber vielleicht meinst du's so
Code:
grep "http://" index12.html | while read zeile; do link=${zeile%\">*};echo ${link#*=\"} ;done
 

TeXpert

Guru
oder mit sed, also
sei die Datei input.txt:

Code:
<a href="http://www.example.org/eins.html">bla bla bla</a>
<a href="http://www.exampe.org/zwei.html">bla bla bla</a>
<a href="http://www.example.org/drei.html">bla bla bla</a>
<a href="http://www.example.org/vier.html">bla bla bla</a>

dann können die relevanten Teile mit sed rausgelesen werden:
Code:
sed -e 's/[^"]*"\([^"]*\)".*/\1/' input.txt > urls.txt
alternativ (wenn input.txt überschrieben werden kann auch mit
Code:
sed -i -e 's/[^"]*"\([^"]*\)".*/\1/' input.txt
die können dann problemlos mit wget -i urls.txt geholt werden.

etwas kürzer gehts es so:

Code:
wget $(sed -e 's/[^"]*"\([^"]*\)".*/\1/' input.txt)
dabei wird dynamisch aus der Datei eine Liste der URLs generiert und an wget verfüttert.
 

Codeman

Newbie
hallo da mich das perönl. auch interessiert mal ne frage
geht das auch mit *.php datein?

und kann ich alles rauswerfen also "echo" und was nicht alles?

oder muss ich die datei schon so zusammenbasteln?
 
Oben