• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] Virtual-Server als Webserver mit htdig-Indizierung

tomma

Member
Hallo,
ich betreibe einen kleinen virtuellen Server (openSUSE 10.3) bei Strato, der als Webserver (Apache2), ftp- und ssh-Server arbeitet.

Mein Ziel ist, mit htdig eine Indizierung des offenen Webservers zum Laufen zu bringen.

Zwei IP-Adressen: eine Adresse als offener Webserver, eine IP-Adresse für https, alles Standard: Ports 80 und 443.
Nach Installation von htdig merke ich, dass htdig bei der Indizierung (htdig -vti) keine Dateien im db-Ordner anlegt.
In der htdig.conf:

start_url: http://ip-adresse

Nach langem Basteln :irre: stelle ich fest, dass wget -r ip-adresse-des-servers, gestartet von einem anderen Rechner, ebenfalls ins Leere läuft und die HTML-Dateien nicht korrekt abholt (eigentlich nur die index.html und die robots.txt).
Da staunt der "Fachmann" und der Laie wundert sich :???: . Ein

start_url: http://localhost

führt leider auch zu nichts Verwertbarem. Der htdig an sich funktioniert. Ein
start_url: http://www.avm.de
erzeugt sauber die Index-Dateien für das Suchen.

Bin für jeden Hinweis dankbar.
By(e) Tomma
 
OP
T

tomma

Member
Ja,
nun doch noch selbst gefunden:

In der Datei robots.txt (Wurzelverzeichnis des Webservers) war ein "Disallow" eingetragen. Wer das war, ist nicht mehr festzustellen...
(ein bulgarisches Sprichwort: "Wer hat mit in die Hose geschi ..?")

Dadurch können weder wget noch htdig automatisch auf die Inhalte der Webseite zugreifen.

Zugegeben, ich hatte die Bedeutung dieser Datei unterschätzt.

By(e) Tomma
 
Oben