• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

sehr hohe load

hallo,
ich habe hier ein sehr großes problem, mit dem ich nicht weiterkomme und hoffe hier etwas hilfe zu erhalten:

mein Server hat hin und wieder mal eine sehr hohe load. fast schon täglich für ein paar minuten eine load von bis zu 20. wie gesagt, nach paar minuten fiel die dann auch. heute stieg sie dann aber plötzlich auf 60 und wollte nicht mehr runter. erst ein reboot hat das problem gelöst.
hier erst mal die ausgabe von top:

load: 53.48, 55.49, 46.22
Tasks: 171 total, 1 running, 170 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.3% us, 0.3% sy, 0.0% ni, 12.4% id, 86.9% wa, 0.0% hi, 0.1% si
Mem: 2073952k total, 2023524k used, 50428k free, 72784k buffers
Swap: 1052216k total, 3000k used, 1049216k free, 1422476k cached

wie man sieht ist die wait-time (wa) das problem, die teilweise bei 95% lag. daraus lässt sich ja schließen, dass es in irgendeiner weise ein problem mit den festplaten gibt. kann aber die ursache nicht finden.
ich benutze ein adaptec 2420sa - serial raid 2 mit 2x 250 MB SATA II Maxtor 16 MB Cache, 7200.

der server ist ein:
- Tyan GT24 Serverbarbone 1U
- 2 x Opteron 2.2 GHz
- 2 GB RAM

zu dem fraglichen zeitpunkt liefen keine cronjobs, die das system hätten beeinträchtigen können, auch die http-zugriffe waren nicht erwähnenswert.

hat jemand evtl. einen vorschlag wie ich dem problem nachgehen kann??
ich bin leider auch nicht der super-crack, was linux angeht. wäre sehr dankbar für jegliche hilfe.

viele grüße,
joe
 

Leviathan

Hacker
1. Speicher check. von CD booten und memtest anschmeissen

2. Kernel checken ob der auch WIRKLICH zwei CPus erkennt.
uname -a ausgeben obs der richtige , der mit SMP ist

3. Controller auf grown defects oder aehnliches checken

4. sar tools , systat tools mitlaufen lassen

Gruß Dominik
 
Hohe Load muss nicht immer was bedeuten, der ftp.gwdg.de z.B. ist ständig oben aber läuft dennoch problemlos.
 
OP
J

joe johnson

Newbie
danke schon mal.

@Leviathan
speicher ist ok, kernel ist auch der richtige. controller scheint auch ok zu sein.
habe mich jetzt mal in sar eingelesen und das logging aktiviert. muss jetzt mal den nächsten "over"load abwarten. scheint ein sehr praktisches tool zu sein.

@jengelh
das habe ich auch mal gelesen, bei mir läuft dann aber nichts mehr, bzw. alles sehr sehr langsam. und da es ein web-server ist, ist es für die besucher natürlich nicht angenehm, bzw. inakzeptabel.

wenn jemand noch einen guten tip hat wäre ich sehr dankbar.

grüße,
joe
 
86.9% wa => das ist "wait", also I/O-Auslastung, eher bekannt als Plattenaktivität (aber beinhaltet auch USB, und kann entsprechend steigen wenn man mit USB 1.1 arbeitet). Also schau mal in der Prozesstabelle, ob da nicht ein fieser beagle läuft. Wenn eigentlich alles ruhig sein sollte, aber 'wa' immer noch hoch ist, wird es vielleicht Zeit, nachzugucken ob das wirklich der Apache ist, der da versucht, allen Leuten viele Dokumente auszuhändigen (deswegen kann's ja mal von 20 auf 60 und wieder fallen) - in solchen Fällen hilft dann wohl mehr RAM (=cacht mehr) oder ein RAID1 anzuschaffen (schneller I/O).
 

Leviathan

Hacker
Kannst du zu Lastzeiten den Prozess herausfinden?
Was läuft sonst neben dem Webserver? Datenbank?
Vlt. eine Partition vollgelaufen?

Gruß Dominik
 
OP
J

joe johnson

Newbie
dass es der apache ist glaube ich eher nicht. habe mir mit tail -f die access-log angeschaut als die load oben war und da war nicht viel los.
habe mit "ps aux" und "top" den prozess aber auch nicht identifizieren können, der verantwortlich ist.
gibt es da eine bessere methode den prozess ausfindig zu machen?
erhoffe mir von sar einen tieferen einblick....
partitionen haben auch noch viel platz.
ansonsten ist es ein klassisches LAMP-system. die db habe ich eigentlich gut optimiert (indexes und so), denke nicht, dass das das problem ist.
generell sind auf dem server teilweise bis zu 6000 visits pro tag, waren aber auch schon tage mit über 10000 visits pro tag, ohne dass der server probleme hatte. denke also den apache kann man ausschließen.
 
Oben