• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Xen Host hängt sporadisch

rolle

Guru
Liebe Leute!

Ich habe hier einen HP Proliant Server, auf dem Als Xen Host ein openSuSE 12.2 läuft. Als Gäste laufen verschiedene Systeme, zweimal openSuSE, einmal Debian, einmal Windows 7, bei Bedarf mehr.
Nun habe ich das seltsame Verhalten des Rechners, daß zwar die Gäste problemlos laufen und auch per SSH z.B. erreichbar sind, die Dom0 sich aber tot stellt. Sie ist pingbar, per Fernsteuerkarte kann man zum Anmelden an der Konsole auch noch einen Nutzernamen eingeben, bis zur Paßwortabfrage kommt der Rechner aber nicht mehr. Er tut einfach gar nichts mehr erkennbares. Will man die Gäste neu booten, so kommen sie auch nicht mehr hoch. Eine Anmeldung per SSH auf der Dom0 ist nicht möglich.

Nun stehe ich etwas wie der Ochs vorm Berg und versuche den Fehler zu finden.
Problem 1: Er ist kaum reproduzierbar, der Rechner läuft wochenlang problemlos und hängt einfach irgendwann. Ein Muster ist nicht erkennbar.
Problem 2: Den Logfiles ist nichts zu entnehmen, sie enthalten einfach keine neuen Einträge mehr. Das brachte mich auf den Verdacht, daß irgendwie der Zugriff auf die Systempartition nicht mehr klappt und nur noch die Prozesse weiterlaufen, die schon im RAM sind. Auch die Konsole 10 enthält nichts aussagekräftiges.

Neu starten läßt sich der Rechner nur per beherztem Griff zur Resettaste.

Kennt jemand ein solches Phänomen oder hat gar eine Lösung für mich?

P.S.: Man verzeihe mir die Wahl des Unterforums, da ich keine Ahnung von der Ursache habe, konnte ich auch das Thema nicht sauber einsortieren.
 

spoensche

Moderator
Teammitglied
Monitor, nebst Tastatur an den Rechner hängen und anmelden. Sind dort schon Kernel Meldungen vorhanden?

In welchen Logs hast du nach gesehen?

Poste mal die Ausgabe von
Code:
dmesg | egrep -i "err|crit|fault|fatal|warn|panic"
.
 
OP
R

rolle

Guru
Naja, statt dem Monitor nehm ich die Fernwartungskarte. Die hat eine eingebaute Konsolenumleitung. Und nein, wie gesagt, auch auf Konsole 10 ist nichts auffälliges zu sehen.
Dmesg zu fragen geht leider nicht, schließlich reagiert das System nicht mehr. Der Vollständigkeit halber: Bei funktionierendem System gibt es bei Deiner Abfrage einfach keine Ausgabe, es ist also alles in Ordnung. Als Logfile versuchte ich hauptsächlich die messages, wenn es etwas gäbe, stünde es ja darin.
Momentan versuche ich gerade, ob die Lösung am disfunktionalen irq-balance liegt, siehe http://www.meb.uni-bonn.de/imbie/dokus/
 

spoensche

Moderator
Teammitglied
Ich würde mich da nicht auf so ne komische Karte verlassen und Tastatur nebst Monitor anschließen, zumindest ein Versuch ist es Wert.

Es wäre auch mit unter sehr schlecht, wenn bei einem funktionierenden System bei der Abfrage was zum Vorschein käme.

Zu deinem Link:

IRQ Balance verwaltet keine Hardware Interrupts sondern nur Softwareseitige. Wenn das System wegen zu vielen Context Switchen (den Prozessen CPU Zeit zuweisen) nicht mehr reagiert, dann ist das System bis Oberkannte Unterlippe hoffnunglos Überlastet. Mit dem festen zuweisen von CPU Kernen sollte man vorsichtig sein und vorher erst haargenau ermitteln, welche CPU für welche Hardware Interrupts zuständig ist und man das System lahmlegt weil z.B. alles auf Daten aus dem Netz wartet, die Netzwerkkarte aber die Daten nicht los wird weil ein o. mehrere leistungshungrige Prozesse sie blockieren.

Zum Scheduler:

Der RAID-Controller hat keinen Einfluss darauf, wie die Daten ins Dateisystem wandert. CFQ sorgt dafür das die Daten der unterschiedlichen Anwendung gleichmäßig und gerecht verteilt auf die Platte geschrieben werden und darauf kann ein RAID-Controller keinen Einfluss nehmen, weil er ja sonst das OS wäre.

http://www.thomas-krenn.com/de/wiki/Linux_I/O_Scheduler

Wie viele VM's laufen den auf der Dom0 und wie ist der Rechner ausgestattet?
 
Oben