• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] Katastrophe - kein Einloggen möglich

Hallo Leute,

auf unserem Server ist Katastrophe: Ich kann mich 1 x einloggen, danach kann sich niemand mehr einloggen. Wenn ich mich auslogge, komme ich auf keinem Weg mehr rein, weder über ein Terminal noch direkt am Server, weder als normaler Benutzer, noch als root. Es gibt am Server nur noch 1 tty und dann den grafischen Login bei Nr. 7. Die Nr. 1 hat keine deutsche Tastatur mehr.

Hier bin ich jetzt völlig ratlos, woran das liegen könnte. Folgende Dinge waren, bevor der Fehler auftrat (hoffentlich die richtige Reihenfolge):

1. die Verzeichnisse /opt und /usr lagen auf der Bootplatte. Ich habe zwei andere Festplatten dafür genommen, also den Inhalt von /opt und /usr auf die anderen Platten kopiert und dann die fstab so geändert, dass die Platten dafür gemountet werden. Hat problemlos geklappt, danach lief alles erstmal normal. Sowas hab ich schon öfter gemacht, sollte eigentlich kein Problem sein.

2. Ein Update kam, das habe ich (leider) laufen lassen, hauptsächlich 3 Programme wurden ergänzt, das kann man jetzt am diff sehen, wenn man das alte und das neue /usr vergleicht. Hat aber alles nichts mit dem System zu tun.

3. Ich habe meine USB-Backup-Festplatte gemountet. Da sprang der Automounter an, danach gab es ganz lange Wartezeiten bei Maus und GUI (KDE). Also Platte ausgemacht - keine Besserung. Schließlich hat sich das System wieder erholt, irgendwelche blockierenden Prozesse hab ich nicht gefunden.

4. Ausgeloggt. Und plötzlich kam ich nicht wieder rein. (Also, Name, Passwort, Eingabedialog verschwindet, und da bleibt er stehen)

5. Harten Reset gemacht, danach lief das System wieder normal, Einloggen, Ausloggen, alles wie gewohnt.

Heute hab ich mich eingeloggt und ein paar Büroarbeiten gemacht. Dann hab ich die Backup-Festplatte noch einmal getestet, der Automouner kam gar nicht hoch. Also USB-Platte aus. Danach ausgeloggt. Und mal getestet: Kein Einloggen mehr möglich!

:???: Wo würdet ihr anfangen zu suchen? Was würdet ihr als nächstes tun?

Ein Verdacht ist der Automounter oder irgendwas, was damit zu tun hat. Aber ob das zu diesem Fehler führen kann? Immerhin erinnere ich hier an meinen letzten Thread in diesem Forum, wo es um automount ging.

Morgen bin ich natürlich wieder im Büro, am Montag muss die Kiste laufen...

Also danke für alle Tipps!

Rolf
 

spoensche

Moderator
Teammitglied
Image von der / Partition anfertigen. Image auf eine anderen Linux Büchse mounten (mount -o loop hdd.img /mnt), die Logs durchforsten.
 
OP
R

Rolf-Werner

Hacker
Danke schon mal für die Tipps.

Für die Logs hatte ich heute Abend leider keine Zeit mehr, das mache ich morgen als erstes. Wenn nichts mehr geht, wäre auch spoensches Idee gut (äh - Image mit dd anfertigen? Nimmt der dann auch die ausgelagerten Partitionen mit - oder soll er das gerade nicht? Ich hätte auf dem System noch eine Platte übrig, wäre also die selbe Hardware).

Aaaaber - was kann man denn machen, wenn das System keinen Login akzeptiert? Gibt es noch irgendeinen Weg, dem System ein geregeltes Herunterfahren per Hardware anzubieten, statt einfach auf Reset zu drücken?

Rolf

P. S. spoensche - ich hab dich falsch verstanden, du meintest was anderes, aber ich hab jetzt schon ein Bier zuviel gehabt... ;) Trotzdem kapiert. Gute Idee. Aber wenn ich mich auf dem System einloggen kann, kann ich ja auch direkt in die Logs sehen.
 

abgdf

Guru
Wenn man vor einem PC steht (und der von USB und/oder CD-ROM booten kann), kann man zumindest an die Daten durch Booten einer Live-Distribution wie z.B. Puppy-Linux kommen.
Weiß nicht, inwieweit das auch bei Servern oder bei Dir möglich ist.
 
OP
R

Rolf-Werner

Hacker
Ja klar, aber dafür muss ich ihn erstmal zum Neustart bewegen - und einfach Reset drücken ist nicht die feine Art... Wird schwierig, wenn ich mich nicht einloggen kann.

Wie gesagt, die Konsolen 2 bis 6 fehlen, Konsole 1 ist auf Englisch, also locale fehlt. Jetzt fällt mir noch was ein: Als ich angefangen habe mit dem Umkopieren der Platten, hab ich einmal init 1 probiert, aber er fuhr dann jedes Mal wieder genauso komisch hoch - nur 1 und 7. Also gab es da den Fehler wohl schon.
 

abgdf

Guru
Hmmm, Strg+Alt+Entf an der Login-Konsole macht bei mir zumindest Reboot. Das kann man auch irgendwo einstellen.
 

abgdf

Guru
Bei mir steht in "/etc/inittab":
Code:
# what to do when CTRL-ALT-DEL is pressed 
ca::ctrlaltdel:/sbin/shutdown -r -t 4 now
Mein System hier ist aber recht alt ...

Falls Du eingeloggt bist, gibt es als root auch "/sbin/halt" und "/sbin/reboot".
 
OP
R

Rolf-Werner

Hacker
abgdf schrieb:
Bei mir steht in "/etc/inittab":
Code:
# what to do when CTRL-ALT-DEL is pressed 
ca::ctrlaltdel:/sbin/shutdown -r -t 4 now
Mein System hier ist aber recht alt ...

Falls Du eingeloggt bist, gibt es als root auch "/sbin/halt" und "/sbin/reboot".

Man kann das im Yast an- und abstellen, aber kommt wohl auf das gleiche raus. Ich geb immer shutdown -r now oder -h now ein.

Dafür hab ich mir jetzt eine Konsole mit root-Account offen gelassen, für den Fall, dass der Fehler wieder auftritt und nichts mehr geht. Aber das eigentliche Problem ist damit noch nicht gelöst, deshalb poste ich als nächstes meine Ergebnisse.

Ich hab übrigens auch die Stelle gefunden, wo er die deutsche Lokalisierung nicht findet. Alles sehr merkwürdig.

Rolf
 
OP
R

Rolf-Werner

Hacker
Gestern Nachmittag hab ich mehrere Stunden am System gearbeitet. Zunächst lief alles normal, kein Fehler. Dann fror mein KDE plötzlich wieder ein, und wieder war kein Einloggen weiterer User möglich.

Ich hatte mich vorsichtshalber auf mehreren Konsolen eingeloggt. Außerdem von meinem Lappi per ssh noch. Deshalb konnte ich das System gut beobachten. Die ganze Zeit lief tail -f /var/log/messages mit. Ergebnis: Nichts! Das System merkt scheinbar nicht, dass es hakt. Es gibt beim Einloggen keine Fehlermeldung, die sagt "kann User xyz nicht einloggen", sondern der User wird im System angemeldet, und dabei bleibt es. Nur beim vergeblichen Einloggen direkt am Server meldet das getty nach einiger Zeit einen Timeout und setzt die Konsole zurück, so als ob der User vergessen hat, sein Passwort einzugeben.

Es sind auch keine Fehlermeldungen zusätzlich zu erkennen, die gerade dann auftauchen, wenn das System stockt/einfriert. Naja, einfrieren tut es ja nicht, man kann ja auf Konsolenebene normal weitermachen. Nur KDE stockt minutenlang, als wenn es auf irgendwas wartet, aber ich hab da keine Meldungen gefunden.

Jetzt kam mir die Idee - ich erinnere mich dunkel an einen ähnlichen Fall vor ganz langer Zeit - dass das eine Macke auf einer der Platten sein könnte, und am wahrscheinlichsten erscheint mir die Platte auf der ich nachträglich /usr gemountet hab. Darum würde ich gern /usr mal zurücksetzen auf das Originalverzeichnis auf der Root-Platte. Da gibt es nur ein Problem: Mittlerweile hab ich ja ein Update aufgespielt in das neue aktuelle /usr, so dass sich das alte (das ich sicherheitshalber noch behalten hatte) und das neue in 3 Programmen und deren libs unterscheiden. Das sind aber keine systemkritischen Sachen: Gambas2, Gambas3 und claws-mail.

Deshalb jetzt die Frage: Da ich ein Backup haben müsste von der rpm-Datenbank, könnte man einfach auf den alten Stand zurückgehen und dann das alte Verzeichnis einhängen. Dafür müsste ich wissen, wo die rpm-Datenbank ist, dann würde ich die aus dem Backup zurückspielen und das alte /usr wieder einhängen. Wenn danach der Fehler nicht mehr auftritt, hab ich die Ursache gefunden.

Zu var/log/messages noch was:

1. Beim Systemstart meldet er

Code:
systemd-vconsole-setup[428]: /bin/loadkeys failed with error code 1
systemd-vconsole-setup[428]: /bin/setfont failed with error code 1

Das wird der Grund sein, warum die Konsolen keine deutsche Tastatur haben, vermute ich. Ein bisschen merkwürdig finde ich, dass diese Zeilen VOR die Auflistung der CPUs geschrieben werden, mit einem älteren Zeitstempel, aber das kann ja auch einen normalen Grund haben. :irre:

2. Beim Einloggen eines Users von einem remote Terminal (KDM und LTSP...) aus bemerkt er jedes Mal

Code:
Activation via systemd failed for unit 'dbus-org.freedesktop.NetworkManager.service': 
Unit dbus-org.freedesktop.NetworkManager.service failed to load: No such file or directory. See system logs
and 'systemctl status dbus-org.freedesktop.NetworkManager.service' for details.

Das muss jetzt nichts kritisches sein, denn es taucht jedes Mal auf, ich erwähne es hier nur, weil ich nicht weiß, was er mit den System logs meint bzw. welches Log?

3. Was die fehlende Mailzustellung betrifft: In /var/log/mail habe ich den letzten Eintrag vom 31.10. umd 12:09 gefunden, dass sich Postfix beendet hat. Ganz schlicht und ergreifend "Stopping the Postfix mail system". :irre: Aber warum?

Danke für eure Ideen!

Rolf
 
Hallo Rolf-Werner,

Rolf-Werner schrieb:
Ich hatte mich vorsichtshalber auf mehreren Konsolen eingeloggt. Außerdem von meinem Lappi per ssh noch. Deshalb konnte ich das System gut beobachten.
Sehr gut gemacht.

Rolf-Werner schrieb:
Die ganze Zeit lief tail -f /var/log/messages mit. Ergebnis: Nichts! Das System merkt scheinbar nicht, dass es hakt
Es kann auch nur bedeuten das der Log-Dienst nicht gestartet wird bzw. hängt.

Rolf-Werner schrieb:
Nur KDE stockt minutenlang, als wenn es auf irgendwas wartet, aber ich hab da keine Meldungen gefunden.
Dann sieh doch mal in die KDE- und Xorg-Logfiles!
Code:
cat /var/log/kdm.log
/var/log/Xorg.0.log
/var/log/Xorg.0.log.old

Rolf-Werner schrieb:
dass das eine Macke auf einer der Platten sein könnte, und am wahrscheinlichsten erscheint mir die Platte auf der ich nachträglich /usr gemountet hab.
Dann teste das Laufwerk doch mal.
Code:
/sbin/fsck -VA /dev/sdX
smartctl -t short /dev/sdX

Rolf-Werner schrieb:
Deshalb jetzt die Frage: Da ich ein Backup haben müsste von der rpm-Datenbank, könnte man einfach auf den alten Stand zurückgehen und dann das alte Verzeichnis einhängen.
Packe doch das alte var in ein tar-File ein und kopiere das aktuelle var-Verzeichnis dann an diese stelle.
Du kannst, wenn /var eine eigene Partition ist auch dd verwenden.

Rolf-Werner schrieb:
Code:
systemd-vconsole-setup[428]: /bin/loadkeys failed with error code 1
http://kuerzer.de/eHvNFKGml

Rolf-Werner schrieb:
2. Beim Einloggen eines Users von einem remote Terminal (KDM und LTSP...) aus bemerkt er jedes Mal
Code:
systemctl status dbus-org.freedesktop.NetworkManager.service
3. Was die fehlende Mailzustellung betrifft: In /var/log/mail habe ich den letzten Eintrag vom 31.10. umd 12:09 gefunden, dass sich Postfix beendet hat. Ganz schlicht und ergreifend "Stopping the Postfix mail system". :irre: Aber warum?
Aber hast Du das systemctl-Kommando auch mal ausgeführt?
Es hat aber nichts mit KDE zu tun, hier geht es ja nur um den NetworkManager und Postfix, das sind neue Themen

lieben Gruß aus Hessen
 
OP
R

Rolf-Werner

Hacker
Danke für die ausführliche Antwort!

Ich hab es vorhin einfach mal so durchgezogen: Das alte /usr wieder eingehängt und /var/lib/mysql vom Backup zurückgespielt. Die letzte Änderung vor der Katastrophe war vom 31.10., also bin ich auf den Stand zurück. Mal sehen, ob das so funktioniert. Das alte neueste /var/lib/mysql hab ich aufgehoben.

Man kann da ganz einfach reinschauen, und die Files geben auch die wichtigsten Informationen wieder, was wann gemacht wurde, weil alles nach Datum geordnet ist.

Jedenfalls scheint es jetzt wieder normal zu laufen. Erstes Symptom: Ich habe wieder 6 gettys und mit deutscher locale.

Herz-von-Hessen schrieb:
Hallo Rolf-Werner,

Rolf-Werner schrieb:
Ich hatte mich vorsichtshalber auf mehreren Konsolen eingeloggt. Außerdem von meinem Lappi per ssh noch. Deshalb konnte ich das System gut beobachten.
Sehr gut gemacht.

Danke :D

Rolf-Werner schrieb:
Die ganze Zeit lief tail -f /var/log/messages mit. Ergebnis: Nichts! Das System merkt scheinbar nicht, dass es hakt
Es kann auch nur bedeuten das der Log-Dienst nicht gestartet wird bzw. hängt.

Ja, zu unsauber formuliert. Er lief schon noch, aber beim Absturz kamen keine Meldungen darüber wie "kann Dienst xyz nicht starten" oder sowas. Eben nur Routinekram wie "Neuer User angemeldet" und so.

Rolf-Werner schrieb:
Nur KDE stockt minutenlang, als wenn es auf irgendwas wartet, aber ich hab da keine Meldungen gefunden.
Dann sieh doch mal in die KDE- und Xorg-Logfiles!
Code:
cat /var/log/kdm.log
/var/log/Xorg.0.log
/var/log/Xorg.0.log.old

Oh ja, werd ich machen. Allerdings hab ich sie jetzt gerade nicht hier, bin momentan zu Hause. Wenn ich nachher nochmal hinfahre, schaue ich nach (ich hatte mir die Logs in Dropbox kopiert, aber das kam damit irgendwie nicht klar, darum hab ich sie heute Morgen wieder rausgenommen).


Rolf-Werner schrieb:
dass das eine Macke auf einer der Platten sein könnte, und am wahrscheinlichsten erscheint mir die Platte auf der ich nachträglich /usr gemountet hab.
Dann teste das Laufwerk doch mal.
Code:
/sbin/fsck -VA /dev/sdX
smartctl -t short /dev/sdX

Danke für den Tipp! Beim Rumrödeln hab ich einen Fehler bemerkt: Die Platten waren mit ext3 formatiert, die Original-Partition, aus der /usr und /opt kamen, aber mit ext4. Vielleicht lag es daran, nur so ein Gedanke. Jetzt hab ich sie ja wieder frei und kann sie durchtesten, bevor ich den Versuch nochmal starte.

Rolf-Werner schrieb:
Deshalb jetzt die Frage: Da ich ein Backup haben müsste von der rpm-Datenbank, könnte man einfach auf den alten Stand zurückgehen und dann das alte Verzeichnis einhängen.
Packe doch das alte var in ein tar-File ein und kopiere das aktuelle var-Verzeichnis dann an diese stelle.
Du kannst, wenn /var eine eigene Partition ist auch dd verwenden.

Ich habe Backup-Festplatten mit Dirvish angelegt. Da hab ich das runterkopiert, ganz einfach mit dem Copy-Befehl vom mc. Es sind nur normale Files, nichts besonderes, ging problemlos.

Für das Kopieren der Verzeichnisse hab ich z. B.
Code:
cp -arP /usr /mnt
gemacht, wobei die Partition, die /usr werden sollte, unter /mnt eingehängt war. Bei -P war ich mir nicht sicher, aber er sollte nicht noch tausend Files hinter einem Link mit kopieren. An sich doch richtig so, oder?

Rolf-Werner schrieb:
Code:
systemd-vconsole-setup[428]: /bin/loadkeys failed with error code 1
http://kuerzer.de/eHvNFKGml
:D alles klar...

3. Was die fehlende Mailzustellung betrifft: In /var/log/mail habe ich den letzten Eintrag vom 31.10. umd 12:09 gefunden, dass sich Postfix beendet hat. Ganz schlicht und ergreifend "Stopping the Postfix mail system". :irre: Aber warum?


Ja, Postfix muss ich jetzt mal überprüfen, vielleicht läuft es ja auch wieder.

Ich glaube, ich fahr gleich nochmal hin...

Vielen Dank erstmal für die Anregungen und Grüße aus Niedersachsen ;)
 
OP
R

Rolf-Werner

Hacker
Kurz mal nachgeschaut, Postfix hatte wohl Rechteänderung bemäkelt (die binaries müssen zur Gruppe von Postfix gehören). Hab es jetzt einfach mal so gestartet (per Yast), lief auch und hat mir 3 Systemmails geschickt. Laut /var/log/mail läuft es auch weiter. Mal sehen...

Dann hab ich in /var/lib/mysql reingeschaut. Die Dateien enthalten nur Daten über das Joomla, nicht über die Paketdatenbank. Die scheinen in /var/lib/rpm zu liegen. Einige haben den Zeitstempel vom 30.10. (vor der Katastrophe), andere vom 1.11. (nach der Katastrophe). Ich schau mal, was passiert, wenn man das Backup vom 30. zurückspielt. Momentan meldet zypper 17 mögliche Aktualisierungen, an die ich mich aber nicht erinnern kann, sind also wohl neu.

Es bleibt spannend!

Rolf
 
Hallo Rolf-Werner,

Rolf-Werner schrieb:
Jedenfalls scheint es jetzt wieder normal zu laufen. Erstes Symptom: Ich habe wieder 6 gettys und mit deutscher locale.
Das ist doch mal erfreulich.

Rolf-Werner schrieb:
Oh ja, werd ich machen. Allerdings hab ich sie jetzt gerade nicht hier, bin momentan zu Hause.
über ssh kannst Du nicht darauf zugreifen?

Rolf-Werner schrieb:
Wenn ich nachher nochmal hinfahre, schaue ich nach (ich hatte mir die Logs in Dropbox kopiert, aber das kam damit irgendwie nicht klar, darum hab ich sie heute Morgen wieder rausgenommen).
Du kannst die Ausgaben doch direkt auf einen Paste-Dienst laden → http://sprunge.us/

Rolf-Werner schrieb:
Vielleicht lag es daran, nur so ein Gedanke.
Nein das verwendete Dateisystem hat keinen Einfluss, solange es nicht beschädigt ist.

Rolf-Werner schrieb:
Für das Kopieren der Verzeichnisse hab ich z. B.
Code:
cp -arP /usr /mnt
gemacht, wobei die Partition, die /usr werden sollte, unter /mnt eingehängt war. Bei -P war ich mir nicht sicher, aber er sollte nicht noch tausend Files hinter einem Link mit kopieren. An sich doch richtig so, oder?
Ja das große -P ist schon richtig.

Rolf-Werner schrieb:
3. Was die fehlende Mailzustellung betrifft: In /var/log/mail habe ich den letzten Eintrag vom 31.10. umd 12:09 gefunden, dass sich Postfix beendet hat. Ganz schlicht und ergreifend "Stopping the Postfix mail system". :irre: Aber warum?
Keine Ahnung.

lieben Gruß aus Hessen
 
OP
R

Rolf-Werner

Hacker
Die Anlage läuft jetzt wieder ruhig und normal vor sich hin, also schreibe ich oben mal gelöst hin. So ganz klar ist mir nicht, wieso der Fehler auftrat, aber es war offensichtlich, dass der Wechsel der beiden Verzeichnisse /opt und /usr auf eine eigene Partition das ausgelöst hat.

Fehler waren nicht zu finden auf beiden Platten. Die einzige Unstimmigkeit war, dass die Partitionen mit ext3 formatiert waren und das Original mit ext4. Vielleicht ist beim Rüberkopieren dadurch was verloren gegangen?

Danke nochmal für alle Tipps - aber wir können das ruhig noch weiter diskutieren.

Rolf
 
Oben