• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] System friert ein

goeba

Hacker
Hallo,
auf einem älteren Rechner (Core 2 Quad, ca 10 Jahre alt) friert mein System nach ca. 30 bis 100 Minuten ein.

Wenn man gerade ein Video schaut, läuft der Sound noch ca. 30 Sek. weiter, dann hört auch das auf. Grafik bleibt stehen, Tastatur reagiert nicht mehr, ich kann auch auf keine Konsole umschalten.

Das kann nun an allem möglichen liegen, ich würde mich über Hinweise freuen, wie ich das diagnostizieren kann. Denkbar wäre z.B. ein thermisches Problem. Ich hatte den Rechner ursprünglich ausrangiert, weil er unter Windows sich auch nach unregelmäßigen Abständen ausgeschaltet hatte.

Später dann habe ich zu Testzwecken mit einem Live-Linux hohe Prozessorlast erzeugt, was dem Rechner nichts ausmachte, sodass ich es nochmal probieren wollte (hätte ja auch an Windows liegen können, dass er abschmiert).

Danke für Hinweise,

Andreas
 

spoensche

Moderator
Teammitglied
Wenn du ein Video ansiehst, öffne mal ein Terminal und führe den Befehl
Code:
sensors
aus. Eine andere Möglichkeit wäre nach dem Aufhängen den Rechner ausschalten, kurz warten, einschalten und im BIOS nach der Temperatur gucken.
 
OP
G

goeba

Hacker
Danke, ich habe mal youtube angemacht und:

Code:
coretemp-isa-0000
Adapter: ISA adapter
Core 0:       +32.0°C  (high = +74.0°C, crit = +100.0°C)
Core 1:       +33.0°C  (high = +74.0°C, crit = +100.0°C)
Core 2:       +38.0°C  (high = +74.0°C, crit = +100.0°C)
Core 3:       +35.0°C  (high = +74.0°C, crit = +100.0°C)

acpitz-virtual-0
Adapter: Virtual device
temp1:        +33.0°C  (crit = +127.0°C)

Also erst mal völlig unkritisch.
 
goeba schrieb:
Später dann habe ich zu Testzwecken mit einem Live-Linux hohe Prozessorlast erzeugt, was dem Rechner nichts ausmachte, sodass ich es nochmal probieren wollte (hätte ja auch an Windows liegen können, dass er abschmiert).
Was für ein Betriebssystem hast aktuell laufen?
 
OP
G

goeba

Hacker
Opensuse Leap 42.3. Da ich Probleme mit dem proprietären NVidia-Treiber habe, habe ich jetzt auf Kernel 4.13 geupdatet und nehme wieder Nouveau.

Ferner habe ich mal eine Stunde lang youtube laufen lassen und nebenher noch glxgears, die Temperatur blieb völlig unkritisch.

Hat jemand noch eine Idee, in welchem Log man noch schauen könnte, wenn das System wieder einfriert? (Wie gesagt, ich komme dann auch auf kein Terminal)
 
Hallo @goeba,

du schreibst:
...habe ich zu Testzwecken mit einem Live-Linux hohe Prozessorlast erzeugt, was dem Rechner nichts ausmachte.
Das Live-Linux greift auf die DVD und ein Betriebssystem auf die Festplatte.
Ich hätte die Festplatte ins Visier genommen. Bei Opensuse Leap 42.3 kannst mit Kommando: touch /forcefsck versuchen.
Als nächstes kannst mit Kommando smartctl den Zustand der HDD Platte ermitteln, hier mehr dazu
Bei der Analyse der Konsoleausgabe von smartctl -a /dev/sda (/dev/sda steht hier für die erste FP.) kann der Artikel helfen.
Du kannst aber auch die smartctl Ausgabe hier in Forum zu der Analyse kopieren.

EDIT: Vor Jahren habe mich mit SMART beschäftigt und eine gute Beschreibung im Netz gefunden, heute habe ich den Link zu dem Howto gefunden. Falls jemand interessiert kann hier weiter lesen: http://www.tweakpc.de/forum/tutorials/29413-eine-einfuehrung-in-smart-smartmontools-linux.html

Grüße Heinz-Peter
 
OP
G

goeba

Hacker
@dietterle65 : Das halte ich für unwahrscheinlich, denn nach dem Einfrieren bleibt das Bild ja da. Das müsste ein recht subtiler Netzteilfehler sein (gleichwohl natürlich eine Möglichkeit).

@Hein-Peter : Das ist eine gute Idee, das probiere ich heute Abend aus, es handelt sich auch tatsächlich um eine ältere Festplatte.

Gruß, Andreas
 

marky

Newbie
Über was für einen Rechner sprechen wir denn hier? Ich hatte das gleiche Problem auch über Monate und wurde nirgends fündig. In den logs waren keine Einträge, Netzteil getauscht, SSD rein. Trotzdem dieses Ausschalten ohne erkennbares Muster.

Mir half erst ein Hinweis in einem Lenovo Forum vor Monaten, seither ist Ruhe.
Akku raus, Powerbutton 30sek drücken, Akku wieder rein.

Vielleicht hilft es ja?
 
OP
G

goeba

Hacker
@marky : Es ist kein Notebook, aber der Tipp ist gut, das Problem hatte ich mal bei einem anderen Notebook.

Hier der Smart-Bereicht:

Code:
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.13.11-1.g0526da3-default] (SUSE RPM)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   253   006    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   093   093   020    Old_age   Always       -       7809
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   077   057   030    Pre-fail  Always       -       21784780556
  9 Power_On_Hours          0x0032   092   092   000    Old_age   Always       -       7398
 10 Spin_Retry_Count        0x0013   100   100   034    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   096   096   020    Old_age   Always       -       5055
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   076   051   045    Old_age   Always       -       24 (Min/Max 24/24)
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       972
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       335455
194 Temperature_Celsius     0x0022   024   049   000    Old_age   Always       -       24 (0 14 0 0 0)
195 Hardware_ECC_Recovered  0x001a   094   062   000    Old_age   Always       -       82123689
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

Da sind schon einige ziemlich schlechte Werte dabei, ich mache jetzt noch den Selbsttest, aber vermutlich muss die Platte in die Tonne.

Dank + Gruß, Andreas
 

marce

Guru
goeba schrieb:
@dietterle65 : Das halte ich für unwahrscheinlich, denn nach dem Einfrieren bleibt das Bild ja da. Das müsste ein recht subtiler Netzteilfehler sein (gleichwohl natürlich eine Möglichkeit).
die Erfahrung der letzten Jahrzehnte sagt: Bei älteren PCs ist merkwürdiges, nicht sauber vorhersagbares Verhalten meist auf Probleme im Netzteil zurückzuführen - kann einfach sein, daß - sei es durch thermische, elektrische oder sonstige Effekte - sich im Laufe der Zeit dort einfach Parameter ändern, die dafür sorgen, daß eben - und sei es nur kurz - die Spannung auf einer Versorgungslinie einbricht und damit das System in einen anderweitig nicht nachstellbaren Zustand kommt.

Danach kommen meist Speicherfehler oder mechanische Probleme in irgendwelchen Platinen (Haar-Risse, elektrische Kontaktflächen, Staub, ...)

Ob man sich den Streß gibt, entweder den Fehler zu identifizieren oder mit einem nicht-stabilen System eben lebt (indem man z.B. weiß, was man damit nicht machen darf) - muss jeder für sich selbst entscheiden.
 
OP
G

goeba

Hacker
Würdest Du dann einfach das Netzteil tauschen, oder würdest Du das irgendwie genauer überprüfen? Ein Multimeter habe ich.
 
goeba schrieb:
Würdest Du dann einfach das Netzteil tauschen, oder würdest Du das irgendwie genauer überprüfen? Ein Multimeter habe ich.
Ein Netzteil ist bei dir nicht defekt. Es ist Schwachsinn sowas zu behaupten. Die Live-DVD läuft bei dir einwandfrei also ein defekt am Netzteil ist ausgeschlossen. Zurück zu deiner Frage: Ein Netzteil kannst schon mit einem Spannungsmessgerät überprüfen aber dann nur die Spannung. Bekanntlich wird hier Wechselstrom in Gleichstrom verwandelt und wenn hier ein Elko nicht die entsprechende Kapazität hat dann wirst du das sehen nur auf einem Oszilloskop.

Grüße Heinz-Peter
 

josef-wien

Ultimate Guru
goeba schrieb:
vermutlich muss die Platte in die Tonne
Es gibt keine nicht lesbaren Sektoren, und es mußten noch keine Daten in Reserve-Sektoren verlagert werden. Bei Seagate wären hohe Werte bei 7 nicht ungewöhnlich, auch 195 muß nicht zwangsläufig einen Austausch nahelegen. Wenn die Platte die Ursache ist, sollten vor dem Systemstillstand Meldungen im System-Log erscheinen, und daß der Kernel bei einer defekten Platte das System blockiert, halte ich für wenig wahrscheinlich.

Wurde der Hauptspeicher schon geprüft? Schauen die Kondensatoren am mainboard vernünftig aus? Wenn vor dem Systemstillstand nichts Bedenkliches im System-Log aufscheint, schließe ich ein defektes Netzteil nicht aus.
 

marce

Guru
Heinz-Peter schrieb:
Ein Netzteil ist bei dir nicht defekt. Es ist Schwachsinn sowas zu behaupten.
Sehr charmant. Danke.

ca. 25 Jahre PC-Erfahrung sagen mir allerdings, daß ich ein defektes Netzteil beim einem solchen Fehlerbild nicht auschließen würde.
 
OP
G

goeba

Hacker
Hallo,

vielen lieben Dank für alle Antworten. Es war mir schon bewusst, dass man mit meinen sehr spärlichen Angaben da nur schwer definitiv eine Fehlerquelle finden konnte.

Der lange smart-check der Festplatte war ok. Daher habe ich das als Ursache erst mal für unwahrscheinlich gehalten.

Netzteil fand ich auch unwahrscheinlich (wenn auch nicht unmöglich, dafür fehlt mir die Hardware-Kompetenz, das beurteilen zu können).

Ich habe mich noch etwas mit dem System beschäftigt. Bereits zweimal war es ja eingefroren, als ich ein Video schauen wollte.

Ich habe Kaffeine installiert und eine DVB-S2 Karte eingerichtet. Jetzt kommt der Fortschritt: Beim Starten eines HD-Senders fror der PC reproduzierbar ein.

Beim Abspielen eines HD-Videos mit einem anderen Player aber auch.

Da ich ja leider auch keine Erfolg mit dem NVIDIA-Treiber hatte (siehe hier https://linux-club.de/forum/viewtopic.php?f=89&t=122112 ) und deswegen zwischenzeitlich ja auch schon einen 4.13 er Kernel installiert hatte, wollte ich es nun richtig wissen und habe den NVidia Treiber von der NVidia-Webseite heruntergeladen und nach Anleitung die Module gebaut ( https://en.opensuse.org/SDB:NVIDIA_the_hard_way , zusätzlich zu den angegebenen Dependencies fehlte noch libelf-devel , das automatisierte Blacklisting funktionierte auch nicht, das musste ich so machen wie in der SuSE-Anleitung beschrieben).

Das Login geht damit wunderbar, die Videos laufen, bisher keine Abstürze!

Fazit: Der Nouveau-Treiber scheint echt noch so seine Macken zu haben.

Dank + Gruß,

Andreas
 
OP
G

goeba

Hacker
NVIDIA-Linux-x86_64-384.98.run

Oder meintest Du vom Nouveau? Ich dachte, der ist Teil des Kernels, also vom 4.13er Kernel, oder?
 

josef-wien

Ultimate Guru
Ich meinte schon Nvidia. Die Grafikkarte ist offenbar jünger als der PC, und der 384 wird noch lange unterstützt.
 
OP
G

goeba

Hacker
Ja, die Grafikkarte ist jünger als der Rest.

Offenbar hat der Rechner aber noch ein Problem. Ich bleibe mal hier im Faden, weil ich die Symptome wohl zunächst "vermischt" hatte:

Nachdem der NVidia Treiber installiert war und die Fernsehkarte ging, habe ich noch gemütlich eine Stunde ferngesehen.

Dann blieb das Bild doch wieder hängen. Ich dachte schon "mist", stellte aber schnell fest, dass die Maus sich noch bewegte, ich konnte auch auf ein Terminal umschalten. Der Rechner war also nicht "eingefroren", im Detail ein ganz anderes Bild als vorher.

Auf der Konsole konnte ich mich aber nicht mehr anmelden. Stattdessen kamen hunderte Meldungen von journalctl über IO-Fehler von /sdb (sdb ist die Systemplatte, sda ist noch ein altes Windows drauf).

Da ich mich nicht mehr einloggen konnte, konnte ich auch diese Meldungen nirgendwo sichern. Komme ich da irgendwie dran (vorausgesetzt, der Rechner konnte noch irgendwas speichern)?

Als ich gestern den SMART-Check der Platte gemacht hatte, hatte ich diese per USB-Adapter an einem anderen Rechner. Es könnte jetzt also sein, dass
a) Die Platte defekt ist und nach ein bis zwei Stunden ausfällt und das der SMART Check nicht gemerkt hat
b) Es liegt am Rechner. Damit käme z.B. wieder das Netzteil ins Spiel. Dass es einfach am sata - Port liegt halte ich für unwahrscheinlich, denn ich hatte die Platte an dem alten Rechner zunächst auch über USB betrieben. Dort trat das Problem auch schon mal auf (nur dass ich das damals noch nicht realisiert hatte, dass es sich um zwei verschiedene Probleme handelt).

Also, Fragen:
- wie komme ich nachträglich an die journalctl Meldungen über io-Fehler von sdb heran?
- was tun? Kann die Platte kaputt sein, obwohl Smart das nicht merkt?

Gruß,

Andreas
 
Oben