• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

openSUSE 11.4 32bit friert ein

Ctwx

Member
Nabend,

ich hatte diesen Abend schon dreimal das Problem, dass sich das System aufgehangen hat. Es ging gar nichts mehr. Die Programme liefen nicht weiter, der Mauszeiger blieb stehen und ich konnte nicht mal in einer virtuelle Konsole wechseln. Allerdings kenne ich den Grund dafür nicht. Ich vermute mal dass es ein Kernel-Panic ist. (Ähnliche Anzeichen hatte ich mal mit einem anderen Netbook dessen WLAN-Chip kaputt war. Der blieb auch komplett stehen als der WLAN-Chip aktiv wurde. Das konnte ich also auch in einer Virtuellen Konsole testen.)

Nun bin ich mir nicht sicher: Wird so etwas mitgeloggt? Wenn ja wo? Ich habe schon einige Dateien in /var/log nach Kernelmeldungen durchforstet, allerdings ergab nichts davon Aufschluss was passiert war. Wo kann ich nachschauen?

Hier ein paar Details zu meinem System:
Es ist ein Asus EeePC 1201T. Ich habe openSUSE 11.4, 32bit mit KDE 4.6 installiert. Programme die typischerweise offen sind während das System einfror waren Opera, Konversation, Pidgin und KMail. Wobei KMail seit einigen Tagen Probleme macht. Beim Starten von KMail hängt es einige Zeit. An meinem PC passiert das nicht.



Danke,

Gruß
Ctwx
 

josef-wien

Ultimate Guru
Falls der Kernel noch schreiben kann, mußt Du die Ausgabe in /var/log/messages finden. Finde heraus, ob es auch passiert, wenn kmail nicht gestartet wurde. Außerdem würde ich den Hauptspeicher ausführlich mit memtest prüfen.
 
OP
C

Ctwx

Member
josef-wien schrieb:
Falls der Kernel noch schreiben kann, mußt Du die Ausgabe in /var/log/messages finden
Da steht leider nichts drin was auf ein Kernelfehler hinweist.

josef-wien schrieb:
Finde heraus, ob es auch passiert, wenn kmail nicht gestartet wurde.
Also vor etwa 40 Minuten ist das Netbook wieder eingefroren. Ich hatte nur Pidgin und Opera offen.

josef-wien schrieb:
Außerdem würde ich den Hauptspeicher ausführlich mit memtest prüfen.
Nach dem Einfrieren habe ich memtest86+ ausgeführt, allerdings konnten keine Probleme festgestellt werden.

Ich habe nun einmal alle Tabs geschlossen die ich seit einigen Wochen automatisch offen habe. Mal schauen ob es daran liegt.

Sonst noch irgendwelche Ideen was ich ausprobieren kann?


Danke,

Gruß
Ctwx
_______________________________________________________________________

Nachtrag:
Das System ist schon wieder eingefroren. Diesmal waren Konversation, Firefox, Pidgin und KMail offen. Jedes mal wenn es einfror hatte ich andere Programme offen sodass sich die üblichen Programme ausschließen dafür verantwortlich zu sein. Ich sichere morgen die Daten und installiere openSUSE 11.4 neu. Wenn das Problem immer noch auftritt werde ich schauen ob es auch bei einer anderen Distribution passiert. Falls nicht, dürfte irgendeine Softwarekomponente im Zusammenhang mit meiner Hardware dafür verantwortlich sein. Eventuell ein defekter Kernel? (Sonst wüsste ich keine Komponente die das System auf diese Art und Weise lahmlegen kann.

Nun ja, mal schauen. Wer noch Vorschläge hat, ich bin für alles offen.


Danke,

Gruß
Ctwx
 
OP
C

Ctwx

Member
Bisher nur einen. Ich dachte das reicht? Soll ich ihn über Nacht mal laufen lassen?


Danke,

Gruß
Ctwx
 
OP
C

Ctwx

Member
memtest86+ läuft jetzt seit etwas mehr als 4 Stunden und hat 4 Durchgänge. Es wird immernoch
Code:
*****Pass complete, no error, press Esc to exit*****
angezeigt. Ich denke mal, wenn das 6× durch ist, sollte es reichen um einigermaßen sicher zu sein, oder? Ich habe mittlerweile alle Daten gesichert. Eigentlich bin ich von dem Verfahren überhaupt nicht begeistert, aber ich könnte das System doch einmal neuinstallieren um sicherzustellen dass es sich dabei nicht doch um einen Softwarefehler handelt? Mir ging das Netbook nämlich mehrfach aus weil es zu heiß lief. (Dabei ist es gerade mal 1 Jahr alt.) Es war wohl zugestaubt und nach dem entstauben lief es wieder "normal", bis vor ein paar Tagen als das System begann einzufrieren.
 

josef-wien

Ultimate Guru
Ctwx schrieb:
aber ich könnte das System doch einmal neuinstallieren um sicherzustellen dass es sich dabei nicht doch um einen Softwarefehler handelt?
An Stelle dieser drastischen Maßnahme könntest du als root mit
Code:
rpm -qa | while read paketname ; do rpm -V $paketname | grep -v -F .......T. ; done
die installierten Pakete prüfen. Es werden alle Dateien angezeigt, bei denen sich außer Datum und Zeit etwas geändert hat, wobei Änderungen bei verschiedenen Konfigurationsdateien durchaus normal sind.

Ctwx schrieb:
Mir ging das Netbook nämlich mehrfach aus weil es zu heiß lief.
Somit kann ja wieder einem Teil vorübergehend zu heiß geworden sein.
 

spoensche

Moderator
Teammitglied
Wenn du die smartmontools installiert hast, dann poste mal bitte die Ausgabe von
Code:
smartctl -A
 

josef-wien

Ultimate Guru
191 G-sense error rate: Frequency of mistakes as a result of impact loads
192 Power-off retract count: Number of power-off or emergency retract cycles
193 Load/Unload cycle count: Number of cycles into landing zone position

191 ist mir bisher nicht untergekommen, aber es bedeutet nichts Gutes, wenn der aktuelle (und bisher schlechteste) Wert 1 die Grenze 0 schon fast erreicht hat. Der Festplatte wurde bisher 110mal brutal der Strom abgedreht, der dadurch erforderliche mechanische Notmechanismus bedeutet Verschleiß und somit kürzere Lebensdauer. Für wieviele normale Parkvorgänge der Schreib-/Leseköpfe die Festplatte ausgelegt ist, mußt Du in den Spezifikationen nachlesen.

Ich mag ja falsch liegen, aber einen Zusammenhang zwischen Festplatte und "Einfrieren" sehe ich hier nicht.
 
OP
C

Ctwx

Member
So oft schon Strom einfach weg? Wie soll das passiert sein? Dass System ist bestimmt schon 10-20× eingefroren und ich musste Notabschalten aber 110×? Nun ja...

Wonach muss ich in der Dokumentation suchen? Ist ja auf Englisch und ich bin mir nicht ganz sicher. Ich habe hier schon mal einige Sachen:
Code:
Kategorie: Reliability/Data Integrity

Load/unload cycles:				600,000
Non-recoverable read errors per bits read:	< 1 in 10^14
Viel mehr steht da auch nicht drin. :S



Danke,

Gruß
Christian
 

spoensche

Moderator
Teammitglied
josef-wien schrieb:
191 G-sense error rate: Frequency of mistakes as a result of impact loads
192 Power-off retract count: Number of power-off or emergency retract cycles
193 Load/Unload cycle count: Number of cycles into landing zone position

191 ist mir bisher nicht untergekommen, aber es bedeutet nichts Gutes, wenn der aktuelle (und bisher schlechteste) Wert 1 die Grenze 0 schon fast erreicht hat.

G-sense error rate:

Die Anzahl der Fehler, die durch externe Einflüsse, z.B. vibrieren, hervorgerufen werden.

josef-wien schrieb:
Ich mag ja falsch liegen, aber einen Zusammenhang zwischen Festplatte und "Einfrieren" sehe ich hier nicht.

Ich auch nicht.

@Ctwx:
Poste mal die vollständige Ausgabe von
Code:
dmesg
(bei einem Pastebin Service)
 

spoensche

Moderator
Teammitglied
Code:
[    5.686070] k8temp 0000:00:18.3: Temperature readouts might be wrong - check erratum #141
[    5.733234] ACPI: resource piix4_smbus [io  0x0b00-0x0b07] conflicts with ACPI region SMRG [??? 0x00000b00-0x00000b0f flags 0x47]
[    5.930090] shpchp 0000:00:04.0: HPC vendor_id 1022 device_id 9604 ss_vid 1043 ss_did 1b12
[    5.930099] shpchp 0000:00:04.0: Cannot reserve MMIO region
[    5.936980] shpchp 0000:00:05.0: HPC vendor_id 1022 device_id 9605 ss_vid 1043 ss_did 1b12
[    5.936989] shpchp 0000:00:05.0: Cannot reserve MMIO region
[    5.937117] shpchp: Standard Hot Plug PCI Controller Driver version: 0.4
[   29.173276] [fglrx] GART Table is not in FRAME_BUFFER range 
[   29.173610] [fglrx] Could not enable MSI; System prevented initialization
[   29.177063] [fglrx] Firegl kernel thread PID: 1418
[   29.178059] [fglrx] Firegl kernel thread PID: 1419
[   29.182063] [fglrx] Firegl kernel thread PID: 1420
[   29.182446] [fglrx] IRQ 18 Enabled
[   29.807683] [fglrx] Gart USWC size:544 M.
[   29.807688] [fglrx] Gart cacheable size:213 
[   29.807694] [fglrx] Reserved FB block: Shared offset:0, size:1000000 
[   29.807698] [fglrx] Reserved FB block: Unshared offset:fffb000, size:5000

Das ist ein Auszug, was ich so gefunden habe.

Durch den Konflikt mit der ACPI Region SMRG verhindert der Kernel die Zugriffe auf den SMBus Controller und den damit verbundenen Speicherbereich, weil dein BIOS ihn für sich in Anspruch nimmt.
Das führt dann zu dem Hotplugfehler, dem fglrx Fehler, dem WLAN- Fehler.

Füge im Grub mal die Bootoption
Code:
 acpi_enforce_resources=lax
. Wenn das Problem dann immer noch auftritt, solltest du mal ein BIOS Update durchführen.

PS:
Den Ndiswrapper kannst du deinstallieren.
 
OP
C

Ctwx

Member
spoensche schrieb:
Durch den Konflikt mit der ACPI Region SMRG verhindert der Kernel die Zugriffe auf den SMBus Controller und den damit verbundenen Speicherbereich, weil dein BIOS ihn für sich in Anspruch nimmt.
Das führt dann zu dem Hotplugfehler, dem fglrx Fehler, dem WLAN- Fehler.

Füge im Grub mal die Bootoption
Code:
 acpi_enforce_resources=lax
. Wenn das Problem dann immer noch auftritt, solltest du mal ein BIOS Update durchführen.
Das habe ich getan und nun ist zumindest die Fehler immer noch auf (sofern die Ausgabe von dmesg sich immer auf den aktuellen Bootvorgang bezieht; ich habe die Ausgabe mit "dmesg | egrep -i "(hpc|smrg)"" durchsucht). Ich werde also mal nach einem BIOS Update schauen. Was genau bringt acpi_enforce_resources=lax eigentlich? Ich habe gegooglelt aber keine direkte Dokumentation o.ä. finden können.

Also ist das ganze einfach ein Fehler im BIOS oder wie muss ich das verstehen? Es ist wirklich schwer vorstellbar dass bei der Herstellung solcher Notebooks das erst im Nachhinein auffällt.


Vielen Dank,

Gruß
Ctwx
_____________________________________

Ich habe mal auf der Asus Webseite geschaut und habe eine neuere Version gefunden. Ich habe das BIOS 0319 drauf und es gibt nur das 0320 was neuer ist. Als Beschreibung steht nur das drin:
BIOS 0320
Support Fn+Arrow key of Japanese keyboard(After updating BIOS into 0320,you have to remove once and attach its Battery again when the Machine is power off without AC Adapter)
Würde das BIOS Update dann überhaupt etwas bringen?

http://www.asus.com/Eee/Eee_PC/Eee_PC_1201T/#download
 

josef-wien

Ultimate Guru
Ctwx schrieb:
Was genau bringt acpi_enforce_resources=lax eigentlich?
http://www.kernel.org/doc/Documentation/kernel-parameters.txt

Ctwx schrieb:
Es ist wirklich schwer vorstellbar dass bei der Herstellung solcher Notebooks das erst im Nachhinein auffällt.
Auch das BIOS ist ein Programm, und es gibt (vielleicht von simplen Einzeilern abgesehen) kein fehlerfreies Programm.

Ctwx schrieb:
Würde das BIOS Update dann überhaupt etwas bringen?
Bei der Beschreibung ist eher nicht damit zu rechnen.

Du könntest den aktuellen Kernel probieren, vielleicht gibt es da eine Umgehung des Problems.
 
OP
C

Ctwx

Member
Du bist ein Genie! ;) Kernel 3.0 hat das Problem gefixt. Mit
Code:
dmesg | egrep -i "(hpc|smrg)"
finde ich keine der oben genannten Fehlermeldungen mehr. :)

Ich schaue mal ob das System in er nächsten Zeit abstürzt. Ich hoffe aber mal nicht. :)

Danke an alle.

Gruß
Ctwx
 
Oben