• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

openSUSE 11.1 (i586) stürzt sporadisch ab

zappa2

Newbie
Ich habe auf einen PC mit folgender Konfiguration SUSE 11.1 aufgesetzt:
Motherboard ASUS P7P55D-E LX mit Intel-Quad-Core
4GB Hauptspeicher
2 SATA-HDD mit Hardwarespiegelung
DLT-Bandlaufwerk
CD/DVD-Laufwerk
hochwertiges Netzteil, angeschlossen an eine USV.

Die Grafikkarte (NVIDIA GeForce210) habe ich inzwischen ausgebaut, was am Fehler nichts geändert hat.

In der Nacht läuft mittels cron-Job ein rsync über die Samba-Freigabe des home-Verzeichnisses, anschließend mittels tar eine Bandsicherung des home-Verzeichnisses.

Morgens, wenn sich die Win7-Clients am Samba anmelden wollen, haben sie zumeist keinen Zugriff auf dessen Freigaben. ping funktioniert immer, ssh-Zugriff mittels putty funktioniert meist nicht mehr. Allerdings ist das nicht immer so. Manchmal funktionieren die Zugriffe erst noch, und im Laufe der ersten produktiven Stunde stellt sich das Fehlerbild ein.

Ich habe jetzt mal in alle Logs reingeschaut, gebe aber zu, nicht wirklich alles interpretieren zu können. Die einzige Auffälligkeit aus meiner Sicht sind folgende Meldungen:

Code:
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sda [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD1002FAEX_00Z3A0-WD_WCATR8690503.ata.state
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb, type changed from 'scsi' to 'sat'
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb [SAT], opened
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb [SAT], not found in smartd database.
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb [SAT], is SMART capable. Adding to "monitor" list.
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD1002FAEX_00Z3A0-WD_WCATR8699914.ata.state
Mar 20 08:10:37 LINUX smartd[3237]: Monitoring 2 ATA and 0 SCSI devices
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 116 to 124
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 117 to 124
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sda [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD1002FAEX_00Z3A0-WD_WCATR8690503.ata.state
Mar 20 08:10:37 LINUX smartd[3237]: Device: /dev/sdb [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD1002FAEX_00Z3A0-WD_WCATR8699914.ata.state
Mar 20 08:10:37 LINUX smartd[3439]: smartd has fork()ed into background mode. New PID=3439.


sowie

Code:
Mar 20 08:10:36 LINUX kernel: JBD: barrier-based sync failed on dm-1 - disabling barriers
Mar 20 08:10:36 LINUX kernel: JBD: barrier-based sync failed on dm-4 - disabling barriers

Hat jemand eine Idee, wo ich mit der Fehlersuche ansetzen könnte?
 
OP
Z

zappa2

Newbie
Danke, hilft unglaublich weiter...

Kann aber nicht an der Distribution liegen, da ich diese noch auf 2 anderen Maschinen völlig problemlos am Laufen habe.

Also bitte nur antworten, wenn es sachdienlich ist. Erziehung suche ich hier nicht.
 
OP
Z

zappa2

Newbie
Hier die Ausgabe, irgendwas Auffälliges zu entdecken?

Code:
smartctl 5.39 2008-10-24 22:33 [i686-suse-linux-gnu] (openSUSE RPM)
Copyright (C) 2002-8 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1002FAEX-00Z3A0
Serial Number:    WD-WCATR8690503
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Mar 22 10:54:41 2012 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (16080) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 186) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3037) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   253   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   178   021    Pre-fail  Always       -       4050
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       39
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       709
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       37
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       22
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       16
194 Temperature_Celsius     0x0022   119   103   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 
OP
Z

zappa2

Newbie
Und für sdb gleich hinterher:

Code:
smartctl 5.39 2008-10-24 22:33 [i686-suse-linux-gnu] (openSUSE RPM)
Copyright (C) 2002-8 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1002FAEX-00Z3A0
Serial Number:    WD-WCATR8699914
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Mar 22 10:58:26 2012 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (16980) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 196) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3037) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   174   174   021    Pre-fail  Always       -       4300
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       39
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       708
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       37
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       22
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       16
194 Temperature_Celsius     0x0022   119   099   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 

spoensche

Moderator
Teammitglied
Was Sauerland dir mitteilen wollte ist, dass 11.1 EOL ist und somit mit keinerlei Updates mehr versorgt wird, was in Punkto Sicherheit unter keinen Umständen vertretbar ist.

Was sagen die Logs vom Samba? Wie viele Clients greifen auf den Server zu? Wie viele Clients sind gleichzeitig mit dem Server verbunden, wenn wenn die Anmeldung von weiteren Clients fehlschlägt?

Was sagt
Code:
free -m
und
Code:
top
?
 
OP
Z

zappa2

Newbie
Erst mal schönen Dank für die Mühen!

Ist mir schon klar, das mit der aktuelleren Version. Nur kann ich jetzt schlecht einen produktiven PC neu aufsetzen. Und wenn es ein Hardwarefehler ist, komme ich ja mit einer neuen Version keinen Schritt weiter. Hatte ursprünglich auf mangelnde Lüftung gesetzt. Neuer Riesenlüfter => Fehler ist immer noch da, wenn auch nicht mehr ganz so häufig; aber das ist dann wohl eher Zufall.

Aber evtl. tasten wir uns ja auch so ran. Hier mal die beiden Ausgaben.


free -m:

Code:
LINUX:/ # free -m
             total       used       free     shared    buffers     cached
Mem:          8024        341       7683          0         81        225
-/+ buffers/cache:         34       7990
Swap:         2047          0       2047


und top:

Code:
top - 15:05:16 up  7:03,  1 user,  load average: 0.00, 0.00, 0.00
Tasks: 107 total,   1 running, 106 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.1%us,  0.0%sy,  0.0%ni, 99.9%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8216912k total,   349312k used,  7867600k free,    83152k buffers
Swap:  2096472k total,        0k used,  2096472k free,   231364k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    1 root      20   0  1008  360  312 S    0  0.0   0:01.00 init
    2 root      15  -5     0    0    0 S    0  0.0   0:00.00 kthreadd
    3 root      RT  -5     0    0    0 S    0  0.0   0:00.00 migration/0
    4 root      15  -5     0    0    0 S    0  0.0   0:00.16 ksoftirqd/0
    5 root      RT  -5     0    0    0 S    0  0.0   0:00.00 migration/1
    6 root      15  -5     0    0    0 S    0  0.0   0:00.14 ksoftirqd/1
    7 root      RT  -5     0    0    0 S    0  0.0   0:00.00 migration/2
    8 root      15  -5     0    0    0 S    0  0.0   0:00.16 ksoftirqd/2
    9 root      RT  -5     0    0    0 S    0  0.0   0:00.00 migration/3
   10 root      15  -5     0    0    0 S    0  0.0   0:00.16 ksoftirqd/3
   11 root      15  -5     0    0    0 S    0  0.0   0:00.20 events/0
   12 root      15  -5     0    0    0 S    0  0.0   0:00.22 events/1
   13 root      15  -5     0    0    0 S    0  0.0   0:00.20 events/2
   14 root      15  -5     0    0    0 S    0  0.0   0:00.38 events/3
   15 root      15  -5     0    0    0 S    0  0.0   0:00.00 khelper
   16 root      15  -5     0    0    0 S    0  0.0   0:00.00 kintegrityd/0
   17 root      15  -5     0    0    0 S    0  0.0   0:00.00 kintegrityd/1

Irgendwas verdächtig?
 

spoensche

Moderator
Teammitglied
Nein nichts verdächtiges. Was sagen die Logs vom Samba? Eine Neuinstallation ist nicht zwingend erforderlich. Du kannst auch ein Upgrade durchführen.
Siehe dazu:
http://www.linux-club.de/viewtopic.php?f=3&t=106080&hilit=update+von+11.1+auf+12.1
http://www.linux-club.de/viewtopic.php?f=3&t=115604&hilit=update+von+11.1+auf+12.1
 
OP
Z

zappa2

Newbie
Hallo, bin erst morgen wieder an dieser Maschine. Werde dann umgehend die Samba-Logs posten.

Aber bevor ich mich auf das Wagnis eines Updates einlasse, installiere ich doch lieber ein jungfräuliches 12.1 neu drauf. Was sonst soll man auch in der Nacht machen ;-)

Danke nochmal für Deine Geduld mit mir.
 
OP
Z

zappa2

Newbie
Die log.nmbd ist sauber.

Die log.smbd ist sehr groß. Jeden Tag viele Seiten Meldungen.
Zumeist finden sich folgende Sequenzen:

Code:
[2012/03/28 07:03:33,  1] lib/util_sock.c:get_peer_name(1797)
  get_peer_name: getnameinfo failed for ::ffff:192.168.101.124 with error Temporärer Fehler bei der Namensauflösung
[2012/03/28 07:03:33,  0] lib/util_sock.c:write_data(1059)
[2012/03/28 07:03:33,  0] lib/util_sock.c:get_peer_addr_internal(1607)
  getpeername failed. Error was Der Socket ist nicht verbunden
  write_data: write failure in writing to client 0.0.0.0. Error Die Verbindung wurde vom Kommunikationspartner zurückgesetzt




[2012/03/28 07:05:31,  0] smbd/process.c:srv_send_smb(74)
  Error writing 4 bytes to client. -1. (Der Socket ist nicht verbunden)
[2012/03/28 07:06:09,  1] smbd/service.c:make_connection_snum(1190)
  pc19 (::ffff:192.168.101.128) connect to service geo initially as user administrator (uid=1003, gid=100) (pid 5319)
[2012/03/28 07:06:22,  1] smbd/service.c:close_cnum(1401)
  pc19 (::ffff:192.168.101.128) closed connection to service geo



[2012/03/28 07:12:54,  0] rpc_parse/parse_prs.c:prs_grow(260)
  prs_grow: Buffer overflow - unable to expand buffer by 2 bytes.
[2012/03/28 07:12:54,  0] rpc_server/srv_spoolss.c:api_spoolss_addprinterex(884)
  spoolss_io_q_addprinterex: unable to unmarshall SPOOL_Q_ADDPRINTEREX.
[2012/03/28 07:12:54,  0] rpc_server/srv_pipe.c:api_rpcTNP(2326)
  api_rpcTNP: spoolss: SPOOLSS_ADDPRINTEREX failed.

Unmittelbar vorm letzten Hängenbleiben war 6x folgende Sequenz zu finden:

Code:
[2012/03/27 09:12:08,  1] smbd/notify_inotify.c:watch_destructor(347)
  inotify_rm_watch returned Das Argument ist ungültig

Gibt es da noch was zu retten? Es ist jetzt ein Zustand erreicht, wo man dieser Maschine nicht mehr traut. Ein 12.1 habe ich mir letzte Nacht gezogen und gebrannt. Wenn Du jetzt keinen Konfig.-Fehler in o.a. Logs finden kannst, mache ich die Maschine platt, versuche es nochmal mit der 12.1 und wenn das auch nicht funzt bin ich am Ende mit meinen Ideen.
 

RME

Advanced Hacker
Hallo,

Ich bin alles andere als ein Samba Experte... also sorry wenn mein Post Unsinn ist :D

Ja, was aktuelles installieren
hättest Du vielleicht nicht einfach so von Dir weisen sollen.

Code:
[2012/03/27 09:12:08,  1] smbd/notify_inotify.c:watch_destructor(347)
  inotify_rm_watch returned Das Argument ist ungültig
Wenn ich dies google, dann sehe ich z.B.

[Samba] samba freezes the server
http://lists.samba.org/archive/samba/2009-January/145701.html

Wenn Du hier die weiteren Messages verfolgst ("Next message: [Samba] samba freezes the server") dann wird hier vorgeschlagen:

Code:
notify:inotify = false
was offenbar das Problem "löste" (well, "klärte"). Siehe dann auch:

There's a bug in linux kernel 2.6.27.7
https://bugzilla.novell.com/show_bug.cgi?id=463372

>>> also (hier jedenfalls) ein Kernel Bug.

Gruss,
Roland
 
OP
Z

zappa2

Newbie
Vielen Dank für die Info. Ich habe jetzt die Samba-Conf.-Datei mit


Code:
notify:inotify = false

geändert. Bin ja mal gespannt...

Aber wenn ich das alles richtig verstehe, ist das nur eine vorübergehende Lösung, Update dringend angeraten?!
 
OP
Z

zappa2

Newbie
Die Abstürze sind deutlich weniger geworden. Seit dem Einfügen von
Code:
notify:inotify...
hat sich die Maschine erst einmal ins Nirvana verabschiedet. Die log.nmbd ist seitdem so gut wie leer, aber die log.smbd läuft nach wie vor voll ohne Ende.

Am WE werde ich 12.1 installieren. Bin ja mal gespannt, ob dann endlich Ruhe ist.

Euch allen besten Dank für Eure Tips.
 
Oben