• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

HD-Problem: SMART Nachricht - Was kann ich jetzt tun?

Hallo,

mir wurde heute morgen von meinem Rechner mit zwei SMART Nachrichten freundlichst
ein guter Morgen gewünscht:

Code:
Your hard disk drive is failing! S.M.A.R.T. message: Device: /dev/sda, 1 Currently unreadable (pending) sectors

Code:
Your hard disk drive is failing! S.M.A.R.T. message: Device: /dev/sda, 2 Offline uncorrectable sectors

Meine Frage ist, da dieses Problem in meinem Fall zum ersten Mal in meinem langen Linux
Dasein aufgetreten ist, was ich denn nun mit Suse-Mitteln machen kann, ohne meine
Festplatte zu formatieren (da ich ja auch nicht weiss um welche Partition es sich genau
handelt)

Für jeden Tipp danke ich im Vorraus.
 
OP
W

waltermattau

Newbie
Darüber hinaus bin ich leider nicht sehr Festplatten- versiert. Wie "schlimm" sind denn
überhaupt 2-3 fehlerhafte Sektoren?

:oops:
 

nbkr

Guru
Wenn smart sagt "Your hard disk is failing" - dann ist das meist sehr, sehr schlecht. Da lässt sich überlicherweise nichts mehr drehen.

Sichere auf jeden Fall deine Daten irgendwo extern (also nicht auf einer anderen Partition der gleichen Platte). Wenn Du das gemacht hast kannst Du ein

Code:
smartctl -a /dev/sda

machen. Das sagt dir genauer was mit der Platte nicht stimmt. Ich hab noch die geringe Hoffnung dass es falscher Alarm ist, weil es sich um eine SCSI / SATA Platte handelt. Aber verlassen würde ich mich darauf nicht.
 

Divine

Hacker
Nur viel merkwürdiger finde ich das sich diese Meldungen hier im Forum häufen seit einführung der 10.3! Vielleicht doch ein genereller Bug?
 
OP
W

waltermattau

Newbie
Divine schrieb:
Nur viel merkwürdiger finde ich das sich diese Meldungen hier im Forum häufen seit einführung der 10.3! Vielleicht doch ein genereller Bug?

Genau dasselbe habe ich auch erst gedacht. Da ich vorher nie solche Ausgaben
(trotz Smart) und meine Festplatte eigentlich nie Mucken gemacht hat.
Dazu: Ich habe erst gestern Nachmittag openSuse 10.3 installiert und in dem Zuge auch
Teile dieser Festplatte (bis auf die Windows-Partitionen) neu formatiiert.

@nbkr: Ja, Datensicherung habe ich auf jeden Fall auch erstmal gemacht :)
Ich melde mich nochmal wenn ich diese smartctl Geschichte durchgeführt habe.
 
OP
W

waltermattau

Newbie
Falls Interesse besteht: Das ist die Ausgabe von smartctl -a /dev/sda.
Aber ich persönlich weiss damit nun wirklich nichts anzufangen.

Wenn das eh nichts nützt, nehm ich es auch wieder raus.

Code:
smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Fujitsu MHT series
Device Model:     FUJITSU MHT2040AH
Serial Number:    NP0JT4C2GVRT
Firmware Version: 846C
User Capacity:    40,007,761,920 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 3a
Local Time is:    Wed Oct 17 10:54:53 2007 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 293) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  40) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   046    Pre-fail  Always       -       136727
  2 Throughput_Performance  0x0005   100   100   030    Pre-fail  Offline      -       11927552
  3 Spin_Up_Time            0x0003   100   100   025    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       6050
  5 Reallocated_Sector_Ct   0x0033   100   100   024    Pre-fail  Always       -       8589934592000
  7 Seek_Error_Rate         0x000f   100   087   047    Pre-fail  Always       -       3788
  8 Seek_Time_Performance   0x0005   100   100   019    Pre-fail  Offline      -       0
  9 Power_On_Seconds        0x0032   080   080   000    Old_age   Always       -       10437h+36m+08s
 10 Spin_Retry_Count        0x0013   100   100   020    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       4405
192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       603
193 Load_Cycle_Count        0x0032   085   085   000    Old_age   Always       -       156741
194 Temperature_Celsius     0x0022   100   090   000    Old_age   Always       -       46 (Lifetime Min/Max 14/62)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       436
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       287375360
197 Current_Pending_Sector  0x0012   100   099   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   099   099   000    Old_age   Offline      -       2
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000f   100   100   060    Pre-fail  Always       -       19633
203 Run_Out_Cancel          0x0002   100   100   000    Old_age   Always       -       1529080119174

SMART Error Log Version: 1
ATA Error Count: 1463 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1463 occurred at disk power-on lifetime: 10424 hours (434 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 59 01 66 76 49 e0  Error: UNC 1 sectors at LBA = 0x00497666 = 4814438

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 5f 76 49 e0 00      00:03:51.065  READ DMA
  ca 00 25 60 88 28 e1 00      00:03:51.064  WRITE DMA
  ca 00 50 cf d8 7c e0 00      00:03:51.064  WRITE DMA
  c8 00 28 39 c1 72 e0 00      00:03:51.037  READ DMA
  ca 00 08 ef 02 6c e0 00      00:03:51.037  WRITE DMA

Error 1462 occurred at disk power-on lifetime: 10424 hours (434 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 59 01 66 76 49 e0  Error: UNC 1 sectors at LBA = 0x00497666 = 4814438

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 5f 76 49 e0 00      00:03:47.138  READ DMA
  ca 00 80 e0 87 28 e1 00      00:03:47.137  WRITE DMA
  ca 00 80 60 87 28 e1 00      00:03:47.137  WRITE DMA
  ca 00 80 e0 86 28 e1 00      00:03:47.136  WRITE DMA
  ca 00 50 7f d8 7c e0 00      00:03:47.135  WRITE DMA

Error 1461 occurred at disk power-on lifetime: 10424 hours (434 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 59 01 66 76 49 e0  Error: UNC 1 sectors at LBA = 0x00497666 = 4814438

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 5f 76 49 e0 00      00:03:43.214  READ DMA
  ca 00 20 1f 93 45 e0 00      00:03:43.214  WRITE DMA
  ca 00 80 b7 5c 14 e0 00      00:03:43.213  WRITE DMA
  ca 00 80 37 5c 14 e0 00      00:03:43.212  WRITE DMA
  ca 00 80 60 86 28 e1 00      00:03:43.211  WRITE DMA

Error 1460 occurred at disk power-on lifetime: 10424 hours (434 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 59 01 66 76 49 e0  Error: UNC 1 sectors at LBA = 0x00497666 = 4814438

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 5f 76 49 e0 00      00:03:39.180  READ DMA
  e7 00 00 00 00 00 a0 00      00:03:39.140  FLUSH CACHE
  ca 00 80 e0 7a 28 e1 00      00:03:39.139  WRITE DMA
  ca 00 18 5f c1 5e e0 00      00:03:39.139  WRITE DMA
  ca 00 40 a7 e3 5a e0 00      00:03:39.138  WRITE DMA

Error 1459 occurred at disk power-on lifetime: 10424 hours (434 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 59 01 66 76 49 e0  Error: UNC 1 sectors at LBA = 0x00497666 = 4814438

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 44 08 5f 76 49 e0 00      00:03:34.173  READ DMA
  ca 44 80 b7 5a 14 e0 00      00:03:34.172  WRITE DMA
  ca 44 80 37 5a 14 e0 00      00:03:34.171  WRITE DMA
  ca 44 03 37 59 00 e0 00      00:03:34.170  WRITE DMA
  ca 44 05 0a 59 00 e0 00      00:03:34.170  WRITE DMA

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 

bommel

Member
Divine schrieb:
...Forum häufen seit einführung der 10.3! Vielleicht doch ein genereller Bug?

Ich glaub schon das da ein Bug sein könnte, um nicht gleich zu sagen es ist einer.

Seit 10.3 hab ich 4 verschiedene Platten drin gehabt weil ich auch glaubte sie sind "angeschlagen" weil SMART rumnörgelte.
Mittlerweile glaub ich das SMART in 10.3 ne Macke hat nachdem ich zumindestens 2 Platten gescheckt habe (badblocks und Ultimate Bootcd ).

bommel...
 

misiu

Moderator
Teammitglied
Falls du ein Floppy-Laufwerk hast kannst du die Festplatte
mit dem Herstellerfestplattenprüfprogramm überprüfen:
http://www.fel.fujitsu.com/home/drivers.asp?L=de

MfG
misiu
 
OP
W

waltermattau

Newbie
Nee, mein Laptop hat sowas nicht mehr.

Ich hab auch, ehrlich gesagt, jetzt einfach eine Datensicherung gemacht und die Smart-Tools deinstalliert. Ich kuck dann mal hin und wieder, was so über den Updateserver
dafür angeboten wird.
 

bommel

Member
bommel schrieb:
Ich glaub schon das da ein Bug sein könnte, um nicht gleich zu sagen es ist einer.

Ich hab mal aus purer Neugier mein Schleppi neu eingerichtet mit 10.3. Bis jetzt lief 10.1 drauf ohne irgendwelche Probleme und Sorgen.
Tja was soll ich sagen ......... SMART meldet mir auch da das es nicht lesbare Sektoren gibt wie vom oben von TE waltermattau beschrieben.

Werde dann mal mein 10.1-Backup zurückspielen.

bommel...
 

K4m1K4tz3

Advanced Hacker
Ich denke das dies ein Bug ist (jedenfalls bei mir), hatte diese Meldungen ebenfalls, aber nur einmal, dann nie wieder. Siehe auch hier:

http://www.linux-club.de/viewtopic.php?p=513954
 
OP
W

waltermattau

Newbie
Na gut. Dann hätten wir das ja geklärt. Wäre ja nun wirklich ein unfassbarer Zufall, wenn plötzlich alle Festplattenprobleme kriegen und diese zufällig alle erst Auftreten nachdem
man openSuse 10.3 installiert.
 

octotux

Newbie
Zwei Tage nach der Installation von "OPEN SUSE 10.3" kam nach einem Reboot der Dialog "Your hard disk is failing". In /var/log/messages finden sich Meldungen vom Daemon "smartd" über defekte Blöcke meiner PATA-Platte (SEAGATE 160GB).
Ich habe sofort mein noch parallel existierendes SUSE 9.0 gebootet. Eine Analyse der Platte mit dem hier installierten "smartctl" bestätigte defekte Blöcke. Der nächste Schritt war eine Analyse mit dem Diagnose-Tool des Herstellers (SeaTools). SeaTools fand 90 defekte Blöcke und führte nach Bestätigung eine erfolgreiche Reparatur durch (Substitution durch Reserve-Blöcke).
Kurz nach dem Start von 10.3 wurden von "smartd" wieder 30 defekte Blöcke gemeldet. Eine weitere Analyse mit SeaTools nach 10 Std. lieferte erneut 100 defekte Blöcke, die erfolgreich repariert wurden.
Ich benutze nun wieder die SUSE 9.0 Installation auf derselben Platte und werde von dort regelmäßig LONG-Tests mit "smartctl" / Vers. 5.1-18 durchführen. Zusätzlich weitere Tests mit SeaTools. So sollte sich feststellen lassen, ob es sich hier wirklich um eine sterbende Platte handelt.
Ich möchte Euch >>dringend bitten<<, den Effekt sehr ernst zu nehmen und in solchen Fällen immer eine Analyse mit dem Diagnose-Tool des Platten-Herstellers durchzuführen ...
.. und natürlich hier darüber berichten !

Gruss
Thomas
 

octotux

Newbie
Mein erster LONG-Test (mit smartctl / SUSE 9.0) hat nach der Reparatur durch SeaTools erneut einen Lese-Fehler geliefert. Momentan spricht also einiges dafür, dass es sich tatsächlich um eine sterbende Platte handelt. Das System (9.0) läuft allerdings stabil. Die Probleme scheinen auf die Partition mit der 10.3-Installation beschränkt zu sein.
Ich werde nun das System im Dauerbetrieb laufen lassen und mit dem Tool "badblocks" analysieren, ob sich auch bei ausschliesslichem Betrieb unter 9.0 die Defkte ausweiten.
 

K4m1K4tz3

Advanced Hacker
Meine Platte, die er bemängelt, ist die, worauf Windows läuft. Diese ist normalerweise nicht gemountet.

Vielleicht bist du ja der Einzigste, bei dem sie sich verabschiedet :roll:
 

misiu

Moderator
Teammitglied
Wenn schon die Hersteller-Tools die Platte bemängeln, geht
es mit der, mit ziemlicher Sicherheit zu Ende. Ich hab selber
einige IBM/Hitachi so erlebt.

Meine eigene Rechner mit alter Maxtor-IDE-HD , neuerer
SATA von Samsung und SATA von Fujitsu (Laptop) ,
beschweren sich bei opensuse 10.3 in keinster weise :) :
SMART Error Log Version: 1
No Errors Logged

MfG
misiu
 

cbr

Member
Hi, seit der Installation von openSUSE 10.3 hab ich laut s.m.a.r.t.d. 3 nicht behebbare Fehler, die er auch fast bei jedem Boot anmeckert. Daraufhin habe ich mal einen Test mit dem Herstellertool FJDT gemacht. Der Kurz.- und Langtest mit FJDT brachte keine Ergebnisse, Platte fehlerfrei und in Ordnung.
 

whois

Ultimate Guru
Hi

Mit den Smart Messages schlagen sich im Moment viele User rum.
Der Bug wird hoffentlich bald behoben sein. :wink:

cu
 
Oben