• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] Mehrere S.M.A.R.T Warnungen, smartctl Test

ratibor

Member
Hallo,

nachdem ich unter meinem SuSE 10.3 mehrere Warnungen von SMART bekam habe ich als su folgenden Test ausführen lassen:
Code:
smartctl -t long /dev/sda
Das ganze hat 67 Minuten gedauert.

Nach Eingabe von "smartctl -a /dev/sda" bekam ich folgende Meldung:
Code:
smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     Maxtor 6G160P0
Serial Number:    G202YGGG
Firmware Version: KA201UW0
User Capacity:    160.041.885.696 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 0
Local Time is:    Sat Sep  6 15:46:04 2008 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                 (2281) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  67) minutes.

SMART Attributes Data Structure revision number: 32
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   100   100   025    Pre-fail  Always       -       15958
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       587
  5 Reallocated_Sector_Ct   0x0033   100   100   025    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000a   100   100   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   098   097   074    Pre-fail  Always       -       53166
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1028
 10 Spin_Retry_Count        0x002b   100   100   004    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   100   100   070    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       605
184 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
187 Unknown_Attribute       0x0032   076   076   000    Old_age   Always       -       24
188 Unknown_Attribute       0x0032   097   097   000    Old_age   Always       -       3
189 Unknown_Attribute       0x003a   100   100   000    Old_age   Always       -       0
190 Temperature_Celsius     0x0022   064   055   040    Old_age   Always       -       605356068
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       587
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       1617
194 Temperature_Celsius     0x0032   034   253   000    Old_age   Always       -       36
195 Hardware_ECC_Recovered  0x000a   100   100   000    Old_age   Always       -       12113
196 Reallocated_Event_Count 0x0008   100   100   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   087   087   000    Old_age   Offline      -       416
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   100   100   000    Old_age   Offline      -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   100   100   027    Pre-fail  Always       -       11
207 Spin_High_Current       0x002a   100   100   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   100   100   000    Old_age   Always       -       0
210 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
211 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
212 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 24 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 24 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 00 00 00 00 a0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ec 00 00 00 00 00 a0 00      00:19:21.974  IDENTIFY DEVICE
  c8 00 08 52 85 a8 e2 00      00:19:18.809  READ DMA
  27 00 00 00 00 00 e0 00      00:19:18.793  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:19:18.785  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:19:18.781  SET FEATURES [Set transfer mode]

Error 23 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 00 00 00 00 a0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ec 00 00 00 00 00 a0 00      00:19:18.669  IDENTIFY DEVICE
  c8 00 08 52 85 a8 e2 00      00:19:15.504  READ DMA
  27 00 00 00 00 00 e0 00      00:19:15.489  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:19:15.481  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:19:15.476  SET FEATURES [Set transfer mode]

Error 22 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 00 00 00 00 a0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ec 00 00 00 00 00 a0 00      00:19:15.364  IDENTIFY DEVICE
  c8 00 08 52 85 a8 e2 00      00:19:12.200  READ DMA
  27 00 00 00 00 00 e0 00      00:19:12.184  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:19:12.176  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:19:12.171  SET FEATURES [Set transfer mode]

Error 21 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 00 00 00 00 a0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ec 00 00 00 00 00 a0 00      00:19:12.059  IDENTIFY DEVICE
  c8 00 08 52 85 a8 e2 00      00:19:08.895  READ DMA
  27 00 00 00 00 00 e0 00      00:19:08.879  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:19:08.871  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:19:08.866  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      1026         9446
# 2  Short offline       Completed without error       00%       464         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Allerdings kann ich glaube ich die Tragweite dieser Informationen nicht eindeutig interpretieren:
Es gibt offensichtlich mehrere Fehlermeldungen...
Heißt das jetzt, dass ich eine neue Festplatte brauche?

Danke schon mal für Eure Hilfe
Gruß
Wolfgang
 

prinzunix

Hacker
Daten schnellstens sichern!

Testtool des Herstellers besorgen, z.B. hdutil 2.10 von Samsung, DFT 4.11 von Hitachi (IBM) und damit die Oberfläche komplett prüfen. Mache ich auch ohne Verdacht regelmäßig. Platte tauschen gegebenenfalls.

Bis denn,

Prinzunix
 

Dr. Glastonbury

Advanced Hacker
Wieso tauschen?
Alle kritischen Werte, wie Seek_Error_Rate, UDMA_CRC_Error_Count, Soft_Read_Error_Rate sind auf 0. Einzig der Hardware_ECC_Recovered-Wert ist etwas höher, was aber auch an einem schlechten Kabel liegen kann. Hier mal prüfen ob das fest steckt und nicht zu lang ist/um irgendwelche anderen Kabel gewunden ist...

Ein Backup kann nie schaden bzw. sollte bei den heutigen Festplattenpreisen eigentlich sogar Pflicht sein! Ansonsten kann ich der smartctl-ausgabe noch nichts wesentlich kritisches entnehmen ;)
 

prinzunix

Hacker
Ich schrieb gegebenenfalls tauschen und nicht auf jeden Fall tauschen.
Muss ich hier wieder den kleinen Wortklauber geben? ;)

Bis denn.

Prinzunix
 
OP
R

ratibor

Member
Hallo,

vielen Dank für die prompte Rückmeldung. Folgendes hat sich zugetragen: ich habe zur Sicherheit eine neue Platte angeschafft (ich hatte eh mit dem Gdanken gespielt mich zu vergrößern) und wollte noch eine Datensicherung der alten Platte machen.
Sie ließ sich inzwischen nicht mehr booten. Der Bootloader wurde nicht mehr gestartet. Ich habe jetzt noch nicht ausprobiert, ob ich an die Platte noch dran komme, wenn ich sie als Slave hinter die andere hänge.

Der Fehler muss irgendwo in Sektor 9446 liegen, diese Zahl wurde mir mehrmals in verschiedenen Meldungen angezeigt.

Nachdem ich also auf meiner neuen Platte ein BS installiert habe, werde ich die alte noch mal hinten dran hängen und ausprobieren, ob ich noch auf die Daten auf der Partition 5 dran komme.

Vielleicht hat jemand einen Tipp für mich, auf was ich auf jeden Fall achten sollte oder verzichten sollte...

Gruß
Wolfgang
 

Rainer Juhser

Moderator
Teammitglied
ratibor schrieb:
Vielleicht hat jemand einen Tipp für mich, auf was ich auf jeden Fall achten sollte oder verzichten sollte...
:schockiert: Falls die Platte wirklich anfängt mit spanabhebender Datenverarbeitung (nicht mehr lesbare Sektoren sind der Anfang davon), würde ich jeden unnötigen Betrieb vermeiden. Also schleunigst versuchen, die Daten 'runterzuziehen. Die Idee mit Slave ist IMHO brauchbar, noch besser wäre wahrscheinlich ein externes Gehäuse, falls du sowas hast. Wenn der kaputte Sektor nicht Bestandteil der 5.Partition ist, hast du gute Chancen für ein komplettes Backup dieser Partition.

Falls die Probleme noch größer werden - es gibt da ein Low-Level-Tool, mit dem man auch eine teilweise zerstörte Platte in eine Imagedatei kopieren kann: ddrescue, ist auch Bestandteil des OSS-Repos der 10.3

Ich drück' dir mal die Daumen... ;)
 

Dr. Glastonbury

Advanced Hacker
Rainer Juhser schrieb:
Falls die Probleme noch größer werden - es gibt da ein Low-Level-Tool, mit dem man auch eine teilweise zerstörte Platte in eine Imagedatei kopieren kann: ddrescue, ist auch Bestandteil des OSS-Repos der 10.3
Ein recht praktisches Programm für solcherlei backup-Versuche ist auch testdisk, was unter anderem ein konsolenbasiertes Frontend für ddrescue darstellt.
Mich wundert im Moment nur, warum die Pladde dir beim SMART-Test ein SMART overall-health self-assessment test result: PASSED geliefert hat, wenn sie denn doch nicht mehr so in Ordnung war. Aber vielleicht hätte man das ganze die Folgetage auch noch genauer observieren müssen....
Ich drück dir jedenfalls auch die Daumen für dein Backup! Sowas ist auf alle Fälle sehr ärgerlich! Ich habe hier auch noch eine Festplatte liegen, die keine 2 Wochen durchgehalten hat. Zu retten war von der nicht mehr viel, von daher darf ich jetzt alles neu installieren .... :zensur:
 
OP
R

ratibor

Member
vielen Dank erst einmal an alle für die Wertvollen Tipps, die Datensicherung hat zum allergrößten Teil geklappt, auch wenn ich mir währenddessen einige PopUps von SMART ansehen durfte. Ich werde die Platte mal aufheben und wenn ich Zeit habe reizt es mich ja doch zu sehen, ob sie überhaupt kaputt ist. Der Einwand, dass der Test ein "Passed" zurück meldet lässt mir auch keine Ruhe.

Allerdings hatte ich wie gesagt das Problem, dass der Bootloader nicht mehr gestartet wurde, vielleicht ist auch gerade der MBR hinüber?

Zumindest habe ich Dank Eurer guten Vorschläge dir Daten retten können und das ist für mich erst einmal das wichtigste.

Gruß
Wolfgang

PS: eigentlich kann man das ganze ja jetzt als gelöst markieren, weiß jemand wie das geht?
 

Dr. Glastonbury

Advanced Hacker
ratibor schrieb:
PS: eigentlich kann man das ganze ja jetzt als gelöst markieren, weiß jemand wie das geht?
Ganz einfach ;)
Editier den erten Post und schreib da in den Titel/Betreff ein [gelöst] -> abschicken und fertig ;)

Zu der Pladde noch: je nachdem, ob du noch Garantie, bzw. sogar Gewährleistung hast, solltest du dir überlegen sie zum Hersteller zu schicken, bzw. damit beim Händler aufzutauchen. In den ersten 6 Monaten nach Kaufdatum muss dir der Verkäufer nachweisen, dass du sie zum Zeitpunkt des Gefahrenübergangs (also dem Kauf im Ladengeschäft/Internet) noch heil war. Weil er das schlecht kann, muss er sie dir Austauschen. Kannste zur Not sogar per Mahnung machen -> das sind zwar erstmal ein paar Gebühren, die du am Ende aber wieder bekommst...... Aber seriöse Händler wissen das mit der Beweislastumkehr sowieso und tauschen das zumeist Anstandslos um...

Wenn du nur noch Garantie hast, schick es am besten direkt beim Hersteller ein. Die haben auf Ihren Homepages tools mit denen du ein Fehlerprotokoll erstellen kannst und entsprechende RMA-Formulare mit denen du die Garantieabwicklung durchführen kannst. Mir hat vor n paar Jahren Samsung sogar noche ne Pladde getauscht, die nur noch 1 Monat Garantie hatte ;)
 
OP
R

ratibor

Member
Hallo Dr. Glastonbury,

der Tipp mit der Garantie ist sehr gut! ich weiß nicht mehr genau, wann ich die Platte gekauft habe, aber es könnte sein, dass noch Garantie drauf ist.

Gruß
Wolfgang
 
Oben