• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

HD self-test

SaHel

Member
Hallo zusammen,

es ist soweit, bei dem letzten "smartctl" hatte der
Reallocated_Sector_Ct und
Reallocated_Event_Count
den Wert 1
Die Platte ist etwa 11.500 Stunden (angeblich ausgelegt für 20.000) in Betrieb und hat ein Alter von ca 4,5 Jahre.
Nun meine Fragen an die Experten:

a) Wie bekomme ich den defekten Sektor heraus (ich vermisse zwar keine Daten und das System funktioniert einwandfrei), aber irgendwelche Daten sind ja verloren - oder?
b) Kann ich diesen Sektor wieder als "ok" kennzeichnen?
c) Ich habe bisher noch keinen "self-test" durchgeführt. In wiefern würde ein mehrere Stunden dauernder Test eine vielleicht schon angeschlagene HD noch zusätzlich stressen?
d) Ist das schon der "Abgesang" der Platte?

Ach ja... Meine wichtigen Daten sind gesichert.

Vielen Dank im voraus!
SaHel
 

spoensche

Moderator
Teammitglied
Poste mal die vollständige Ausgabe von
Code:
smartctl -a /dev/deine-festplatte

Du kannst keine Sektoren reparieren oder auf "Ok" setzen. Sektoren sind physikalisch und wenn sie kaputt sind, sind sie kaputt.
 
OP
S

SaHel

Member
spoensche schrieb:
Poste mal die vollständige Ausgabe von smartctl -a /dev/deine-festplatte

Aber gerne:
Code:
smartctl 5.39.1 2010-01-28 r3054 [i686-pc-linux-gnu] (openSUSE RPM)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Toshiba 2.5" HDD series (80 GB and above)
Device Model:     TOSHIBA MK1032GAX
Serial Number:    X5737669A
Firmware Version: AB211A
User Capacity:    99,830,223,360 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Mon Apr 11 20:53:57 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 ( 384) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  76) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   050    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0027   100   100   001    Pre-fail  Always       -       1926
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       4474
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000b   100   100   050    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   072   072   000    Old_age   Always       -       11392
 10 Spin_Retry_Count        0x0033   189   100   030    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       4422
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       344
193 Load_Cycle_Count        0x0032   063   063   000    Old_age   Always       -       376497
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       49 (Lifetime Min/Max 9/54)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
220 Disk_Shift              0x0002   100   100   000    Old_age   Always       -       8391
222 Loaded_Hours            0x0032   075   075   000    Old_age   Always       -       10186
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
224 Load_Friction           0x0022   100   100   000    Old_age   Always       -       0
226 Load-in_Time            0x0026   100   100   000    Old_age   Always       -       267
240 Head_Flying_Hours       0x0001   100   100   001    Pre-fail  Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

spoensche schrieb:
Du kannst keine Sektoren reparieren oder auf "Ok" setzen. Sektoren sind physikalisch und wenn sie kaputt sind, sind sie kaputt.
Naja, aber wie bekomme ich raus, welche Daten betroffen sind?

Besten Dank
SaHel
 

spoensche

Moderator
Teammitglied
SaHel schrieb:
spoensche schrieb:
Du kannst keine Sektoren reparieren oder auf "Ok" setzen. Sektoren sind physikalisch und wenn sie kaputt sind, sind sie kaputt.
Naja, aber wie bekomme ich raus, welche Daten betroffen sind?

Gar nicht. Du kannst nicht ermitteln, welche Daten auf welchem Sektor zu hause sind. Wenn defekte Sektoren o.ä ankündigen, dass die Platte Richtung Friedhof marschiert, ist sofort Datensicherung angesagt. Ein Backup sollte man allerdings auch schon vorher in regelmäßigen Abständen durchführen.
 

josef-wien

Ultimate Guru
Jede Festplatte hat eine Anzahl von Reserve-Sektoren, die als Ersatz für defekte Sektoren verwendet werden. In Deinem Fall wurden die Daten von einem defekten Sektor erfolgreich (197 Current_Pending_Sector = 0) in einen anderen Sektor verlagert, Du hast also keine Daten verloren.

Du solltest diese Parameter beobachten, wenn die Anzahl der defekten Sektoren ansteigt, ist eine neue Festplatte zu empfehlen.

P.S.
SaHel schrieb:
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 344
Number of power-off or emergency retract cycles: Festplatten mögen es nicht besonders, wenn sie nicht ordnungsgemäß heruntergefahren werden. Bis jetzt mußte 344mal ein mechanischer Not-Mechanismus in Kraft treten, um die Schreib-/Leseköpfe zu parken und Oberflächenbeschädigungen zu verhindern.
SaHel schrieb:
193 Load_Cycle_Count 0x0032 063 063 000 Old_age Always - 376497
Number of cycles into landing zone position: Die Schreib-/Leseköpfe werden relativ oft geparkt. Du solltest in den Spezifikationen der Festplatte nachsehen, für wieviele solcher Park-Aktionen die Festplatte ausgelegt ist.
 
A

Anonymous

Gast
jede, (ich betone ausdrücklich, jede) Platte hat schon bei der Herstellung ein paar 100 bis ein paar 1000 defekte Blöcke, diese kennt die Firmware der Platte und dafür werden automatisch Reserveblöcke genommen. Diese werden schon bei der Herstellung der Platte als defekt gekennzeichnet ( früher wurde diese Tabelle sogar mal auf die Platte mit aufgedruckt oder aufgeklebt, mitterweile währe sie aber zu lang dazu ;)
Die Tabelle der vom Hersteller als defekt markierten Blöcke ist für jede Platte absolut eindeutig, dass man damit eine Platte eindeutig indentifizieren kann.

Weiterhin hat die Platte noch einen Berg weiterer Reserveblöcke wieder ein paar Tausend. Wenn die Platte im Laufe ihres Lebens feststellt, das ein Block nicht mehr sauber arbeitet, dann wird für diesen Block von der Platte automatisch in aller Zukunft einer der Reserveblöcke für diesen defekten Block verwendet. Sind dann irgendwann mal die Reserveblöcke alle "verbraucht" (sprich alle eingesprungen für defekte Blöcke), dann schlagen diese Fehler bis ins Filesystem durch, kurz vorher währe es also aller Höchste Eisenbahn die Platte zu Tauschen. Bei 50 bis 75 % wird normalerweise S.M.A.R.T. behaupten die Platte fällt bald aus.

Früher hat man dann noch das Filesystem dazu genommen nochmal einen Berg defekter Blöcke zu markieren. Also im Filesystem auch noch eine defekt-Block-Liste geführt. Das können Filesysteme heute auch noch, macht aber wahrscheinlich so gut wie kein Mensch mehr ernsthaft, zu mindestens in dem Bereich in dem wir uns hier bewegen.

S.M.A.R.T. ist ein bisschen wie Kaffeesatzlesen, und jeder Hersteller unterstützt die einzelnen Parameter etwas anders, so das man das mehr oder weniger glauben und vergleichen kann, was da ausgegeben wird.
Fakt ist, es wird geschätzt ca. 60% der Plattenausfälle werden so vorher schon durch S.M.A.R.T. gemeldet. Man kann dem glauben oder auch nicht.

Wie die Werte jetzt bei dir genau zu interpretieren sind, such mal im Internet, irgendwo hatte ich da letztens eine sehr schöne Beschreibung gefunden, bin aber im Moment zu faul zum suchen.

Die Defektblocklisten kann man sich auch anschauen, Es gibt Befehle die das aus der Platte auslesen können. Hier mal ein Beispiel für eine meiner SCSI-Platten. der Befehl den ich dazu verwendet habe ist
Code:
sginfo -d /dev/sda
Meine Ausgabe gibts dann für alle bei denen dieser Befehl nicht funktioniert, (zB bei ATA Platten) hier eine Woche lang zu sehen.
Zu erkennen hier werden die Blöcke wirklich absolut physikalisch angegeben in "[Cyl:Head:Off]" welches nicht zu verwechseln ist mit dem was die Partitionierungstools unter Zylinder und Köpfen kennen, das ist eine logische Einteilung und mit der werden dann die Reserveblöcke schon alle an der Stelle angesprochen wo sie für defekte Blöcke eingesprungen sind. Es ist also in der Praxis gar nicht möglich die Platte von vorne nach hinten linear zu beschreiben, wo sich was auf der Platte befindet kann nur die Platte selbst wissen, das muss man aber nicht wirklich wissen. Merken tut man das spätestens dann, wenn man mal auf die Idee kommen sollte, die Platine einer Platte gegen die einer baugleichen auszutauschen, weil man der Meinung ist nur sie ist kaputt. ;)

robi
 
Ich kann robis Darstellung nur bestätigen; s.m.a.r.t. ist sicherlich ein hilfreiches tool für den groben Überblick, bietet aber keine absolut verlässliche Prognose, da die einzelnen Parameter nicht genormt sind - welche Bereiche mit welchen Grenzwerten ausgewiesen werden, bleibt dem Hersteller überlassen.

Ich habe hier zwei Western Digitals, bei denen s.m.a.r.t. schon vor zwei Jahren den baldigen Ausfall prognostiziert hat. Von einigen Modellen ist explizit bekannt, dass s.m.a.r.t. völlig falsche oder irreführende Werte ermittelt (z.B. bei einigen HDDS von Samsung, Seagate oder Hitachi). Umgekehrt habe ich schon erlebt, dass eine von s.m.a.r.t. als einwandfrei bezeichnete Festplatte nachweislich (z.B. über spezifische tools der HDD-Hersteller oder schlicht durch den tatsächlichen Ausfall) fehlerhaft war. Ich setze daher am liebsten auf den Hitachi Drive Fitness Test, der ist da etwas erhellender und kann mit sehr vielen verschiedenen Festplattenmodellen umgehen - dieser eignet sich auch dann, wenn für das verwendete Modell kein Analysetool aufzutreiben ist (ein solches ist natürlich grundsätzlich zu bevorzugen).
 
OP
S

SaHel

Member
Vielen Dank für euere Hinweise und Tipps!
Wenn ich das also richtig sehe, ist die HDD nicht akut gefährdet!

josef-wien schrieb:
P.S.
SaHel schrieb:
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 344
Number of power-off or emergency retract cycles: Festplatten mögen es nicht besonders, wenn sie nicht ordnungsgemäß heruntergefahren werden. Bis jetzt mußte 344mal ein mechanischer Not-Mechanismus in Kraft treten, um die Schreib-/Leseköpfe zu parken und Oberflächenbeschädigungen zu verhindern.
SaHel schrieb:
193 Load_Cycle_Count 0x0032 063 063 000 Old_age Always - 376497
Number of cycles into landing zone position: Die Schreib-/Leseköpfe werden relativ oft geparkt. Du solltest in den Spezifikationen der Festplatte nachsehen, für wieviele solcher Park-Aktionen die Festplatte ausgelegt ist.
Wie diese 344 Not-Mechanismen zustande kommen weiss ich nicht... Und der Load_Cycle_Count ist mein Problemkind. Seit ich diesen hohen Wert entdeckte, setze ich via hdparm das Advanced Power Management level auf 0xc0 (192). Damit fange ich mir zwar eine höhere Plattentemperatur ein, reduziere aber diesen Vorgang (Suse stellt diesen Wert auf 128 - XP variiert diesen Wert je nach Betrieb, also Netz oder Akku)

robi schrieb:
jede, (ich betone ausdrücklich, jede) Platte hat schon bei der Herstellung ein paar 100 bis ein paar 1000 defekte Blöcke, diese kennt die Firmware der Platte und dafür werden automatisch Reserveblöcke genommen. Diese werden schon bei der Herstellung der Platte als defekt gekennzeichnet ( früher wurde diese Tabelle sogar mal auf die Platte mit aufgedruckt oder aufgeklebt, mitterweile währe sie aber zu lang dazu ;)
Die Tabelle der vom Hersteller als defekt markierten Blöcke ist für jede Platte absolut eindeutig, dass man damit eine Platte eindeutig indentifizieren kann.
Das ist ein interessanter Hinweis, das wusste ich nicht.

gropiuskalle schrieb:
Ich setze daher am liebsten auf den Hitachi Drive Fitness Test, der ist da etwas erhellender und kann mit sehr vielen verschiedenen Festplattenmodellen umgehen - dieser eignet sich auch dann, wenn für das verwendete Modell kein Analysetool aufzutreiben ist (ein solches ist natürlich grundsätzlich zu bevorzugen).
Das werde ich mir mal anschauen.

Nochmals besten Dank für euere Hinweise - ich kann jetzt wieder beruhigt schlafen :D
SaHel
 
Oben