• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[erledigt] Geht Festplatte gerade kaputt?

zwirni

Member
Hallo zusammen,
seit Sonntag zickt eine meiner Festplatten rum.
Ich habe die Fehlermeldungen leider nicht abgetippt / kopiert, habe aber etwas von "Buffer I/O error" und "failed command: read DMA EXT - media error" in Erinnerung. Daraufhin habe ich erstmal alle wichtigen Daten von der Platte gesichert und gerade mal smartctl laufen lassen, mit der folgenden Ausgabe:

Code:
smartctl 6.0 2012-10-10 r3643 [x86_64-linux-3.4.28-2.20-desktop] (SUSE RPM)
Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Green (AF)
Device Model:     WDC WD20EARX-00PASB0
Serial Number:    WD-WMAZA5041131
LU WWN Device Id: 5 0014ee 05820882a
Firmware Version: 51.0AB51
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Nov 25 14:43:58 2013 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (36480) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 352) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   191   191   051    Pre-fail  Always       -       9015
  3 Spin_Up_Time            0x0027   172   169   021    Pre-fail  Always       -       6375
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1595
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   089   089   000    Old_age   Always       -       8247
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1593
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       69
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       913897
194 Temperature_Celsius     0x0022   124   104   000    Old_age   Always       -       26
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       183
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       179
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   193   193   000    Old_age   Offline      -       1882

SMART Error Log Version: 1
ATA Error Count: 9677 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 9677 occurred at disk power-on lifetime: 8247 hours (343 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 88 2b 00 e3  Error: UNC at LBA = 0x03002b88 = 50342792

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 08 2b 00 e3 08      00:01:49.360  READ DMA
  ec 00 00 00 00 00 a0 08      00:01:49.319  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 08      00:01:49.319  SET FEATURES [Set transfer mode]

Error 9676 occurred at disk power-on lifetime: 8247 hours (343 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 98 15 00 e3  Error: UNC at LBA = 0x03001598 = 50337176

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 08 15 00 e3 08      00:01:46.639  READ DMA
  c8 00 00 88 31 e8 e4 08      00:01:46.626  READ DMA
  c8 00 00 40 2e e8 e4 08      00:01:46.626  READ DMA

badblocks habe ich bei ca. 100 kaputten Blöcken abgebrochen.

Leider kann ich mit dem Output von smartctl nichts konkretes anfangen. Problematisch scheinen mir die Attribute mit den IDs 1, 197 und 198 zu sein. Ist da nur eine Zuordnungstabelle hin, oder die ganze Platte? Wenn letzteres - geht da bei WD garantiemäßig bei diesen Fehlern noch etwas nach knapp über zwei Jahren? Erfahrungswerte?

Danke und Grüße
Reinhard
 
OP
Z

zwirni

Member
Ah, gut, dankeschön für den Hinweis. Also ist die nächste Festplatte keine WD green mehr - ist ja nicht sinnig, Energie zu sparen, wenn man stattdessen schneller (die WD red ist mit doppelt so vielen Zyklen angegeben) ne neue Platte kaufen muss.
Ich bin nur echt verwundert, weil es tatsächlich meine erste Platte ist, die mir abraucht - und das, obwohl ich innerhalb von 25 Jahren nicht so viele Platten besessen habe...

Grüße
 

josef-wien

Ultimate Guru
Meiner mittlerweile mehr als 5 Jahre alten "Grünen" habe ich sehr schnell das ständige Parken der Schreib-/Leseköpfe abgewöhnt (obwohl WD beim damals zur Verfügung gestellten DOS-Programm davon abriet), und sie läuft noch immer. Es erstaunt nur, daß WD das Parken nach wie vor betreibt und nach wie vor auf die Konsequenzen nicht hinweist (und sogar ihr diesbezügliches Schlagwort "IntelliPark" im Spezifikationsdokument nicht vorkommt).
 
OP
Z

zwirni

Member
'N Abend,

auf der Platte scheinen ein paar Dateien nicht mehr gelesen werden zu können. Das ist nicht hochdramatisch, aber wenn möglich würde ich sie doch gerne wiederherstellen. Ich habe es mal mit
Code:
fsck.ext4 -cDfty -C 0 /dev/sda6
versucht, aber ich komme an weniger Dateien als vorher.

Gibt es eine andere Möglichkeit, die ich mal austesten kann?

Danke und Grüße
der Zwirni
 

josef-wien

Ultimate Guru
zwirni schrieb:
ich komme an weniger Dateien als vorher
Mich wundert das nicht.

Das Betriebssystem hat nur eine logische Sicht auf die Sektoren, wo sich diese logischen Sektoren physisch befinden, weiß nur die firmware der Festplatte. Wenn es die firmware nicht schafft, die fehlerhaften Sektoren doch noch zu lesen (und die Chancen stehen nach meinem Gefühl bei 183 instabilen Sektoren und 179 nicht korrigierbaren Fehlern eher schlecht) und die Daten in die bei jeder Festplatte vorhandenen Ersatzsektoren zu verlegen, bleibt Dir neben dem Verzicht nur mehr eine (teure) professionelle Datenrettung als Ausweg.

Für die Zukunft solltest Du die alte Weisheit "Daten, die man nicht sichert, sind Daten, die man nicht braucht." beherzigen.
 
A

Anonymous

Gast
zwirni schrieb:
auf der Platte scheinen ein paar Dateien nicht mehr gelesen werden zu können. Das ist nicht hochdramatisch, aber wenn möglich würde ich sie doch gerne wiederherstellen. Ich habe es mal mit
Code:
fsck.ext4 -cDfty -C 0 /dev/sda6
versucht, aber ich komme an weniger Dateien als vorher.

nur mal interessehalber wie viel defekte Blöcke dort gefunden worden sind, und wie sie verteilt sind..
Code:
debugfs -R "stat <1>" /dev/sda6 | more
.
Das sollte den Inhalt der Badblockinode anzeigen den du mit -c von fsck dort eingetragen hast.

robi
 
OP
Z

zwirni

Member
Hier kommt die Ausgabe:
Code:
debugfs 1.42.8 (20-Jun-2013)
Inode: 1   Type: bad type    Mode:  0000   Flags: 0x0
Generation: 0    Version: 0x00000000
User:     0   Group:     0   Size: 872448
File ACL: 0    Directory ACL: 0
Links: 0   Blockcount: 1704
Fragment:  Address: 0    Number: 0    Size: 0
ctime: 0x4e6a8b38 -- Fri Sep  9 23:55:04 2011
atime: 0x52a32e73 -- Sat Dec  7 15:19:31 2013
mtime: 0x52a32e73 -- Sat Dec  7 15:19:31 2013
Size of extra inode fields: 0
BLOCKS:
(0):20072977, (1):20072979, (2):20091194, (3):20099887, (4):20669191, (5):20670945, (6):25132320, (7):25132695, (8):25133080, (9):25134197, (10):25137
739, (11):25152852, (IND):9545, (12):25156398, (13):25156407, (14):25161063, (15):25164987, (16-17):25165015-25165016, (18):25165023, (19):25166125, (
20):25167852, (21):25167889, (22-23):25167891-25167892, (24):25167895, (25):25173988, (26):25173990, (27):25173992, (28-29):25422501-25422502, (30):25
422838, (31):25422858, (32):25436163, (33):25436165, (34):25436170, (35):25698281, (36):25698283, (37):25698287, (38-39):25698292-25698293, (40):25699
090, (41):25699750, (42):29357496, (43):29358966, (44):29359311, (45):29360008, (46):29360027, (47):29360034, (48):29360040, (49):29629003, (50-51):29
632271-29632272, (52-54):29632275-29632277, (55-56):29632279-29632280, (57-58):29885542-29885543, (59):29885548, (60-61):29885554-29885555, (62-66):29
885557-29885561, (67):29885567, (68):29888038, (69):29917168, (70-72):30441979-30441981, (73):30441984, (74):30441988, (75):30474296, (76):30723224, (
77):30742997, (78):31561636, (79):31561638, (80):31571624, (81-84):32431639-32431642, (85):32434093, (86-87):32437365-32437366, (88):32440231, (89):33
550241, (90):33550243, (91):33550254, (92):33552695, (93-95):33552697-33552699, (96):33552701, (97-106):33552717-33552726, (107-109):33552729-33552731
, (110):33552737, (111):33552739, (112-114):33552743-33552745, (115-119):33552758-33552762, (120):33553104, (121-132):33553107-33553118, (133-134):335
53120-33553121, (135):33553480, (136):33553483, (137):33553485, (138-141):33553487-33553490, (142):33553493, (143):33553513, (144):33554555, (145):335
54557, (146):33554559, (147):33554568, (148):33554577, (149):33554581, (150):33554595, (151):33554942, (152-153):33554946-33554947, (154):33554949, (1
55):33555238, (156):33555256, (157):33555260, (158):33555289, (159-160):33555296-33555297, (161):37742209, (162):37748507, (163):41123458, (164):44189
367, (165):44203624, (166):45614795, (167):45614797, (168):50126080, (169):50380898, (170):56623136, (171):57765656, (172):58637275, (173):58898774, (
174):58898776, (175):59210958, (176):59750588, (177-178):62060825-62060826, (179):62620035, (180):63176475, (181):63730145, (182):64601364, (183):6654
4984, (184):66550926, (185):66845636, (186):67083325, (187):67386749, (188-189):70432958-70432959, (190):70467013, (191):70467015, (192):70747468, (19
3):70747471, (194):71002581, (195):71008130, (196):71543692, (197):71577751, (198):72104606, (199):72105000, (200):72130347, (201-202):72957852-729578
53, (203):73496192, (204):73498965, (205):73527477, (206):73776649, (207):74068588, (208):74089479, (209):75768750, (210):76856917, (211):76879880, (2
12):77412677
TOTAL: 214
 
A

Anonymous

Gast
Schön gestreut, das hat beim fsck mit Sicherheit massig Dateien betroffen, die jetzt natürlich nicht mehr da sind.
Ein Fall für Mülleimer und dem letztem Backup oder einer professionellen Datenrettung.

Du selbst wirst da nach diesem fsck ohne Spezialkenntnisse nicht viel ausrichten können. Die gebräuchlichen Datenrettungstools werden entweder beim ersten Lesefehler schon abbrechen, oder nur finden was sowieso noch zu finden ist, darunter massenhaft defekte und nicht funktionierende Dateien, aber bei dem was du gerne wieder hättest, kläglich versagen und da die Platte sowieso schon schwächelt ..........

robi
 
OP
Z

zwirni

Member
Heyho,

wollte nur kurz noch mal schreiben, wie das Ganze geendet hat:
Bis auf ganz wenige Fotos konnte ich die meisten aus dem Backup retten, das ich sofort nach auftreten des Fehlers gemacht habe. Die Platte selber wurde anstandslos von WD umgetauscht. Wegen der vielen Zugriffe habe ich die SMART-Ausgabe erst per Mail hingeschickt und dabei das okay für einen Umtausch (RMA) erhalten. Letzte Woche lag dann die neue Platte hier im Briefkasten.

Vielen Dank für die Hilfe hier!
Reinhard
 
Oben