• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst]Western Digital Red (AF) defekt?

halo44

Hacker
Ich benötige mal wieder Euren Rat. Da ich einen Hardwaredefekt vermute, platziere ich das Thema entsprechend.

In meinem QNAP NAS habe ich eine Western Digital Red (AF) 2 TB eingebaut. Installiert ist ein Debian-System (Wheezy) mit Root- und Bootpartition sowie weiteren 6 Datenpartitionen. Alle Datenpartitionen dienen der Sicherung anderer Datenpartitionen meines Netzes.

Die beiden Systempartitionen sichere ich gelegentlich auf externe Festplatte, indem ich die WD ausbaue und an dem dritten Sata-Anschluss meines Desktop anschliesse. Die Sicherung führe ich mit tar durch (wie alle meine Systemsicherungen). Hierbei gab es bisher nie Probleme. Ich habe auch schon den Ernstfall durchgespielt und erfolgreich auf die Platte zurückgeladen, wonach das System sauber lief.

Die letzte Sicherung stammt vom 14.9.2014 und ich gehe davon aus, daß diese Sicherung in Ordnung ist.

Gestern wollte ich mal wieder eine Sicherung durchführen, die aber nur sehr widerwillig und extrem langsam anlief. Auch erhielt ich Fehlermeldungen, wovon ich hier die ersten 3 anliste :
Code:
tar: Datei ./var/lib/aspell/de-alt-common.rws ist um 7415472 Bytes geschrumpft, fülle mit Nullen auf.
tar: Datei ./var/lib/aspell/de_CH-only.rws ist um 26096 Bytes geschrumpft, fülle mit Nullen auf.
tar: Datei ./var/lib/aspell/en-w_accents-only.rws ist um 67456 Bytes geschrumpft, fülle mit Nullen auf.
Ich habe die Sicherung abgebrochen und neu gestartet. Wieder ergab sich das gleiche Fehlverhalten, wobei allerdings die Meldungen jetzt andere Dateien betraffen. Daraus schließe ich :???: , daß tatsächlich auf meiner Sicherungseingabe "geschrumpfte" Dateien "repariert" wurden.

Wieder habe ich die Sicherung abgebrochen und mittels smartctl (short test) versucht Informationen über den Gesundheitszustand der Platte zu gewinnen.

Zwar wurde anfänglich gemeldet
Code:
SMART overall-health self-assessment test result: PASSED
später aber folgten 5 Blöcke folgenden Inhalts (hier nur der erste) :
Code:
SMART Error Log Version: 1
ATA Error Count: 5592 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 5592 occurred at disk power-on lifetime: 3056 hours (127 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 00      00:45:56.912  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      00:45:56.911  IDENTIFY DEVICE
  c8 00 08 00 00 00 e0 00      00:45:56.911  READ DMA
  ec 00 00 00 00 00 a0 00      00:45:56.910  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:45:56.910  SET FEATURES [Set transfer mode]

Jetzt meine Fragen : muß ich davon ausgehen, daß die WD einen Defekt hat? Kann ich durch Neuformatierung und Neupartitionierung defekte Sektoren/Zylinder "ausgliedern"? Wäre das überhaupt sinnvoll?

Ich muß keine Daten retten, da ich davon ausgehe, daß ich mein System mittels der Systemsicherung vom 14.9.2014 wieder neu aufsetzen kann. Inzwischen erfolgte Programmaktualisierungen kann ich nachvollziehen.

Wer kann mir hier raten oder Erklärungen anbieten?

Gruss H.
 

josef-wien

Ultimate Guru
Zu
halo44 schrieb:
kann ich nichts sagen, da ich tar kaum verwende.

halo44 schrieb:
Kann ich durch Neuformatierung und Neupartitionierung defekte Sektoren/Zylinder "ausgliedern"?
Nein, denn das Betriebssystem hat nur eine logische Sicht auf die Daten. Wo Daten physisch gespeichert sind, ist Sache der firmware der Platte (die ja in Wirklichkeit ein Kleincomputer mit eigenem Prozessor und eigenem Betriebssystem ist). Die Platte hat genug Reserve-Sektoren, die als Ersatz für fehlerhafte Sektoren herangezogen werden.

halo44 schrieb:
indem ich die WD ausbaue und an dem dritten Sata-Anschluss meines Desktop anschliesse
Ist das Kabel ordentlich eingesteckt? Hast Du schon einen anderen Anschluß am mainboard bzw. ein anderes Kabel versucht? Prinzipiell halte ich nichts von solchen Lösungen, die Anschlüsse von Platten und mainboards sind nicht für oftmaliges An- und Abstecken gebaut.

Was ergibt
Code:
smartctl -a /dev/sdX
(X mußt du ersetzen)?
 
OP
H

halo44

Hacker
josef-wien schrieb:
... Wo Daten physisch gespeichert sind, ist Sache der firmware der Platte ...
Wieder was gelernt.

josef-wien schrieb:
...Ist das Kabel ordentlich eingesteckt? Hast Du schon einen anderen Anschluß am mainboard bzw. ein anderes Kabel versucht? ...
Ordentlich angesteckt ja, gewechselt nein.

josef-wien schrieb:
Was ergibt
Code:
smartctl -a /dev/sdX
(X mußt du ersetzen)?

Gut also hier die komplette Ausgabe :

Code:
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.11.10-21-desktop] (SUSE RPM)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red (AF)
Device Model:     WDC WD20EFRX-68AX9N0
Serial Number:    WD-WCC1T0403096
LU WWN Device Id: 5 0014ee 25d7711a2
Firmware Version: 80.00A80
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Sun Oct  5 12:17:40 2014 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (27360) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 276) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   176   021    Pre-fail  Always       -       6033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       631
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3269
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       592
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       23
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       607
194 Temperature_Celsius     0x0022   115   111   000    Old_age   Always       -       35
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   199   000    Old_age   Always       -       25
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
ATA Error Count: 5592 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 5592 occurred at disk power-on lifetime: 3056 hours (127 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 00      00:45:56.912  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      00:45:56.911  IDENTIFY DEVICE
  c8 00 08 00 00 00 e0 00      00:45:56.911  READ DMA
  ec 00 00 00 00 00 a0 00      00:45:56.910  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:45:56.910  SET FEATURES [Set transfer mode]

Error 5591 occurred at disk power-on lifetime: 3056 hours (127 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 08 00 00 00 e0  Device Fault; Error: ABRT 8 sectors at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 00 00 00 e0 00      00:45:56.911  READ DMA
  ec 00 00 00 00 00 a0 00      00:45:56.910  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:45:56.910  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      00:45:56.910  IDENTIFY DEVICE
  c8 00 08 00 00 00 e0 00      00:45:56.909  READ DMA

Error 5590 occurred at disk power-on lifetime: 3056 hours (127 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 00      00:45:56.910  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      00:45:56.910  IDENTIFY DEVICE
  c8 00 08 00 00 00 e0 00      00:45:56.909  READ DMA
  ec 00 00 00 00 00 a0 00      00:45:56.909  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:45:56.909  SET FEATURES [Set transfer mode]

Error 5589 occurred at disk power-on lifetime: 3056 hours (127 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 08 00 00 00 e0  Device Fault; Error: ABRT 8 sectors at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 00 00 00 e0 00      00:45:56.909  READ DMA
  ec 00 00 00 00 00 a0 00      00:45:56.909  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:45:56.909  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      00:45:56.907  IDENTIFY DEVICE
  c8 00 08 00 00 00 e0 00      00:45:56.907  READ DMA

Error 5588 occurred at disk power-on lifetime: 3056 hours (127 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 00      00:45:56.909  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      00:45:56.907  IDENTIFY DEVICE
  c8 00 08 00 00 00 e0 00      00:45:56.907  READ DMA
  ec 00 00 00 00 00 a0 00      00:45:56.906  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:45:56.906  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Interrupted (host reset)      90%      3266         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Ich habe übrigens die Sicherung nochmals gestartet und exakt 1 Stunde laufen lassen, bevor ich sie wieder abbrach. In dieser Zeit wurden 380,3 MB der insgesamt 7,1 GB geschrieben. Normal ist das in wenigen Minuten durch.

Dabei tauchten neben den "schrumpf"-Meldungen noch folgende weitere Meldungen auf :

Code:
tar: ./var/lib/apt/lists/ftp.debian.org_debian_dists_wheezy-backports_Release: Lesefehler bei Byte 8192 beim Lesen von 10240 Bytes: Eingabe-/Ausgabefehler
tar: ./var/lib/apt/extended_states: Lesefehler bei Byte 0 beim Lesen von 8192 Bytes: Eingabe-/Ausgabefehler
tar: ./var/tmp/kdecache-root/ksycoca4: Lesefehler bei Byte 49152 beim Lesen von 10240 Bytes: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/status.php: Kann stat nicht ausführen: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/doctrine/dbal/tests/Doctrine/Tests/DBAL/Sharding/PoolingShardConnectionTest.php: Lesefehler bei Byte 0 beim Lesen von 7297 Bytes: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/doctrine/common/tests/Doctrine/Tests/Common/ClassLoaderTest: Kann stat nicht ausführen: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/sabre/dav/lib/Sabre/CardDAV/AddressBookQueryParser.php: Lesefehler bei Byte 0 beim Lesen von 1536 Bytes: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/sabre/dav/tests/Sabre/DAVACL/PrincipalPropertySearchTest.php: Lesefehler bei Byte 0 beim Lesen von 6743 Bytes: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/sabre/vobject/tests/Sabre/VObject/RecurrenceIteratorTest.php: Lesefehler bei Byte 0 beim Lesen von 5120 Bytes: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/james-heinrich/getid3/getid3/module.audio.midi.php: Lesefehler bei Byte 0 beim Lesen von 3584 Bytes: Eingabe-/Ausgabefehler
tar: ./var/www/owncloud/3rdparty/james-heinrich/getid3/licenses/licence.lgpl-30.txt: Lesefehler bei Byte 0 beim Lesen von 2048 Bytes: Eingabe-/Ausgabefehler

Ich habe weiter auch die Platte wieder ins NAS eingebaut und dieses gestartet. Das System läuft störungsfrei, soweit ich das bis jetzt beurteilen kann.

Gruss H.
 
OP
H

halo44

Hacker
Inzwischen bin ich dem Hinweis von josef-wien gefolgt und habe das Sata-Kabel der Anschlüsse sdb und sdc getauscht. Damit läuft die Sicherung störungsfrei durch. Allerdings tritt bis jetzt kein Fehler auf dem anderen Anschluß auf. Wenn dies bis heute Abend stabil bleibt, werde ich das Thema als "gelöst" markieren.

Die Sicherung hat jetzt eine Größe von 4,1 GB. Der Unterschied zu den oben erwähnten 7,1 GB erklärt sich durch 2 Datenverzeichnisse von 2,7 GB, die bei der Sicherung zusätzlich enthalten waren. Die restlichen 0,3 GB ergeben sich, weil das Verzeichnis /var um diese Größe geschrumpft ist. Also wurde tatsächlich auf der Eingabeseite gekürzt.

Ich vermute, daß dies für den Betrieb des Debian-Systems unerheblich ist. Also werde ich das NAS eine Weile in diesem Zustand belassen, bevor ich entscheide, ob ich die Sicherung vom 14.9.2014 zurücklade oder nicht.

Danke nochmals an josef-wien für den zielführenden Hinweis.

Gruss H.
 
A

Anonymous

Gast
Serial-ATA-Stecker und -Buchsen sollen (nur) mindestens 50 Steckzyklen überstehen — eSATA min. 5000.
 

josef-wien

Ultimate Guru
Die Platte ist in Ordnung. Die letzten 5 schwerwiegenden Fehler traten nach 3056 Betriebsstunden auf, da es jetzt bereits 3269 Stunden sind, haben sie mit den aktuellen Problemen nichts zu tun. Die 25 UDMA_CRC_Error könnten jetzt entstanden sein, eine der möglichen Ursachen ist eben ein Kabelproblem. Daß das Kabel an einem anderen Anschluß (noch) funktioniert, ist im Hinblick auf die Kleinheit der Kontaktflächen auch nicht außergewöhnlich, trotzdem kann bereits an Stecker oder Buchse etwas gebrochen sein. Zum Attribut 192 auch hier der Hinweis, daß es Festplatten nicht besonders mögen, wenn ihnen brutal der Strom abgedreht wird.

P. S. tar hat sicher nichts an den Originaldateien verändert, "geschrumpft" archivierte Dateien wären natürlich fehlerhaft.
 
OP
H

halo44

Hacker
Ich markiere das Thema mal als "gelöst". Aber angesichts der Tatsache, daß ich das "Vorleben" zumindest zweier meiner Kabel nicht kenne, werde ich mir diese in OVP neu anschaffen.

Danke für Eure Hilfe.

Gruss H.
 
Oben