• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] libata Fehlermeldung

stka

Guru
Hi,

seit einiger Zeit habe ich in meinem Log immer die folgenden Meldungen:
Apr 5 17:38:51 nas01 kernel: [ 2122.400471] ata3.00: configured for UDMA/33
Apr 5 17:38:51 nas01 kernel: [ 2122.422394] ata3.01: configured for UDMA/133
Apr 5 17:38:51 nas01 kernel: [ 2122.422416] ata3: EH complete
Apr 5 17:38:51 nas01 kernel: [ 2122.427813] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
Apr 5 17:38:51 nas01 kernel: [ 2122.431615] ata3.00: BMDMA stat 0x66
Apr 5 17:38:51 nas01 kernel: [ 2122.435325] ata3.00: failed command: WRITE DMA EXT
Apr 5 17:38:51 nas01 kernel: [ 2122.439026] ata3.00: cmd 35/00:18:30:90:04/00:00:15:00:00/e0 tag 0 dma 12288 out
Apr 5 17:38:51 nas01 kernel: [ 2122.439029] res 51/84:08:30:90:04/84:00:15:00:00/e0 Emask 0x30 (host bus error)
Apr 5 17:38:51 nas01 kernel: [ 2122.446554] ata3.00: status: { DRDY ERR }
Apr 5 17:38:51 nas01 kernel: [ 2122.450305] ata3.00: error: { ICRC ABRT }
Apr 5 17:38:51 nas01 kernel: [ 2122.454045] ata3: soft resetting link
Ich habe mir schon so einiges zu dem Thema durchgelesen, aber irgendwie komme ich nicht weiter. Wenn die Meldungen häufiger kommen wird das Dateisystem immer "ro" remountet. In den verschiedenen Quellen findet man hinweise auf defekte Kabel oder Controller. Zum remount habe ich leider keine Fehlermeldung die ich posten kann, denn auf der Partiton liegt mein /var.
Im Log finde ich dann noch die Fehlermeldungen:
Apr 5 16:25:49 nas01 kernel: [ 89.635347] Buffer I/O error on device sda3, logical block 641216
Apr 5 16:25:49 nas01 kernel: [ 89.638870] lost page write due to I/O error on sda3
Alle anderen Partitionen geben keinen Fehler aus. Da ich das Problem letzte Woche auch auf sda1 hatte und dort mein root-fs liegt, musste ich schon eine Neuinstallation machen, da ein fsck mir die Partition komplett zerstrubbelt hat.

Wenn ich die Platte mit "smartctr -t long /dev/sda" teste, ist alles in Ordnung.
Nach dem was ich gelesen habe, wäre mein nächster Schritt das Kabel tauschen, weil das schon häufiger den Fehler behoben haben soll.
Aber vielleicht hat noch jemand eine Idee für mich.
 

josef-wien

Ultimate Guru
Ein Kabel-Problem ist natürlich möglich, die "Fehlerbevorzugung" von einer Partition schaut mir aber eher nach einem Festplattenproblem aus. Prüfe die Festplatte mit einem Programm des Herstellers oder mit dem Hitachi Drive Fitness Test. Was zeigt:
Code:
smartctl -a /dev/sda
 
OP
S

stka

Guru
Hier mal die Ausgabe von smartcrt -a /dev/sda

root@nas01:~# smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: WDC WD5000BEVT-00A0RT0
Serial Number: WD-WX10AC9U0874
Firmware Version: 01.01A01
User Capacity: 500.107.862.016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Tue Apr 5 19:06:50 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (13200) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 154) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7037) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 186 184 021 Pre-fail Always - 1675
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 435
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 2623
10 Spin_Retry_Count 0x0032 100 100 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 433
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 22
193 Load_Cycle_Count 0x0032 170 170 000 Old_age Always - 92095
194 Temperature_Celsius 0x0022 094 087 000 Old_age Always - 53
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 196 001 000 Old_age Always - 28448
200 Multi_Zone_Error_Rate 0x0008 200 200 051 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 2601 -
# 2 Short offline Completed without error 00% 2592 -
# 3 Extended offline Interrupted (host reset) 40% 2591 -
# 4 Extended offline Completed without error 00% 2191 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Das fällt mir auf:
199 UDMA_CRC_Error_Count 0x0032 196 001 000 Old_age Always - 28448

Zum Glück ist noch Garantie auf der Platte ;-). Aber ich würde das schon gerne genauer wissen-
 

spoensche

Moderator
Teammitglied
Also der Thresh Wert ist wesentlich wichtiger. Je mehr sich dieser an den Worst Wert annähert, nähert sich die Festplatte (je nach SMART Attribut) dem Friedhof. Da fällt bei dir direkt der Reallocated Sector Count (Anzahl der schon verwendeten Reserver Sektoren) ins Auge. Das Attribut Spin Retry Count gibt Auskunft darüber, wie oft die Platte angestossen werden musste damit sie richtig läuft und deutet i.d.R. auf Probleme des Plattenmotors hin. Multi Zone Error Rate kann auf Probleme der Schreib-Leseköpfe oder mit der Plattenoberfläche aufmerksam machen.

Fazit:

Schnellstmöglich Daten sichern und Platte austauschen.
 

josef-wien

Ultimate Guru
stka schrieb:
193 Load_Cycle_Count 0x0032 170 170 000 Old_age Always - 92095
Ein derart exzessives Parken der Schreib-/Lese-Köpfe kenne ich nur von (früheren ?) "grünen" WD-Platten. Bei laut Spezifikation "Load/unload cycles: 600.000" ist das irgendwie bedenklich.

stka schrieb:
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
10 Spin_Retry_Count 0x0032 100 100 051 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 051 Old_age Offline - 0
Hier muß ich spoensche widersprechen, bei allen ist der Zähler ist auf 0. Beim ersten Attribut habe ich übrigens "THRESH 140" bei beiden Platten seit Anbeginn, bei den anderen beiden Attributen sind meine "THRESH"-Werte aber noch bei Null.

stka schrieb:
199 UDMA_CRC_Error_Count 0x0032 196 001 000 Old_age Always - 28448
Da stimme ich Dir zu:
http://de.wikipedia.org/wiki/Self-Monitoring schrieb:
Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
 

Tooltime

Advanced Hacker
josef-wien schrieb:
bei den anderen beiden Attributen sind meine "THRESH"-Werte aber noch bei Null.
Das wird sich wohl auch nicht ändern, da es sich um fixe Grenzwerte handelt. Erreicht ein Value-Wert die Grenze, steht man direkt vor dem Ausfall.

Ich würde auch die Temperatur der Platten im Auge behalten,
stka schrieb:
194 Temperature_Celsius 0x0022 094 087 000 Old_age Always - 53
53° sind ein bisschen viel. War die Platte schon länger im Betrieb als du smartctl ausgeführt hast? Wenn nicht jetzt, dann dürfte spätestens im Sommer die 60° überschritten werden und dann sind Probleme vorprogrammiert.
 
OP
S

stka

Guru
Ich habe die Fischkiste jetzt mal aufgemacht und das Kabel einmal ab und wieder angeschlossen. Und siehe da, die Fehler sind weg. Ich werde heute mal ein neues Kabel holen und das Kabel auf jeden Fall austauschen.
Ich werde jetzt noch mal ein paar Tage waren und dann den Thread als gelöst markieren. Danke für eure Hilfe.
 
OP
S

stka

Guru
Die Temperatur passt:
root@nas01:~# smartctl -l scttemp /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SCT Status Version: 2
SCT Version (vendor specific): 258 (0x0102)
SCT Support Level: 1
Device State: Active (0)
Current Temperature: 43 Celsius
Power Cycle Min/Max Temperature: 26/43 Celsius
Lifetime Min/Max Temperature: 21/60 Celsius
Under/Over Temperature Limit Count: 0/0
SCT Temperature History Version: 2
Temperature Sampling Period: 1 minute
Temperature Logging Interval: 1 minute
Min/Max recommended Temperature: 0/60 Celsius
Min/Max Temperature Limit: -41/85 Celsius
Temperature History Size (Index): 128 (116)
 
OP
S

stka

Guru
Normal liegt die Temperatur bei ca. 48 Grad im Dauerbetrieb. Ich denke mal, dass die erhöhte Temperatur durch die vielen Schreibversuche durch das defekte Kabel hervorgerufen wurde. Denn das war ja auch eine Sache die mir, neben den Fehlern die ich im ersten Posting beschrieben hatte, aufgefallen waren. Im Moment liegt die Temperatur, ach nach mehreren Stunden bei max 50 Grad.
Hab mir gestern ein neues Kabel geholt, werde das morgen mal einbauen. Scheint aber ein bekanntes Problem bei den SATA-Kabeln zu sein. Mein Händler meinte nur: "Das haben wir hier fast täglich einmal bei Reparaturen"
 

spoensche

Moderator
Teammitglied
Ich bin nach meinen Erfahrungenswerten gegangen. Da hatte sich die Platte, bei ähnlichen Werten, kurze Zeit später in die ewigen Datengründe verabschiedet und es waren glücklicherweise keine wichtigen Daten auf der Platte. Daher lieber sicher gehen, Image ziehen und die Platte an einem anderen Rechner auf Herz und Nieren Prüfen.

Laut smartctl Hilfe und einiger andere Quellen wird der THRES Wert aus dem RAW_VALUE berechnet.
 

josef-wien

Ultimate Guru
Diese Erklärung gefällt mir besser:
http://en.wikipedia.org/wiki/Self-Monitoring schrieb:
Each drive manufacturer defines a set of attributes, and sets threshold values beyond which attributes should not pass under normal operation. Each attribute has a raw value, whose meaning is entirely up to the drive manufacturer (but often corresponds to counts or a physical unit, such as degrees Celsius or seconds), a normalized value, which ranges from 1 to 253 (with 1 representing the worst case and 253 representing the best) and a worst value, which represents the lowest recorded normalized value. Depending on the manufacturer, a value of 100 or 200 will often be chosen as the "normal" value.
 
Oben