• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[Erledigt] Rätselhafte Festplattenzugriffe

Moin,

da das auf meinem Notebook passiert, setze ich es mal hier rein:

Suse 11.4 auf Lenovo T60, 2 GB Ram, Xorg-ATI-Treiber, KDE

In unregelmäßigen Abständen (2 - 5 Minuten) blockiert irgendein Prozess die Festplatte und alles steht für einige Sekunden, also die HDD-LED leuchtet auf Dauer, und sogar die Taskleiste friert dabei manchmal ein.

Was könnte das sein? Wie finde ich heraus, welcher Prozess gerade auf die Platte zugreift (gibt es einen lsof, der die Zugriffe nach Datenmengen sortiert?)

Danke für alles Tipps!

Rolf
 
OP
R

Rolf-Werner

Hacker
Oh, danke, kannte ich noch gar nicht!

So, wenn ich recht habe, ist es kde-init4:plasma-desktop, der da die größten Zugriffe macht. Kann das sein? Was soll das?

Rolf
 
In welchem Rahmen bewegen sich die Zugriffe denn genau? Vielleicht auch mal (wenn das geht) gleichzeitig 'top' laufen lassen und schauen, wie es dem Prozessor derweil geht. Festplattenzugriffe können ja eigentlich sehr heftig ausfallen, ohne dass davon gleich alles einfriert. Werfen die üblichen logfiles (/var/log/messages, ~/.xsession-errors) irgendwas interessantes ab?
 
OP
R

Rolf-Werner

Hacker
Der Prozessorlast sieht man überhaupt nichts an, das ist ja das merkwürdige. Nur die Festplatte läuft volle Pulle, und zwar nur mit Schreibzugriffen laut iotop.

Parallel dazu ist mir aufgefallen, dass der Firefox jedes Mal vorher kurz in der Liste auftaucht mit einem größeren Lesezugriff, danach ballert dann besagter anderer Prozess los.

Ob ich im KDE-Forum dazu mehr erfahre?

Grüße

Rolf
 
Akonadi / Nepomuk fällt mir noch ein - das läuft bei mir zwar einwandfrei und schonend, aber gerade dann, wenn der Index frisch aufgebaut wird (was je nach Größe der freigegebenen Verzeichnisse durchaus sehr lange dauern kann), tut sich natürlich so einiges auf der Platte. Leider ist der von iotop ausgegebene Prozess ein recht allgemeiner...

Apropo Platte, ist die soweit in Ordnung? Prüfen kann nicht schaden (entsprechende Diagnosetools finden sich oft auf der Seite des jeweiligen Herstellers).
 
OP
R

Rolf-Werner

Hacker
Das mit der Festplattenprüfung fiel mir ein, als ich mit tail -f var/log/messages mitgelesen habe. Da tauchte jedes Mal eine Latte mit Fehlermeldungen auf, die wie ein Sektorfehler aussahen (ich hab das Ding jetzt nicht hier im Büro, müsste ich dann nochmal posten, wenn es euch interessiert).

Jedenfalls dachte ich, dass ich vielleicht im Bios was verstellt hab, als ich den Akku ausgetauscht habe (was einige Tage vorher der Fall war). Im Bios gibt es eine HD-Prüfung, die hab ich mal durchlaufen lassen, die hat allerdings keine Fehler gemeldet. Der alte Akku war allerdings einmal verreckt, ohne die Möglichkeit, den Rechner schlafen zu schicken oder runterzufahren. Vielleicht ist dabei was kaputt gegangen.

Seitdem aber scheint wieder Ruhe zu sein. Gestern lief er etwa eine Stunde ohne zu mucken durch. Ich wollte das aber lieber noch weiter beobachten und die genaue Ursache finden, denn es kann ja vielleicht immer wieder auftreten.

Rolf
 
OP
R

Rolf-Werner

Hacker
So, jetzt hat er wieder rumgeeiert, hier ist ein Auszug aus /var/log/messages:

Code:
May 23 21:37:21 linux-t8p8 kernel: [  526.048156] ata1: hard resetting link
May 23 21:37:21 linux-t8p8 kernel: [  526.353092] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
May 23 21:37:21 linux-t8p8 kernel: [  526.354104] ata1.00: ACPI cmd ef/02:00:00:00:00:a0 (SET FEATURES) succeeded
May 23 21:37:21 linux-t8p8 kernel: [  526.354114] ata1.00: ACPI cmd f5/00:00:00:00:00:a0 (SECURITY FREEZE LOCK) filtered out
May 23 21:37:21 linux-t8p8 kernel: [  526.354122] ata1.00: ACPI cmd ef/10:03:00:00:00:a0 (SET FEATURES) filtered out
May 23 21:37:21 linux-t8p8 kernel: [  526.719181] ata1.00: ACPI cmd ef/02:00:00:00:00:a0 (SET FEATURES) succeeded
May 23 21:37:21 linux-t8p8 kernel: [  526.719192] ata1.00: ACPI cmd f5/00:00:00:00:00:a0 (SECURITY FREEZE LOCK) filtered out
May 23 21:37:21 linux-t8p8 kernel: [  526.719201] ata1.00: ACPI cmd ef/10:03:00:00:00:a0 (SET FEATURES) filtered out
May 23 21:37:21 linux-t8p8 kernel: [  526.720414] ata1.00: configured for UDMA/100
May 23 21:37:21 linux-t8p8 kernel: [  526.720553] ata1.00: device reported invalid CHS sector 0
May 23 21:37:21 linux-t8p8 kernel: [  526.720569] ata1: EH complete
May 23 21:37:55 linux-t8p8 kernel: [  560.012453] ata1: limiting SATA link speed to 1.5 Gbps
May 23 21:37:55 linux-t8p8 kernel: [  560.012464] ata1.00: exception Emask 0x40 SAct 0x0 SErr 0xd0800 action 0x6 frozen
May 23 21:37:55 linux-t8p8 kernel: [  560.012472] ata1: SError: { HostInt PHYRdyChg CommWake 10B8B }
May 23 21:37:55 linux-t8p8 kernel: [  560.012480] ata1.00: failed command: WRITE DMA EXT
May 23 21:37:55 linux-t8p8 kernel: [  560.012494] ata1.00: cmd 35/00:68:00:f2:23/00:01:06:00:00/e0 tag 0 dma 184320 out
May 23 21:37:55 linux-t8p8 kernel: [  560.012497]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x44 (timeout)
May 23 21:37:55 linux-t8p8 kernel: [  560.012503] ata1.00: status: { DRDY }
May 23 21:37:55 linux-t8p8 kernel: [  560.012513] ata1: hard resetting link
May 23 21:37:55 linux-t8p8 kernel: [  560.317085] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
May 23 21:37:55 linux-t8p8 kernel: [  560.317885] ata1.00: ACPI cmd ef/02:00:00:00:00:a0 (SET FEATURES) succeeded
May 23 21:37:55 linux-t8p8 kernel: [  560.317890] ata1.00: ACPI cmd f5/00:00:00:00:00:a0 (SECURITY FREEZE LOCK) filtered out
May 23 21:37:55 linux-t8p8 kernel: [  560.317894] ata1.00: ACPI cmd ef/10:03:00:00:00:a0 (SET FEATURES) filtered out
May 23 21:37:55 linux-t8p8 kernel: [  560.686606] ata1.00: ACPI cmd ef/02:00:00:00:00:a0 (SET FEATURES) succeeded
May 23 21:37:55 linux-t8p8 kernel: [  560.686612] ata1.00: ACPI cmd f5/00:00:00:00:00:a0 (SECURITY FREEZE LOCK) filtered out
May 23 21:37:55 linux-t8p8 kernel: [  560.686616] ata1.00: ACPI cmd ef/10:03:00:00:00:a0 (SET FEATURES) filtered out
May 23 21:37:55 linux-t8p8 kernel: [  560.687671] ata1.00: configured for UDMA/100
May 23 21:37:55 linux-t8p8 kernel: [  560.687782] ata1.00: device reported invalid CHS sector 0
May 23 21:37:55 linux-t8p8 kernel: [  560.687797] ata1: EH complete
May 23 21:38:31 linux-t8p8 kernel: [  596.016073] ata1.00: exception Emask 0x40 SAct 0x0 SErr 0xd0800 action 0x6 frozen
May 23 21:38:31 linux-t8p8 kernel: [  596.016083] ata1: SError: { HostInt PHYRdyChg CommWake 10B8B }
May 23 21:38:31 linux-t8p8 kernel: [  596.016091] ata1.00: failed command: WRITE DMA EXT
May 23 21:38:31 linux-t8p8 kernel: [  596.016105] ata1.00: cmd 35/00:00:00:b4:1c/00:04:06:00:00/e0 tag 0 dma 524288 out
May 23 21:38:31 linux-t8p8 kernel: [  596.016108]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x44 (timeout)
May 23 21:38:31 linux-t8p8 kernel: [  596.016114] ata1.00: status: { DRDY }
May 23 21:38:31 linux-t8p8 kernel: [  596.016123] ata1: hard resetting link
May 23 21:38:31 linux-t8p8 kernel: [  596.321116] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
May 23 21:38:31 linux-t8p8 kernel: [  596.322316] ata1.00: ACPI cmd ef/02:00:00:00:00:a0 (SET FEATURES) succeeded
May 23 21:38:31 linux-t8p8 kernel: [  596.322326] ata1.00: ACPI cmd f5/00:00:00:00:00:a0 (SECURITY FREEZE LOCK) filtered out
May 23 21:38:31 linux-t8p8 kernel: [  596.322334] ata1.00: ACPI cmd ef/10:03:00:00:00:a0 (SET FEATURES) filtered out
May 23 21:38:31 linux-t8p8 kernel: [  596.709609] ata1.00: ACPI cmd ef/02:00:00:00:00:a0 (SET FEATURES) succeeded
May 23 21:38:31 linux-t8p8 kernel: [  596.709620] ata1.00: ACPI cmd f5/00:00:00:00:00:a0 (SECURITY FREEZE LOCK) filtered out
May 23 21:38:31 linux-t8p8 kernel: [  596.709629] ata1.00: ACPI cmd ef/10:03:00:00:00:a0 (SET FEATURES) filtered out
May 23 21:38:31 linux-t8p8 kernel: [  596.710610] ata1.00: configured for UDMA/100
May 23 21:38:31 linux-t8p8 kernel: [  596.710715] ata1.00: device reported invalid CHS sector 0
May 23 21:38:31 linux-t8p8 kernel: [  596.710731] ata1: EH complete

Was sagt uns das? Ich kann damit nicht viel anfangen, außer dass es was mit der HD zu tun hat. :???:

Danke für alles Hinweise...

Rolf
 
OP
R

Rolf-Werner

Hacker
Der sagt dies:

Code:
linux-t8p8:~ # smartctl -a /dev/sda
smartctl 5.40 2010-10-16 r3189 [i686-pc-linux-gnu] (SUSE RPM)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Toshiba 2.5" HDD series (80 GB and above)
Device Model:     TOSHIBA MK8032GSX
Serial Number:    16RL0827T
Firmware Version: AS111G
User Capacity:    80,026,361,856 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue May 24 13:57:30 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 ( 331) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  65) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   050    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0027   100   100   001    Pre-fail  Always       -       1784
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       1014
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   050    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   082   082   000    Old_age   Always       -       7323
 10 Spin_Retry_Count        0x0033   120   100   030    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1008
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       8
193 Load_Cycle_Count        0x0032   098   098   000    Old_age   Always       -       20788
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       24 (Min/Max 2/56)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   253   000    Old_age   Always       -       0
220 Disk_Shift              0x0002   100   100   000    Old_age   Always       -       80
222 Loaded_Hours            0x0032   083   083   000    Old_age   Always       -       7001
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
224 Load_Friction           0x0022   100   100   000    Old_age   Always       -       0
226 Load-in_Time            0x0026   100   100   000    Old_age   Always       -       339
240 Head_Flying_Hours       0x0001   100   100   001    Pre-fail  Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%         1         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Hilft uns das weiter? ;)
 

josef-wien

Ultimate Guru
Bei den (von der Festplatte bereitgestellten) S.M.A.R.T.-Attributen sehe ich nichts Besorgniserregendes, der raw value der auf ein Festplattenproblem deutenden Attribute ist jeweils Null.

Ich weiß, Du hast ein notebook, aber die logisch nächsten Schritte wären eine Überprüfung und gegebenenfalls ein Austausch der Verkabelung (Daten- und Stromkabel der Festplatte) sowie eine visuelle Begutachtung der Hauptplatine (z. B. hinsichtlich beschädigter Kondensatoren). Wenn die Festplatte bereits seit einiger Zeit unter 11.4 funktionierte und die Ereignisse erst nach dem Akku-Problem aufgetreten sind, scheint mir ein Treiber-Problem wesentlich weniger wahrscheinlich als ein Kabel-Problem oder ein defekter Festplatten-Controller.
 
OP
R

Rolf-Werner

Hacker
Ja, mir scheint ein Hardwareproblem auch wahrscheinlicher. Ich werde mal die Platte rausziehen und wieder reinstecken, vielleicht ist es ja nur ein Kontaktproblem.

Gestern Abend hab ich mal von der CD gebootet und fsck gefragt, aber das hat auf allen Partitionen clear gemeldet.

Auf der Platte ist noch eine Win7-Installation, dort habe ich diesen Fehler noch nicht festgestellt. Wenn es mit der Elektronik zu tun hat, müsste der Fehler eigentlich auf beiden Partitionen auftreten. Ich werde mir das nachher nochmal gründlich ansehen.

Rolf
 

RME

Advanced Hacker
Hallo Rolf-Werner,

Ja, mir scheint ein Hardwareproblem auch wahrscheinlicher...

Auf der Platte ist noch eine Win7-Installation, dort habe ich diesen Fehler noch nicht festgestellt.
Ich würde ein Hardwareproblem eher ausschliessen :D

Der Prozessorlast sieht man überhaupt nichts an, das ist ja das merkwürdige. Nur die Festplatte läuft volle Pulle, und zwar nur mit Schreibzugriffen laut iotop.
Dagegen vermute ich dass da irgend etwas ständig auf die Platte geschrieben wird. Angenommen dass dieser Schreibvorgang in eine Datei stattfindet und dass diese Datei immer grösser wird, dann sollte es möglich sein diese Datei ausfindig zu machen (diese sollte inzwischen recht gross sein).

Ich würde mal ein:

Code:
> du -a -S --time /home/user0 |sort -rn > du_<datum>.txt
machen, und dies nach weiteren "mysteriösen" Schreib-Aktivitäten wiederholen (zwecks Vergleich).

(wenn Du /tmp regelmässig löschest, solltest Du dies vorübergehend abschalten)

Gruss,
Roland
 
OP
R

Rolf-Werner

Hacker
Danke für den Tipp, probiere ich gleich aus, wenn ich wieder zu Hause bin.

Aber wenn alles ok ist, wie erklärst du dir dann die Fehlermeldungen in /var/log/messages?

Rolf
 

RME

Advanced Hacker
Hallo Rolf,

wie erklärst du dir dann die Fehlermeldungen in /var/log/messages?
Es gibt "jede Menge" Posts im Internet wo User die /var/log/messages

Code:
ata1.00: device reported invalid CHS sector 0
melden (in den verschiedensten Zusammenhängen). Meist wird dann geantwortet dass mit Sicherheit (oder ähnlich) die Hard-Disk kapput sei (und bald den Geist aufgeben werde), oder das Kabel ersetzt werden müsste. So wie ich sehe sind aber jeweils alle Lösungs-Ansätze im Sande verlaufen.

Selber kann ich leider auch nichts definitives beitragen -- am ehesten sehe ich ein Kernel- oder Treiber Problem. Aber wenn tatsächlich etwas geschrieben wird (wie Du ja via iotop festgestellt hast), dann besteht die hoffnung dass dies irgend eine Spur hinterlässt -- daher mein Vorschlag betr. 'du'.

Ein Posting sagt dass "device reported invalid CHS sector 0" von einem Kernel-Bug herrühren könnte.

https://bugs.launchpad.net/ubuntu/+source/linux/+bug/397096

The line: "device reported invalid CHS sector 0", seems to be an "off by one error" reported in
http://patchwork.kernel.org/patch/41773/ and fixed upstream, and not seen often "The bug isn't very visible because ata_tf_read_block() is used only when generating sense data for a failed RW command and CHS addressing isn't used too often these days.", Tejun Heo says.
(die url ist http://patchwork.kernel.org/patch/41773/)

Wie gesagt, ich weiss auch nicht wirklich etwas gescheites, aber ich würde Dir abraten den Laptop aufzuschrauben. Das Problem vermute ich im Software Bereich.

Gruss,
Roland

========== Nachtrag ==========

Das Problem "könnte vielleicht" (wäre schön wenn hier andere Worte gebraucht werden könnten, z.B. 'ist') in der Datei

Code:
/usr/src/linux-2.6.37.6-0.5/drivers/ata/ahci.c
zu suchen. Siehe hier:

http://help.lockergnome.com/linux/AHCI-driver-problem-SB700-SB800-Acer-Ferrari--ftopict537147.html

-/-
 
OP
R

Rolf-Werner

Hacker
Aaaah - tatsächlich, das könnte es sein :D

Das klingt ja so, als wären die jetzt in diesen Tagen dabei, einen Patch zu erstellen, der müsste dann ja "demnächst" auch automatisch kommen mit den Updates von Suse. Was meinst du?

Trotzdem: Ich bin gleich wieder zu Hause und teste dann mal das vorgeschlagene

Code:
du -a -S --time /home/user0 |sort -rn > du_<datum>.txt

Mal sehen, was das bringt.

Rolf
 
OP
R

Rolf-Werner

Hacker
So, die drei größten Dateien sind (natürlich) die von den Suchdatenbanken: .cache/tracker, .local/share/akonadi/db_data und .cache/tracker/meta.db. Ich kann aber nichts ungewöhnliches dabei feststellen.

Also doch die Treiber-Geschichte? Und wenn ja, einfach auf ein Update warten?

Rolf
 

josef-wien

Ultimate Guru
josef-wien schrieb:
Wenn die Festplatte bereits seit einiger Zeit unter 11.4 funktionierte und die Ereignisse erst nach dem Akku-Problem aufgetreten sind, scheint mir ein Treiber-Problem wesentlich weniger wahrscheinlich ...
Bei den ersten beiden links von RME sehe ich nur ältere Ubuntu-Kernel, der dritte link befaßt sich mit einem release candidate von 2.6.39 und bestätigt, daß 2.6.38 funktioniert (11.4 verwendet 2.6.37). Aber ich will Dir die Hoffnung nicht rauben.
 

RME

Advanced Hacker
Hallo,

josef-wien schrieb:
Bei den ersten beiden links von RME sehe ich nur ältere Ubuntu-Kernel, der dritte link befaßt sich mit einem release candidate von 2.6.39 und bestätigt, daß 2.6.38 funktioniert (11.4 verwendet 2.6.37).
Ich sage nicht dass diese Einwände nicht zutreffen würden. Die von mir erwähnten/gelinkten Hinweise waren als mögliche Problem-Quellen gedacht, nicht als konkrete Problem-Lösungen.

...als ich den Akku ausgetauscht habe (was einige Tage vorher der Fall war)
Gestern Abend hab ich mal von der CD gebootet und fsck gefragt, aber das hat auf allen Partitionen clear gemeldet.
Hier wäre zu bemerken dass die Installation von openSUSE 11.4 wohl nicht wesentlich vor oder nach dem Akku-Problem gemacht wurde (@Rolf-Werner: könntest Du dies bitte noch erörtern), so dass die mysteriösen Platten-Schreibzugriffe eben 11.4 (und nicht Akku oder Hardware) relevant sein könnten -- und dann möglicherweise doch Kernel/Treiber relevant.

Auch wenn (mal angenommen) die Platte einen Defekt hätte, es wäre (zumindest mir) völlig unklar was/wie/warum diese periodischen Schreibprozesse auslöst.

Ein Kernel-Update wird/würde diese Frage vielleicht (hoffentlich) klären.

---------+---------+---------+---------+

So, die drei größten Dateien sind (natürlich) die von den Suchdatenbanken: .cache/tracker, .local/share/akonadi/db_data und .cache/tracker/meta.db. Ich kann aber nichts ungewöhnliches dabei feststellen.
Dann bleibt aber noch die Möglichkeit vieler (ich meine sehr vieler) kleinen Dateien... Kannst Du bitte die (sortierte) Ausgabe von 'du' diesbezüglich nochmals inspizieren. Solche Dateien wären am Ende der 'du' Ausgabe.

Gruss,
Roland
 
Oben