• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Volllast durch 'mandb -q'?

gehrke

Administrator
Teammitglied
Moin *,

wahrscheinlich völlig unwichtig, aber ich bin gerade moderat beunruhigt, weil mein System (CentOS 7) seit einiger Zeit (<=2 Stunden?, nach Suspend-To-RAM) mit Volllast läuft:
Code:
top - 10:23:57 up 5 days, 17:10,  4 users,  load average: 1,46, 1,31, 1,45
Tasks: 204 total,   2 running, 202 sleeping,   0 stopped,   0 zombie
%Cpu(s):  3,9 us,  5,7 sy, 48,8 ni, 39,2 id,  0,0 wa,  0,0 hi,  2,4 si,  0,0 st
KiB Mem :  3880644 total,   114532 free,  1316784 used,  2449328 buff/cache
KiB Swap:  4194300 total,  3587896 free,   606404 used.  2216512 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                   
22479 root      39  19  123768      0      0 R  99,3  0,0 899:20.01 mandb
Code:
bash-4.2$ ps aux | grep mandb
root     22479 39.0  0.0 123768     0 ?        RN   Jun29 910:35 mandb -q
Eine erste Recherche zeigte keine offensichlichen Hinweise. Was könnte das sein?
TNX

cu, gehrke
 
OP
gehrke

gehrke

Administrator
Teammitglied
Code:
[root@j2 ~]# kill -9 22479
Ein Aufruf ohne '--quiet':
Code:
[root@j2 ~]# mandb
Alte Datenbankeinträge in /usr/share/man werden gelöscht ...
mandb: Warnung: /usr/share/man/man8/fsck.fat.8.manpage-fix.gz: fehlerhafter Dateiname wird ignoriert
Handbuchseiten unter /usr/share/man werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/man1« wird aktualisiert. Bitte warten ...mandb: Warnung: /usr/share/man/man1/bison.1.gz: whatis-Verarbeitung für bison(1) fehlgeschlagen
mandb: Warnung: /usr/share/man/man1/config.guess.1.gz: whatis-Verarbeitung für config.guess(1) fehlgeschlagen
mandb: Warnung: /usr/share/man/man1/config.sub.1.gz: whatis-Verarbeitung für config.sub(1) fehlgeschlagen
Indexcache des Pfades »/usr/share/man/man8« wird aktualisiert. Bitte warten ...mandb: Warnung: /usr/share/man/man8/fsck.fat.8.manpage-fix.gz: fehlerhafter Dateiname wird ignoriert
Indexcache des Pfades »/usr/share/man/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/uk werden gelöscht ...
<... wait ...>
 
OP
gehrke

gehrke

Administrator
Teammitglied
Hhmmm, wollte mit lsof nachschauen, was da los ist. Dabei ist der Rechner abgestürzt, auch keine root-Shell mehr möglich.

Nach einem Neustart (wahrscheinlich mit Dateisystemcheck) ist der Spuk vorbei:
Code:
[root@j2 ~]# mandb
Alte Datenbankeinträge in /usr/share/man werden gelöscht ...
mandb: Warnung: /usr/share/man/man8/fsck.fat.8.manpage-fix.gz: fehlerhafter Dateiname wird ignoriert
Handbuchseiten unter /usr/share/man werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/uk werden gelöscht ...
Handbuchseiten unter /usr/share/man/uk werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/uk/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man/uk werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man/uk werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/pl werden gelöscht ...
Handbuchseiten unter /usr/share/man/pl werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/da werden gelöscht ...
Handbuchseiten unter /usr/share/man/da werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/it werden gelöscht ...
Handbuchseiten unter /usr/share/man/it werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/de werden gelöscht ...
Handbuchseiten unter /usr/share/man/de werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/de/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man/de werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man/de werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/overrides werden gelöscht ...
Handbuchseiten unter /usr/share/man/overrides werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/sv werden gelöscht ...
Handbuchseiten unter /usr/share/man/sv werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/zh_CN werden gelöscht ...
Handbuchseiten unter /usr/share/man/zh_CN werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/ru werden gelöscht ...
Handbuchseiten unter /usr/share/man/ru werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/fr werden gelöscht ...
Handbuchseiten unter /usr/share/man/fr werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/fr/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man/fr werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man/fr werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/id werden gelöscht ...                                               
Handbuchseiten unter /usr/share/man/id werden verarbeitet ...                                                 
Alte Datenbankeinträge in /usr/share/man/pt werden gelöscht ...                                               
Handbuchseiten unter /usr/share/man/pt werden verarbeitet ...                                                 
Alte Datenbankeinträge in /usr/share/man/pt_PT werden gelöscht ...                                            
Handbuchseiten unter /usr/share/man/pt_PT werden verarbeitet ...                                              
Alte Datenbankeinträge in /usr/share/man/en werden gelöscht ...                                               
Handbuchseiten unter /usr/share/man/en werden verarbeitet ...                                                 
Alte Datenbankeinträge in /usr/share/man/cs werden gelöscht ...
Handbuchseiten unter /usr/share/man/cs werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/hr werden gelöscht ...
Handbuchseiten unter /usr/share/man/hr werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/zh werden gelöscht ...
Handbuchseiten unter /usr/share/man/zh werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/zh_TW werden gelöscht ...
Handbuchseiten unter /usr/share/man/zh_TW werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/ja werden gelöscht ...
Handbuchseiten unter /usr/share/man/ja werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/ja/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man/ja werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man/ja werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/tr werden gelöscht ...
Handbuchseiten unter /usr/share/man/tr werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/ko werden gelöscht ...
Handbuchseiten unter /usr/share/man/ko werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/sk werden gelöscht ...
Handbuchseiten unter /usr/share/man/sk werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/ca werden gelöscht ...
Handbuchseiten unter /usr/share/man/ca werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/ca/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man/ca werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man/ca werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/pt_BR werden gelöscht ...
Handbuchseiten unter /usr/share/man/pt_BR werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/es werden gelöscht ...
Handbuchseiten unter /usr/share/man/es werden verarbeitet ...
Indexcache des Pfades »/usr/share/man/es/man5« wird aktualisiert. Bitte warten ...fertig.
Handbuchseiten ohne »cat«-Dateien in /usr/share/man/es werden gesucht ...
Handbuchseiten ohne »cat«-Dateien in /var/cache/man/es werden gesucht ...
Alte Datenbankeinträge in /usr/share/man/ro werden gelöscht ...
Handbuchseiten unter /usr/share/man/ro werden verarbeitet ...
Alte Datenbankeinträge in /usr/share/man/hu werden gelöscht ...
Handbuchseiten unter /usr/share/man/hu werden verarbeitet ...
Alte Datenbankeinträge in /usr/local/share/man werden gelöscht ...
Handbuchseiten unter /usr/local/share/man werden verarbeitet ...
13 Handbuchverzeichnisse enthielten neuere Handbuchseiten.
53 Handbuchseiten wurden hinzugefügt.
0 herrenlose »cat«-Dateien wurden hinzugefügt.
0 alte Datenbankeinträge wurden entfernt.
[root@j2 ~]#
Ich vermute, nun werde ich nicht mehr erfahren, was da los war...
 
OP
gehrke

gehrke

Administrator
Teammitglied
systemd hatte nach dem Crash freundlicherweise einen Filesystem-Check der Root-Partition durchgeführt, aber in den Logs darauf hingewiesen, dass darüber hinaus ein manueller Check notwendig sei.

Also habe ich eine Recovery-Instanz gebootet und eine Menge Zeug bereinigen lassen. Nun startet das System wieder fehlerfrei.

Ich halte es nicht für unwahrscheinlich, dass die Dateisystemprobleme ursächlich waren und setze diesen Thread auf [Gelöst].
 
OP
gehrke

gehrke

Administrator
Teammitglied
Noch ein Nachtrag, sorry wenn ich nerve...

In diesem Zuge wurde die journal-Konfiguration so geändert, dass Logs den Reboot überdauern:
Code:
[root@j2 ~]# grep 'Storage=' /etc/systemd/journald.conf                                                                                                           
Storage=persistent
Zuvor stand dort 'auto'.
Code:
[root@j2 ~]# journalctl --list-boots
-1 78d8634ac3554deeb8039eaefc8b3705 Sa 2017-07-01 15:28:40 CEST—Sa 2017-07-01 15:36:00 CEST
 0 b41661c0872a43e7a7d20f5d7b79a285 Sa 2017-07-01 15:36:26 CEST—Sa 2017-07-01 15:40:01 CEST
Die Default-Konfiguration von CentOS scheint demnach zu sein, dass die Logs nicht aufbewahrt werden. Für meinen UseCase scheint das ungeeignet zu sein, denn ich möchte gern auch noch mal ein paar Tage zurück schauen können. Dafür opfere ich gern ein paar Megabytes.

Etwas peinlich, dass mir das erst jetzt auffällt... :eek:ps:
 
OP
gehrke

gehrke

Administrator
Teammitglied
Momentan habe ich wieder das selbe Verhalten, ebenfalls wieder massive Auslastung (auch wieder durch 'mandb -q') und zusätzlich Netzwerk-Probleme nach dem Resume. Auch hier scheint es erneut wieder Probleme mit dem Dateisystem oder dem Datenträger zu geben:
Code:
Jul 08 06:31:38 j2.gehrke.local NetworkManager[993]: <warn>  [1499488298.0142] settings-connection[0x7fb41c009910,6d4ea538-12d1-4830-92b8-d2541ad98634]: error saving timestamp to file '/var/lib/NetworkManager/timestamps': Datei »/var/lib/NetworkManager/timestamps.T5F12Y« konnte nicht geschrieben werden: fsync() ist gescheitert: Eingabe-/Ausgabefehler
Jul 08 06:31:38 j2.gehrke.local kernel: EXT4-fs (dm-1): Delayed block allocation failed for inode 140694 at logical offset 0 with max blocks 1 with error 5
Jul 08 06:31:38 j2.gehrke.local kernel: EXT4-fs (dm-1): This should not happen!! Data will be lost
Jul 08 06:31:38 j2.gehrke.local kernel: EXT4-fs (dm-1): Delayed block allocation failed for inode 918702 at logical offset 0 with max blocks 1 with error 5
Jul 08 06:31:38 j2.gehrke.local kernel: EXT4-fs (dm-1): This should not happen!! Data will be lost
Jul 08 06:31:38 j2.gehrke.local NetworkManager[993]: <info>  [1499488298.0145] manager: NetworkManager state is now CONNECTED_GLOBAL
Jul 08 06:31:38 j2.gehrke.local systemd[1]: Unit iscsi.service cannot be reloaded because it is inactive.
Jul 08 06:31:38 j2.gehrke.local NetworkManager[993]: <info>  [1499488298.0274] policy: set 'enp3s0' (enp3s0) as default for IPv4 routing and DNS
Jul 08 06:31:38 j2.gehrke.local NetworkManager[993]: <warn>  [1499488298.0301] dns-mgr: could not commit DNS changes: Datei »/etc/resolv.conf.SA202Y« konnte nicht geschrieben werden: fsync() ist gescheitert: Eingabe-/Ausgabefehler
Jul 08 06:31:38 j2.gehrke.local NetworkManager[993]: <info>  [1499488298.0302] device (enp3s0): Activation: successful, device activated.
Jul 08 06:31:38 j2.gehrke.local nm-dispatcher[2793]: req:4 'up' [enp3s0]: new request (4 scripts)
Jul 08 06:31:38 j2.gehrke.local nm-dispatcher[2793]: req:4 'up' [enp3s0]: start running ordered scripts...
Jul 08 06:31:38 j2.gehrke.local PackageKit[2885]: uid 1000 is trying to obtain org.freedesktop.packagekit.system-sources-refresh auth (only_trusted:0)
Jul 08 06:31:38 j2.gehrke.local PackageKit[2885]: uid 1000 obtained auth for org.freedesktop.packagekit.system-sources-refresh
Jul 08 06:31:39 j2.gehrke.local ntpd[921]: Listen normally on 20 enp3s0 172.16.11.6 UDP 123
Jul 08 06:31:39 j2.gehrke.local ntpd[921]: new interface(s) found: waking up resolver
Jul 08 06:31:40 j2.gehrke.local ntpd[921]: 0.0.0.0 0628 08 no_sys_peer
Jul 08 06:31:42 j2.gehrke.local kernel: EXT4-fs (dm-1): Delayed block allocation failed for inode 140694 at logical offset 0 with max blocks 2 with error 5
Jul 08 06:31:42 j2.gehrke.local kernel: EXT4-fs (dm-1): This should not happen!! Data will be lost
Jul 08 06:31:42 j2.gehrke.local PackageKit[2885]: refresh-cache transaction /2140_bbebcdeb from uid 1000 finished with failed after 4296ms
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: (org.gnome.Software:3639): Gs-WARNING **: failed to refresh the cache: Error Type: <class 'sqlite3.OperationalError'>
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: Error Value: disk I/O error
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: File : /usr/share/PackageKit/helpers/yum/yumBackend.py, line 3532, in <module>
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: main()
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: File : /usr/share/PackageKit/helpers/yum/yumBackend.py, line 3529, in main
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: backend.dispatcher(sys.argv[1:])
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: File : /usr/lib/python2.7/site-packages/packagekit/backend.py, line 719, in dispatcher
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: self.dispatch_command(args[0], args[1:])
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: File : /usr/lib/python2.7/site-packages/packagekit/backend.py, line 642, in dispatch_command
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: self.refresh_cache(force)
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: File : /usr/share/PackageKit/helpers/yum/yumBackend.py, line 1796, in refresh_cache
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: self.comps.refresh()
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: File : /usr/share/PackageKit/helpers/yum/yumComps.py, line 133, in refresh
Jul 08 06:31:42 j2.gehrke.local gnome-session[3160]: self.connection.commit()
Jul 08 06:31:43 j2.gehrke.local gnome-session[3160]: file retriever error: 114
Jul 08 06:31:43 j2.gehrke.local gnome-session[3160]: file retriever error: 114
Jul 08 06:31:43 j2.gehrke.local gnome-session[3160]: file retriever error: 114
[...]
Es scheint einen Zusammenhang mit Hibernate oder Suspend zu geben, welches in wechselweise intensiv nutze. Werde mal im nächsten Schritt versuchen, die Disk auf Hardwareprobleme zu untersuchen...
 
OP
gehrke

gehrke

Administrator
Teammitglied
Partitionierung: 2 Disks - SSD für OS und HDD für Daten
Code:
[root@j2 ~]# lsblk
NAME                                          MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
sda                                             8:0    0 59,6G  0 disk  
├─sda1                                          8:1    0    1G  0 part  /boot
└─sda2                                          8:2    0 58,6G  0 part  
  └─luks-c2efcd14-6341-4fba-a20f-00bdec037cc8 253:0    0 58,6G  0 crypt 
    ├─fast-os2                                253:1    0 18,2G  0 lvm   /
    ├─fast-swap                               253:2    0    4G  0 lvm   [SWAP]
    ├─fast-os1                                253:3    0 18,2G  0 lvm   
    └─fast-os3                                253:4    0 18,2G  0 lvm   
sdb                                             8:16   0  2,7T  0 disk  
└─sdb1                                          8:17   0  2,7T  0 part  
  └─luks-749a9605-c129-44d8-ae2c-501badb35127 253:5    0  2,7T  0 crypt 
    └─big-home                                253:6    0  2,7T  0 lvm   /home
Code:
[root@j2 ~]# smartctl -t long /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.16.1.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 1 minutes for test to complete.
Test will complete after Sat Jul  8 07:57:45 2017

Use smartctl -X to abort test.
Code:
[root@j2 ~]# smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.16.1.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     TS64GSSD340
Serial Number:    <xxx>
LU WWN Device Id: 5 000000 000000000
Firmware Version: SVN263
User Capacity:    64.023.257.088 bytes [64,0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Jul  8 08:01:20 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (   32) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (   1) minutes.
SCT capabilities:              (0x0039) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   100   100   050    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0013   100   100   050    Pre-fail  Always       -       0
  7 Unknown_SSD_Attribute   0x000b   100   100   050    Pre-fail  Always       -       0
  8 Unknown_SSD_Attribute   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       4185
 10 Unknown_SSD_Attribute   0x0013   100   100   050    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       3752
167 Unknown_Attribute       0x0022   100   100   000    Old_age   Always       -       0
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       3024
169 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       851968
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       0
173 Unknown_Attribute       0x0012   194   194   000    Old_age   Always       -       270591590417
175 Program_Fail_Count_Chip 0x0013   100   100   010    Pre-fail  Always       -       0
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       72
194 Temperature_Celsius     0x0022   068   068   030    Old_age   Always       -       32 (Min/Max 28/40)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
240 Unknown_SSD_Attribute   0x0013   100   100   050    Pre-fail  Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      4185         -
# 2  Short offline       Completed without error       00%      4185         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Auf der zweiten Platte liegt nur /home, daher vermute ich, dass diese hier keine Rolle spielt. Einen Test habe ich dort ebenfalls angestossen, der wird aber erst am Nachmittag fertig sein.

Bin nicht geübt bei der Interpretation dieser Testwerte. Auf den ersten Blick sehe ich da keine offensichtlichen Hardwareprobleme. Wäre prima, wenn da mal jemand mit mehr Sachverstand drauf schauen könnte...
TNX
 
OP
gehrke

gehrke

Administrator
Teammitglied
gehrke schrieb:
Es scheint einen Zusammenhang mit Hibernate oder Suspend zu geben, welches in wechselweise intensiv nutze.
Mein Versuch, das zu reproduzieren...

...Suspend-To-RAM:
Code:
[root@j2 ~]# for number in {1..10}; do echo $number; systemctl suspend; journalctl | grep 'kernel: EXT4-fs error (device dm-1):' | tail -n 1; done
1
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
2
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
3
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
4
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
5
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
6
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
7
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
8
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
9
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
10
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
...Suspend-To-Disk:
Code:
[root@j2 ~]# reboot
[root@j2 ~]# journalctl | grep 'kernel: EXT4-fs error (device dm-1):' | tail -n 1
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780


[root@j2 ~]# for number in {1..10}; do echo $number; systemctl hibernate; journalctl | grep 'kernel: EXT4-fs error (device dm-1):' | tail -n 1; done
1
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
2
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
3
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
4
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
5
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
6
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780                  
7                                                                                                                                                                 
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780                  
8                                                                                                                                                                 
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780                  
9                                                                                                                                                                 
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780                  
10                                                                                                                                                                
Jul 08 07:43:29 j2.gehrke.local kernel: EXT4-fs error (device dm-1): ext4_free_inode:340: comm firewalld: bit already cleared for inode 1050780
So einfach ist das wohl leider nicht zu reproduzieren.
 

josef-wien

Ultimate Guru
Transcend scheint aus seinen Attributen ein ziemliches Geheimnis zu machen. In der aktuellen S.M.A.R.T.-Datenbank scheint 168 als "SATA_Phy_Error_Count" und 173 als "Erase_Count" auf. 168 beunruhigt mich etwas, ebenso das unbekannte 169. Einen Zusammenhang mit Deinem Problem sehe ich aber nicht.

Ich nehme an, auch bei Dir wird es ein Programm /usr/sbin/update-smart-drivedb geben, das die Datenbank in /usr/share/smartmontools aktualisiert.

P. S. Ob das wiederholte Inode-Problem bedenklich ist, entzieht sich meiner Kenntnis.
 
OP
gehrke

gehrke

Administrator
Teammitglied
TNX

Code:
[root@j2 ~]# update-smart-drivedb -v
Download from branches/RELEASE_6_2_DRIVEDB
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  158k    0  158k    0     0   104k      0 --:--:--  0:00:01 --:--:--  104k
/usr/share/smartmontools/drivedb.h updated from branches/RELEASE_6_2_DRIVEDB

Code:
[root@j2 ~]# smartctl -t long /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.16.1.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 1 minutes for test to complete.
Test will complete after Sat Jul  8 12:38:28 2017

Use smartctl -X to abort test.

Code:
[root@j2 ~]# smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.16.1.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     JMicron based SSDs
Device Model:     TS64GSSD340
Serial Number:    <...>
LU WWN Device Id: 5 000000 000000000
Firmware Version: SVN263
User Capacity:    64.023.257.088 bytes [64,0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Jul  8 12:39:01 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (   32) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (   1) minutes.
SCT capabilities:              (0x0039) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Unknown_JMF_Attribute   0x0007   100   100   050    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0013   100   100   050    Pre-fail  Always       -       0
  7 Unknown_JMF_Attribute   0x000b   100   100   050    Pre-fail  Always       -       0
  8 Unknown_JMF_Attribute   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       4188
 10 Unknown_JMF_Attribute   0x0013   100   100   050    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       3774
167 Unknown_JMF_Attribute   0x0022   100   100   000    Old_age   Always       -       0
168 SATA_Phy_Error_Count    0x0012   100   100   000    Old_age   Always       -       3035
169 Unknown_JMF_Attribute   0x0013   100   100   010    Pre-fail  Always       -       851968
170 Bad_Block_Count         0x0013   100   100   010    Pre-fail  Always       -       0 0 0
173 Erase_Count             0x0012   194   194   000    Old_age   Always       -       63 132 18
175 Bad_Cluster_Table_Count 0x0013   100   100   010    Pre-fail  Always       -       0
192 Unexpect_Power_Loss_Ct  0x0012   100   100   000    Old_age   Always       -       72
194 Temperature_Celsius     0x0022   069   069   030    Old_age   Always       -       31 (Min/Max 29/40)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
240 Unknown_JMF_Attribute   0x0013   100   100   050    Pre-fail  Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      4188         -
# 2  Extended offline    Completed without error       00%      4185         -
# 3  Short offline       Completed without error       00%      4185         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 
Oben