[closed] Raid5 startet nach Update nicht mehr ...

daiml · 25 Mai 2010

Hallo liebe Forumianer,

ich habe, bevor ich diesen Thread eröffne nunmehr seit mehr als zwei Wochen gegoogelt und mit viel Geduld versucht, mein Problem selbst zu lösen, komme aber einfach nicht zu einer Lösung.
Beim Googeln habe ich zwar hier und da auch einige "Leidgenossen" gefunden, die scheinbar denselben Fehler hatten wie ich, jedoch entweder keinen dazugehörigen Lösungsansatz oder die dort beschrieben Lösungswege funzten bei mir ... beseitigten aber dennoch nicht das Problem.
So nach diesem "Vorspann" also mein neuester Fall:

Auf meinem "Home-Server" mit openSuSe 11.1 laufen auf drei Festplatten (sda, sdb, sdc) vier Software-Raid (Raid5).
Die folgende Konfiguration lief bisher (seit ca. einem Jahr) ohne Fehlermeldungen stabil.
Nach einem update bleibt der Rechner im Bootvorgang stecken, wenn er auf das Raid md1 (/) zugreifen will.

Die die Festplatten sind wie folgt eingerichtet:

sda1 = /boot (Kopien als Rückfallebene auf sdb1 und sdc1)
sdc3 = swap
md1: sda2, sdb2, sdc2 = /
md2: sda3, sdb3, sdc5 = /var
md3: sda5, sdb5, sdc6 = /home
md4: sda6, sdb6, sdc7 = /share (=Samba-Freigaben)

Beim Booten startet der PC die Raids, bleibt dann jedoch mit einem kernel panic hängen und nichts geht mehr.
Ich habe dann von der openSUSE 11.1-DVD gebootet und bin in die Rettungskosole eingestiegen.
Die Raids habe ich bereits überprüft und, da bei zwei Raids jeweils eine Partition ausgestiegen war, wieder resynct. Das hat zwar ein ganzes Wochenende gedauert, aber danach zeigte dann "mdadm" an, dass die RAIDs alle o.k. sein sollen.

zumindest gibt ein cat /proc/mdstat/ folgendes Ergebnis:

Code:

Personalities : [raid6] [raid5] [raid4] 
md4 : active raid5 sda6[0] sdc7[3] sdb6[1]
      362361856 blocks super 1.0 level 5, 64k chunk, algorithm 2 [3/3] [UUU]
      
md3 : active raid5 sda5[0] sdc6[3] sdb5[1]
      83875072 blocks super 1.0 level 5, 64k chunk, algorithm 2 [3/3] [UUU]
      
md2 : active raid5 sda3[0] sdc5[3] sdb3[1]
      20964608 blocks super 1.0 level 5, 64k chunk, algorithm 2 [3/3] [UUU]
      
md1 : active raid5 sda2[0] sdc2[3] sdb2[1]
      20964608 blocks super 1.0 level 5, 64k chunk, algorithm 2 [3/3] [UUU]
      
unused devices: <none>

Versuche die Raids zu mounten werden mit einer Fehlermeldung geblockt:

Code:

mount /dev/md1 /mnt/md1
mount: wrong fs type, bad option, bad superblock on /dev/md1,
          missing codepage or helper program, or other error
          in some cases useful info is found in syslog - try
          dmesg | tail  or so

Nach langem Suchen habe ich dann in der /var/log/warn einen Hinweis gefunden und nach Eingabe von dmesg eine Bestätigung darauf erhalten, dass im ersten Raid (md1 = / = System ) offenbar etwas defekt ist.
/var/log/warn:

Code:

May 24 22:33:13 Rescue ifup:               No configuration found for eth0
May 24 22:33:13 Rescue ifup:               No configuration found for eth1
May 24 22:48:09 Rescue kernel: EXT2-fs error (device md1): ext2_check_descriptors: Block bitmap for group 0 not in group (block 33824)!
May 24 22:48:09 Rescue kernel: EXT2-fs: group descriptors corrupted!
May 24 22:49:07 Rescue kernel: EXT2-fs error (device md1): ext2_check_descriptors: Block bitmap for group 0 not in group (block 33824)!
May 24 22:49:07 Rescue kernel: EXT2-fs: group descriptors corrupted!
May 24 22:49:20 Rescue kernel: EXT2-fs: md2: couldn't mount because of unsupported optional features (4).
May 24 22:49:30 Rescue kernel: JBD: no valid journal superblock found
May 24 22:49:30 Rescue kernel: EXT3-fs: error loading journal.
May 24 22:52:09 Rescue kernel: sd 3:0:0:0: [sde] Assuming drive cache: write through
May 24 22:52:09 Rescue kernel: sd 3:0:0:0: [sde] Assuming drive cache: write through
May 24 22:52:24 Rescue kernel: NTFS-fs error (device sde1): load_system_files(): $LogFile is not clean.  Mounting read-only.  Mount in Windows.
May 24 23:10:53 Rescue kernel: ready
May 24 23:10:53 Rescue kernel: sd 4:0:0:0: [sdd] Assuming drive cache: write through

Auszug von dmesg:

Code:

EXT2-fs error (device md1): ext2_check_descriptors: Block bitmap for group 0 not in group (block 33824)!
EXT2-fs: group descriptors corrupted!

Auch in messages (Auszug) habe ich nun einen entsprechenden Hinweis darauf gefunden, dass auf den Partitionen für das mit dem 1. Raid eine Festplattenfehler aufgetreten ist:

Code:

May 24 22:48:09 Rescue kernel: EXT2-fs error (device md1): ext2_check_descriptors: Block bitmap for group 0 not in group (block 33824)!
May 24 22:48:09 Rescue kernel: EXT2-fs: group descriptors corrupted!
May 24 22:49:07 Rescue kernel: EXT2-fs error (device md1): ext2_check_descriptors: Block bitmap for group 0 not in group (block 33824)!
May 24 22:49:07 Rescue kernel: EXT2-fs: group descriptors corrupted!
May 24 22:49:20 Rescue kernel: EXT2-fs: md2: couldn't mount because of unsupported optional features (4).
May 24 22:49:30 Rescue kernel: JBD: no valid journal superblock found
May 24 22:49:30 Rescue kernel: EXT3-fs: error loading journal.

Nun endlich meine drei Fragen:
1.)
Ich bin mir sicher, dass die Partitionen allesamt mit ext3 partitioniert sind. Warum erhalte ich eine Meldung, die auf einen Fehler im ext2 hinweist ?
2.)
Ist es möglich das System auf md1 neu zu installieren und die Raids mit den Daten (md3 und md4) zu erhalten?
Oder sind meine Daten in Gefahr, wenn ich das bereits installierte openSUSE 11.1 auf den bisherigen Partitionen für /boot (sd[abc]1), / (sda[abc]2) und /var (sd[ab]3 | scd5) neu aufsetze ?
Die Daten-Partitionen für md3 (sda5, sdc6, sdb5) und md4 (sda6, sdc7, sdb6) würde ich natürlich unangetastet lassen.

3.)
Warum erhalte ich die Fehlermeldung beim Mounten ... obwohl ich von der DVD-Rettungskonsole gestartet habe?
Sind etwa alle meine Raids plötzlich und gleichzeitig "hinüber" ? ... obwohl (s.o.) cat /proc/mdstat/ behauptet, dass alles i.O. ist ?
Oder verstehe ich die Ausgabe falsch?

Hier noch die Ausgaben von mdadm -D /dev/md[1234]:

Code:

/dev/md1:
        Version : 1.00
  Creation Time : Fri May 14 12:40:01 2010
     Raid Level : raid5
     Array Size : 20964608 (19.99 GiB 21.47 GB)
  Used Dev Size : 20964608 (19.99 GiB 21.47 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Sun May 23 00:55:05 2010
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : 1
           UUID : b8c4db56:bd532870:098e9e2b:718b6900
         Events : 6

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       8       18        1      active sync   /dev/sdb2
       3       8       34        2      active sync   /dev/sdc2

Code:

/dev/md2:
        Version : 1.00
  Creation Time : Fri May 14 13:10:40 2010
     Raid Level : raid5
     Array Size : 20964608 (19.99 GiB 21.47 GB)
  Used Dev Size : 20964608 (19.99 GiB 21.47 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Sat May 22 19:55:25 2010
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : 2
           UUID : bed45248:36ef43fc:2ce465b7:08891fea
         Events : 4

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       3       8       37        2      active sync   /dev/sdc5

Code:

/dev/md3:
        Version : 1.00
  Creation Time : Fri May 14 13:12:26 2010
     Raid Level : raid5
     Array Size : 83875072 (79.99 GiB 85.89 GB)
  Used Dev Size : 83875072 (79.99 GiB 85.89 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Sun May 23 01:08:52 2010
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : 3
           UUID : e2df23a2:a11410cd:ce2556b4:a692322c
         Events : 4

    Number   Major   Minor   RaidDevice State
       0       8        5        0      active sync   /dev/sda5
       1       8       21        1      active sync   /dev/sdb5
       3       8       38        2      active sync   /dev/sdc6

Code:

/dev/md4:
        Version : 1.00
  Creation Time : Fri May 14 13:24:21 2010
     Raid Level : raid5
     Array Size : 362361856 (345.58 GiB 371.06 GB)
  Used Dev Size : 362361856 (345.58 GiB 371.06 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Sat May 22 19:55:25 2010
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : 4
           UUID : 65c9d82a:7b85280e:d1f5eef6:707e90c5
         Events : 6

    Number   Major   Minor   RaidDevice State
       0       8        6        0      active sync   /dev/sda6
       1       8       22        1      active sync   /dev/sdb6
       3       8       39        2      active sync   /dev/sdc7

Ich hoffe, Ihr könnt mir helfen.
Sollten noch weitere Angaben erforderlich sein, kann ich die sofort nachliefern.

vielen Dank und viele Grüße, Daiml

Geier0815 · 25 Mai 2010

Da ext3 eine Weiterentwicklung von ext2 ist die lediglich das journaling enthält, kann und wird das eigentliche Filesystem immer noch mit den ext2-Tools getestet, bzw deren Namen sind damals einfach beibehalten worden. Ist also schon richtig das diese Tools verwendet werden, keine Panik.
2.) Datensicherung bringt Extra-Leben! Da Raid-5 sich gleichmäßig über alle Platten erstreckt, kann (muß aber nicht) eine defekte Partition auch die nachfolgenden Partitionen mit ins Verderben reißen.
3.) So wie es aussieht, ist jetzt "nur noch" das Filesystem defekt. Von daher versuch mal (unter Beachtung des bei 2 genannten) eine Reparatur via fsck.ext3 von einer Rettungs-Konsole der DVD aus.

Anonymous · 25 Mai 2010

active raid5 sda6[0] sdc7[3] sdb6[1]

scheint mir irgendwie ursprünglich mal etwas anders konfiguriert gewesen zu sein. Die Reihenfolge 0 ;3 ; 1 mit fehlender 2 und deine Fehlermeldungen lassen da ganz schnell die Vermutung aufkommen, das die Raids irgendwie in der falschen Reihenfolge zusammengesetzt sind. Würde auch erklären warum er einen Sync haben wollt, weil nichts mehr gepasst hat. Meine erste Vermutung: du hast jetzt "Datenschrott"

Neuaufsetzten und Backup suchen. ich glaube nicht das ein fsck das beheben kann. Nicht das ich da irgendwas schwarz malen will, und ich hätte da auch in deinem Sinn gerne unrecht. Von den paar Infos, ohne genau zu wissen was wirklich gelaufen ist und welche Befehle genau abgegeben worden kann man das auch nicht wirklich 100% einschätzen. Aber das sieht mir nicht besonders gut aus.

robi

daiml · 25 Mai 2010

Tja solche Antworten hatte ich schon befürchtet :nosmile:

Es hatte mich schon stutzig gemacht, dass es zu meinem Problem keine weiterführenden Beiträge - geschweige denn Lösungen - gibt.

Ich werde nun die ganzen Platten platt machen (sehr sinniges Wortspiel) und das Sytem neu aufsetzen.
Da ich aus Erfahrung klug geworden bin, habe ich (natürlich) ein relativ frisches Backup :roll: - zumindest von meinen Datenpartitionen.
Jetzt beginnt halt wieder dieser langwierige (eigentlich nie endende) Konfigurationsmarathon.

Danke für Eure Mühe.
Der Thread ist geschlossen

lG daiml

[closed] Raid5 startet nach Update nicht mehr ...

daiml

Geier0815

Anonymous

Gast

daiml