device removed ohne grund

error · 30 Jan. 2010

jetzt ist es mir schon zum zweiten mal passiert innerhalb einer woche.
ein device ist removed ohne ersichtlichen grund (aus einem md raid5)

hier habe ich die messages
http://chdir.de/_download/messages.20100130.log

könnt ihr da was draus lesen?
ich kann ca. sagen das es nach 12:00 passiert ist. um es ein wenig einzuschränken

pft · 30 Jan. 2010

Also erstmal solltest Du wissen, dass Du uns da ganz schön etwas zumutest. Wenn der Fehler nach 12:00 auftrat, warum posest Du dann ein Log das schon um 11:00 beginnt?

Aber wir woll' ja mal nicht so sein.
Das ist ja eine einzige Serie von Reboots, der erste gegen 12:06
Manuell oder durch einen HW-Defekt?

Ausserdem scheinst Du ja einen ganzen Zoo von Platten im System zu haben. Vielleicht kannst Du uns mal sagen was drin ist und wie der Soll-Zustand aussieht.

Was man erkennen kann ist das ein Raid5 mit 3 Platten aufgebaut wird und dann geht's dahin:

Code:

Jan 30 13:04:38 debian kernel: [    7.937569] md: raid6 personality registered for level 6
Jan 30 13:04:38 debian kernel: [    7.937571] md: raid5 personality registered for level 5
Jan 30 13:04:38 debian kernel: [    7.937572] md: raid4 personality registered for level 4
Jan 30 13:04:38 debian kernel: [    7.937649] raid5: device sdb operational as raid disk 0
Jan 30 13:04:38 debian kernel: [    7.937656] raid5: device sde operational as raid disk 3
Jan 30 13:04:38 debian kernel: [    7.937663] raid5: device sdc operational as raid disk 1
Jan 30 13:04:38 debian kernel: [    7.937880] raid5: allocated 4222kB for md0
Jan 30 13:04:38 debian kernel: [    7.937971] 0: w=1 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=0
Jan 30 13:04:38 debian kernel: [    7.937973] 3: w=2 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=0
Jan 30 13:04:38 debian kernel: [    7.937974] 1: w=3 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=0
Jan 30 13:04:38 debian kernel: [    7.938055] RAID5 conf printout:
Jan 30 13:04:38 debian kernel: [    7.938056]  --- rd:4 wd:3
Jan 30 13:04:38 debian kernel: [    7.938057]  disk 0, o:1, dev:sdb
Jan 30 13:04:38 debian kernel: [    7.938059]  disk 1, o:1, dev:sdc
Jan 30 13:04:38 debian kernel: [    7.938060]  disk 3, o:1, dev:sde
Jan 30 13:04:38 debian kernel: [    7.938078] md0: detected capacity change from 0 to 4500905459712
Jan 30 13:04:38 debian kernel: [    7.938825]  md0: unknown partition table
Jan 30 13:04:38 debian kernel: [    8.344025] EXT3-fs warning: maximal mount count reached, running e2fsck is recommended
Jan 30 13:04:38 debian kernel: [    8.344225] EXT3 FS on sda1, internal journal

Also ich bin ja nicht der raid Spezialist aber für mich hast Du entweder massiv etwas verkonfiguriert oder Du hast einen HW-Fehler der zu den Reboots führt.

error · 31 Jan. 2010

okay ich habe echt mit infos gespart.
die reboots kommen von mir. und ich habe 5 platten drin, 1 boot 4 raid5.
und ich glaube, ich habe die max mount count erreicht und wärend des fsck einen reboot gemacht.
führt das zu einem rauswurf einer platte im md array?
ich habe auch alle raid platten mal mit smart longtest überprüfen lassen, bei allen gabs:

Code:

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       315         -

pft · 31 Jan. 2010

okay ich habe echt mit infos gespart.
die reboots kommen von mir. und ich habe 5 platten drin, 1 boot 4 raid5.

da kann ich nur sagen: Du bist immer noch sehr sparsam!
wie sind die platten angeschlossen, Typ, Controller ...
Welche Platten sind im Taid welche ist die Boot-disk
und so weiter ... wer so was aufbaut hat entweder einigermaßen Ahnung und sollte uns hier nicht vergackeiern, oder er hat sie nicht. Dann ist das ganze hier sowieso hoffnungslos.

Und wer nur zu faul ist sich durch ellenlange logs zu quälen der sollte mal anfangen zu denken

Ein einfaches grep auf dein log ergibt folgendes:

Code:

# grep -A5 "RAID5 conf printout:" messages.20100130.log
Jan 30 11:06:03 debian kernel: [    7.968180] RAID5 conf printout:
Jan 30 11:06:03 debian kernel: [    7.968181]  --- rd:4 wd:4
Jan 30 11:06:03 debian kernel: [    7.968182]  disk 0, o:1, dev:sdb
Jan 30 11:06:03 debian kernel: [    7.968183]  disk 1, o:1, dev:sdc
Jan 30 11:06:03 debian kernel: [    7.968184]  disk 2, o:1, dev:sdd
Jan 30 11:06:03 debian kernel: [    7.968185]  disk 3, o:1, dev:sde
--
Jan 30 11:38:03 debian kernel: [    7.881431] RAID5 conf printout:
Jan 30 11:38:03 debian kernel: [    7.881432]  --- rd:4 wd:4
Jan 30 11:38:03 debian kernel: [    7.881433]  disk 0, o:1, dev:sda
Jan 30 11:38:03 debian kernel: [    7.881434]  disk 1, o:1, dev:sdb
Jan 30 11:38:03 debian kernel: [    7.881436]  disk 2, o:1, dev:sdc
Jan 30 11:38:03 debian kernel: [    7.881437]  disk 3, o:1, dev:sdd
--
Jan 30 11:44:39 debian kernel: [    7.943088] RAID5 conf printout:
Jan 30 11:44:39 debian kernel: [    7.943089]  --- rd:4 wd:4
Jan 30 11:44:39 debian kernel: [    7.943091]  disk 0, o:1, dev:sdb
Jan 30 11:44:39 debian kernel: [    7.943093]  disk 1, o:1, dev:sdc
Jan 30 11:44:39 debian kernel: [    7.943094]  disk 2, o:1, dev:sdd
Jan 30 11:44:39 debian kernel: [    7.943096]  disk 3, o:1, dev:sde
--
Jan 30 11:49:18 debian kernel: [    8.058932] RAID5 conf printout:
Jan 30 11:49:18 debian kernel: [    8.058933]  --- rd:4 wd:4
Jan 30 11:49:18 debian kernel: [    8.058934]  disk 0, o:1, dev:sdb
Jan 30 11:49:18 debian kernel: [    8.058935]  disk 1, o:1, dev:sdc
Jan 30 11:49:18 debian kernel: [    8.058936]  disk 2, o:1, dev:sdd
Jan 30 11:49:18 debian kernel: [    8.058937]  disk 3, o:1, dev:sde
--
Jan 30 11:54:28 debian kernel: [    8.130381] RAID5 conf printout:
Jan 30 11:54:28 debian kernel: [    8.130382]  --- rd:4 wd:4
Jan 30 11:54:28 debian kernel: [    8.130383]  disk 0, o:1, dev:sda
Jan 30 11:54:28 debian kernel: [    8.130385]  disk 1, o:1, dev:sdb
Jan 30 11:54:28 debian kernel: [    8.130386]  disk 2, o:1, dev:sdc
Jan 30 11:54:28 debian kernel: [    8.130387]  disk 3, o:1, dev:sdd
--
Jan 30 12:06:45 debian kernel: [    7.982807] RAID5 conf printout:
Jan 30 12:06:45 debian kernel: [    7.982808]  --- rd:4 wd:3
Jan 30 12:06:45 debian kernel: [    7.982809]  disk 0, o:1, dev:sda
Jan 30 12:06:45 debian kernel: [    7.982810]  disk 1, o:1, dev:sdb
Jan 30 12:06:45 debian kernel: [    7.982812]  disk 3, o:1, dev:sdc
Jan 30 12:06:45 debian kernel: [    7.982829] md0: detected capacity change from 0 to 4500905459712
--
Jan 30 12:17:58 debian kernel: [    7.924835] RAID5 conf printout:
Jan 30 12:17:58 debian kernel: [    7.924837]  --- rd:4 wd:3
Jan 30 12:17:58 debian kernel: [    7.924838]  disk 0, o:1, dev:sdb
Jan 30 12:17:58 debian kernel: [    7.924840]  disk 1, o:1, dev:sdc
Jan 30 12:17:58 debian kernel: [    7.924841]  disk 3, o:1, dev:sde
Jan 30 12:17:58 debian kernel: [    7.924862] md0: detected capacity change from 0 to 4500905459712
--
Jan 30 12:24:32 debian kernel: [    7.977987] RAID5 conf printout:
Jan 30 12:24:32 debian kernel: [    7.977989]  --- rd:4 wd:3
Jan 30 12:24:32 debian kernel: [    7.977992]  disk 0, o:1, dev:sda
Jan 30 12:24:32 debian kernel: [    7.977995]  disk 1, o:1, dev:sdb
Jan 30 12:24:32 debian kernel: [    7.977998]  disk 3, o:1, dev:sdd
Jan 30 12:24:32 debian kernel: [    7.978024] md0: detected capacity change from 0 to 4500905459712
--
Jan 30 13:04:38 debian kernel: [    7.938055] RAID5 conf printout:
Jan 30 13:04:38 debian kernel: [    7.938056]  --- rd:4 wd:3
Jan 30 13:04:38 debian kernel: [    7.938057]  disk 0, o:1, dev:sdb
Jan 30 13:04:38 debian kernel: [    7.938059]  disk 1, o:1, dev:sdc
Jan 30 13:04:38 debian kernel: [    7.938060]  disk 3, o:1, dev:sde
Jan 30 13:04:38 debian kernel: [    7.938078] md0: detected capacity change from 0 to 4500905459712
--
Jan 30 13:33:23 debian kernel: [    8.142615] RAID5 conf printout:
Jan 30 13:33:23 debian kernel: [    8.142617]  --- rd:4 wd:3
Jan 30 13:33:23 debian kernel: [    8.142618]  disk 0, o:1, dev:sdb
Jan 30 13:33:23 debian kernel: [    8.142620]  disk 1, o:1, dev:sdc
Jan 30 13:33:23 debian kernel: [    8.142621]  disk 3, o:1, dev:sde
Jan 30 13:33:23 debian kernel: [    8.142639] md0: detected capacity change from 0 to 4500905459712

In dem Log finden sich 10 boot Vorgänge: 11:06, 11:38, 11:44, 11:49, 11:54, 12:06, 12:17, 12:24, 13:04, 12:33
Das heisst zunächst hast du ein Raid mit 4 PLatten, allerdings mit unterschiedlichen Platten, mal sd[bcde] (11:06, 11:44, 11:49) und mal sd[abcd] (11:38, 11:54).
Ab 12:00 hast Du nur noch 3 PLatten im Raid und zwar schon beim booten! Und zwar
um 12:06 sd[abc], um 12:17 sd[bcd], 12:24 sd[abd], 13:04 und13:33 sd[bce]

Ab 12:17 findet sich auch folgendes im Log:

Code:

# grep "md: kicking non-fresh" messages.20100130.log                                                  Jan 30 12:17:58 debian kernel: [    7.157320] md: kicking non-fresh sdd from array!
Jan 30 12:24:32 debian kernel: [    7.219439] md: kicking non-fresh sdc from array!
Jan 30 13:04:38 debian kernel: [    7.177724] md: kicking non-fresh sdd from array!
Jan 30 13:33:23 debian kernel: [    7.382113] md: kicking non-fresh sdd from array!

Also für mich sieht das so aus, als ob Du da ständig herumbastelst und dir dabei um 12:00 entweder etwas abgeraucht ist, ein Kabel, Stecker die Grätsche gemacht hat und ein vergleichbarer Vorgang SW-seitig (Konfigurationsgebastel) passiert ist. Fakt ist: eine Platte war nicht da.
Danach war dann die eine Platte dann nicht mehr brauchbar und wurde aus dem raid geworfen.

error · 1 Feb. 2010

es ist eben wieder passiert und ich verstehe es nicht.
habe extra die seriennummer von den platten rausgeschrieben. diesmal ist eine andere abgehauen.

sie sind alle über onboard sata controller angeschlossen (6 port onboard) und ich habe das gehäuse nicht einmal angeschaut (also ich habe keine stecker getauscht oder sonst was).
Auf Port 1 - 4 sind meine RAID Platten
auf dem IDE Port ist eine kleine Boot Platte
Was ich hier nicht verstehe: Früher wurde mir eine PATA Platte als hd[abcd...] angezeigt und sie SATA Platten als sd[abcd...]
Heute ist die PATA Platte auch mit sd gekennzeichnet. UND! Diese bekommt in der Reihenfolge immer den letzten Buchstaben: SATA 1-4 (sd[abcd]) PATA sde
Wenn jetzt eine SATA (warum auch immer) nicht erkannt wird, dann sieht die vergabe so aus: SATA sd[abc] PATA sdd.
Kann ich das nicht irgendwie fix einstellen? Und wieso ist meine PATA auf einmal eine sd und keine hd mehr? hatte deswegen auch schon probleme mit dem GRUB loader gehabt.

ich will hier niemanden verkackeiern. die reboots habe ich gemacht,
weil meine max open files auf 1024 steht und ich sie nicht hochgeschraubt bekomme.
die logs kann ich nicht wirklich deuten, weil ich noch wenig erfahrung von der materie habe.

diesmal weiss ich aber, das kein fsck gelaufen ist und der rechner 100% sauber runtergefahren ist. was kann so etwas verursachen?

EDIT:
Nach langem suchen habe ich ein ähnliches Problem entdeckt:
http://serversupportforum.de/forum/dedizierte-server/37148-raid-zerschiesst-sich.html
Vielleicht liegt es einfach daran, dass ich eine Testing Version benutzte. Das tue ich, weil meine Hardware mit der letzten Stable Version nicht erkannt wird und ich keine Ahnung davon habe, wie ich die zum laufen bekomme.

Wen es interessiert:
Core™ i3-530 Prozessor (2x 2933 MHz, 2x 256 kByte)
ASUS P7H55-M PRO (Intel® H55 Express, 6.400 MT/s)

spoensche · 2 Feb. 2010

In der ersten, von dir geposteten Logmeldung

Code:

 sd 2:0:1:0: [sdc] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB)
Jan 30 13:33:23 debian kernel: [    2.543358]  unknown partition table
Jan 30 13:33:23 debian kernel: [    2.543396] sd 2:0:1:0: [sdc] Write Protect is off
Jan 30 13:33:23 debian kernel: [    2.543443] sd 2:0:1:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 30 13:33:23 debian kernel: [    2.543593]  sdc: unknown partition table
Jan 30 13:33:23 debian kernel: [    2.554957]  sde:
Jan 30 13:33:23 debian kernel: [    3.012609] sd 2:0:0:0: [sdb] Attached SCSI disk
Jan 30 13:33:23 debian kernel: [    3.015843]  unknown partition table
Jan 30 13:33:23 debian kernel: [    3.015928] sd 2:0:1:0: [sdc] Attached SCSI disk
Jan 30 13:33:23 debian kernel: [    3.036163]  unknown partition table

ist eine sehr wichtige Meldung enthalten, die besagt, dass /dev/sdc eine nicht bekannte bzw. zerschossene Partitionstabelle hat.

Die PATA Platten werden mitlerweile mit dem selben Treiber angesprochen, wie beispielsweise ein DVD- Laufwerk (also SCSI Emulation).
Die Reihenfolge der Platten hättest du im BIOS umstellen können.

Den onBoard RAID- Controller, falls vorhanden, hast du aber nicht im Betrieb sprich nicht konfiguriert, sondern deaktiviert oder?

Die Platten werden 100%ig bei der stabilen Version von dmraid erkannt und du hättest das RAID bzw. RAID- Array einrichten müssen.

error · 2 Feb. 2010

ich nutze nicht das raid des onboard controllers. wofür brauche ich da dmraid?
wenn ich den onboard controller deaktiviere, dann habe ich auch keine platten.
also der ist aktiviert. aber ich nutze nicht das onboard raid. eben ein md array mit mdadm.

die stable version hat mir nur die PATA angezeigt. nicht aber die SATA. also gab es hier wohl keinen treiber für den controller.

was ich nicht verstehe, warum hat sdc eine kaputte partitionstabelle, wenn die partition doch über 4 platten läuft und eigentlich md0 das partitionierte laufwerk ist?

device removed ohne grund

error

Newbie

pft

Advanced Hacker

error

Newbie

pft

Advanced Hacker

error

Newbie

spoensche

Moderator

error

Newbie