• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Systemstillstand nach Lastspitze

FiReBaLl

Newbie
hallo,
ich wende mich hier mit meinem problem an diese community, da ich absolut keine ahnung habe, was die ursache des folgenden problems ist. hoffentlich bin ich auch im richtigen board gelandet.

ich habe zu analyse zwecken des netzwerkverkehrs an einem switch mit 3 mirror ports ein system mit SLES 10 hängen. die 3 mirror ports sind mit den 3 sniffer karten des systems verbunden, die jeweils im monitormode laufen. zusätzlich zu diesen 3 karten befindet sich noch eine 4. kommunikationskarte im server, über die der server administriert wird. die 4 nics im system sind jeweils intel pro/1000 gt server adapter, die mit dem intel treiber in version 7.6.9-NAPI bedient werden. die analyse des netzwerkverkehrs läuft auch ganz prima, bis auf die tatsache, dass sich das system nach einer undefinierten nicht reproduzierbaren zeitspanne ins nirvana weghängt und stehen bleibt. logs hören einfach auf etc., allerdings ist das system noch pingbar, das system ist aber nicht mehr zu bedienen.

folgende vermutungen zu dem problem hatte ich, die aber das problem nicht behoben haben:

- IRQ konflikt
--> dadurch, dass sich die sniffer eth2 und eth3 einen interrupt teilen hatte ich auf einen irq konflikt getippt, allerdings hat ein entfernen der bei den anderen sniffer karten und der betrieb des systems mit nur einer sniffer karte das problem nicht gelöst. auch das tauschen der slots hat keine besserung erbracht

- treiber problem
--> habe den oben im text genannten treiber kompiliert und geladen, allerdings auch ohne erfolg. das system bleibt ebenfalls stehen. auch der neueste treiber für diese karten hat das problem nicht gelöst.

ich habe auch schon versucht mit einem crashdump der ganzen geschichte auf die schliche zu kommen, allerdings ebenfalls ohne erfolg, da kein crashdump in dieser situation erzeugt wird. habe kexec und crash in diesem zusammenhang probiert.

hat jemand schon mal ein ähnliches phänomen beobachtet? ich bin wirklich um jeden tip dankbar und werde ihn auch auf jeden fall ausprobieren. lasst es mich wissen falls ihr noch mehr input braucht, was das system angeht.

vielen dank schon mal im vorraus ...
 

nbkr

Guru
Ich hatte ein ähnliches Problem mit einem IBM Rechner (kleiner Desktoprechner der später als Fileserver genutzt wurde). Die Maschine bliebt nach 24 - 48 Stunden einfach stehen. Es war noch pingbar, aber sonst lief nichts mehr. Ursache war wohl ACPI, jedenfalls trat das Problem nach abschalten des ACPI nicht mehr auf.
 
OP
F

FiReBaLl

Newbie
ok das ist ja schon mal ein ansatz. könntest du mir vll kurz erläutern in wie fern der acpi ein system zum absturz und/oder stillstand bringen kann?
 
OP
F

FiReBaLl

Newbie
guten morgen,
also ein acpi problem kann nicht vorliegen, da acpi im bios deaktviert ist. die option ist schon immer deaktiviert und nicht erst seit kurzem.

braucht ihr mehr infos zum system, um eine aussage treffen zu können?
 
OP
F

FiReBaLl

Newbie
hier schon mal die irq belegung:

Code:
           CPU0       
  0:     195768    IO-APIC-edge  timer
  1:         14    IO-APIC-edge  i8042
  2:          0          XT-PIC  cascade
  4:         76    IO-APIC-edge  serial
  8:         16    IO-APIC-edge  rtc
 15:      10874    IO-APIC-edge  ide1
137:          0   IO-APIC-level  uhci_hcd:usb1
153:     178520   IO-APIC-level  3w-9xxx, uhci_hcd:usb3, eth2
161:      94271   IO-APIC-level  uhci_hcd:usb2, eth1, cmdrv
169:      61501   IO-APIC-level  eth3
177:      81466   IO-APIC-level  snd_ca0106, MTDRV
185:     172620   IO-APIC-level  eth0, MTDRV
193:          3   IO-APIC-level  ehci_hcd:usb4
NMI:          0 
LOC:     195664 
ERR:          0
MIS:          0
 
OP
F

FiReBaLl

Newbie
und noch das output das lspci liefert:

Code:
00:00.0 Host bridge: Intel Corporation 82845G/GL[Brookdale-G]/GE/PE DRAM Controller/Host-Hub Interface (rev 03)
00:02.0 VGA compatible controller: Intel Corporation 82845G/GL[Brookdale-G]/GE Chipset Integrated Graphics Device (rev 03)
00:1d.0 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #1 (rev 02)
00:1d.1 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #2 (rev 02)
00:1d.2 USB Controller: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) USB UHCI Controller #3 (rev 02)
00:1d.7 USB Controller: Intel Corporation 82801DB/DBM (ICH4/ICH4-M) USB2 EHCI Controller (rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 82)
00:1f.0 ISA bridge: Intel Corporation 82801DB/DBL (ICH4/ICH4-L) LPC Interface Bridge (rev 02)
00:1f.1 IDE interface: Intel Corporation 82801DB (ICH4) IDE Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801DB/DBL/DBM (ICH4/ICH4-L/ICH4-M) SMBus Controller (rev 02)
01:08.0 Ethernet controller: Intel Corporation 82801DB PRO/100 VE (CNR) Ethernet Controller (rev 82)
01:0d.0 Multimedia audio controller: Creative Labs SB Audigy LS
01:0e.0 RAID bus controller: 3ware Inc 9xxx-series SATA-RAID
01:0f.0 PCI bridge: Texas Instruments PCI2050 PCI-to-PCI Bridge (rev 02)
02:07.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05)
02:08.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05)
02:09.0 Ethernet controller: Intel Corporation 82541PI Gigabit Ethernet Controller (rev 05)
02:0a.0 Computer telephony device: MUSIC Semiconductors Unknown device 1016
02:0b.0 Computer telephony device: MUSIC Semiconductors Unknown device 1016
02:0c.0 Multimedia controller: PLD APPLICATIONS Unknown device 5020 (rev 01)
 

nbkr

Guru
Stell das ACPI Interface des Kernels auch mal ab. Linux ignoriert das Bios bei bestimmten funktionen. Wie das ACPI den Rechner exakt zum Stillstand bringt kann ich dir nicht sagen, nur das es dazu führen kann.
 
OP
F

FiReBaLl

Newbie
so hatte den ganze morgen das system mit dem boot parameter "noacpi" laufen und grad eben ist die kiste wieder an die wand gefahren *ARRGGHHH* ich werd noch wahnsinnig ...
 
OP
F

FiReBaLl

Newbie
guten abend,
also ich habe immer noch keine lösung für mein problem gefunden. hat noch jemand einen tip für mich, was mein system noch zum einfrieren bringen könnte?

vielen dank ...
 

misiu

Moderator
Teammitglied
Folgende Kernelbootoptionen solltest du noch versuchen (separat):
Code:
irqpoll
acpi=noirq
pci=nomsi
noapic
irqfixup
pci=routeirq

MfG
misiu
 
OP
F

FiReBaLl

Newbie
vielen dank für die info! werd ich im hinterkopf behalten und systematisch durch probieren.

ich bin allerdings für alle weiteren tips , die zur lösung meines problems beitragen könnten empfänglich :)
 

misiu

Moderator
Teammitglied
Welche Module sind geladen?
Vor allem würde ich bei dem SATA-RAID ansetzen:
Welche Einstellungen sind im BIOS für SATA aktiv?
Mit welchen Zusatzparametern ist das SATA-Modul versehen?
Wieviele Platten laufen dran?
Und so neben dran: Hast du schon den RAM-Speicher getestet?
Hast du schon mal im laufendem Betrieb die "dmesg"-Meldungen
betrachtet?

MfG
misiu
 
OP
F

FiReBaLl

Newbie
danke danke damit kann ich mich am we wieder ein bisschen beschäftigen.

speicher hab ich schon getestet --> keine probleme
btw: die ram timings sind auch ganz konservativ eingestellt.

dmesg hab ich mir im laufenden betrieb auch schon des öfteren ausgeben lassen, da passt soweit alles.

im raid verbund laufen 2 platten.

die anderen punkte werd ich nochmal durchgehen ...
 

misiu

Moderator
Teammitglied
Ich sehe gerade, dass deinem ACPI kein Interrupt zugewiesen ist. Es kann
umgekehrt sein, dass APIC ohne ACPI läuft, vielleicht muss dann
ACPI-Start erzwungen werden mit acpi=force, sehe auch:
http://de.opensuse.org/SDB:Kernelparameter_f%C3%BCr_ACPI/APIC

Welche Meldungen über ACPI gibts in der :
/var/log/boot.msg
?

MfG
misiu
 
OP
F

FiReBaLl

Newbie
guten morgen,
folgende meldungen finden sich hierzu in /var/log/boot.msg:

Code:
ACPI: Unable to locate RSDP
ACPI: Subsystem revision 20060127
ACPI: Interpreter disabled.
pnp: PnP ACPI: disabled
PCI quirk: region 4000-407f claimed by ICH4 ACPI/GPIO/TCO
acpid: no ACPI support in kernelskipped
 

misiu

Moderator
Teammitglied
Das bedeutet, wie ich vermutet habe, dass ACPI nicht läuft, weil die
ACPI-Tabelle aus dem BIOS nicht gelesen werden kann.

Sind aktuell irgendwelche Boot-Kernelparameter in der:
/boot/grub/menu.lst
eingetragen?

Da kannst du folgendes eintragen (oder erst beim Start , als
Bootparameter):
acpi=off apm=on

Sonst hätte ich auf deiner Stelle beim Hersteller
des Motherboardes nach BIOS-Update geschaut, allerdings
ist ein BIOS-Update nicht einfach und kann im schlimmsten
Fall einen nicht ansprechbaren Computer bedeuten.

MfG
misiu
 
OP
F

FiReBaLl

Newbie
das ist völlig korrekt, dass acpi nicht läuft, ist ja auch im bios deaktiviert.

meine menu.lst siehr folgendermassen aus:

Code:
# Modified by YaST2. Last modification on Tue Nov 16 16:26:08 2004

color white/blue black/light-gray
default 0
timeout 1
gfxmenu (hd0,0)/message

###Don't change this comment - YaST2 identifier: Original name: linux###
title Linux
    kernel (hd0,0)/vmlinuz root=/dev/sda3 vga=0x314 desktop showopts
    initrd (hd0,0)/initrd

###Don't change this comment - YaST2 identifier: Original name: failsafe###
title Failsafe
    kernel (hd0,0)/vmlinuz root=/dev/sda3 showopts ide=nodma apm=off acpi=off vga=normal nosmp noapic maxcpus=0 3
    initrd (hd0,0)/initrd

für den normalen start ist kein boot parameter angegeben, so wie ich das auch wollte. würde es denn deiner meinung nach was bringen wenn ich die parameter mit angebe?
 

misiu

Moderator
Teammitglied
...das ist völlig korrekt, dass acpi nicht läuft, ist ja auch im bios deaktiviert.

Ach ja.... hab ich oben überlesen....
Hast du Linux mit abgeschaltetem ACPI installiert?
Oder erst danach abgeschaltet?

MfG
misiu
 
OP
F

FiReBaLl

Newbie
guten morgen,
linux wurde mit abgeschaltetem acpi im bios installiert, bei der installation an sich hab ich nichts deaktiviert.
 
Oben