• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Ursachensuche für Netzwerkausfall - Switch FastIron WS 624G

gehrke

Administrator
Teammitglied
Moin *

Laut Icinga und eigener Beobachtung hatte ich im heimischen Netzwerk diese Nacht einen massiven Ausfall über ca. 4 Stunden, welcher sich aber ohne mein Zutun wieder in Luft aufgelöst hat.

Nun suche ich nach der Ursache. Stromausfall kann ich anhand der Uptimes ausschliessen. Da besonders auch interne Systeme betroffen waren, ist der Internet-Provider ebenfalls raus.

Mein Netzwerk wird im wesentlichen bestritten durch eine pfSense, welche intern auch DHCP und Aufteilung in Sub-Netze/VLANs macht, sowie einem gut abgehangenenen 24-Port-Switch aus 2008 (ich trage gern die Hardware aus der Firma auf).

Auf beiden finde ich keine Hinweise auf Fehler, bei der pfSense ist die Suche deutlich intuitiver. Beim Switch ist es schon schwieriger, da könnte ich Hilfe gebrauchen.

Version und Uptime:
Code:
switch3(config)#show version
  SW: Version 04.3.01T7e1 Copyright (c) 1996-2008 Foundry Networks, Inc.
      Compiled on Nov 13 2008 at 20:57:47 labeled as FGS04301
      (2927690 bytes) from Primary fgs04301.bin
      BootROM: Version 05.0.00T7e5 (FEv2)
  HW: Stackable FWS624G
==========================================================================
STACKID 0: SL 1: FastIron WS 624G 24-port Management Module
      Serial  #: <xxx>
      P-ASIC  0: type D814, rev 01
==========================================================================
  400 MHz Power PC processor 8248 (version 130/2014) 66 MHz bus
  512 KB boot flash memory
30720 KB code flash memory
  256 MB DRAM
The system uptime is 93 days 9 hours 50 minutes 23 seconds 
The system : started=cold startswitch3(config)
Logging:
Code:
switch3(config)#show logging
Syslog logging: enabled (0 messages dropped, 0 flushes, 172 overruns)
    Buffer logging: level ACDMEINW, 50 messages logged
    level code: A=alert C=critical D=debugging M=emergency E=error
                I=informational N=notification W=warning

Static Log Buffer:
0d00h00m09s:A:System:  Power supply 1  is up


Dynamic Log Buffer (50 lines):
93d09h24m56s:I:System: Interface ethernet 0/1/5, state down
93d09h24m56s:I:STP: VLAN 18 Port 0/1/5 STP State -> DISABLED (PortDown)
93d09h16m44s:I:STP: VLAN 18 Port 0/1/5 STP State -> FORWARDING (FwdDlyExpiry)
93d09h16m42s:I:STP: VLAN 18 Port 0/1/5 STP State -> LEARNING (FwdDlyExpiry)
93d09h16m41s:I:System: Interface ethernet 0/1/5, state up
93d09h16m41s:I:STP: VLAN 18 Port 0/1/5 STP State -> LISTENING (MakeFwding)
93d08h49m31s:I:STP: VLAN 11 Port 0/1/17 STP State -> FORWARDING (FwdDlyExpiry)
93d08h49m29s:I:STP: VLAN 11 Port 0/1/17 STP State -> LEARNING (FwdDlyExpiry)
93d08h49m27s:I:System: Interface ethernet 0/1/17, state up
93d08h49m27s:I:STP: VLAN 11 Port 0/1/17 STP State -> LISTENING (MakeFwding)
93d08h49m22s:I:System: Interface ethernet 0/1/17, state down
93d08h49m22s:I:STP: VLAN 11 Port 0/1/17 STP State -> DISABLED (PortDown)
93d03h17m02s:I:STP: VLAN 11 Port 0/1/12 STP State -> FORWARDING (FwdDlyExpiry)
93d03h17m00s:I:STP: VLAN 11 Port 0/1/12 STP State -> LEARNING (FwdDlyExpiry)
93d03h16m58s:I:System: Interface ethernet 0/1/12, state up
93d03h16m58s:I:STP: VLAN 11 Port 0/1/12 STP State -> LISTENING (MakeFwding)
92d19h01m50s:I:System: Interface ethernet 0/1/8, state down
92d19h01m50s:I:STP: VLAN 13 Port 0/1/8 STP State -> DISABLED (PortDown)
92d15h59m41s:I:STP: VLAN 11 Port 0/1/17 STP State -> FORWARDING (FwdDlyExpiry)
92d15h59m39s:I:STP: VLAN 11 Port 0/1/17 STP State -> LEARNING (FwdDlyExpiry)
92d15h59m37s:I:System: Interface ethernet 0/1/17, state up
92d15h59m37s:I:STP: VLAN 11 Port 0/1/17 STP State -> LISTENING (MakeFwding)
92d15h59m35s:I:System: Interface ethernet 0/1/17, state down
92d15h59m35s:I:STP: VLAN 11 Port 0/1/17 STP State -> DISABLED (PortDown)
92d15h23m12s:I:STP: VLAN 11 Port 0/1/17 STP State -> FORWARDING (FwdDlyExpiry)
92d15h23m10s:I:STP: VLAN 11 Port 0/1/17 STP State -> LEARNING (FwdDlyExpiry)
92d15h23m08s:I:System: Interface ethernet 0/1/17, state up
92d15h23m08s:I:STP: VLAN 11 Port 0/1/17 STP State -> LISTENING (MakeFwding)
92d15h23m03s:I:System: Interface ethernet 0/1/17, state down
92d15h23m03s:I:STP: VLAN 11 Port 0/1/17 STP State -> DISABLED (PortDown)
92d14h37m12s:I:STP: VLAN 13 Port 0/1/8 STP State -> FORWARDING (FwdDlyExpiry)
92d14h37m10s:I:STP: VLAN 13 Port 0/1/8 STP State -> LEARNING (FwdDlyExpiry)
92d14h37m08s:I:System: Interface ethernet 0/1/8, state up
92d14h37m08s:I:STP: VLAN 13 Port 0/1/8 STP State -> LISTENING (MakeFwding)
92d14h37m07s:I:System: Interface ethernet 0/1/8, state down       
92d14h37m07s:I:STP: VLAN 13 Port 0/1/8 STP State -> DISABLED (PortDown)
92d14h36m56s:I:STP: VLAN 13 Port 0/1/8 STP State -> FORWARDING (FwdDlyExpiry)
92d14h36m54s:I:STP: VLAN 13 Port 0/1/8 STP State -> LEARNING (FwdDlyExpiry)
92d14h36m53s:I:System: Interface ethernet 0/1/8, state up
92d14h36m53s:I:STP: VLAN 13 Port 0/1/8 STP State -> LISTENING (MakeFwding)
92d13h40m10s:I:System: Interface ethernet 0/1/8, state down
92d13h40m10s:I:STP: VLAN 13 Port 0/1/8 STP State -> DISABLED (PortDown)
92d13h17m50s:I:STP: VLAN 13 Port 0/1/8 STP State -> FORWARDING (FwdDlyExpiry)
92d13h17m48s:I:STP: VLAN 13 Port 0/1/8 STP State -> LEARNING (FwdDlyExpiry)
92d13h17m47s:I:System: Interface ethernet 0/1/8, state up
92d13h17m47s:I:STP: VLAN 13 Port 0/1/8 STP State -> LISTENING (MakeFwding)
92d13h17m45s:I:System: Interface ethernet 0/1/8, state down
92d13h17m45s:I:STP: VLAN 13 Port 0/1/8 STP State -> DISABLED (PortDown)
Ich sehe da keine Hinweise auf Fehler.
Habt Ihr einen Tipp, ob ich aus dem Switch noch mehr relevante Informationen herauslutschen kann?
TNX

Glückauf, gehrke
 

admine

Ultimate Guru
HAllo,

auf jeden Fall würde ich das Loging von "Uptime" auf "Date+Time" umstellen. Das erleichtert eine Fehlersuche ungemein und sollte bei deinem Switch auch möglich sein (ich kenne nur Cisco-Switche, sorry :roll: ).
Was sagen denn die einzelnen Interface? Gibt es Fehler?
Btw. wie hast du denn den Ausfall bemerkt? Kannst du ihn auf einzelne Komponenten eingrenzen?
 
OP
gehrke

gehrke

Administrator
Teammitglied
admine schrieb:
auf jeden Fall würde ich das Loging von "Uptime" auf "Date+Time" umstellen. Das erleichtert eine Fehlersuche ungemein und sollte bei deinem Switch auch möglich sein (ich kenne nur Cisco-Switche, sorry :roll: ).
Es ist unsäglich peinlich, aber das Setzen der Uhrzeit ist mir bislang noch nicht gelungen. Weder manuell noch via SNTP. Scheinbar geht die verfügbare Dokumentation mit meinem Device auseinander. Oder ich bin einfach zu doof.

admine schrieb:
Was sagen denn die einzelnen Interface? Gibt es Fehler?
Code:
switch3(config)#show statistics

Port            In Packets          Out Packets       In Errors      Out Errors
0/1/1           1885921209           1259659924               0               0
0/1/2           1647792710           1573603072               0               0
0/1/3            174205146            112469906               0               0
0/1/4              1702800              5844524               0               0
0/1/5                11883                68085               0               0
0/1/6                62169               714683               0               0
0/1/7                    0                    0               0               0
0/1/8               750786              5426302               0               0
0/1/9            540934745            929460939              22               0
0/1/10             3104234              6128697               0               0
0/1/11                   0                    0               0               0
0/1/12           343443693            164234842             156               0
0/1/13             1923357              6163050               0               0
0/1/14           825949824            541650020               0               0
0/1/15                   0                    0               0               0
0/1/16              828088              1685989               0               0
0/1/17            55798275             95169613               0               0
0/1/18             3481787              6840324               0               0
0/1/19               10925                26928               0               0
0/1/20           245998364            674178278               0               0
0/1/21           246648715            147293988               0               0
0/1/22             1661718              5850940               0               0
0/1/23           463357068           1173670248               0               0
0/1/24                   0                    0               0               0

TOTAL           6443587496           6710140352             178               0
Laut Statistik nur sehr sporadisch und punktuell. Im normalen Betrieb ist mir auch gar nichts aufgefallen.

admine schrieb:
Btw. wie hast du denn den Ausfall bemerkt? Kannst du ihn auf einzelne Komponenten eingrenzen?
Tochter hat am späten Abend Verbindungsprobleme (Smartphone via WLAN) gesehen und am nächsten morgen gemeldet.
In der Nacht hat Icinga Alarm gemacht für ganz viele Systeme, teilweise im LAN am Kabel direkt am Switch.
Und ich habe morgens via WLAN keine Verbindung mit einem Fedora-Notebook bekommen.
 

admine

Ultimate Guru
Und an der Firewall nichts zu erkennen? Hat sie evt. einen Reboot gemacht oder ist DHCP ausgefallen?
Hast du eine virt. Appliances? Wenn ja, hatte das Host-System ein Problem?

Sorry, aber irgendwie "fischt man im Trüben" - ich kenn das und ich würde es nicht unbedingt am Switch fest machen.
 
OP
gehrke

gehrke

Administrator
Teammitglied
Kein Reboot bei der Firewall und in deren Logs habe ich nichts gefunden.

Nein, ich denke auch nicht, dass es zwingend am Switch liegt. Aber an der Firewall wohl auch nicht. Und was anderes von dem Wirkpotential habe ich nicht wissentlich. Ich stochere vor mich hin...
 

admine

Ultimate Guru
Kann sein, dass du die Ursache nicht finden wirst, da ja später wieder alles lief.
Das ist letztendlich schön, aber auch frustrierend :(

Vielleicht hat ja noch jemand einen heißen Tipp für dich. Mir fällt momentan nichts mehr ein :/
 
OP
gehrke

gehrke

Administrator
Teammitglied
DHCP+DNS macht die pfSense.

WLAN spielt keine entscheidende Rolle:
gehrke schrieb:
In der Nacht hat Icinga Alarm gemacht für ganz viele Systeme, teilweise im LAN am Kabel direkt am Switch.
Nein, der WLAN-Router wurde ebenfalls nicht neu gestartet.
 
A

Anonymous

Gast
gehrke schrieb:
Lieberknecht schrieb:
IPFire 2.27 - Core Update 160 drauf oder was genau ?
Was meinst Du?

Ich glaube da verwechselt jemand was. :irre:

Ipfire ist genau wie pdfsense eine Firewall OS sonst nichts,
Was du da beschreibst klingt nach eine OS Problem was aber im nach hinein schwer zu analysieren ist.
 
Oben