Diese Woche hatte ich mit einem interessantem Fall zu tun. Einer der Linksys SRW2048 Switche des Fachbereichs schien nicht mehr richtig zu arbeiten.
An dem Switch hingen zwei Server jeweils mit zwei Netzwerkkarten. Alle beiden Server sowie das Management-Interface des Switches waren ohne Probleme erreichbar. Nur die zweite Netzwerkkarte der Server wollte nicht richtig.
Die Symptome waren einfach: man konnte die Server nicht auf der zweiten Netzwerkkarte anpingen. Wohlgemerkt nur wenn man es von einem anderen Switch aus versuchte - intern klappte alles wunderbar.
Zuerst wurde also der Uplink des Switches verdächtig. Als erstes habe ich die redundante Anbindung an die beiden Backbone-Switche entfernt - aber selbst bei nur einer Verbindung zum Backbone blieb das Problem bestehen. Also wurde testweise der Port-Channel deaktiviert. Somit war der Switch nur noch von einem LAN-Kabel an die Backbone angeschlossen. Das brachte allerdings keine Besserung.
Eine genauere Analyse brachte zutage, dass ARP erfolgreich war. Der Switch lernte brav die angeschlossenen MAC-Adressen und auch die Backbone kannte alle MACs. ICMP-Pings gingen im unteren einstelligem Prozentbereich durch, aber auch wirklich nur ganz selten.
Die Fehlersuche ging also weiter. Reboot der Server und des Switches, Reset des Switches und leere Konfiguration - nichts half weiter.
Dann änderte ich die MAC-Adresse der zweiten Netzwerkkarte und siehe da - es funktionierte! Jetzt war es offensichtlich: der Switch hatte einen Fehler. Weitere Tests zeigten, dass der Switch jegliche Datenpakete mit einer ungeraden MAC-Adresse nicht sauber verarbeitete sobald die Rechner auf bestimmten Ports angeschlossen waren. Beispielsweise funktionierten die Ports 2 und 3 untereinander wunderbar, aber nicht in Kombination mit dem Uplinkport 48.
Über die eigentliche Ursache kann man nun nur mutmaßen. Wahrscheinlich hat sich durch den
Staub im Serverraum eine Datenleitung verabschiedet oder wurde kurzgeschlossen und ein Bit wird nicht mehr richtig übermittelt. Das Verhalten der Ports kann man sich vielleicht mit einer Backplaneaufteilung auf Portgruppen erklären...
Jedenfalls wurde der Switch nun außer Betrieb genommen und der Ersatz funktioniert wunderbar. Nur die Problemsuche war ein wenig ärgerlich - oft kann man durch strukturiertes Vorgehen einen Fehler schnell finden, aber selten geht man von einem Hardwaredefekt aus. Normalerweise liegen die Probleme ja ein wenig weiter oben im Schichtenmodell