Neuigkeiten:

still alive...

Hauptmenü

Falscher Alarm

Begonnen von olf-peter, 03. März 2004, 09:01:32

Vorheriges Thema - Nächstes Thema

olf-peter

PCheck (sshcheck) läuft bei mir alle 10 Minuten durch Aufruf via Cron.
Ab und an kommt es zu einem falschen Alarm (NOTOK) obwohl der überwachte Server und Dienst definitiv erreichbar war. Getestet wurde der http-Aufruf (File mit \\\"Success\\\") und Ping. Beide Testarten bringend as gleiche Problem.
Auffällig dabei ist, dass PCheck bzw. sshcheck bei den \\\"Fehlalarmen\\\" erstaunlich lange Laufzeit zu haben scheint (> 3 Minuten). Ich vermute daher irgendeinen Timeout-Fehler oder ähnliches.
Beispiel:
Das Script läuft um:
10:00 Uhr
10:10 Uhr
10:20 Uhr
10:30 Uhr
10:40 Uhr
10:50 Uhr
11:00 Uhr
Bei einem \\\"Fehlalarm\\\" braucht das Script knapp 3 Minuten um die Benachrichtigungsmail zu versenden.

Powie

jo Peter, ich hab das gleiche Phänomen. Wieso das so passiert habe ich bisher nicht rausbekommen.
Aber: Zum Test hab ich das Script auf einen anderen Server in einem ganz anderen RZ noch einmal in Betrieb. Und erstaunlicherweise bringt es zu den selben Zeitpunkten die selben Meldungen. Davon gehe ich mittlerweile davon aus das ich wirklich richtig prüfe. Und ich kann auch bestätigen das es egal ist ob ich PING oder Port prüfe...
Tip: Trage mal hier bei mir den selben Checker ein wie du bei dir im eigenen Script hast.

olf-peter

Kann ich noch nicht so ganz nachvollziehen. Die Zeiten sind sogar auf dem gleichen Server  unterschiedlich:
Server: s1 (von pscript.de überwacht - public)
01.03.2004, 00:30:02 OK
01.03.2004, 00:18:11 NOTOK
25.02.2004, 06:15:06 OK
25.02.2004, 06:03:16 NOTOK
Server: s1 (von pscript.de überwacht - private)
01.03.2004, 22:45:02 OK
01.03.2004, 22:33:11 NOTOK
24.02.2004, 14:15:08 OK
Server s1 (von s2 überwacht)
03.03.2004, 10:20:08 OK
03.03.2004, 10:13:18 NOTOK
29.02.2004, 18:40:12 OK
29.02.2004, 18:33:26 NOTOK
26.02.2004, 18:05:56 OK

Powie

jupp.... dann werd ich mal die Check Routine überprüfen . Vielleicht finde ich da was !

olf-peter


Original von Powie jupp.... dann werd ich mal die Check Routine überprüfen . Vielleicht finde ich da was !
[/quote]
Hallo Thomas,
konntest du etwas entdecken?
Gruß
Olf

Powie

jein...
ich habe verschiedenste Sachen probiert. Es ist nicht klar wieso manche Tests fehlschlagen. aber ich habe das Problem jetzt so gelöst:
Ich führe grundsätzlich 2 Tests durch. Die Statusänderung wird nur durchgeführt wenn beide Test\'s das selber Ergebnis haben. Schlägt ein Test fehl, mache ich eine Pause von 2 Sekunden (das sollte reichen um kurzzeitige Probleme und LAG Ärger aus der welt zu schaffen), danach teste ich das zweite mal.
Diese Variante teste ich jetzt so.
Die sshcheck liegt auch im CVS !

olf-peter


Original von Powie Die sshcheck liegt auch im CVS !
[/quote]
Ist seit einigen tagen drin und scheint keine Probleme zu machen. Ich teste mal weiter.
Danke

Powie

Sieht gut aus so. Registriere selber auch keinerlei fehler mehr !

all your base are belong to us