Jump to content
Sign in to follow this  
olf-peter

Falscher Alarm

Recommended Posts

PCheck (sshcheck) läuft bei mir alle 10 Minuten durch Aufruf via Cron.

Ab und an kommt es zu einem falschen Alarm (NOTOK) obwohl der überwachte Server und Dienst definitiv erreichbar war. Getestet wurde der http-Aufruf (File mit \"Success\") und Ping. Beide Testarten bringend as gleiche Problem.

Auffällig dabei ist, dass PCheck bzw. sshcheck bei den \"Fehlalarmen\" erstaunlich lange Laufzeit zu haben scheint (> 3 Minuten). Ich vermute daher irgendeinen Timeout-Fehler oder ähnliches.

Beispiel:

Das Script läuft um:

10:00 Uhr

10:10 Uhr

10:20 Uhr

10:30 Uhr

10:40 Uhr

10:50 Uhr

11:00 Uhr

Bei einem \"Fehlalarm\" braucht das Script knapp 3 Minuten um die Benachrichtigungsmail zu versenden.

Share this post


Link to post
Share on other sites

jo Peter, ich hab das gleiche Phänomen. Wieso das so passiert habe ich bisher nicht rausbekommen.


Aber: Zum Test hab ich das Script auf einen anderen Server in einem ganz anderen RZ noch einmal in Betrieb. Und erstaunlicherweise bringt es zu den selben Zeitpunkten die selben Meldungen. Davon gehe ich mittlerweile davon aus das ich wirklich richtig prüfe. Und ich kann auch bestätigen das es egal ist ob ich PING oder Port prüfe...


Tip: Trage mal hier bei mir den selben Checker ein wie du bei dir im eigenen Script hast.

Share this post


Link to post
Share on other sites

Kann ich noch nicht so ganz nachvollziehen. Die Zeiten sind sogar auf dem gleichen Server unterschiedlich:


Server: s1 (von pscript.de überwacht - public)

01.03.2004, 00:30:02 OK

01.03.2004, 00:18:11 NOTOK

25.02.2004, 06:15:06 OK

25.02.2004, 06:03:16 NOTOK


Server: s1 (von pscript.de überwacht - private)

01.03.2004, 22:45:02 OK

01.03.2004, 22:33:11 NOTOK

24.02.2004, 14:15:08 OK


Server s1 (von s2 überwacht)

03.03.2004, 10:20:08 OK

03.03.2004, 10:13:18 NOTOK

29.02.2004, 18:40:12 OK

29.02.2004, 18:33:26 NOTOK

26.02.2004, 18:05:56 OK

Share this post


Link to post
Share on other sites
Original von Powie

jupp.... dann werd ich mal die Check Routine überprüfen . Vielleicht finde ich da was !


Hallo Thomas,

konntest du etwas entdecken?

Gruß


Olf

Share this post


Link to post
Share on other sites

jein...


ich habe verschiedenste Sachen probiert. Es ist nicht klar wieso manche Tests fehlschlagen. aber ich habe das Problem jetzt so gelöst:


Ich führe grundsätzlich 2 Tests durch. Die Statusänderung wird nur durchgeführt wenn beide Test's das selber Ergebnis haben. Schlägt ein Test fehl, mache ich eine Pause von 2 Sekunden (das sollte reichen um kurzzeitige Probleme und LAG Ärger aus der welt zu schaffen), danach teste ich das zweite mal.

Diese Variante teste ich jetzt so.


Die sshcheck liegt auch im CVS !

Share this post


Link to post
Share on other sites
Original von Powie

Die sshcheck liegt auch im CVS !



Ist seit einigen tagen drin und scheint keine Probleme zu machen. Ich teste mal weiter.


Danke

Share this post


Link to post
Share on other sites
Guest
You are commenting as a guest. If you have an account, please sign in.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this  

×