Jump to content

Recommended Posts

PCheck (sshcheck) läuft bei mir alle 10 Minuten durch Aufruf via Cron.

Ab und an kommt es zu einem falschen Alarm (NOTOK) obwohl der überwachte Server und Dienst definitiv erreichbar war. Getestet wurde der http-Aufruf (File mit \"Success\") und Ping. Beide Testarten bringend as gleiche Problem.

Auffällig dabei ist, dass PCheck bzw. sshcheck bei den \"Fehlalarmen\" erstaunlich lange Laufzeit zu haben scheint (> 3 Minuten). Ich vermute daher irgendeinen Timeout-Fehler oder ähnliches.

Beispiel:

Das Script läuft um:

10:00 Uhr

10:10 Uhr

10:20 Uhr

10:30 Uhr

10:40 Uhr

10:50 Uhr

11:00 Uhr

Bei einem \"Fehlalarm\" braucht das Script knapp 3 Minuten um die Benachrichtigungsmail zu versenden.

Link to post
Share on other sites

jo Peter, ich hab das gleiche Phänomen. Wieso das so passiert habe ich bisher nicht rausbekommen.


Aber: Zum Test hab ich das Script auf einen anderen Server in einem ganz anderen RZ noch einmal in Betrieb. Und erstaunlicherweise bringt es zu den selben Zeitpunkten die selben Meldungen. Davon gehe ich mittlerweile davon aus das ich wirklich richtig prüfe. Und ich kann auch bestätigen das es egal ist ob ich PING oder Port prüfe...


Tip: Trage mal hier bei mir den selben Checker ein wie du bei dir im eigenen Script hast.

Link to post
Share on other sites

Kann ich noch nicht so ganz nachvollziehen. Die Zeiten sind sogar auf dem gleichen Server unterschiedlich:


Server: s1 (von pscript.de überwacht - public)

01.03.2004, 00:30:02 OK

01.03.2004, 00:18:11 NOTOK

25.02.2004, 06:15:06 OK

25.02.2004, 06:03:16 NOTOK


Server: s1 (von pscript.de überwacht - private)

01.03.2004, 22:45:02 OK

01.03.2004, 22:33:11 NOTOK

24.02.2004, 14:15:08 OK


Server s1 (von s2 überwacht)

03.03.2004, 10:20:08 OK

03.03.2004, 10:13:18 NOTOK

29.02.2004, 18:40:12 OK

29.02.2004, 18:33:26 NOTOK

26.02.2004, 18:05:56 OK

Link to post
Share on other sites
  • 1 month later...

jein...


ich habe verschiedenste Sachen probiert. Es ist nicht klar wieso manche Tests fehlschlagen. aber ich habe das Problem jetzt so gelöst:


Ich führe grundsätzlich 2 Tests durch. Die Statusänderung wird nur durchgeführt wenn beide Test's das selber Ergebnis haben. Schlägt ein Test fehl, mache ich eine Pause von 2 Sekunden (das sollte reichen um kurzzeitige Probleme und LAG Ärger aus der welt zu schaffen), danach teste ich das zweite mal.

Diese Variante teste ich jetzt so.


Die sshcheck liegt auch im CVS !

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...