Outils pour utilisateurs

Outils du site


technique:monitoring

Monitoring

Nos checks internes de monitoring sont disponibles sur notre dépôt git.

Zabbix - intra-AS

Infos :

  • Installé dans le LXC zabbix sur la VM 'int', avec sa propre BDD MySQL locale ;
  • Configuration via l'interface web.

Ce qui est surveillé :

  • Remonte les valeurs par SNMP de partout (VM, conteneurs LXC) en auto-découverte selon les axes principaux : disques, interfaces réseau, processeurs.
  • Surveille et alerte si le récursif DNS ouvert dépasse un certain seuil de débit en émission.
  • Vérifie l'état du RAID logiciel sur les deux machines physiques. Voir : check_raid, Notre version patchée.
  • Prévient lorsque des mises à jour logicielles (APT) sont disponibles. (check_apt, inclus dans les nagios-plugins).
  • Prévient quand un certificat x509 sur le VPN va expirer. Check custom.
  • Agrégation des débits sur les interconnexions externes (transits…).
  • État des serveurs NTP (en cours d'exécution, état de synchronisation, décalage de temps avec la racine de la synchronisation,…). Avec un check custom.
  • Alerte quand la place disponible dans le VG LVM des machines physiques vient à manquer, histoire de planifier l'achat de SSD supplémentaires. Voir : https://github.com/billcarlson/check_vg_size
  • Alerte si l'une des sessions BGP (IPv4 ou IPv6) tombe.
  • Alerte si les démons uCARP sont morts ou plantés ou qu'un fallback a eu lieu. Avec un check custom crade.
  • Alerte si une des instances DRBD est dans un état différent de l'état normal Connected/UpToDate. Voir : https://github.com/Inuits/monitoring-plugins/blob/master/check_drbd.

Un plan schématique récapitulatif des machines est disponible ici : https://zabbix.arn-fai.net/maps.php

Pour l'installation/configuration, voir : zabbix

Picomon - extra-AS

Petit outil minimaliste pour surveiller des services réseau à distance sous forme de programmes / scripts à exécuter régulièrement : http://gitlab.netlib.re/arn/picomon

Infos :

  • Configuration stockée dans /usr/local/etc/picomon/arn.py
  • Faire prendre en compte la nouvelle configuration : sudo systemctl reload picomon@arn.service
  • Voir les checks qui sont en erreur : sudo kill -USR1 <PID_picomon> puis sudo grep “Signal SIGUSR1 caught” -A 75 /var/log/syslog
  • Un récapitulatif des checks en erreur est envoyé par mail quotidiennement.

Ce qui est surveillé :

  • Ping des machines et des BMC à distance (vérifie la connectivité réelle depuis un autre bout des Internets)
  • Vérification des zones DNS arn-fai.net et netlib.re grâce à l'outil de Bortzmeyer. Vérification que le serveur qui fait autorité n'est pas un récursif ouvert.
  • Vérification du fonctionnement des serveurs mail de l'asso : accepte une adresse chez nous, et refuse de servir de relais (check_smtp de nagios_plugins)
  • Réponse correcte du serveur VPN (avec ce check : https://github.com/liquidat/nagios-icinga-openvpn/ )
  • Atteignabilité, code HTTP et contenu correct des applications web principales (adherents, site web principal, mailing-lists, looking glass, pad, netlib.re, wiki) (avec check_http de nagions_plugins)
  • Expiration des certificats x509 (check_http -C).
technique/monitoring.txt · Dernière modification: 2017/10/16 03:27 par lg