benevoles:technique:monitoring
Table des matières
Monitoring
Nos checks internes de monitoring sont disponibles sur notre dépôt git.
Zabbix - intra-AS
Infos :
- Installé dans le LXC zabbix sur la VM 'int', avec sa propre BDD MySQL locale ;
- Configuration via l'interface web.
Ce qui est surveillé :
- Remonte les valeurs par SNMP de partout (VM, conteneurs LXC) en auto-découverte selon les axes principaux : disques, interfaces réseau, processeurs.
- Surveille et alerte si le récursif DNS ouvert dépasse un certain seuil de débit en émission.
- Vérifie l'état du RAID logiciel sur les deux machines physiques. Voir : check_raid, Notre version patchée.
- Prévient lorsque des mises à jour logicielles (APT) sont disponibles. (check_apt, inclus dans les nagios-plugins).
- Prévient quand un certificat x509 sur le VPN va expirer. Check custom.
- Agrégation des débits sur les interconnexions externes (transits…).
- État des serveurs NTP (en cours d'exécution, état de synchronisation, décalage de temps avec la racine de la synchronisation,…). Avec un check custom.
- Alerte quand la place disponible dans le VG LVM des machines physiques vient à manquer, histoire de planifier l'achat de SSD supplémentaires. Voir : https://exchange.nagios.org/directory/Plugins/System-Metrics/Storage-Subsystem/check_vg/details
- Alerte si l'une des sessions BGP (IPv4 ou IPv6) tombe.
- Alerte si les démons uCARP sont morts ou plantés ou qu'un fallback a eu lieu. Avec un check custom crade.
- Alerte si une des instances DRBD est dans un état différent de l'état normal Connected/UpToDate. Voir : https://github.com/Inuits/monitoring-plugins/blob/master/check_drbd.
Un plan schématique récapitulatif des machines est disponible ici : https://zabbix.arn-fai.net/maps.php
Pour l'installation/configuration, voir : zabbix
Picomon - extra-AS
Petit outil minimaliste pour surveiller des services réseau à distance sous forme de programmes / scripts à exécuter régulièrement : http://gitlab.netlib.re/arn/picomon
Infos :
- Configuration stockée dans /etc/picomon/arn.py
- Faire prendre en compte la nouvelle configuration : sudo systemctl reload picomon@arn.service
- Voir les checks qui sont en erreur : sudo kill -USR1 <PID_picomon> puis sudo grep “Signal SIGUSR1 caught” -A 75 /var/log/syslog
- Un récapitulatif des checks en erreur est envoyé par mail quotidiennement.
Ce qui est surveillé :
- Ping des machines et des BMC à distance (vérifie la connectivité réelle depuis un autre bout des Internets)
- Vérification des zones DNS
arn-fai.net
etnetlib.re
grâce à l'outil de Bortzmeyer. Vérification que le serveur qui fait autorité n'est pas un récursif ouvert. - Vérification du fonctionnement des serveurs mail de l'asso : accepte une adresse chez nous, et refuse de servir de relais (check_smtp de nagios_plugins)
- Réponse correcte du serveur VPN (avec ce check : https://github.com/liquidat/nagios-icinga-openvpn/ )
- Atteignabilité, code HTTP et contenu correct des applications web principales (adherents, site web principal, mailing-lists, looking glass, pad, netlib.re, wiki) (avec check_http de nagions_plugins)
- Expiration des certificats x509 (check_http -C).
benevoles/technique/monitoring.txt · Dernière modification : 2021/10/11 14:17 de ljf