Outils pour utilisateurs

Outils du site


technique:monitoring

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
technique:monitoring [2016/03/23 23:17]
lg
technique:monitoring [2019/03/06 21:51]
ced117 [Zabbix - intra-AS] mise à jour du lien
Ligne 1: Ligne 1:
-==== Monitoring ====+====== Monitoring ======
  
-=== Zabbix intra-AS ===+Nos checks internes de monitoring sont disponibles sur notre [[http://gitlab.netlib.re/arn/arn-confs/tree/master/monitoring|dépôt git]].
  
-Installé dans le LXC zabbix sur la VM 'int', avec sa propre BD MySQL. 
  
 +===== Zabbix - intra-AS =====
 +
 +Infos :
 +  * Installé dans le LXC zabbix sur la VM 'int', avec sa propre BDD MySQL locale ;
 +  * Configuration via l'interface web.
 +
 +Ce qui est surveillé :
   * Remonte les valeurs par SNMP de partout (VM, conteneurs LXC) en auto-découverte selon les axes principaux : disques, interfaces réseau, processeurs.   * Remonte les valeurs par SNMP de partout (VM, conteneurs LXC) en auto-découverte selon les axes principaux : disques, interfaces réseau, processeurs.
   * Surveille et alerte si le récursif DNS ouvert dépasse un certain seuil de débit en émission.   * Surveille et alerte si le récursif DNS ouvert dépasse un certain seuil de débit en émission.
-  * Vérifie l'état du RAID logiciel sur les deux machines physiques. Voir : [[https://github.com/glensc/nagios-plugin-check_raid|https://github.com/glensc/nagios-plugin-check_raid]]. +  * Vérifie l'état du RAID logiciel sur les deux machines physiques. Voir : [[https://github.com/glensc/nagios-plugin-check_raid|check_raid]], [[http://gitlab.netlib.re/arn/arn-confs/blob/master/monitoring/plugins/check_raid|Notre version patchée]]. 
-  * Prévient lorsque des mises à jour logicielles (APT) sont disponibles. +  * Prévient lorsque des mises à jour logicielles (APT) sont disponibles. (check_apt, inclus dans les nagios-plugins)
-  * Prévient quand un certificat x509 sur le VPN va expirer.+  * Prévient quand un certificat x509 sur le VPN va expirer. [[http://gitlab.netlib.re/arn/arn-confs/blob/master/monitoring/plugins/check_ovpn_certs|Check custom]].
   * Agrégation des débits sur les interconnexions externes (transits...).   * Agrégation des débits sur les interconnexions externes (transits...).
-  * État des serveurs NTP (en cours d'exécution, état de synchronisation, décalage de temps avec la racine de la synchronisation,...). +  * État des serveurs NTP (en cours d'exécution, état de synchronisation, décalage de temps avec la racine de la synchronisation,...). Avec un [[http://gitlab.netlib.re/arn/arn-confs/blob/master/monitoring/plugins/check_ntpstat|check custom]]
-  * Alerte quand la place disponible dans le VG LVM des machines physiques vient à manquer, histoire de planifier l'achat de SSD supplémentaires. Voir : [[https://github.com/billcarlson/check_vg_size|https://github.com/billcarlson/check_vg_size]]+  * Alerte quand la place disponible dans le VG LVM des machines physiques vient à manquer, histoire de planifier l'achat de SSD supplémentaires. Voir : [[https://exchange.nagios.org/directory/Plugins/System-Metrics/Storage-Subsystem/check_vg/details|https://exchange.nagios.org/directory/Plugins/System-Metrics/Storage-Subsystem/check_vg/details]] 
 +  * Alerte si l'une des sessions BGP (IPv4 ou IPv6) tombe. 
 +  * Alerte si les démons uCARP sont morts ou plantés ou qu'un fallback a eu lieu. Avec un [[http://gitlab.netlib.re/arn/arn-confs/blob/master/monitoring/plugins/check_ucarp|check custom]] crade. 
 +  * Alerte si une des instances DRBD est dans un état différent de l'état normal Connected/UpToDate. Voir : [[https://github.com/Inuits/monitoring-plugins/blob/master/check_drbd|]]
 + 
 +Un plan schématique récapitulatif des machines est disponible ici : https://zabbix.arn-fai.net/maps.php
  
 Pour l'installation/configuration, voir : [[technique:zabbix|]] Pour l'installation/configuration, voir : [[technique:zabbix|]]
  
-=== Picomon - extra-AS ===+ 
 +===== Picomon - extra-AS =====
  
 Petit outil minimaliste pour surveiller des services réseau à distance sous forme de programmes / scripts à exécuter régulièrement : http://gitlab.netlib.re/arn/picomon Petit outil minimaliste pour surveiller des services réseau à distance sous forme de programmes / scripts à exécuter régulièrement : http://gitlab.netlib.re/arn/picomon
  
 +Infos :
 +  * Configuration stockée dans /usr/local/etc/picomon/arn.py
 +  * Faire prendre en compte la nouvelle configuration : sudo systemctl reload picomon@arn.service
 +  * Voir les checks qui sont en erreur : sudo kill -USR1 <PID_picomon> puis sudo grep "Signal SIGUSR1 caught" -A 75 /var/log/syslog
 +  * Un récapitulatif des checks en erreur est envoyé par mail quotidiennement.
 +
 +
 +Ce qui est surveillé :
   * Ping des machines et des BMC à distance (vérifie la connectivité réelle depuis un autre bout des Internets)   * Ping des machines et des BMC à distance (vérifie la connectivité réelle depuis un autre bout des Internets)
   * Vérification des zones DNS ''arn-fai.net'' et ''netlib.re'' grâce à l'outil [[https://github.com/bortzmeyer/check_dns_soa|de Bortzmeyer]]. Vérification que le serveur qui fait autorité n'est pas un récursif ouvert.    * Vérification des zones DNS ''arn-fai.net'' et ''netlib.re'' grâce à l'outil [[https://github.com/bortzmeyer/check_dns_soa|de Bortzmeyer]]. Vérification que le serveur qui fait autorité n'est pas un récursif ouvert. 
-  * Vérification du fonctionnement du serveur mail : accepte une adresse chez nous, et refuse de servir de relais +  * Vérification du fonctionnement des serveurs mail de l'asso : accepte une adresse chez nous, et refuse de servir de relais (check_smtp de nagios_plugins) 
-  * Réponse correcte du serveur VPN +  * Réponse correcte du serveur VPN (avec ce check : https://github.com/liquidat/nagios-icinga-openvpn/ ) 
-  * Atteignabilité, code HTTP et contenu correct des applications web principales (adherents, site web principal, looking glass, pad, netlib.re, wiki). +  * Atteignabilité, code HTTP et contenu correct des applications web principales (adherents, site web principal, mailing-lists, looking glass, pad, netlib.re, wiki) (avec check_http de nagions_plugins) 
 +  * Expiration des [[technique:x509|certificats x509]] (check_http -C).
  
  
technique/monitoring.txt · Dernière modification: 2020/05/02 10:38 de ced117