Après la surveillance des hôtes VMware ESX(i), nous allons nous intéresser dans cet article à un des points névralgiques d’une infrastructure VMware vSphere : le stockage. Qu’il soit local ou partagée, une attention toute particulière doit lui être accordée.
Dans le cadre de mon travail, j’ai été amené à mettre en place et à utiliser un réseau de stockage s’appuyant sur une baie de stockage Dell EqualLogic PS6000XV (SAN iSCSI).
Pour vérifier l’état de santé et mesurer des données performances des baies de stockage Dell EqualLogic, Dell fournit gratuitement l’utilitaire Dell EqualLogic SAN HeadQuarters. Il est également possible de recevoir des notifications par courrier électronique pour être averti de problèmes éventuels.
Afin de centraliser la supervision de ce type de baie de stockage au sein de la solution de supervision Nagios, il m’a fallu développer un plugin Nagios dédié à cette tâche. Il repose sur la collecte des informations à l’aide de la version 1 du protocole SNMP. Le résultat est la publication aujourd’hui sous licence GPLv2 du plugin Nagios check_snmp_dell_equallogic. Il est construit sur la notion de groupe et de membres. Chaque groupe Dell EqualLogic prend en charge jusqu’à 16 baies de stockage, que l’on appelle des membres.
Le plugin check_snmp_dell_equallogic permet de vérifier l’état de l’alimentation, des batteries, des contrôleurs, de chaque disque dur, du RAID et des interfaces réseaux. Il permet également de récupérer plusieurs données de performances comme la vitesse des ventilateurs, le nombre d’entrées/sorties par seconde (IOPS), la latence, la température, le nombre de connexion iSCSI, l’utilisation de l’espace disque et enfin la consommation des différents volumes (LUNs). Ce qui donne dans l’interface Nagios (avec le thème Vautour Style) :
– Déplacez le plugin check_snmp_dell_equallogic dans le répertoire contenant les plugins Nagios : mv check_snmp_dell_equallogic /usr/local/nagios/libexec/
– Rendez le fichier exécutable : chmod +x /usr/local/nagios/libexec/check_snmp_dell_equallogic
– Modifiez le propriétaire pour ce script : chown nagios:nagios /usr/local/nagios/libexec/check_snmp_dell_equallogic
Pour vérifier que ce plugin Nagios fonctionne correctement, il vous suffit de l’exécuter : /usr/local/nagios/libexec/check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t info
Ce qui devrait vous retourner : Member ‘BAIE01’ – Info : Storage Array Dell EqualLogic ‘xx-xxx’ (xxxxxxxx) has 2 controllers and 16 hard drives
L’argument H correspond à l’adresse IP du groupe de baies, C à la communauté SNMP, n au nom du membre et t au type d’information que vous souhaitez récupérer. Les valeurs possibles sont : battery, connection, controller, disk, fan, health, info, io, latency, network, redundancy, temperature, usage, raid et volume. En fonction du type d’information, il vous faudra utiliser d’autres arguments tels que d pour indiquer l’identifiant du disque dur. Vous trouverez plus d’informations sur son utilisation en affichant l’aide qui accompagne ce plugin : /usr/local/nagios/libexec/check_snmp_dell_equallogic -h
Voici quelques exemples d’utilisation :
– Vérifiez l’état des batteries : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t battery
Member ‘BAIE01’ – Battery status : cache battery in controller 1 is fully functional , cache battery in controller 2 is fully functional
– Récupérez le nombre de connexion iSCSI : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t connection -w 15 -c 20
Member ‘BAIE01’ – Number of iSCSI connections : 54 | con_iscsi=54;15;20;0
– Vérifiez l’état des contrôleurs : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t controller
Member ‘BAIE01’ – Controllers status : both controllers are fully functional
– Vérifiez l’état du disque dur d’identifiant 1 : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t disk -d 1
Member ‘BAIE01’ – Disk 1 (slot 0) status (type : SAS and size 419.18 Go ) : Disk is online. RAID is fully fonctionnal
– Récupérez la vitesse des ventilateurs : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t fan
Member ‘BAIE01’ – Fan speed : ‘Power Cooling Module 0 Fan 0’ : 5010 tr/min, ‘Power Cooling Module 0 Fan 1’ : 4800 tr/min, ‘Power Cooling Module 1 Fan 0’ : 4830 tr/min, ‘Power Cooling Module 1 Fan 1’ : 4830 tr/min, | ‘Power Cooling Module 0 Fan 0’=5010 ‘Power Cooling Module 0 Fan 1’=4800 ‘Power Cooling Module 1 Fan 0’=4830 ‘Power Cooling Module 1 Fan 1’=4830
– Contrôlez l’état global de la baie de stockage : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx-C public -n BAIE01 -t health
Member ‘BAIE01’ – Global system status : OK
– Récupérez le nombre d’entrée/sortie par seconde : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01-t io
Member ‘BAIE01’ – I/O Operations Per Second : Read counter’s value is 429346443 and write counter’s value is 548035313 | read=429346443c;0;0;0 write=548035313c;0;0;0
– Récupérez la latence en lecture et écriture : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t latency
Member ‘BAIE01’ – Reading average latency value is : 3 ms, writing average latency value is 2 ms | read=3;0;0;0 write=2;0;0;0
– Vérifiez si l’interface réseau eth0 est bien connecté : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t network -i eth0
Member ‘BAIE01’ – Network interface ‘eth0’ (10.100.2.10) status : Network interface is fully functional (MTU of 9000 and Speed of 1000)
– Vérifiez la redondance et l’état de l’alimentation : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t redundancy
Member ‘BAIE01’ – Power supply status : ‘Power Cooling Module 0’ is fully fonctionnal, ‘Power Cooling Module 1’ is fully fonctionnal
– Vérifiez l’état du RAID : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t raid
Member ‘BAIE01’ – RAID status : RAID is fully fonctionnal
– Récupérez la température des différents composants : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t temperature
Member ‘BAIE01’ – Temperatures : ‘Control module 0 processor’ : 60 Degres Celcius, ‘Control module 0 chipset’ : 24 Degres Celcius, ‘Control module 1 processor’ : 58 Degres Celcius, ‘Control module 1 chipset’ : 25 Degres Celcius, ‘Control module 0 SAS Controller’ : 56 Degres Celcius, ‘Control module 0 SAS Expander’ : 75 Degres Celcius, ‘Control module 1 SAS Controller’ : 59 Degres Celcius, ‘Control module 1 SAS Expander’ : 77 Degres Celcius, ‘Control module 1 SES Enclosure’ : 43 Degres Celcius, ‘Control module 0 Battery’ : 18 Degres Celcius, ‘Control module 1 Battery’ : 18 Degres Celcius, | ‘Control module 0 processor’=60 ‘Control module 0 chipset’=24 ‘Control module 1 processor’=58 ‘Control module 1 chipset’=25 ‘Control module 0 SAS Controller’=56 ‘Control module 0 SAS Expander’=75 ‘Control module 1 SAS Controller’=59 ‘Control module 1 SAS Expander’=77 ‘Control module 1 SES Enclosure’=43 ‘Control module 0 Battery’=18 ‘Control module 1 Battery’=18
– Récupérez l’utilisation de l’espace disque : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t usage -w 90 -c 95
Member ‘BAIE01’ – Used disk space : 3.90 To with a total disk space of 4.70 To (83%) with 0% for snapshots and 0% for replication | total=5173228339200B;4655905505280;4914566922240;0 used=4295035453440B;0;0;0 snapshots=0B;0;0;0 replicas=0B;0;0;0
– Récupérez la consommation d’un volume : ./check_snmp_dell_equallogic -H xxx.xxx.xxx.xxx -C public -n BAIE01 -t volume -v volume01 -w 90 -c 95
Member ‘BAIE01’ – Volume ‘volume01’ (online) in RAID group ‘GRP01’ : 213.04 Go used on 500.00 Go (42%) | volume_used=228757340160B;483183820800;510027366400;0
Nous allons maintenant modifier la configuration de Nagios pour superviser une baie de stockage Dell EqualLogic. Cette partie dépend de l’arborescence de configuration et de l’installation de Nagios dont vous disposez.
– Ajoutez les définitions des objets command : vi /etc/nagios/objects/commands.cfg
define command { command_name check_dell_equallogic_battery command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t battery } define command { command_name check_dell_equallogic_connection command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t connection -w $ARG3$ -c $ARG4$ } define command { command_name check_dell_equallogic_controller command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t controller } define command { command_name check_dell_equallogic_disk command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t disk -d $ARG3$ } define command { command_name check_dell_equallogic_fan command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t fan } define command { command_name check_dell_equallogic_health command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t health } define command { command_name check_dell_equallogic_io command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t io } define command { command_name check_dell_equallogic_latency command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t latency } define command { command_name check_dell_equallogic_network command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t network -i $ARG3$ -m $ARG4$ -s $ARG5$ } define command { command_name check_dell_equallogic_redundancy command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t redundancy } define command { command_name check_dell_equallogic_raid command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t raid } define command { command_name check_dell_equallogic_temperature command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t temperature } define command { command_name check_dell_equallogic_usage command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t usage -w $ARG3$ -c $ARG4$ } define command { command_name check_dell_equallogic_volume command_line $USER1$/check_snmp_dell_equallogic -H $HOSTADDRESS$ -C $ARG1$ -n $ARG2$ -t volume -v $ARG3$ -w $ARG4$ -c $ARG5$ }
– Ajoutez la définition de l’objet host pour le groupe de baies de stockage : vi /etc/nagios/objects/hosts.cfg
define host { host_name grpbaies use generic_host alias Groupe de baies Dell EqualLogic address xxx.xxx.xxx.xxx contact_groups +admin }
– Ajoutez la définition des objets service pour la baie : vi /etc/nagios/objects/services.cfg
define service { host_name grpbaies use generic_service service_description BAIE01_Alimentation check_command check_dell_equallogic_redundancy!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Batteries check_command check_dell_equallogic_battery!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Connexions_iSCSI check_command check_dell_equallogic_connection!public!baie01!0!0 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Controleurs check_command check_dell_equallogic_controller!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Espace_Disque check_command check_dell_equallogic_usage!public!baie01!90!95 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_1 check_command check_dell_equallogic_disk!public!baie01!1 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_2 check_command check_dell_equallogic_disk!public!baie01!2 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_3 check_command check_dell_equallogic_disk!public!baie01!3 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_4 check_command check_dell_equallogic_disk!public!baie01!4 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_5 check_command check_dell_equallogic_disk!public!baie01!5 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_6 check_command check_dell_equallogic_disk!public!baie01!6 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_7 check_command check_dell_equallogic_disk!public!baie01!7 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_8 check_command check_dell_equallogic_disk!public!baie01!8 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_9 check_command check_dell_equallogic_disk!public!baie01!9 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_10 check_command check_dell_equallogic_disk!public!baie01!10 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_11 check_command check_dell_equallogic_disk!public!baie01!11 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_12 check_command check_dell_equallogic_disk!public!baie01!12 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_13 check_command check_dell_equallogic_disk!public!baie01!13 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_14 check_command check_dell_equallogic_disk!public!baie01!14 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_15 check_command check_dell_equallogic_disk!public!baie01!15 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Etat_Disque_16 check_command check_dell_equallogic_disk!public!baie01!16 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Interface_Reseau_eth0 check_command check_dell_equallogic_network!public!baie01!eth0!9000!1000 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Interface_Reseau_eth1 check_command check_dell_equallogic_network!public!baie01!eth1!9000!1000 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Interface_Reseau_eth2 check_command check_dell_equallogic_network!public!baie01!eth2!9000!1000 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Interface_Reseau_eth3 check_command check_dell_equallogic_network!public!baie01!eth3!9000!1000 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_IO check_command check_dell_equallogic_io!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Latence check_command check_dell_equallogic_latency!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_RAID check_command check_dell_equallogic_raid!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_Temperature check_command check_dell_equallogic_temperature!public!baie01 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_volume01 check_command check_dell_equallogic_volume!public!baie01!volume01!80!90 contact_groups +admin } define service { host_name grpbaies use generic_service service_description BAIE01_volume02 check_command check_dell_equallogic_volume!public!baie01!volume02!80!90 contact_groups +admin }
– Rechargez la configuration de Nagios : service nagios reload
Vos baies de stockage Dell EqualLogic peuvent être maintenant supervisé à l’aide de Nagios.
Mise à jour :
- 10/10/2014 : La consommation des volumes disponibles sur plusieurs membres a été corrigée.
- 13/11/2014 : Prise en compte de la MTU et de la vitesse pour la vérification d’une interface réseau (ajout des arguments -m et -s).