Superviser la consommation des serveurs VMware ESX(i) avec Nagios

Dans un article précédent, je vous présentais une solution pour superviser un serveur VMware ESX(i). Elle reposait sur l’utilisation du plugin Nagios check_esx3.pl de la société OP5.
A l’aide du client vSphere, il est possible d’obtenir la consommation d’un serveur VMware ESX(i) (test effectué avec un serveur Dell PowerEdge R710).

Cette donnée de performance ne pouvait pas être mesurer avec le plugin Nagios check_esx3.pl. J’ai donc décidé d’implémenter cette fonctionnalité.

– Placez-vous dans le répertoire suivant : cd /usr/local/src/
– Téléchargez le plugin Nagios : wget "http://git.op5.org/git/?p=nagios/op5plugins.git;a=blob_plain;f=check_esx3.pl" -O check_esx3.pl
– Téléchargez le patch pour prendre en compte la consommation des serveurs VMWare ESX(i) : wget http://www.be-root.com/downloads/nagios/check_esx3/0001-check_esx3.pl-Added-power-consumption.patch
– Appliquez le patch sur le plugin check_esx3.pl : patch < 0001-check_esx3.pl-Added-power-consumption.patch

Ce patch a été récemment soumis à la liste de diffusion des utilisateurs OP5 pour intégrer le plugin check_esx3.pl. Je n’ai pas encore eu de réponse pour le moment.

– Copiez ce script dans le répertoire contenant les plugins Nagios : cp check_esx3.pl /usr/local/nagios/libexec/
– Rendez le script exécutable : chmod +x /usr/local/nagios/libexec/check_esx3.pl
– Modifiez le propriétaire pour ce script : chown nagios:nagios /usr/local/nagios/libexec/check_esx3.pl

– Vérifiez la consommation d’un serveur VMware ESX(i) : /usr/local/nagios/libexec/check_esx3.pl -H xxx.xxx.xxx.xxx -u supervision -p MotDePasse -l power -w 500 -c 600

CHECK_ESX3.PL OK - power=216.22 Watts | power=216.22W;500;600

– Ajoutez la définition de l’objet command : vi /etc/nagios/objects/commands.cfg

define command {
command_name check_esx_power
command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l power -w $ARG1$ -c $ARG2$
}

– Ajoutez la définition de l’objet host pour le serveur : vi /etc/nagios/objects/hosts.cfg

define host {
host_name server01
use generic_host
alias VMware ESXi
address xxx.xxx.xxx.xxx
contact_groups +admin
}

– Ajoutez la définition de l’objet service pour le serveur : vi /etc/nagios/objects/services.cfg

define service {
host_name server01
use generic_service
service_description Puissance
check_command check_esx_power!917!966
contact_groups +admin
}

– Rechargez la configuration de Nagios : service nagios reload

La configuration de Nagios dépend bien entendu de la structure que vous avez adopté.

Supervision de VMware ESX(i) avec Nagios

Pour superviser le serveur VMware ESX(i), nous allons utiliser le plugin Nagios check_esx3.pl de la société OP5. En pré-requis à son utilisation, il est nécessaire d’installer VMware vSphere SDK for PERL et le module PERL Nagios::Plugin sur le serveur de supervision.

Apercu de la supervision d'un serveur VMWare ESX(i)
Nous installerons VMware vSphere SDK for PERL dans le répertoire /opt/vmware-vsphere-perl-sdk/.

– Depuis le serveur de supervision, créez le répertoire suivant : mkdir /opt/vmware-vsphere-perl-sdk/

Depuis le site de VMware vous devez télécharger VMware vSphere SDK for Perl. Le téléchargement de ce composant nécessite un compte VMware.

– Installez la bibliothèque de développement d’OpenSSL : yum install openssl-devel
– Placez-vous dans le répertoire suivant : cd /usr/local/src/
– Décompressez l’archive : tar -xzvf VMware-vSphere-Perl-SDK-4.1.0-254719.x86_64.tar.gz
– Placez-vous dans le répertoire suivant : cd vmware-vsphere-cli-distrib
– Lancez l’installation de VMware vSphere SDK for Perl : ./vmware-install.pl

Avant de procéder à l’installation, vous devez  accepter la licence d’utilisation.

Indiquez l’emplacement des fichiers exécutables (/opt/vmware-vsphere-perl-sdk/bin/).

Installation de VMware

Pour désinstaller VMware vSphere SDK for Perl, il vous suffira de lancer la commande suivante : /opt/vmware-vsphere-perl-sdk/bin/vmware-uninstall-vSphere-CLI.pl.

Nous allons installer le module PERL Nagios::Plugin.

perl -MCPAN -e ‘shell’
cpan > install Nagios::Plugin
cpan > quit

Ensuite, nous allons récupérer le plugin Nagios check_esx3.pl depuis le site d’OP5.

– Placez-vous dans le répertoire suivant : cd /usr/local/src/
– Téléchargez le plugin Nagios : wget "http://git.op5.org/git/?p=nagios/op5plugins.git;a=blob_plain;f=check_esx3.pl" -O check_esx3.pl
– Copiez ce script dans le répertoire contenant les plugins Nagios : cp check_esx3.pl /usr/local/nagios/libexec/
– Rendez le script exécutable : chmod +x /usr/local/nagios/libexec/check_esx3.pl
– Modifiez le propriétaire pour ce script : chown nagios:nagios /usr/local/nagios/libexec/check_esx3.pl

Le plugin Nagios check_esx3.pl récupère les informations d’un serveur VMware ESX(i) en s’y connectant à l’aide d’un compte utilisateur. Nous allons créer un compte utilisateur supervision possédant les droits de lecture.

Connectez-vous au serveur VMware ESX(i) avec le client VMware vSphere.

Dans l’onglet Local Users & Groups, cliquez sur l’option Add du menu surgissant pour créer un nouvel utilisateur supervision avec un mot de passe associé.

Dans l’onglet Permissions, cliquez sur l’option Add Permission…. Dans la partie Users and Groups, cliquez sur le bouton Add pour ajouter l’utilisation supervision. Dans la partie Assigned Role, sélectionnez le rôle Read-only pour cet utilisateur.

L’installation est terminée. Voici quelques exemple d’utilisation du plugin Nagios check_esx3.pl.

– Placez-vous dans le répertoire suivant : cd /usr/local/nagios/libexec/
– Vérifiez l’utilisation du CPU de l’hyperviseur en pourcentage : ./check_esx3.pl -H xxx.xxx.xxx.xxx -u supervision -p MotDePasse -l cpu -s usage -w 80 -c 90

CHECK_ESX3.PL OK - cpu usage=1.24 % | cpu_usage=1.24%;80;90

– Vérifiez l’utilisation de la mémoire vive de l’hyperviseur  en Mo : ./check_esx3.pl -H xxx.xxx.xxx.xxx -u supervision -p MotDePasse -l mem -s usagemb -w 14336 -c 16384

CHECK_ESX3.PL OK - mem usage=6022.40 MB | mem_usagemb=6022.40MB;14336;16384

– Vérifiez l’état de l’hyperviseur : ./check_esx3.pl -H xxx.xxx.xxx.xxx -u supervision -p MotDePasse -l runtime -s status

CHECK_ESX3.PL OK - overall status=green

– Vérifiez que toutes les cartes réseaux de l’hyperviseur sont connectées : ./check_esx3.pl -H xxx.xxx.xxx.xxx  -u supervision -p MotDePasse -l net -s nic

CHECK_ESX3.PL OK - All 8 NICs are connected | OK_NICs=8;; Bad_NICs=0;;

Pour obtenir de l’aide sur ce plugin Nagios, il vous suffit de lancer la commande suivante : ./check_esx3.pl -h

Cette partie dépend de votre arborescence de configuration et de votre installation de Nagios. Nous allons modifier la configuration de Nagios pour superviser un serveur VMware ESX(i).

– Ajoutez deux nouvelles variables : vi /etc/nagios/resource.cfg

$USER2$=supervision
$USER3$=MotDePasse

Les variables USER2 et USER3 correspondent aux identifiants de l’utilisateur possédant les droits de lecture sur le serveur VMware ESX(i).

– Ajoutez les définitions des objets command : vi /etc/nagios/objects/commands.cfg

define command {
  command_name check_esx_cpu
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l cpu -s usage -w $ARG1$ -c $ARG2$
}

define command {
  command_name check_esx_memory
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l mem -s usagemb -w $ARG1$ -c $ARG2$
}

define command {
  command_name check_esx_swap
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l mem -s swap -w $ARG1$ -c $ARG2$
}

define command {
  command_name check_esx_network
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l net -s usage -w $ARG1$ -c $ARG2$
}

define command {
  command_name check_esx_disk_io_read
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l io -s read -w $ARG1$ -c $ARG2$
}

define command {
  command_name check_esx_disk_io_write
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l io -s write -w $ARG1$ -c $ARG2$
}

define command {
  command_name check_esx_nic
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l net -s nic
}

define command {
  command_name check_esx_service
  command_line $USER1$/check_esx3.pl -H $HOSTADDRESS$ -u $USER2$ -p $USER3$ -l service -s $ARG1$
}

– Ajoutez la définition de l’objet host pour le serveur : vi /etc/nagios/objects/hosts.cfg

define host {
  host_name server01
  use generic_host
  alias VMware ESXi
  address xxx.xxx.xxx.xxx
  contact_groups +admin
}

– Ajoutez la définition des objets service pour le serveur : vi /etc/nagios/objects/services.cfg

define service {
  host_name server01
  use generic_service
  service_description CPU
  check_command check_esx_cpu!80!90
  contact_groups +admin
}

define service {
  host_name server01
  use generic_service
  service_description Memoire
  check_command check_esx_memory!14336!16384
  contact_groups +admin
}

define service {
  host_name server01
  use generic_service
  service_description Trafic_Reseau
  check_command check_esx_network!5120!102400
  contact_groups +admin
}

define service {
  host_name server01
  use generic_service
  service_description Disque_IO_Lecture
  check_command check_esx_disk_io_read!50!90
  contact_groups +admin
}

define service {
  host_name server01
  use generic_service
  service_description Disque_IO_Ecriture
  check_command check_esx_disk_io_write!50!90
  contact_groups +admin
}

define service {
  host_name server01
  use generic_service
  service_description Interfaces_Reseaux
  check_command check_esx_nic
  contact_groups +admin
}

define service {
  host_name server01
  use generic_service
  service_description Services
  check_command check_esx_service!DCUI,lbtd,ntpd,vmware-vpxa
  contact_groups +admin
}

– Rechargez la configuration de Nagios : service nagios reload

Votre serveur VMWare ESX(i) est maintenant supervisé depuis Nagios.

Supervision du CPU d'un serveur VMware ESX

Supervision de la mémoire vive d'un serveur VMware ESX

Activer l’agent SNMP sur VMware ESX 4.0

Pour surveiller VMware ESX 4.0 à l’aide d’outils tiers, une solution est d’activer l’agent SNMP sur chaque serveur pour pouvoir récolter certaines informations.

Dans les versions précédentes, VMware ESX utilisait l’implémentation de Net-SNMP comme agent SNMP. Depuis la version 4.0 de ESX, VMware dispose de son propre agent SNMP et Net-SNMP est utilisé en tant que proxy pour y accéder.

– Ouvrez une session sur votre serveur ESX en tant qu’utilisateur root.
– Arrêtez l’agent Net-SNMP s’il est en fonctionnement : service snmpd stop
– Éditez le fichier de configuration de l’agent Net-SNMP : vi /etc/snmp/snmpd.conf

com2sec supervision xxx.xxx.xxx.xxx public
group GroupSupervision v1 supervision
view all included .1 80
access GroupSupervision "" any noauth exact all none none
proxy -v 1 -c public udp:127.0.0.1:171 .1.3.6.1.4.1.6876

xxx.xxx.xxx.xxx correspond à l’adresse IP du serveur de supervision.

– Éditez le fichier de configuration de l’agent SNMP de VMware : vi /etc/vmware/snmp.xml

<config>
<snmpSettings>
<communities>public</communities>
<enable>true</enable>
<port>171</port>
<targets/>
</snmpSettings>
</config>

– Redémarrez le service VMware Management : service mgmt-vmware restart
– Lancez l’agent Net-SNMP au démarrage du serveur ESX : chkconfig snmpd on
– Démarrez l’agent Net-SNMP : service snmpd start
– Autorisez le protocole SNMP en entrée sur le serveur ESX : esxcfg-firewall -e snmpd

Depuis votre serveur de supervision, vous pouvez vérifier le fonctionnement en récupérant les informations de votre serveur ESX avec le protocole SNMP à l’aide de la commande snmpwalk.

– Pour l’agent Net-SNMP : snmpwalk -v 1 -c public xxx.xxx.xxx.xxx
– Pour l’agent SNMP de VMware : snmpwalk -v 1 -c public xxx.xxx.xxx.xxx .1.3.6.1.4.1.6876