Contexte
Dans un environnement de production (VMware, stockage SAN, services métiers), j’avais besoin d’une supervision centralisée, temps réel et flexible — sans dépendre d’outils propriétaires coûteux. L’objectif était de compléter ou remplacer partiellement des outils classiques comme Centreon par une stack moderne basée sur Prometheus (collecte métriques) et Grafana (visualisation).
Problème
Les outils traditionnels présentaient plusieurs limites : visibilité réduite sur les métriques fines (CPU steal, IO wait), dashboards peu flexibles, difficulté à corréler infra et applicatif, et coût de licences élevé.
Exemple concret : il était impossible de croiser rapidement la charge CPU d’une VM, la latence datastore et la saturation réseau en un seul endroit.
Solution mise en place
Architecture
|
|
Installation Prometheus
|
|
Fichier de configuration (/etc/prometheus/prometheus.yml) :
|
|
Installation node_exporter (sur chaque serveur)
|
|
Installation Grafana
|
|
Ajouter Prometheus comme datasource dans Grafana : URL http://localhost:9090.
Dashboards mis en place
Infrastructure générale
- CPU (usage, steal, load average)
- RAM (used / cache / swap)
- Disque (IOPS, latence, saturation)
- Réseau (bandwidth, erreurs)
VMware / virtualisation
- Charge des hôtes ESXi
- Consommation par VM
- Contention CPU et RAM
Stockage SAN
- Latence
- Débit
- Saturation des volumes
Résultats
Visibilité : monitoring temps réel, historique exploitable, corrélation rapide lors des incidents.
Gain opérationnel : diagnostic plus rapide, moins d’escalade inutile, meilleure anticipation des saturations.
Flexibilité : ajout de nouvelles métriques en quelques minutes, dashboards personnalisés par usage ou équipe.
Points de vigilance
Stockage Prometheus : les données croissent vite. Définir une politique de
rétention dès le départ (--storage.tsdb.retention.time=30d).
Sécurité : les exporters sont souvent exposés sans authentification. Les protéger derrière un firewall ou un reverse proxy avec auth basique.
Charge de scraping : un intervalle trop court génère une charge inutile. Ajuster selon le besoin réel (15s à 60s selon les métriques).
Ce que je referais différemment
- Configurer la rétention Prometheus dès l’installation
- Standardiser les dashboards dès le départ plutôt que de les faire évoluer au fil de l’eau
- Intégrer Alertmanager plus tôt pour les alertes automatiques
Conclusion
La stack Prometheus + Grafana permet de reprendre le contrôle sur la supervision, de gagner en réactivité et d’améliorer la compréhension de l’infrastructure. C’est aujourd’hui une solution de référence pour toute infra moderne, en complément ou en remplacement d’outils traditionnels.
Exemple de requête PromQL — usage CPU
|
|