aboutsummaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorBaptiste Jonglez <git@bitsofnetworks.org>2024-05-31 00:05:31 +0200
committerBaptiste Jonglez <git@bitsofnetworks.org>2024-05-31 00:05:31 +0200
commit117df9a4585d050e3597b00a9b7c9e51268c454a (patch)
tree59675df3b3083316b22a25ad04bdd5390ef215e3
parenta4b1a8d2324cf6aeaf595346f5872f745c28fef1 (diff)
downloadguide.deuxfleurs.fr-117df9a4585d050e3597b00a9b7c9e51268c454a.tar.gz
guide.deuxfleurs.fr-117df9a4585d050e3597b00a9b7c9e51268c454a.zip
Update supervision
-rw-r--r--content/operations/supervision.md41
1 files changed, 35 insertions, 6 deletions
diff --git a/content/operations/supervision.md b/content/operations/supervision.md
index 5b76a2b..bd50ea8 100644
--- a/content/operations/supervision.md
+++ b/content/operations/supervision.md
@@ -7,17 +7,46 @@ extra:
parent: 'operations/_index.md'
---
+# Journaux
+
+Les journaux ne sont pas centralisés aujourd'hui.
+Vous pouvez les consulter avec `docker logs`, `nomad` et `journalctl`.
+
# Métriques
Grafana est accessible à l'adresse suivante : https://grafana.deuxfleurs.fr
-Vous pouvez obtenir le mot de passe admin en allant le chercher dans consul KV
+La connexion est possible avec ses identifiants Guichet (via LDAP).
-# Journaux
+Pour les admins, il est aussi possible d'utiliser le mot de passe admin en allant le chercher dans Consul KV.
-Les journaux ne sont pas centralisés aujourd'hui.
-Vous pouvez les consulter avec `docker logs`, `nomad` et `journalctl`.
+Les dashboards ne sont pour l'instant pas stockés dans un dépot git, ils sont édités manuellement dans l'interface de Grafana.
+
+Il y a également une instance Grafana de staging, sans intégration LDAP/Guichet : https://grafana.staging.deuxfleurs.org
+
+# Supervision et alerting externe
+
+Nous avons un système de supervision externe, accessible à l'adresse <https://status.deuxfleurs.fr>.
+Il s'agit d'une instance de [Uptime Kuma](https://github.com/louislam/uptime-kuma), hébergée gracieusement par [RésiLien](https://resilien.fr/).
+
+Son but est de vérifier le bon fonctionnement des services exposés publiquement par Deuxfleurs : sites web statiques, services web (cryptpad, jitsi, plume), email, ainsi que l'API S3 de Garage.
+
+Pour rajouter des services à surveiller ou configurer des envois d'alertes, les identifiants de connexion sont dans le [dépôt des secrets](@/operations/pass.md).
+
+# Alerting interne
+
+Nous ne disposons actuellement pas de supervision interne complète avec envoi d'alertes.
+
+Une telle supervision interne serait complémentaire à la supervision externe : elle permettrait de détecter des problèmes en amont qui ne sont pas forcément encore visibles sur les services.
+Par exemple, Garage tolère la panne d'une zone sans impacter le service, il est donc facile de ne pas se rendre compte de la panne ... jusqu'à ce qu'une deuxième panne arrive !
-# Alertes
+Les éléments suivants seraient pertinents à surveiller :
-Nous n'avons pas de système d'alerte aujourd'hui.
+- système : espace disque, état SMART des disques, charge I/O
+- connectivité : connectivité interne Wireguard, IPv6
+- état du cluster Garage (perte d'une zone ou d'un noeud)
+- état du cluster Nomad
+- état du cluster Consul
+- état du cluster Stolon
+- état des backups
+- crash dans le catalog consul / les allocs nomad