aboutsummaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorAlex Auvolat <alex@adnab.me>2022-03-28 11:43:47 +0200
committerAlex Auvolat <alex@adnab.me>2022-03-28 11:43:47 +0200
commit3f73721ad58fe2abd0337ee553b46c88037ae7a0 (patch)
tree963e9a15ed8dbbf277fa78d2ec6c755a2fb74baf
parent0e6aa95754204a5b2586c8d23c4e9689e8b3c36e (diff)
downloadinfrastructure-3f73721ad58fe2abd0337ee553b46c88037ae7a0.tar.gz
infrastructure-3f73721ad58fe2abd0337ee553b46c88037ae7a0.zip
documentation de petits incidents techniques plus ou moins évitables
-rw-r--r--op_guide/postmortem/petits-incidents.md11
1 files changed, 11 insertions, 0 deletions
diff --git a/op_guide/postmortem/petits-incidents.md b/op_guide/postmortem/petits-incidents.md
new file mode 100644
index 0000000..06d0b3d
--- /dev/null
+++ b/op_guide/postmortem/petits-incidents.md
@@ -0,0 +1,11 @@
+- **2021-12:** Tentative de migration un peu trop hâtive vers Tricot pour remplacer Traefik qui pose des soucis. Downtime et manque de communication sur les causes, confusion généralisée.
+
+ *Actions à envisager:* prévoir à l'avance toute intervention de nature à impacter la qualité de service sur l'infra Deuxfleurs. Tester en amont un maximum pour éviter de devoir tester en prod. Lorsque le test en prod est inévitable, s'organiser pour impacter le moins de monde possible.
+
+- **2022-03-28:** Coupure d'électricité au site Jupiter, `io` ne redémarre pas toute seule. T est obligée de la rallumer manuellement. `io` n'est pas disponible durant quelques heures.
+
+ *Actions à envisager:* reconfigurer `io` pour s'allumer toute seule quand le courant démarre.
+
+- **2022-03-28:** Grafana (hébergé par M) n'est pas disponible. M est le seul à pouvoir intervenir.
+
+ *Actions à envisager:* cartographier l'infra de monitoring et s'assurer que plusieurs personnes ont les accès.