From fe27af7a16d9bc56b0767f63d8f0490fcd2f13d1 Mon Sep 17 00:00:00 2001 From: Alex Auvolat Date: Thu, 22 Dec 2022 17:56:58 +0100 Subject: =?UTF-8?q?Migration=20des=20derniers=20documents=20depuis=20op=5F?= =?UTF-8?q?guide=20(d=C3=A9p=C3=B4t=20infrastructure)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- content/operations/pannes/petits-incidents.md | 23 +++++++++++++++++++++++ 1 file changed, 23 insertions(+) create mode 100644 content/operations/pannes/petits-incidents.md (limited to 'content/operations/pannes/petits-incidents.md') diff --git a/content/operations/pannes/petits-incidents.md b/content/operations/pannes/petits-incidents.md new file mode 100644 index 0000000..99e389d --- /dev/null +++ b/content/operations/pannes/petits-incidents.md @@ -0,0 +1,23 @@ ++++ +title = "Petits incidents" +description = "Petits incidents" +date = 2022-12-22 +dateCreated = 2022-12-22 +weight = 1000 ++++ + +- **2020** Publii efface le disque dur d'un de nos membres. Il a changé le dossier de sortie vers /home qui a été effacé + +- **2021-07-27** Panne de courant à Rennes - 40 000 personnes sans électricité pendant une journée - nos serveurs de prod étant dans la zone coupée, deuxfleurs.fr est dans le noir - https://www.francebleu.fr/infos/faits-divers-justice/rennes-plusieurs-quartiers-prives-d-electricite-1627354121 + +- **2021-12:** Tentative de migration un peu trop hâtive vers Tricot pour remplacer Traefik qui pose des soucis. Downtime et manque de communication sur les causes, confusion généralisée. + + *Actions à envisager:* prévoir à l'avance toute intervention de nature à impacter la qualité de service sur l'infra Deuxfleurs. Tester en amont un maximum pour éviter de devoir tester en prod. Lorsque le test en prod est inévitable, s'organiser pour impacter le moins de monde possible. + +- **2022-03-28:** Coupure d'électricité au site Jupiter, `io` ne redémarre pas toute seule. T est obligée de la rallumer manuellement. `io` n'est pas disponible durant quelques heures. + + *Actions à envisager:* reconfigurer `io` pour s'allumer toute seule quand le courant démarre. + +- **2022-03-28:** Grafana (hébergé par M) n'est pas disponible. M est le seul à pouvoir intervenir. + + *Actions à envisager:* cartographier l'infra de monitoring et s'assurer que plusieurs personnes ont les accès. -- cgit v1.2.3 From 64e15db942fdf33f6ff02f44f66e56fd677bd1a9 Mon Sep 17 00:00:00 2001 From: Alex Auvolat Date: Fri, 23 Dec 2022 00:19:17 +0100 Subject: =?UTF-8?q?Panne=20backups=20et=20pr=C3=A9emption?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- content/operations/pannes/petits-incidents.md | 4 ++++ 1 file changed, 4 insertions(+) (limited to 'content/operations/pannes/petits-incidents.md') diff --git a/content/operations/pannes/petits-incidents.md b/content/operations/pannes/petits-incidents.md index 99e389d..658757f 100644 --- a/content/operations/pannes/petits-incidents.md +++ b/content/operations/pannes/petits-incidents.md @@ -21,3 +21,7 @@ weight = 1000 - **2022-03-28:** Grafana (hébergé par M) n'est pas disponible. M est le seul à pouvoir intervenir. *Actions à envisager:* cartographier l'infra de monitoring et s'assurer que plusieurs personnes ont les accès. + +- **2022-12-23:** Les backups de la production ne s'effectuaient pas correctement car Nomad ne voulait pas lancer les jobs pour cause de ressources épuisées (pas assez de CPU). + + *Action menée:* La préemption des jobs a été activée pour tous les schedulers Nomad, ce qui permet aux jobs de backup de virer les jobs de plus faible priorité pour pouvoir se lancer (ces derniers seront relancés sur une autre machine automatiquement). -- cgit v1.2.3