Panne chez OVH

Version courte
Une panne chez OVH a rendu indisponible une partie de notre infrastructure située à Strasbourg (SBG1).
cf incident OVH : http://travaux.ovh.net/?do=details&id=37618&PHPSESSID=e21e66b106dae31739f44db5b7b44acd

Version longue
Aujourd'hui vers 16:00 nous avons subitement perdu notre serveur de messagerie sortant (out.religo.net) et un serveur VPS (vps.religo.net).
Constatant l'impossibilité pour notre serveur de messagerie principal de pouvoir contacter le serveur sortant, nous avons re-routé le trafic vers notre 3ième serveur de messagerie (slow.religo.net).
Notez que le flux "normal" est : mx.religo.net > out.religo.net > vers internet ou vers slow.religo.net > vers internet

Jusqu'à 16:30, notre serveur de messagerie principal (religo) était parfaitement joignable et fonctionnel puis nous avons constaté également des ralentissements puis une impossibilité de le joindre.

Nous avons tout de suite contacté OVH afin de nous faire confirmer qu'il y avait bien un problème chez eux et si possible de nous informer du status du traitement de cet incident.
Simultanément, nous avons constaté un grand nombre de message sur Twitter concernant OVH de personnes faisant état de problèmes similaires.
cf. https://twitter.com/ovh_support_fr/with_replies

A 16:56, OVH confirmait l'incident sur son site de suivi de travaux : http://travaux.ovh.net/?do=details&id=37618&PHPSESSID=e21e66b106dae31739f44db5b7b44acd

La cause de l'incident
OVH, pour les environnements Cloud et VPS (deux types d'infrastructure que nous utilisons...) fait appel à Ceph pour sa plateforme de distribution de stockage (les disques virtuels).
L'infrastructure Ceph a subit un ralentissement qui s'est répercuté petit à petit vers les serveurs qui s'y connectent afin d'avoir accès aux données : dans l'incapacité de pouvoir fournir ces disques virtuels à vitesse "normale", les systèmes de nos serveurs ont commencé à rencontrer des difficultés à traiter les demandes de lecture/écriture.

Résolution de l'incident
A 17:58, l'incident était résolu et nos serveurs pleinement opérationnels. Toutefois et conformément au conseil d'OVH, notre serveur principal de messagerie (religo) va être redémarré à 18:10 ce qui le rendra indisponible pendant 1 à 2 minutes.

note : nous allons profiter du fait de devoir procéder peut-être à un ou deux redémarrages de nos serveurs pour appliquer des mises à jour système en attente plus tard dans la soirée (KB4489889).