Contact Us

Thank You

The form was submitted successfully. We will be in touch with you soon.

Les pannes fréquentes des systèmes de stockage et la perte de productivité sont monnaie courante dans le HPC

May 12, 2020

Voici le suivant de notre série de blogs sur l’enquête menée par Hyperion Research auprès d’organisations HPC (High Performance Computing, ou informatique haute performance) pour le compte de Panasas, afin de mieux comprendre la relation entre le CTP (coût total de possession) des systèmes de stockage HPC, et leurs coûts d’acquisition initiaux, et de pointer les avantages que les utilisateurs pourraient tirer d’une plus grande simplicité dans leurs installations.

Aussi incroyable que cela paraisse, l’enquête Hyperion a constaté ce qui suit :

« Près de la moitié des sites étudiés sont confrontés à des pannes de leur système de stockage une fois par mois voire plus souvent »

– et –

« Les arrêts durent de moins d’un jour à plus d’une semaine, alors qu’un jour d’arrêt coûte de moins de 100 000 $ à plus d’un million de dollars. »

Les résultats de cette enquête sont présentés dans les tableaux ci-dessous.

Récupération nécessitant plusieurs jours en cas de panne du système de stockage HPC

Les problèmes de fiabilité du stockage HPC s’aggravent. Lorsqu’on leur demande combien de temps est nécessaire pour récupérer d’une panne du système de stockage, les participants répondent que 40% des sites HPC mettent généralement plus de deux jours à rétablir la pleine fonctionnalité de leur système de stockage.

Temps de récupération après une panne système

Les pannes des systèmes de stockage HPC entraînent une perte de productivité importante

Pour le confirmer, il a également été demandé aux participants de préciser comment les défaillances des systèmes de stockage HPC et la récupération de données impactaient la productivité. Verdict : 78% des sites HPC rapportent des problèmes de stockage au cours de l’année passée, qui ont eu un impact négatif sur la productivité des utilisateurs.

Nombre de fois ou des problèmes de stockage ont impacté la productivité l’an passé

Les résultats moyens de l’enquête révèlent un état des lieux effroyable dans le stockage HPC

Selon l’enquête, la fréquence moyenne des pannes de systèmes de stockage HPC est de 9,8 pannes par an. Le temps moyen de récupération après une panne du système de stockage est de 1,7 jour. Et, selon les participants à l’enquête, le coût moyen d’un arrêt est de 127 000 dollars par jour.

Ce niveau de fiabilité serait totalement inacceptable pour n’importe quel système informatique aujourd’hui, sans parler d’un système de stockage. En fait, lorsque les résultats d’Hyperion ont été partagés à l’occasion d’une récente réunion du Groupe d’utilisateurs Panasas, le faible niveau apparent des attentes de l’industrie en matière de fiabilité des systèmes de stockage HPC a choqué le présentateur de la réunion. Les révélations d’Hyperion se sont poursuivies avec la présentation1 d’un utilisateur Panasas, qui a rapporté “Zéro arrêt non-planifié en 8 ans d’exploitation“.

Un exemple représentatif au hasard

Le graphique ci-dessous illustre de façon frappante la gravité de la situation dans une prestigieuse université2 américaine, qui a subi de fréquentes coupures de stockage HPC, et a passé plusieurs jours à remettre ses systèmes en état de marche. Le processus de récupération vécue par cette université3 est illustré par le graphique ci-dessous.

Des détails supplémentaires sont disponibles grâce au lien présent dans la note de bas de page. Il montre une coupure intervenue un lundi et un service qui n’a pu être complètement rétabli que le dimanche.

Taux d’utilisation des disques GPFS

Le faible niveau d’attentes apparent des organisation HPC concernant la fiabilité du stockage HPC

Les résultats de l’enquête Hyperion indiquent que la plupart des organisations HPC auraient intérêt à mieux connaître les besoins de leurs utilisateurs au-delà des seules performances et du prix, n’est-ce pas ?

L’idée générale”, très répandue dans le mode du stockage HPC, selon laquelle des performances à prix raisonnable s’accompagnent forcément d’une grande complexité et d’un manque de fiabilité, doit changer. Nous devons nous efforcer de suivre une approche permettant d’associer performance et simplicité, fiabilité et support compétent et efficace, à des systèmes de stockage économiques de classe entreprise.


1 « Utilisation de Panasas pour réduire la complexité et le CTP des charges de travail HPC »
2 https://www.vanderbilt.edu/accre/category/cluster-status-notice/
3 https://www.vanderbilt.edu/accre/category/cluster-status-notice/