Understanding failures through the lifetime of a top-level supercomputer
dc.contributor.author | Rojas, Elvis | |
dc.contributor.author | Meneses, Esteban | |
dc.contributor.author | Jones, Terry | |
dc.contributor.author | Maxwell, Don | |
dc.date.accessioned | 2021-09-30T19:41:34Z | |
dc.date.available | 2021-09-30T19:41:34Z | |
dc.date.issued | 2021-04-20 | |
dc.description.abstract | High performance computing systems are required to solve grand challenges in many scientific disciplines. These systems assemble many components to be powerful enough for solving extremely complex problems. An inherent consequence is the intricacy of the interaction of all those components, especially when failures come into the picture. It is crucial to develop an understanding of how these systems fail to design reliable supercomputing platforms in the future. This paper presents the results on studying multi-year failure and workload records of a powerful supercomputer that topped the world rankings. We provide a thorough analysis of the data and characterize the reliability of the system through several dimensions: failure classification, failure-rate modelling, and interplay between failures and workload. The results shed some light on the dynamics of top-level supercomputers and sensitive areas ripe for improvement. | es_ES |
dc.description.abstract | Se requieren sistemas informáticos de alto rendimiento para resolver grandes desafíos en muchas disciplinas científicas. Estos sistemas ensamblan muchos componentes para que sean lo suficientemente potentes como para resolver problemas extremadamente complejos. Una consecuencia inherente es la complejidad de la interacción de todos esos componentes, especialmente cuando las fallas entran en escena. Es crucial desarrollar una comprensión de cómo estos sistemas fallan en diseñar plataformas de supercomputación confiables en el futuro. Este artículo presenta los resultados del estudio de los registros de carga de trabajo y fallas de varios años de una poderosa supercomputadora que encabezó la clasificación mundial. Proporcionamos un análisis exhaustivo de los datos y caracterizamos la confiabilidad del sistema a través de varias dimensiones: clasificación de fallas, modelado de la tasa de fallas e interacción entre fallas y carga de trabajo. Los resultados arrojan algo de luz sobre la dinámica de las supercomputadoras de alto nivel y las áreas sensibles listas para mejorar. | es_ES |
dc.description.procedence | Escuela de Informática | es_ES |
dc.description.sponsorship | Universidad Nacional, Costa Rica | es_ES |
dc.description.sponsorship | Instituto Tecnológico de Costa Rica | es_ES |
dc.description.sponsorship | Centro Nacional de Alta Tecnología, Costa Rica | es_ES |
dc.description.sponsorship | Laboratorio Nacional Oak Ridge, Estados Unidos | es_ES |
dc.identifier.doi | 10.1016/j.jpdc.2021.04.001 | |
dc.identifier.issn | 0743-7315 | |
dc.identifier.uri | http://hdl.handle.net/11056/21418 | |
dc.language.iso | eng | es_ES |
dc.publisher | Academic Press Inc. | es_ES |
dc.rights | Acceso embargado | es_ES |
dc.source | Journal of Parallel and Distributed Computing vol.154 27-41 2021 | es_ES |
dc.subject | FAULT TOLERANCE | es_ES |
dc.subject | RESILIENCE | es_ES |
dc.subject | FAILURE ANALYSIS | es_ES |
dc.subject | HIGH PERFORMANCE COMPUTING | es_ES |
dc.title | Understanding failures through the lifetime of a top-level supercomputer | es_ES |
dc.type | http://purl.org/coar/resource_type/c_6501 | es_ES |
Archivos
Bloque original
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- 1-s2.0-S0743731521000782-main.pdf
- Tamaño:
- 3.85 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 919 B
- Formato:
- Item-specific license agreed upon to submission
- Descripción: