Towards a model to estimate the reliability of large-scale hybrid supercomputers
dc.contributor.author | Rojas, Elvis | |
dc.contributor.author | Meneses, Esteban | |
dc.contributor.author | Jones, Terry | |
dc.contributor.author | Maxwell, Don | |
dc.date.accessioned | 2023-10-21T03:04:25Z | |
dc.date.available | 2023-10-21T03:04:25Z | |
dc.date.issued | 2020-08-18 | |
dc.description.abstract | Supercomputers stand as a fundamental tool for developing our understanding of the universe. State-of-the-art scientific simulations, big data analyses, and machine learning executions require high performance computing platforms. Such infrastructures have been growing lately with the addition of thousands of newly designed components, calling their resiliency into question. It is crucial to solidify our knowledge on the way supercomputers fail. Other recent studies have highlighted the importance of characterizing failures on supercomputers. This paper aims at modelling component failures of a supercomputer based on Mixed Weibull distributions. The model is built using a real-life multiyear failure record from a leadership-class supercomputer. Using several key observations from the data, we designed an analytical model that is robust enough to represent each of the main components of supercom-puters, yet it is flexible enough to alter the composition of the machine and be able to predict resilience of future or hypothetical systems. | es_ES |
dc.description.abstract | Los superordenadores se erigen como una herramienta fundamental para desarrollar nuestra comprensión del universo. Las simulaciones científicas de vanguardia, los análisis de macrodatos y las ejecuciones de aprendizaje automático requieren plataformas de de alto rendimiento. Estas infraestructuras han crecido últimamente con la adición de miles de componentes de nuevo diseño, lo que pone en duda su resistencia. Es crucial consolidar nuestros conocimientos sobre la forma en que fallan los superordenadores. Otros estudios recientes han destacado la importancia de caracterizar los fallos de los superordenadores. Este artículo de pretende modelizar los fallos de los componentes de un superordenador basándose en distribuciones Weibull mixtas. El modelo se construye utilizando un registro real de fallos de varios años de un superordenador de primera clase. A partir de varias observaciones clave de los datos, diseñamos un modelo analítico que es lo bastante robusto como para representar cada uno de los componentes principales de los superordenadores, pero lo bastante flexible como para modificar la composición de la máquina y ser capaz de predecir la resistencia de sistemas futuros o hipotéticos. | es_ES |
dc.description.procedence | Sede Regional Brunca, Campus Pérez Zeledón | es_ES |
dc.description.sponsorship | Universidad Nacional, Costa Rica | es_ES |
dc.description.sponsorship | Centro Nacional de Alta Tecnología, Costa Rica | es_ES |
dc.description.sponsorship | Instituto Tecnológico de Costa Rica | es_ES |
dc.description.sponsorship | Laboratorio Nacional Oak Ridge, Estados Unidos | es_ES |
dc.identifier.uri | http://hdl.handle.net/11056/26728 | |
dc.language.iso | eng | es_ES |
dc.publisher | Springer Nature | es_ES |
dc.rights | Acceso abierto | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.source | Euro-Par 2020: Parallel Processing 26th International Conference on Parallel and Distributed Computing | es_ES |
dc.subject | RESILIENCIA | es_ES |
dc.subject | MODELADO DE FALLOS | es_ES |
dc.subject | ANÁLISIS DE FALLOS | es_ES |
dc.subject | TOLERANCIA A FALLOS | es_ES |
dc.subject | FAULT TOLERANCE | es_ES |
dc.subject | RESILIENCE | es_ES |
dc.subject | FAILURE ANALYSIS | es_ES |
dc.subject | FAILURE MODELLING | es_ES |
dc.title | Towards a model to estimate the reliability of large-scale hybrid supercomputers | es_ES |
dc.type | http://purl.org/coar/resource_type/c_8544 | es_ES |
Archivos
Bloque original
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- Towards a model to estimate the reliability.pdf
- Tamaño:
- 2.05 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 919 B
- Formato:
- Item-specific license agreed upon to submission
- Descripción: