Logotipo del repositorio
 

Understanding failures through the lifetime of a top-level supercomputer

dc.contributor.authorRojas, Elvis
dc.contributor.authorMeneses, Esteban
dc.contributor.authorJones, Terry
dc.contributor.authorMaxwell, Don
dc.date.accessioned2021-09-30T19:41:34Z
dc.date.available2021-09-30T19:41:34Z
dc.date.issued2021-04-20
dc.description.abstractHigh performance computing systems are required to solve grand challenges in many scientific disciplines. These systems assemble many components to be powerful enough for solving extremely complex problems. An inherent consequence is the intricacy of the interaction of all those components, especially when failures come into the picture. It is crucial to develop an understanding of how these systems fail to design reliable supercomputing platforms in the future. This paper presents the results on studying multi-year failure and workload records of a powerful supercomputer that topped the world rankings. We provide a thorough analysis of the data and characterize the reliability of the system through several dimensions: failure classification, failure-rate modelling, and interplay between failures and workload. The results shed some light on the dynamics of top-level supercomputers and sensitive areas ripe for improvement.es_ES
dc.description.abstractSe requieren sistemas informáticos de alto rendimiento para resolver grandes desafíos en muchas disciplinas científicas. Estos sistemas ensamblan muchos componentes para que sean lo suficientemente potentes como para resolver problemas extremadamente complejos. Una consecuencia inherente es la complejidad de la interacción de todos esos componentes, especialmente cuando las fallas entran en escena. Es crucial desarrollar una comprensión de cómo estos sistemas fallan en diseñar plataformas de supercomputación confiables en el futuro. Este artículo presenta los resultados del estudio de los registros de carga de trabajo y fallas de varios años de una poderosa supercomputadora que encabezó la clasificación mundial. Proporcionamos un análisis exhaustivo de los datos y caracterizamos la confiabilidad del sistema a través de varias dimensiones: clasificación de fallas, modelado de la tasa de fallas e interacción entre fallas y carga de trabajo. Los resultados arrojan algo de luz sobre la dinámica de las supercomputadoras de alto nivel y las áreas sensibles listas para mejorar.es_ES
dc.description.procedenceEscuela de Informáticaes_ES
dc.description.sponsorshipUniversidad Nacional, Costa Ricaes_ES
dc.description.sponsorshipInstituto Tecnológico de Costa Ricaes_ES
dc.description.sponsorshipCentro Nacional de Alta Tecnología, Costa Ricaes_ES
dc.description.sponsorshipLaboratorio Nacional Oak Ridge, Estados Unidoses_ES
dc.identifier.doi10.1016/j.jpdc.2021.04.001
dc.identifier.issn0743-7315
dc.identifier.urihttp://hdl.handle.net/11056/21418
dc.language.isoenges_ES
dc.publisherAcademic Press Inc.es_ES
dc.rightsAcceso embargadoes_ES
dc.sourceJournal of Parallel and Distributed Computing vol.154 27-41 2021es_ES
dc.subjectFAULT TOLERANCEes_ES
dc.subjectRESILIENCEes_ES
dc.subjectFAILURE ANALYSISes_ES
dc.subjectHIGH PERFORMANCE COMPUTINGes_ES
dc.titleUnderstanding failures through the lifetime of a top-level supercomputeres_ES
dc.typehttp://purl.org/coar/resource_type/c_6501es_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
1-s2.0-S0743731521000782-main.pdf
Tamaño:
3.85 MB
Formato:
Adobe Portable Document Format
Descripción:

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
919 B
Formato:
Item-specific license agreed upon to submission
Descripción: