Logotipo del repositorio
 

Towards a model to estimate the reliability of large-scale hybrid supercomputers

dc.contributor.authorRojas, Elvis
dc.contributor.authorMeneses, Esteban
dc.contributor.authorJones, Terry
dc.contributor.authorMaxwell, Don
dc.date.accessioned2023-10-21T03:04:25Z
dc.date.available2023-10-21T03:04:25Z
dc.date.issued2020-08-18
dc.description.abstractSupercomputers stand as a fundamental tool for developing our understanding of the universe. State-of-the-art scientific simulations, big data analyses, and machine learning executions require high performance computing platforms. Such infrastructures have been growing lately with the addition of thousands of newly designed components, calling their resiliency into question. It is crucial to solidify our knowledge on the way supercomputers fail. Other recent studies have highlighted the importance of characterizing failures on supercomputers. This paper aims at modelling component failures of a supercomputer based on Mixed Weibull distributions. The model is built using a real-life multiyear failure record from a leadership-class supercomputer. Using several key observations from the data, we designed an analytical model that is robust enough to represent each of the main components of supercom-puters, yet it is flexible enough to alter the composition of the machine and be able to predict resilience of future or hypothetical systems.es_ES
dc.description.abstractLos superordenadores se erigen como una herramienta fundamental para desarrollar nuestra comprensión del universo. Las simulaciones científicas de vanguardia, los análisis de macrodatos y las ejecuciones de aprendizaje automático requieren plataformas de de alto rendimiento. Estas infraestructuras han crecido últimamente con la adición de miles de componentes de nuevo diseño, lo que pone en duda su resistencia. Es crucial consolidar nuestros conocimientos sobre la forma en que fallan los superordenadores. Otros estudios recientes han destacado la importancia de caracterizar los fallos de los superordenadores. Este artículo de pretende modelizar los fallos de los componentes de un superordenador basándose en distribuciones Weibull mixtas. El modelo se construye utilizando un registro real de fallos de varios años de un superordenador de primera clase. A partir de varias observaciones clave de los datos, diseñamos un modelo analítico que es lo bastante robusto como para representar cada uno de los componentes principales de los superordenadores, pero lo bastante flexible como para modificar la composición de la máquina y ser capaz de predecir la resistencia de sistemas futuros o hipotéticos.es_ES
dc.description.procedenceSede Regional Brunca, Campus Pérez Zeledónes_ES
dc.description.sponsorshipUniversidad Nacional, Costa Ricaes_ES
dc.description.sponsorshipCentro Nacional de Alta Tecnología, Costa Ricaes_ES
dc.description.sponsorshipInstituto Tecnológico de Costa Ricaes_ES
dc.description.sponsorshipLaboratorio Nacional Oak Ridge, Estados Unidoses_ES
dc.identifier.urihttp://hdl.handle.net/11056/26728
dc.language.isoenges_ES
dc.publisherSpringer Naturees_ES
dc.rightsAcceso abiertoes_ES
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.sourceEuro-Par 2020: Parallel Processing 26th International Conference on Parallel and Distributed Computinges_ES
dc.subjectRESILIENCIAes_ES
dc.subjectMODELADO DE FALLOSes_ES
dc.subjectANÁLISIS DE FALLOSes_ES
dc.subjectTOLERANCIA A FALLOSes_ES
dc.subjectFAULT TOLERANCEes_ES
dc.subjectRESILIENCEes_ES
dc.subjectFAILURE ANALYSISes_ES
dc.subjectFAILURE MODELLINGes_ES
dc.titleTowards a model to estimate the reliability of large-scale hybrid supercomputerses_ES
dc.typehttp://purl.org/coar/resource_type/c_8544es_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
Towards a model to estimate the reliability.pdf
Tamaño:
2.05 MB
Formato:
Adobe Portable Document Format
Descripción:

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
919 B
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones