Rojas, ElvisMeneses, EstebanJones, TerryMaxwell, Don2023-10-212023-10-212020-08-18http://hdl.handle.net/11056/26728Supercomputers stand as a fundamental tool for developing our understanding of the universe. State-of-the-art scientific simulations, big data analyses, and machine learning executions require high performance computing platforms. Such infrastructures have been growing lately with the addition of thousands of newly designed components, calling their resiliency into question. It is crucial to solidify our knowledge on the way supercomputers fail. Other recent studies have highlighted the importance of characterizing failures on supercomputers. This paper aims at modelling component failures of a supercomputer based on Mixed Weibull distributions. The model is built using a real-life multiyear failure record from a leadership-class supercomputer. Using several key observations from the data, we designed an analytical model that is robust enough to represent each of the main components of supercom-puters, yet it is flexible enough to alter the composition of the machine and be able to predict resilience of future or hypothetical systems.Los superordenadores se erigen como una herramienta fundamental para desarrollar nuestra comprensión del universo. Las simulaciones científicas de vanguardia, los análisis de macrodatos y las ejecuciones de aprendizaje automático requieren plataformas de de alto rendimiento. Estas infraestructuras han crecido últimamente con la adición de miles de componentes de nuevo diseño, lo que pone en duda su resistencia. Es crucial consolidar nuestros conocimientos sobre la forma en que fallan los superordenadores. Otros estudios recientes han destacado la importancia de caracterizar los fallos de los superordenadores. Este artículo de pretende modelizar los fallos de los componentes de un superordenador basándose en distribuciones Weibull mixtas. El modelo se construye utilizando un registro real de fallos de varios años de un superordenador de primera clase. A partir de varias observaciones clave de los datos, diseñamos un modelo analítico que es lo bastante robusto como para representar cada uno de los componentes principales de los superordenadores, pero lo bastante flexible como para modificar la composición de la máquina y ser capaz de predecir la resistencia de sistemas futuros o hipotéticos.engAcceso abiertoAttribution-NonCommercial-NoDerivatives 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/RESILIENCIAMODELADO DE FALLOSANÁLISIS DE FALLOSTOLERANCIA A FALLOSFAULT TOLERANCERESILIENCEFAILURE ANALYSISFAILURE MODELLINGTowards a model to estimate the reliability of large-scale hybrid supercomputershttp://purl.org/coar/resource_type/c_8544