Show simple item record

dc.contributor.authorRojas, Elvis
dc.contributor.authorPérez, Diego
dc.contributor.authorCalhoun, Jon
dc.contributor.authorBautista-Gomez, Leonardo
dc.contributor.authorJones, Terry
dc.contributor.authorMeneses, Esteban
dc.date.accessioned2023-10-30T18:40:13Z
dc.date.available2023-10-30T18:40:13Z
dc.date.issued2021-10-13
dc.identifier.urihttp://hdl.handle.net/11056/26771
dc.description.abstractThe convergence of artificial intelligence, highperformance computing (HPC), and data science brings unique opportunities for marked advance discoveries and that leverage synergies across scientific domains. Recently, deep learning (DL) models have been successfully applied to a wide spectrum of fields, from social network analysis to climate modeling. Such advances greatly benefit from already available HPC infrastructure, mainly GPU-enabled supercomputers. However, those powerful computing systems are exposed to failures, particularly silent data corruption (SDC) in which bit-flips occur without the program crashing. Consequently, exploring the impact of SDCs in DL models is vital for maintaining progress in many scientific domains. This paper uses a distinctive methodology to inject faults into training phases of DL models. We use checkpoint file alteration to study the effect of having bit-flips in different places of a model and at different moments of the training. Our strategy is general enough to allow the analysis of any combination of DL model and framework—so long as they produce a Hierarchical Data Format 5 checkpoint file. The experimental results confirm that popular DL models are often able to absorb dozens of bitflips with a minimal impact on accuracy convergence.es_ES
dc.description.abstractLa convergencia de la inteligencia artificial, la computación de alto rendimiento (HPC) y la ciencia de datos aporta oportunidades únicas para realizar descubrimientos de marcado avance y que aprovechan las sinergias entre dominios científicos. Recientemente, los modelos de aprendizaje profundo (deep learning, DL) se han aplicado con éxito a un amplio espectro de campos, desde el análisis de redes sociales hasta la modelización del clima. Estos avances se benefician en gran medida de la infraestructura de HPC ya disponible, principalmente superordenadores con GPU. Sin embargo, estos potentes sistemas informáticos están expuestos a fallos, en particular a la corrupción silenciosa de datos (SDC), en la que se producen cambios de bits sin que el programa se bloquee. En consecuencia, explorar el impacto de los SDC en los modelos DL es vital para mantener el progreso en muchos dominios científicos. Este trabajo utiliza una metodología distintiva para inyectar fallos en las fases de entrenamiento de los modelos DL. Usamos la alteración de archivos de puntos de control para estudiar el efecto de tener bit-flips en diferentes lugares de un modelo y en diferentes momentos del entrenamiento. Nuestra estrategia es lo suficientemente general como para permitir el análisis de cualquier combinación de modelo DL y marco de trabajo, siempre que produzcan un archivo de puntos de control de Formato Jerárquico de Datos 5. Los resultados experimentales confirman que los modelos de DL más conocidos suelen ser capaces de absorber docenas de bitflips con un impacto mínimo en la convergencia de la precisión.es_ES
dc.description.sponsorshipInstituto Tecnológico de Costa Ricaes_ES
dc.description.sponsorshipUniversidad Nacional, Costa Ricaes_ES
dc.description.sponsorshipUniversidad Clemsones_ES
dc.description.sponsorshipCentro Nacional de Supercomputación, Barcelona (España)es_ES
dc.description.sponsorshipLaboratorio Nacional Oak Ridge, Estados Unidoses_ES
dc.description.sponsorshipCentro Nacional de Alta Tecnología, Costa Ricaes_ES
dc.language.isoenges_ES
dc.publisherInstitute of Electrical and Electronics Engineers (IEEE)es_ES
dc.rightsAcceso embargadoes_ES
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.source2021 IEEE International Conference on Cluster Computing (CLUSTER)es_ES
dc.subjectAPRENDIZAJE PROFUNDOes_ES
dc.subjectRESILIENCIAes_ES
dc.subjectREDES NEURONALESes_ES
dc.subjectCOMPUTACIÓN DE ALTO RENDIMIENTOes_ES
dc.subjectINYECCIÓN DE FALLOSes_ES
dc.subjectDEEP LEARNINGes_ES
dc.subjectRESILIENCEes_ES
dc.subjectNEURAL NETWORKSes_ES
dc.subjectHIGH PERFORMANCE COMPUTINGes_ES
dc.subjectFAULT INJECTIONes_ES
dc.titleUnderstanding soft error sensitivity of deep learning models and frameworks through checkpoint alterationes_ES
dc.typehttp://purl.org/coar/resource_type/c_8544es_ES
dc.description.procedenceSede Regional Brunca, Campus Pérez Zeledónes_ES
dc.identifier.doi10.1109/Cluster48925.2021.00045


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Acceso embargado
Except where otherwise noted, this item's license is described as Acceso embargado