Understanding soft error sensitivity of deep learning models and frameworks through checkpoint alteration

Rojas, Elvis; Pérez, Diego; Calhoun, Jon; Bautista-Gomez, Leonardo; Jones, Terry; Meneses, Esteban

Understanding soft error sensitivity of deep learning models and frameworks through checkpoint alteration

dc.contributor.author	Rojas, Elvis
dc.contributor.author	Pérez, Diego
dc.contributor.author	Calhoun, Jon
dc.contributor.author	Bautista-Gomez, Leonardo
dc.contributor.author	Jones, Terry
dc.contributor.author	Meneses, Esteban
dc.date.accessioned	2023-10-30T18:40:13Z
dc.date.available	2023-10-30T18:40:13Z
dc.date.issued	2021-10-13
dc.description.abstract	The convergence of artificial intelligence, highperformance computing (HPC), and data science brings unique opportunities for marked advance discoveries and that leverage synergies across scientific domains. Recently, deep learning (DL) models have been successfully applied to a wide spectrum of fields, from social network analysis to climate modeling. Such advances greatly benefit from already available HPC infrastructure, mainly GPU-enabled supercomputers. However, those powerful computing systems are exposed to failures, particularly silent data corruption (SDC) in which bit-flips occur without the program crashing. Consequently, exploring the impact of SDCs in DL models is vital for maintaining progress in many scientific domains. This paper uses a distinctive methodology to inject faults into training phases of DL models. We use checkpoint file alteration to study the effect of having bit-flips in different places of a model and at different moments of the training. Our strategy is general enough to allow the analysis of any combination of DL model and framework—so long as they produce a Hierarchical Data Format 5 checkpoint file. The experimental results confirm that popular DL models are often able to absorb dozens of bitflips with a minimal impact on accuracy convergence.	es_ES
dc.description.abstract	La convergencia de la inteligencia artificial, la computación de alto rendimiento (HPC) y la ciencia de datos aporta oportunidades únicas para realizar descubrimientos de marcado avance y que aprovechan las sinergias entre dominios científicos. Recientemente, los modelos de aprendizaje profundo (deep learning, DL) se han aplicado con éxito a un amplio espectro de campos, desde el análisis de redes sociales hasta la modelización del clima. Estos avances se benefician en gran medida de la infraestructura de HPC ya disponible, principalmente superordenadores con GPU. Sin embargo, estos potentes sistemas informáticos están expuestos a fallos, en particular a la corrupción silenciosa de datos (SDC), en la que se producen cambios de bits sin que el programa se bloquee. En consecuencia, explorar el impacto de los SDC en los modelos DL es vital para mantener el progreso en muchos dominios científicos. Este trabajo utiliza una metodología distintiva para inyectar fallos en las fases de entrenamiento de los modelos DL. Usamos la alteración de archivos de puntos de control para estudiar el efecto de tener bit-flips en diferentes lugares de un modelo y en diferentes momentos del entrenamiento. Nuestra estrategia es lo suficientemente general como para permitir el análisis de cualquier combinación de modelo DL y marco de trabajo, siempre que produzcan un archivo de puntos de control de Formato Jerárquico de Datos 5. Los resultados experimentales confirman que los modelos de DL más conocidos suelen ser capaces de absorber docenas de bitflips con un impacto mínimo en la convergencia de la precisión.	es_ES
dc.description.procedence	Sede Regional Brunca, Campus Pérez Zeledón	es_ES
dc.description.sponsorship	Instituto Tecnológico de Costa Rica	es_ES
dc.description.sponsorship	Universidad Nacional, Costa Rica	es_ES
dc.description.sponsorship	Universidad Clemson	es_ES
dc.description.sponsorship	Centro Nacional de Supercomputación, Barcelona (España)	es_ES
dc.description.sponsorship	Laboratorio Nacional Oak Ridge, Estados Unidos	es_ES
dc.description.sponsorship	Centro Nacional de Alta Tecnología, Costa Rica	es_ES
dc.identifier.doi	10.1109/Cluster48925.2021.00045
dc.identifier.uri	http://hdl.handle.net/11056/26771
dc.language.iso	eng	es_ES
dc.publisher	Institute of Electrical and Electronics Engineers (IEEE)	es_ES
dc.rights	Acceso embargado	es_ES
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.source	2021 IEEE International Conference on Cluster Computing (CLUSTER)	es_ES
dc.subject	APRENDIZAJE PROFUNDO	es_ES
dc.subject	RESILIENCIA	es_ES
dc.subject	REDES NEURONALES	es_ES
dc.subject	COMPUTACIÓN DE ALTO RENDIMIENTO	es_ES
dc.subject	INYECCIÓN DE FALLOS	es_ES
dc.subject	DEEP LEARNING	es_ES
dc.subject	RESILIENCE	es_ES
dc.subject	NEURAL NETWORKS	es_ES
dc.subject	HIGH PERFORMANCE COMPUTING	es_ES
dc.subject	FAULT INJECTION	es_ES
dc.title	Understanding soft error sensitivity of deep learning models and frameworks through checkpoint alteration	es_ES
dc.type	http://purl.org/coar/resource_type/c_8544	es_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Understanding_Soft_Error_Sensitivity_of_Deep_Learning_Models_and_Frameworks_through_Checkpoint_Alteration.pdf
Tamaño:: 589.57 KB
Formato:: Adobe Portable Document Format
Descripción:

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 919 B
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Ponencias