Understanding soft error sensitivity of deep learning models and frameworks through checkpoint alteration
dc.contributor.author | Rojas, Elvis | |
dc.contributor.author | Pérez, Diego | |
dc.contributor.author | Calhoun, Jon | |
dc.contributor.author | Bautista-Gomez, Leonardo | |
dc.contributor.author | Jones, Terry | |
dc.contributor.author | Meneses, Esteban | |
dc.date.accessioned | 2023-10-30T18:40:13Z | |
dc.date.available | 2023-10-30T18:40:13Z | |
dc.date.issued | 2021-10-13 | |
dc.description.abstract | The convergence of artificial intelligence, highperformance computing (HPC), and data science brings unique opportunities for marked advance discoveries and that leverage synergies across scientific domains. Recently, deep learning (DL) models have been successfully applied to a wide spectrum of fields, from social network analysis to climate modeling. Such advances greatly benefit from already available HPC infrastructure, mainly GPU-enabled supercomputers. However, those powerful computing systems are exposed to failures, particularly silent data corruption (SDC) in which bit-flips occur without the program crashing. Consequently, exploring the impact of SDCs in DL models is vital for maintaining progress in many scientific domains. This paper uses a distinctive methodology to inject faults into training phases of DL models. We use checkpoint file alteration to study the effect of having bit-flips in different places of a model and at different moments of the training. Our strategy is general enough to allow the analysis of any combination of DL model and framework—so long as they produce a Hierarchical Data Format 5 checkpoint file. The experimental results confirm that popular DL models are often able to absorb dozens of bitflips with a minimal impact on accuracy convergence. | es_ES |
dc.description.abstract | La convergencia de la inteligencia artificial, la computación de alto rendimiento (HPC) y la ciencia de datos aporta oportunidades únicas para realizar descubrimientos de marcado avance y que aprovechan las sinergias entre dominios científicos. Recientemente, los modelos de aprendizaje profundo (deep learning, DL) se han aplicado con éxito a un amplio espectro de campos, desde el análisis de redes sociales hasta la modelización del clima. Estos avances se benefician en gran medida de la infraestructura de HPC ya disponible, principalmente superordenadores con GPU. Sin embargo, estos potentes sistemas informáticos están expuestos a fallos, en particular a la corrupción silenciosa de datos (SDC), en la que se producen cambios de bits sin que el programa se bloquee. En consecuencia, explorar el impacto de los SDC en los modelos DL es vital para mantener el progreso en muchos dominios científicos. Este trabajo utiliza una metodología distintiva para inyectar fallos en las fases de entrenamiento de los modelos DL. Usamos la alteración de archivos de puntos de control para estudiar el efecto de tener bit-flips en diferentes lugares de un modelo y en diferentes momentos del entrenamiento. Nuestra estrategia es lo suficientemente general como para permitir el análisis de cualquier combinación de modelo DL y marco de trabajo, siempre que produzcan un archivo de puntos de control de Formato Jerárquico de Datos 5. Los resultados experimentales confirman que los modelos de DL más conocidos suelen ser capaces de absorber docenas de bitflips con un impacto mínimo en la convergencia de la precisión. | es_ES |
dc.description.procedence | Sede Regional Brunca, Campus Pérez Zeledón | es_ES |
dc.description.sponsorship | Instituto Tecnológico de Costa Rica | es_ES |
dc.description.sponsorship | Universidad Nacional, Costa Rica | es_ES |
dc.description.sponsorship | Universidad Clemson | es_ES |
dc.description.sponsorship | Centro Nacional de Supercomputación, Barcelona (España) | es_ES |
dc.description.sponsorship | Laboratorio Nacional Oak Ridge, Estados Unidos | es_ES |
dc.description.sponsorship | Centro Nacional de Alta Tecnología, Costa Rica | es_ES |
dc.identifier.doi | 10.1109/Cluster48925.2021.00045 | |
dc.identifier.uri | http://hdl.handle.net/11056/26771 | |
dc.language.iso | eng | es_ES |
dc.publisher | Institute of Electrical and Electronics Engineers (IEEE) | es_ES |
dc.rights | Acceso embargado | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.source | 2021 IEEE International Conference on Cluster Computing (CLUSTER) | es_ES |
dc.subject | APRENDIZAJE PROFUNDO | es_ES |
dc.subject | RESILIENCIA | es_ES |
dc.subject | REDES NEURONALES | es_ES |
dc.subject | COMPUTACIÓN DE ALTO RENDIMIENTO | es_ES |
dc.subject | INYECCIÓN DE FALLOS | es_ES |
dc.subject | DEEP LEARNING | es_ES |
dc.subject | RESILIENCE | es_ES |
dc.subject | NEURAL NETWORKS | es_ES |
dc.subject | HIGH PERFORMANCE COMPUTING | es_ES |
dc.subject | FAULT INJECTION | es_ES |
dc.title | Understanding soft error sensitivity of deep learning models and frameworks through checkpoint alteration | es_ES |
dc.type | http://purl.org/coar/resource_type/c_8544 | es_ES |
Archivos
Bloque original
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- Understanding_Soft_Error_Sensitivity_of_Deep_Learning_Models_and_Frameworks_through_Checkpoint_Alteration.pdf
- Tamaño:
- 589.57 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 919 B
- Formato:
- Item-specific license agreed upon to submission
- Descripción: