Logotipo del repositorio
 

Understanding soft error sensitivity of deep learning models and frameworks through checkpoint alteration

Fecha

2021-10-13

Autores

Rojas, Elvis
Pérez, Diego
Calhoun, Jon
Bautista-Gomez, Leonardo
Jones, Terry
Meneses, Esteban

Título de la revista

ISSN de la revista

Título del volumen

Editor

Institute of Electrical and Electronics Engineers (IEEE)

Resumen

The convergence of artificial intelligence, highperformance computing (HPC), and data science brings unique opportunities for marked advance discoveries and that leverage synergies across scientific domains. Recently, deep learning (DL) models have been successfully applied to a wide spectrum of fields, from social network analysis to climate modeling. Such advances greatly benefit from already available HPC infrastructure, mainly GPU-enabled supercomputers. However, those powerful computing systems are exposed to failures, particularly silent data corruption (SDC) in which bit-flips occur without the program crashing. Consequently, exploring the impact of SDCs in DL models is vital for maintaining progress in many scientific domains. This paper uses a distinctive methodology to inject faults into training phases of DL models. We use checkpoint file alteration to study the effect of having bit-flips in different places of a model and at different moments of the training. Our strategy is general enough to allow the analysis of any combination of DL model and framework—so long as they produce a Hierarchical Data Format 5 checkpoint file. The experimental results confirm that popular DL models are often able to absorb dozens of bitflips with a minimal impact on accuracy convergence.
La convergencia de la inteligencia artificial, la computación de alto rendimiento (HPC) y la ciencia de datos aporta oportunidades únicas para realizar descubrimientos de marcado avance y que aprovechan las sinergias entre dominios científicos. Recientemente, los modelos de aprendizaje profundo (deep learning, DL) se han aplicado con éxito a un amplio espectro de campos, desde el análisis de redes sociales hasta la modelización del clima. Estos avances se benefician en gran medida de la infraestructura de HPC ya disponible, principalmente superordenadores con GPU. Sin embargo, estos potentes sistemas informáticos están expuestos a fallos, en particular a la corrupción silenciosa de datos (SDC), en la que se producen cambios de bits sin que el programa se bloquee. En consecuencia, explorar el impacto de los SDC en los modelos DL es vital para mantener el progreso en muchos dominios científicos. Este trabajo utiliza una metodología distintiva para inyectar fallos en las fases de entrenamiento de los modelos DL. Usamos la alteración de archivos de puntos de control para estudiar el efecto de tener bit-flips en diferentes lugares de un modelo y en diferentes momentos del entrenamiento. Nuestra estrategia es lo suficientemente general como para permitir el análisis de cualquier combinación de modelo DL y marco de trabajo, siempre que produzcan un archivo de puntos de control de Formato Jerárquico de Datos 5. Los resultados experimentales confirman que los modelos de DL más conocidos suelen ser capaces de absorber docenas de bitflips con un impacto mínimo en la convergencia de la precisión.

Descripción

Palabras clave

APRENDIZAJE PROFUNDO, RESILIENCIA, REDES NEURONALES, COMPUTACIÓN DE ALTO RENDIMIENTO, INYECCIÓN DE FALLOS, DEEP LEARNING, RESILIENCE, NEURAL NETWORKS, HIGH PERFORMANCE COMPUTING, FAULT INJECTION

Citación

Colecciones