Logotipo del repositorio
 

Exploring the effects of silent data corruption in distributed deep learning training

dc.contributor.authorRojas, Elvis
dc.contributor.authorPérez, Diego
dc.contributor.authorMeneses, Esteban
dc.date.accessioned2022-11-17T21:30:03Z
dc.date.available2022-11-17T21:30:03Z
dc.date.issued2022-11-02
dc.description.abstractThe profound impact of recent developments in artificial intelligence is unquestionable. The applications of deep learning models are everywhere, from advanced natural language processing to highly accurate prediction of extreme weather. Those models have been continuously increasing in complexity, becoming much more powerful than their original versions. In addition, data to train the models is becoming more available as technological infrastructures sense and collect more readings. Consequently, distributed deep learning training is often times necessary to handle intricate models and massive datasets. Running a distributed training strategy on a supercomputer exposes the models to all the considerations of a large-scale machine; reliability is one of them. As supercomputers integrate a colossal number of components, each fabricated on an ever decreasing feature-size, faults are common during execution of programs. A particular type of fault, silent data corruption, is troublesome because the system does not crash and does not immediately give an evident sign of an error. We set out to explore the effects of that type of faults by inspecting how distributed deep learning training strategies cope with bit-flips that affect their internal data structures. We used checkpoint alteration, a technique that permits the study of this phenomenon on different distributed training platforms and with different deep learning frameworks. We evaluated two distributed learning libraries (Distributed Data Parallel and Horovod) and found out Horovod is slightly more resilient to SDCs. However, fault propagation is similar in both cases, and the model is more sensitive to SDCs than the optimizer.es_ES
dc.description.abstractEl profundo impacto de los recientes avances en inteligencia artificial es incuestionable. Las aplicaciones de los modelos de aprendizaje profundo están por todas partes, desde el procesamiento avanzado del lenguaje natural hasta la predicción altamente precisa del clima extremo. Esos modelos han ido aumentando continuamente su complejidad, volviéndose mucho más potentes que sus versiones originales. Además, los datos para entrenar los modelos están cada vez más disponibles a medida que las infraestructuras tecnológicas detectan y recogen más lecturas. En consecuencia, el entrenamiento distribuido del aprendizaje profundo es a menudo necesario para manejar modelos intrincados y conjuntos de datos masivos. Ejecutar una estrategia de entrenamiento distribuido en un superordenador expone los modelos a todas las consideraciones de una máquina a gran escala; la fiabilidad es una de ellas. Como los superordenadores integran un número colosal de componentes, cada uno de ellos fabricado con un tamaño de característica cada vez menor, los fallos son habituales durante la ejecución de los programas. Un tipo particular de fallo, la corrupción silenciosa de datos, es problemático porque el sistema no se bloquea y no da inmediatamente una señal evidente de un error. Nos propusimos explorar los efectos de ese tipo de fallos inspeccionando cómo las estrategias de entrenamiento de aprendizaje profundo distribuido hacen frente a los cambios de bits que afectan a sus estructuras de datos internas. Utilizamos la alteración de puntos de control, una técnica que permite estudiar este fenómeno en diferentes plataformas de entrenamiento distribuido y con diferentes marcos de aprendizaje profundo. Evaluamos dos bibliotecas de aprendizaje distribuido (Distributed Data Parallel y Horovod) y descubrimos que Horovod es ligeramente más resistente a los SDC. Sin embargo, la propagación de fallos es similar en ambos casos, y el modelo es más sensible a los SDCs que el optimizador.es_ES
dc.description.procedenceSede Regional Brunca, Campus Pérez Zeledónes_ES
dc.description.sponsorshipCentro Nacional de Alta Tecnología, Tecnológico de Costa Ricaes_ES
dc.description.sponsorshipUniversidad Nacional, Costa Rica
dc.identifier.doi10.1109/SBAC-PAD55451.2022.00013
dc.identifier.urihttp://hdl.handle.net/11056/24355
dc.language.isoenges_ES
dc.publisherInstitute of Electrical and Electronics Engineers (IEEE)
dc.rightsAcceso embargadoes_ES
dc.source2022 IEEE 34th International Symposium on Computer Architecture and High Performance Computing (SBAC- PAD)es_ES
dc.subjectPROCESAMIENTO ELECTRÓNICO DE DATOSes_ES
dc.subjectSEGURIDAD (INFORMÁTICA)es_ES
dc.subjectINTELIGENCIA ARTIFICIALes_ES
dc.subjectAPRENDIZAJE PROFUNDOes_ES
dc.subjectAPRENDIZAJE AUTOMÁTICOes_ES
dc.subjectALGORITMOSes_ES
dc.subjectPROCESAMIENTO DE INFORMACIÓNes_ES
dc.subjectENTRENAMIENTO CON DATA PARALLELes_ES
dc.subjectENTRENAMIENTO CON HOROVODes_ES
dc.subjectELECTRONIC DATA PROCESSINGes_ES
dc.subjectSECURITY (COMPUTER SCIENCE)es_ES
dc.subjectARTIFICIAL INTELLIGENCEes_ES
dc.subjectDEEP LEARNINGes_ES
dc.subjectMACHINE LEARNINGes_ES
dc.subjectALGORITHMSes_ES
dc.subjectINFORMATION PROCESSINGes_ES
dc.subjectDATA PARALLEL TRAININGes_ES
dc.subjectTRAINING WITH HOROVODes_ES
dc.titleExploring the effects of silent data corruption in distributed deep learning traininges_ES
dc.typehttp://purl.org/coar/resource_type/c_816bes_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
Exploring the Effects of Silent Data Corruption in Distributed Deep Learning Training.pdf
Tamaño:
1.03 MB
Formato:
Adobe Portable Document Format
Descripción:

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
919 B
Formato:
Item-specific license agreed upon to submission
Descripción: