Caracterización de una estrategia de detección de fallos transitorios en HPC

Autores
Montezanti, Diego Miguel; Rexachs del Rosario, Dolores; Rucci, Enzo; Luque, Emilio; Naiouf, Marcelo; De Giusti, Armando Eduardo
Año de publicación
2015
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.
XV Workshop de Procesamiento Distribuido y Paralelo (WPDP)
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/50189

id SEDICI_facc13f30399c95b91f94d6b1a2dc6b4
oai_identifier_str oai:sedici.unlp.edu.ar:10915/50189
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Caracterización de una estrategia de detección de fallos transitorios en HPCMontezanti, Diego MiguelRexachs del Rosario, DoloresRucci, EnzoLuque, EmilioNaiouf, MarceloDe Giusti, Armando EduardoCiencias InformáticasFault tolerancecorrupción silenciosa de datosParallelHPCinyección de fallosApplicationsEl manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.XV Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI)2015-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/50189spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-3806-05-6info:eu-repo/semantics/reference/hdl/10915/50028info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:03:52Zoai:sedici.unlp.edu.ar:10915/50189Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:03:52.337SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Caracterización de una estrategia de detección de fallos transitorios en HPC
title Caracterización de una estrategia de detección de fallos transitorios en HPC
spellingShingle Caracterización de una estrategia de detección de fallos transitorios en HPC
Montezanti, Diego Miguel
Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
title_short Caracterización de una estrategia de detección de fallos transitorios en HPC
title_full Caracterización de una estrategia de detección de fallos transitorios en HPC
title_fullStr Caracterización de una estrategia de detección de fallos transitorios en HPC
title_full_unstemmed Caracterización de una estrategia de detección de fallos transitorios en HPC
title_sort Caracterización de una estrategia de detección de fallos transitorios en HPC
dc.creator.none.fl_str_mv Montezanti, Diego Miguel
Rexachs del Rosario, Dolores
Rucci, Enzo
Luque, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author Montezanti, Diego Miguel
author_facet Montezanti, Diego Miguel
Rexachs del Rosario, Dolores
Rucci, Enzo
Luque, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author_role author
author2 Rexachs del Rosario, Dolores
Rucci, Enzo
Luque, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
topic Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
dc.description.none.fl_txt_mv El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.
XV Workshop de Procesamiento Distribuido y Paralelo (WPDP)
Red de Universidades con Carreras en Informática (RedUNCI)
description El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.
publishDate 2015
dc.date.none.fl_str_mv 2015-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/50189
url http://sedici.unlp.edu.ar/handle/10915/50189
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-987-3806-05-6
info:eu-repo/semantics/reference/hdl/10915/50028
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844615907216719872
score 13.070432