Caracterización de una estrategia de detección de fallos transitorios en HPC
- Autores
- Montezanti, Diego Miguel; Rexachs del Rosario, Dolores; Rucci, Enzo; Luque, Emilio; Naiouf, Marcelo; De Giusti, Armando Eduardo
- Año de publicación
- 2015
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.
XV Workshop de Procesamiento Distribuido y Paralelo (WPDP)
Red de Universidades con Carreras en Informática (RedUNCI) - Materia
-
Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/50189
Ver los metadatos del registro completo
id |
SEDICI_facc13f30399c95b91f94d6b1a2dc6b4 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/50189 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Caracterización de una estrategia de detección de fallos transitorios en HPCMontezanti, Diego MiguelRexachs del Rosario, DoloresRucci, EnzoLuque, EmilioNaiouf, MarceloDe Giusti, Armando EduardoCiencias InformáticasFault tolerancecorrupción silenciosa de datosParallelHPCinyección de fallosApplicationsEl manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.XV Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI)2015-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/50189spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-3806-05-6info:eu-repo/semantics/reference/hdl/10915/50028info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:03:52Zoai:sedici.unlp.edu.ar:10915/50189Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:03:52.337SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
title |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
spellingShingle |
Caracterización de una estrategia de detección de fallos transitorios en HPC Montezanti, Diego Miguel Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications |
title_short |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
title_full |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
title_fullStr |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
title_full_unstemmed |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
title_sort |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
dc.creator.none.fl_str_mv |
Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
author |
Montezanti, Diego Miguel |
author_facet |
Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
author_role |
author |
author2 |
Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
author2_role |
author author author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications |
topic |
Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications |
dc.description.none.fl_txt_mv |
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC. XV Workshop de Procesamiento Distribuido y Paralelo (WPDP) Red de Universidades con Carreras en Informática (RedUNCI) |
description |
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-10 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/50189 |
url |
http://sedici.unlp.edu.ar/handle/10915/50189 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/isbn/978-987-3806-05-6 info:eu-repo/semantics/reference/hdl/10915/50028 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1844615907216719872 |
score |
13.070432 |