SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters

Autores
Montezanti, Diego Miguel; Frati, Fernando Emmanuel; Rexachs, Dolores; Luque, Emilio; Naiouf, Ricardo Marcelo; de Giusti, Armando Eduardo
Año de publicación
2012
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
The challenge of improving the performance of current processors is achieved by increasing the integration scale. This carries a growing vulnerability to transient faults, which increase their impact on multicore clusters running large scientific parallel applications. The requirement for enhancing the reliability of these systems, coupled with the high cost of rerunning the application from the beginning, create the motivation for having specific software strategies for the target systems. This paper introduces SMCV, which is a fully distributed technique that provides fault detection for message-passing parallel applications, by validating the contents of the messages to be sent, preventing the transmission of errors to other processes and leveraging the intrinsic hardware redundancy of the multicore. SMCV achieves a wide robustness against transient faults with a reduced overhead, and accomplishes a trade-off between moderate detection latency and low additional workload.
El desafío de mejorar la potencia de cómputo de los procesadores actuales se logra mediante el aumento en la escala de integración. Esto conlleva una creciente vulnerabilidad a los fallos transitorios, los cuales incrementan su impacto en clusters de multicores que ejecutan aplicaciones paralelas científicas de garn duración. El requerimiento de aumentar la fiabilidad de estos sistemas y el alto costo de relanzar la ejecución desde el comienzo resultan en la necesidad de contar con estrategias de software específicas para ellos. En este trabajo, se presenta SMCV, una técnica totalmente distribuida que provee detección de fallos mediante la validación de los contenidos de los mensajes enviados, impidiendo la propagación de un error a otro proceso y aprovechando la redundancia de hardware intrínseca existente en el multicore. SMCV logra una alta cobertura introduciendo un reducido overhead, y obtiene un compromiso entre una latencia de detección moderada y una baja sobrecarga de trabajo.
Fil: Montezanti, Diego Miguel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Frati, Fernando Emmanuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Rexachs, Dolores. Universidad Autonoma de Barcelona. Dto Arquitectura Computadoras y Sist/operativos; España
Fil: Luque, Emilio. Universidad Autonoma de Barcelona. Dto Arquitectura Computadoras y Sist/operativos; España
Fil: Naiouf, Ricardo Marcelo. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: de Giusti, Armando Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Materia
TRANSIENT FAULT
SILENT DATA CORRUPTION
MULTICORE CLUSTER
PARALLEL SCIENTIFIC APPLICATION
SOFT ERROR DETECTION
MESSAGE CONTENT VALIDATION
RELIABILITY
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/197026

id CONICETDig_d969a1782614d20cee467123af6829c5
oai_identifier_str oai:ri.conicet.gov.ar:11336/197026
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling SMCV: A Methodology for Detecting Transient Faults in Multicore ClustersMontezanti, Diego MiguelFrati, Fernando EmmanuelRexachs, DoloresLuque, EmilioNaiouf, Ricardo Marcelode Giusti, Armando EduardoTRANSIENT FAULTSILENT DATA CORRUPTIONMULTICORE CLUSTERPARALLEL SCIENTIFIC APPLICATIONSOFT ERROR DETECTIONMESSAGE CONTENT VALIDATIONRELIABILITYhttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1The challenge of improving the performance of current processors is achieved by increasing the integration scale. This carries a growing vulnerability to transient faults, which increase their impact on multicore clusters running large scientific parallel applications. The requirement for enhancing the reliability of these systems, coupled with the high cost of rerunning the application from the beginning, create the motivation for having specific software strategies for the target systems. This paper introduces SMCV, which is a fully distributed technique that provides fault detection for message-passing parallel applications, by validating the contents of the messages to be sent, preventing the transmission of errors to other processes and leveraging the intrinsic hardware redundancy of the multicore. SMCV achieves a wide robustness against transient faults with a reduced overhead, and accomplishes a trade-off between moderate detection latency and low additional workload.El desafío de mejorar la potencia de cómputo de los procesadores actuales se logra mediante el aumento en la escala de integración. Esto conlleva una creciente vulnerabilidad a los fallos transitorios, los cuales incrementan su impacto en clusters de multicores que ejecutan aplicaciones paralelas científicas de garn duración. El requerimiento de aumentar la fiabilidad de estos sistemas y el alto costo de relanzar la ejecución desde el comienzo resultan en la necesidad de contar con estrategias de software específicas para ellos. En este trabajo, se presenta SMCV, una técnica totalmente distribuida que provee detección de fallos mediante la validación de los contenidos de los mensajes enviados, impidiendo la propagación de un error a otro proceso y aprovechando la redundancia de hardware intrínseca existente en el multicore. SMCV logra una alta cobertura introduciendo un reducido overhead, y obtiene un compromiso entre una latencia de detección moderada y una baja sobrecarga de trabajo.Fil: Montezanti, Diego Miguel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Frati, Fernando Emmanuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Rexachs, Dolores. Universidad Autonoma de Barcelona. Dto Arquitectura Computadoras y Sist/operativos; EspañaFil: Luque, Emilio. Universidad Autonoma de Barcelona. Dto Arquitectura Computadoras y Sist/operativos; EspañaFil: Naiouf, Ricardo Marcelo. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: de Giusti, Armando Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaCentro Latinoamericano de Estudios en Informática2012-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/197026Montezanti, Diego Miguel; Frati, Fernando Emmanuel; Rexachs, Dolores; Luque, Emilio; Naiouf, Ricardo Marcelo; et al.; SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters; Centro Latinoamericano de Estudios en Informática; CLEI Electronic Journal; 15; 3; 12-2012; 1-110717-5000CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/http://www.scielo.edu.uy/scielo.php?script=sci_arttext&pid=S0717-50002012000300006info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T10:21:52Zoai:ri.conicet.gov.ar:11336/197026instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 10:21:52.449CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
title SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
spellingShingle SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
Montezanti, Diego Miguel
TRANSIENT FAULT
SILENT DATA CORRUPTION
MULTICORE CLUSTER
PARALLEL SCIENTIFIC APPLICATION
SOFT ERROR DETECTION
MESSAGE CONTENT VALIDATION
RELIABILITY
title_short SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
title_full SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
title_fullStr SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
title_full_unstemmed SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
title_sort SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters
dc.creator.none.fl_str_mv Montezanti, Diego Miguel
Frati, Fernando Emmanuel
Rexachs, Dolores
Luque, Emilio
Naiouf, Ricardo Marcelo
de Giusti, Armando Eduardo
author Montezanti, Diego Miguel
author_facet Montezanti, Diego Miguel
Frati, Fernando Emmanuel
Rexachs, Dolores
Luque, Emilio
Naiouf, Ricardo Marcelo
de Giusti, Armando Eduardo
author_role author
author2 Frati, Fernando Emmanuel
Rexachs, Dolores
Luque, Emilio
Naiouf, Ricardo Marcelo
de Giusti, Armando Eduardo
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv TRANSIENT FAULT
SILENT DATA CORRUPTION
MULTICORE CLUSTER
PARALLEL SCIENTIFIC APPLICATION
SOFT ERROR DETECTION
MESSAGE CONTENT VALIDATION
RELIABILITY
topic TRANSIENT FAULT
SILENT DATA CORRUPTION
MULTICORE CLUSTER
PARALLEL SCIENTIFIC APPLICATION
SOFT ERROR DETECTION
MESSAGE CONTENT VALIDATION
RELIABILITY
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv The challenge of improving the performance of current processors is achieved by increasing the integration scale. This carries a growing vulnerability to transient faults, which increase their impact on multicore clusters running large scientific parallel applications. The requirement for enhancing the reliability of these systems, coupled with the high cost of rerunning the application from the beginning, create the motivation for having specific software strategies for the target systems. This paper introduces SMCV, which is a fully distributed technique that provides fault detection for message-passing parallel applications, by validating the contents of the messages to be sent, preventing the transmission of errors to other processes and leveraging the intrinsic hardware redundancy of the multicore. SMCV achieves a wide robustness against transient faults with a reduced overhead, and accomplishes a trade-off between moderate detection latency and low additional workload.
El desafío de mejorar la potencia de cómputo de los procesadores actuales se logra mediante el aumento en la escala de integración. Esto conlleva una creciente vulnerabilidad a los fallos transitorios, los cuales incrementan su impacto en clusters de multicores que ejecutan aplicaciones paralelas científicas de garn duración. El requerimiento de aumentar la fiabilidad de estos sistemas y el alto costo de relanzar la ejecución desde el comienzo resultan en la necesidad de contar con estrategias de software específicas para ellos. En este trabajo, se presenta SMCV, una técnica totalmente distribuida que provee detección de fallos mediante la validación de los contenidos de los mensajes enviados, impidiendo la propagación de un error a otro proceso y aprovechando la redundancia de hardware intrínseca existente en el multicore. SMCV logra una alta cobertura introduciendo un reducido overhead, y obtiene un compromiso entre una latencia de detección moderada y una baja sobrecarga de trabajo.
Fil: Montezanti, Diego Miguel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Frati, Fernando Emmanuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Rexachs, Dolores. Universidad Autonoma de Barcelona. Dto Arquitectura Computadoras y Sist/operativos; España
Fil: Luque, Emilio. Universidad Autonoma de Barcelona. Dto Arquitectura Computadoras y Sist/operativos; España
Fil: Naiouf, Ricardo Marcelo. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: de Giusti, Armando Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
description The challenge of improving the performance of current processors is achieved by increasing the integration scale. This carries a growing vulnerability to transient faults, which increase their impact on multicore clusters running large scientific parallel applications. The requirement for enhancing the reliability of these systems, coupled with the high cost of rerunning the application from the beginning, create the motivation for having specific software strategies for the target systems. This paper introduces SMCV, which is a fully distributed technique that provides fault detection for message-passing parallel applications, by validating the contents of the messages to be sent, preventing the transmission of errors to other processes and leveraging the intrinsic hardware redundancy of the multicore. SMCV achieves a wide robustness against transient faults with a reduced overhead, and accomplishes a trade-off between moderate detection latency and low additional workload.
publishDate 2012
dc.date.none.fl_str_mv 2012-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/197026
Montezanti, Diego Miguel; Frati, Fernando Emmanuel; Rexachs, Dolores; Luque, Emilio; Naiouf, Ricardo Marcelo; et al.; SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters; Centro Latinoamericano de Estudios en Informática; CLEI Electronic Journal; 15; 3; 12-2012; 1-11
0717-5000
CONICET Digital
CONICET
url http://hdl.handle.net/11336/197026
identifier_str_mv Montezanti, Diego Miguel; Frati, Fernando Emmanuel; Rexachs, Dolores; Luque, Emilio; Naiouf, Ricardo Marcelo; et al.; SMCV: A Methodology for Detecting Transient Faults in Multicore Clusters; Centro Latinoamericano de Estudios en Informática; CLEI Electronic Journal; 15; 3; 12-2012; 1-11
0717-5000
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://www.scielo.edu.uy/scielo.php?script=sci_arttext&pid=S0717-50002012000300006
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Centro Latinoamericano de Estudios en Informática
publisher.none.fl_str_mv Centro Latinoamericano de Estudios en Informática
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844614208869629952
score 13.070432