H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments

Autores
Royo, Ambrosio; Villamayor, Jorge; Castro-León, Marcela; Rexachs del Rosario, Dolores; Luque Fadón, Emilio
Año de publicación
2018
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.
Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.
Facultad de Informática
Materia
Ciencias Informáticas
Fault-tolerance
nube
tolerancia a fallos
computación de altas prestaciones
cloud
high- performance computing
RADIC
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/71655

id SEDICI_05d87c0db8c76f72ccbf6cc68ae574e5
oai_identifier_str oai:sedici.unlp.edu.ar:10915/71655
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud EnvironmentsH-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nubeRoyo, AmbrosioVillamayor, JorgeCastro-León, MarcelaRexachs del Rosario, DoloresLuque Fadón, EmilioCiencias InformáticasFault-tolerancenubetolerancia a falloscomputación de altas prestacionescloudhigh- performance computingRADICEven though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.Facultad de Informática2018-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf210-217http://sedici.unlp.edu.ar/handle/10915/71655enginfo:eu-repo/semantics/altIdentifier/url/http://journal.info.unlp.edu.ar/JCST/article/view/1150/909info:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.18.e24info:eu-repo/semantics/reference/hdl/10915/69674info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/4.0/Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T10:43:39Zoai:sedici.unlp.edu.ar:10915/71655Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 10:43:39.935SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
H-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nube
title H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
spellingShingle H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
Royo, Ambrosio
Ciencias Informáticas
Fault-tolerance
nube
tolerancia a fallos
computación de altas prestaciones
cloud
high- performance computing
RADIC
title_short H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
title_full H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
title_fullStr H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
title_full_unstemmed H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
title_sort H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
dc.creator.none.fl_str_mv Royo, Ambrosio
Villamayor, Jorge
Castro-León, Marcela
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
author Royo, Ambrosio
author_facet Royo, Ambrosio
Villamayor, Jorge
Castro-León, Marcela
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
author_role author
author2 Villamayor, Jorge
Castro-León, Marcela
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
author2_role author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Fault-tolerance
nube
tolerancia a fallos
computación de altas prestaciones
cloud
high- performance computing
RADIC
topic Ciencias Informáticas
Fault-tolerance
nube
tolerancia a fallos
computación de altas prestaciones
cloud
high- performance computing
RADIC
dc.description.none.fl_txt_mv Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.
Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.
Facultad de Informática
description Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.
publishDate 2018
dc.date.none.fl_str_mv 2018-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/71655
url http://sedici.unlp.edu.ar/handle/10915/71655
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/http://journal.info.unlp.edu.ar/JCST/article/view/1150/909
info:eu-repo/semantics/altIdentifier/issn/1666-6038
info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.18.e24
info:eu-repo/semantics/reference/hdl/10915/69674
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc/4.0/
Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/4.0/
Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.format.none.fl_str_mv application/pdf
210-217
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1842260308231454720
score 13.13397