H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments
- Autores
- Royo, Ambrosio; Villamayor, Jorge; Castro-León, Marcela; Rexachs del Rosario, Dolores; Luque Fadón, Emilio
- Año de publicación
- 2018
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.
Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.
Facultad de Informática - Materia
-
Ciencias Informáticas
Fault-tolerance
nube
tolerancia a fallos
computación de altas prestaciones
cloud
high- performance computing
RADIC - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/71655
Ver los metadatos del registro completo
id |
SEDICI_05d87c0db8c76f72ccbf6cc68ae574e5 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/71655 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud EnvironmentsH-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nubeRoyo, AmbrosioVillamayor, JorgeCastro-León, MarcelaRexachs del Rosario, DoloresLuque Fadón, EmilioCiencias InformáticasFault-tolerancenubetolerancia a falloscomputación de altas prestacionescloudhigh- performance computingRADICEven though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.Facultad de Informática2018-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf210-217http://sedici.unlp.edu.ar/handle/10915/71655enginfo:eu-repo/semantics/altIdentifier/url/http://journal.info.unlp.edu.ar/JCST/article/view/1150/909info:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.18.e24info:eu-repo/semantics/reference/hdl/10915/69674info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/4.0/Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T10:43:39Zoai:sedici.unlp.edu.ar:10915/71655Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 10:43:39.935SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments H-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nube |
title |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments |
spellingShingle |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments Royo, Ambrosio Ciencias Informáticas Fault-tolerance nube tolerancia a fallos computación de altas prestaciones cloud high- performance computing RADIC |
title_short |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments |
title_full |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments |
title_fullStr |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments |
title_full_unstemmed |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments |
title_sort |
H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments |
dc.creator.none.fl_str_mv |
Royo, Ambrosio Villamayor, Jorge Castro-León, Marcela Rexachs del Rosario, Dolores Luque Fadón, Emilio |
author |
Royo, Ambrosio |
author_facet |
Royo, Ambrosio Villamayor, Jorge Castro-León, Marcela Rexachs del Rosario, Dolores Luque Fadón, Emilio |
author_role |
author |
author2 |
Villamayor, Jorge Castro-León, Marcela Rexachs del Rosario, Dolores Luque Fadón, Emilio |
author2_role |
author author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Fault-tolerance nube tolerancia a fallos computación de altas prestaciones cloud high- performance computing RADIC |
topic |
Ciencias Informáticas Fault-tolerance nube tolerancia a fallos computación de altas prestaciones cloud high- performance computing RADIC |
dc.description.none.fl_txt_mv |
Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources. Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos. Facultad de Informática |
description |
Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-12 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/71655 |
url |
http://sedici.unlp.edu.ar/handle/10915/71655 |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/http://journal.info.unlp.edu.ar/JCST/article/view/1150/909 info:eu-repo/semantics/altIdentifier/issn/1666-6038 info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.18.e24 info:eu-repo/semantics/reference/hdl/10915/69674 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc/4.0/ Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) |
dc.format.none.fl_str_mv |
application/pdf 210-217 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1842260308231454720 |
score |
13.13397 |