Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC

Autores
Santos, Guna A.; Duarte, Angelo; Rexachs del Rosario, Dolores; Luque Fadón, Emilio
Año de publicación
2006
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Tras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérdidas de prestaciones en sistemas paralelos con tolerancia a fallos basados en rollback-recovery, después de un fallo, donde la máquina paralela queda reconfigurada con un nodo menos, con la consiguiente repercusión en el tiempo de ejecución de la aplicación. Proponemos para recuperar las prestaciones, una solución que extiende la arquitectura RADIC: la posibilidad de permitir, durante la ejecución de la aplicación, el reemplazo de nodos que han fallado o disponer de nodos extras que pueden ser iniciados con la aplicación, pero sin procesos de la aplicación activos, de forma que cuando falle un nodo pase a ejecutar los procesos en dicho nodo
After a fault recovering, the reduction of the planned nodes number and the existence of unplanned process node sharing, leads to application performance lost. This work presents a proposal to minimize the performance lost in rollback-recovery based fault tolerant parallel systems, after a fault occurrence, when the parallel machine reconfigure itself with one node less, affecting the application total execution time. In order to restore the performance, we propose a solution that extends the RADIC architecture: the possibility of, during the application execution, allow the faulty nodes replacement or to have process free spare nodes that may or not be started with the application, in order to under a node failure assumes the process that was in execution on the faulty node.
VII Workshop de Procesamiento Distribuido y Paralelo (WPDP)
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
Fault tolerance
Parallel
Clustering
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/22688

id SEDICI_3d52338b8df3c88d58ae1d98dc9c8dda
oai_identifier_str oai:sedici.unlp.edu.ar:10915/22688
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADICSantos, Guna A.Duarte, AngeloRexachs del Rosario, DoloresLuque Fadón, EmilioCiencias InformáticasFault toleranceParallelClusteringTras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérdidas de prestaciones en sistemas paralelos con tolerancia a fallos basados en rollback-recovery, después de un fallo, donde la máquina paralela queda reconfigurada con un nodo menos, con la consiguiente repercusión en el tiempo de ejecución de la aplicación. Proponemos para recuperar las prestaciones, una solución que extiende la arquitectura RADIC: la posibilidad de permitir, durante la ejecución de la aplicación, el reemplazo de nodos que han fallado o disponer de nodos extras que pueden ser iniciados con la aplicación, pero sin procesos de la aplicación activos, de forma que cuando falle un nodo pase a ejecutar los procesos en dicho nodoAfter a fault recovering, the reduction of the planned nodes number and the existence of unplanned process node sharing, leads to application performance lost. This work presents a proposal to minimize the performance lost in rollback-recovery based fault tolerant parallel systems, after a fault occurrence, when the parallel machine reconfigure itself with one node less, affecting the application total execution time. In order to restore the performance, we propose a solution that extends the RADIC architecture: the possibility of, during the application execution, allow the faulty nodes replacement or to have process free spare nodes that may or not be started with the application, in order to under a node failure assumes the process that was in execution on the faulty node.VII Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI)2006-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf1484-1495http://sedici.unlp.edu.ar/handle/10915/22688spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T10:55:07Zoai:sedici.unlp.edu.ar:10915/22688Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 10:55:08.225SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
title Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
spellingShingle Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
Santos, Guna A.
Ciencias Informáticas
Fault tolerance
Parallel
Clustering
title_short Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
title_full Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
title_fullStr Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
title_full_unstemmed Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
title_sort Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC
dc.creator.none.fl_str_mv Santos, Guna A.
Duarte, Angelo
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
author Santos, Guna A.
author_facet Santos, Guna A.
Duarte, Angelo
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
author_role author
author2 Duarte, Angelo
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
author2_role author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Fault tolerance
Parallel
Clustering
topic Ciencias Informáticas
Fault tolerance
Parallel
Clustering
dc.description.none.fl_txt_mv Tras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérdidas de prestaciones en sistemas paralelos con tolerancia a fallos basados en rollback-recovery, después de un fallo, donde la máquina paralela queda reconfigurada con un nodo menos, con la consiguiente repercusión en el tiempo de ejecución de la aplicación. Proponemos para recuperar las prestaciones, una solución que extiende la arquitectura RADIC: la posibilidad de permitir, durante la ejecución de la aplicación, el reemplazo de nodos que han fallado o disponer de nodos extras que pueden ser iniciados con la aplicación, pero sin procesos de la aplicación activos, de forma que cuando falle un nodo pase a ejecutar los procesos en dicho nodo
After a fault recovering, the reduction of the planned nodes number and the existence of unplanned process node sharing, leads to application performance lost. This work presents a proposal to minimize the performance lost in rollback-recovery based fault tolerant parallel systems, after a fault occurrence, when the parallel machine reconfigure itself with one node less, affecting the application total execution time. In order to restore the performance, we propose a solution that extends the RADIC architecture: the possibility of, during the application execution, allow the faulty nodes replacement or to have process free spare nodes that may or not be started with the application, in order to under a node failure assumes the process that was in execution on the faulty node.
VII Workshop de Procesamiento Distribuido y Paralelo (WPDP)
Red de Universidades con Carreras en Informática (RedUNCI)
description Tras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérdidas de prestaciones en sistemas paralelos con tolerancia a fallos basados en rollback-recovery, después de un fallo, donde la máquina paralela queda reconfigurada con un nodo menos, con la consiguiente repercusión en el tiempo de ejecución de la aplicación. Proponemos para recuperar las prestaciones, una solución que extiende la arquitectura RADIC: la posibilidad de permitir, durante la ejecución de la aplicación, el reemplazo de nodos que han fallado o disponer de nodos extras que pueden ser iniciados con la aplicación, pero sin procesos de la aplicación activos, de forma que cuando falle un nodo pase a ejecutar los procesos en dicho nodo
publishDate 2006
dc.date.none.fl_str_mv 2006-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/22688
url http://sedici.unlp.edu.ar/handle/10915/22688
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
1484-1495
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844615810069299200
score 13.070432