Optimizing reformulated RDF queries

Autores
Bursztyn, Damián Alexis
Año de publicación
2013
Idioma
inglés
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Ruz, Cecilia Ana
Manolescu, Loana
Goasdoué, François
Colazzo, Darío
Descripción
El desarrollo de la Web Semántica y la creciente popularidad de su principal formato de datos, RDF, trae aparejada la necesidad de técnicas eficientes y escalables de gestión de datos para responder consultas RDF sobre grandes volúmenes de datos heterogéneos. Una opción popular consiste en la traducción de consultas RDF en consultas SQL a ser ejecutadas en los maduros y eficientes sistemas de gestión de bases de datos relacionales tradicionales (RDBMS). Sin embargo, las bases de datos para Web Semántica plantean retos específicos a las tecnologías clásicas de gestión de datos debido a la presencia de datos implícitos, a los cuales los RDBMS no tienen en cuenta durante la evaluación de consultas. Para achicar la brecha entre las bases de datos de Web Semántica que contienen datos impl´ıcitos y la evaluación de consultas proporcionada por los RDBMS actuales, una opción es reformular la consulta entrante para luego traducirla en una consulta SQL que, al ser evaluada por el RDBMS, devuelve las respuestas completas . Si bien este enfoque es conceptualmente suficiente para garantizar el eficaz procesamiento de las consultas de Web Semántica en un RDBMS, en la práctica aparecen problemas significativos de rendimiento debido a la longitud sintáctica de las consultas SQL que resultan de reformulación. Reconocidos y eficientes RDBMSs no son capaces de optimizar eficientemente estas consultas. En algunos casos los RDBMSs simplemente fallan al intentar responder estas consultas, mientras en otros casos se registran tiempos de evaluación muy elevados [1]. En este trabajo, hemos identificado y explotado dos grados de libertad que pueden ser aprovechados para realizar la evaluación de las consultas reformuladas de forma más eficiente. En primer lugar, se enumeran un espectro de consultas alternativas equivalentes, obtenidas mediante el agrupamiento de los átomos de la consulta original y la reformulación de fragmentos (de átomos) de la consulta; las reformulaciones de los fragmentos resultantes son env´ıadas en forma individual al RDBMS para su evaluación, para luego realizar la operación de join entre los resultados intermedios a fines de obtener la respuesta completa a la consulta original. En segundo lugar, SQL proporciona distintas alternativas sintácticas para expresar este tipo de consultas (que consiste en subconsultas cuyos resultados deben ser unidos); detectamos que esta elección sintáctica también permite mejoras en el rendimiento. Diseñamos un modelo de costos que refleja el impacto de las decisiones tomadas dentro de los dos grados de libertad descritos anteriormente. Basado en este modelo de costos, proponemos distintos algoritmos heurísticos que, dada una consulta inicial y las reglas semánticas que aplican en la base de datos (e implican los datos implícitos), realizan las elecciones necesarias en forma automática a fines de producir una consulta SQL cuya evaluación genera la respuesta completa a la consulta de forma eficiente. Por último, presentamos una amplia gama de experimentos basados en un DBMS off-the-shelf, que dan soporte a los beneficios de los algoritmos propuestos.
The development of the Semantic Web and the increasing popularity of its main data format RDF, efficient and scalable data management techniques are needed to handle RDF query answering on large volumes of heterogeneous data. A popular option consists thus of translating RDF queries into SQL queries to be handled by mature and efficient relational database management systems (RDBMSs). However, Semantic Web databases pose specific challenges to classical data management technologies through the presence of implicit data, which RDBMS query evaluation fails to account for. To bridge the gap between the Semantic Web databases containing implicit data and the simple query evaluation provided by RDBMSs, one can reformulate the incoming query into an SQL query which, when evaluated by the RDBMS, returns complete answers. While this approach is conceptually sufficient to ensure efficient processing of Semantic Web queries within RDBMSs, in practice it raises significant performance problems due to the syntactic size of the SQL queries resulting from reformulation. It turns out that many efficient RDBMSs are unable to efficiently optimize such queries. In some cases RDBMS evaluation simply fails, while in other cases very high evaluation times are recorded [1]. In this work, we have identified and exploited two degrees of freedom that could be exploited to make the evaluation of reformulated queries more efficient. First, we enumerate a space of alternative equivalent queries, obtained by grouping atoms from the original query and reformulating query fragments; the resulting reformulated fragments are sent individually for evaluation to the RDBMS before joining their results to obtain the complete query answer. Second, SQL provides alternative syntaxes for expressing such queries (consisting of subqueries whose results must be joined); we found that this syntactic choice leads to performance improvements, too. We have devised a cost model capturing the impact of the choices made within the two freedom degrees described above. Based on this cost model, we propose several heuristic algorithms which, given an initial query and the semantic rules holding on the database (and entailing implicit data), automatically makes the necessary choices in order to produce an SQL query whose evaluation computes the query answers more efficiently. Finally, we present an extensive experimental evaluation based on an off-the-shelf DBMS, which validates the benefits of our proposed algorithms.
Fil: Bursztyn, Damián Alexis. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
PROCESAMIENTO DE CONSULTAS RDF
SPARQL
REFORMULACION DE CONSULTAS
GESTION DE DATOS SEMANTICOS EN LA WEB
OPTIMIZACION DE CONSULTAS
ALGORITMOS HEURISTICOS
RDF QUERY ANSWERING
QUERY REFORMULATION
SEMANTIC WEB DATA MANAGEMENT
QUERY OPTIMIZATION
HEURISTIC ALGORITHMS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000717_Bursztyn

id BDUBAFCEN_22103372592993677c6df98b9f8edeea
oai_identifier_str seminario:seminario_nCOM000717_Bursztyn
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Optimizing reformulated RDF queriesOptimizing reformulated rdf queriesBursztyn, Damián AlexisPROCESAMIENTO DE CONSULTAS RDFSPARQLREFORMULACION DE CONSULTASGESTION DE DATOS SEMANTICOS EN LA WEBOPTIMIZACION DE CONSULTASALGORITMOS HEURISTICOSRDF QUERY ANSWERINGQUERY REFORMULATIONSEMANTIC WEB DATA MANAGEMENTQUERY OPTIMIZATIONHEURISTIC ALGORITHMSEl desarrollo de la Web Semántica y la creciente popularidad de su principal formato de datos, RDF, trae aparejada la necesidad de técnicas eficientes y escalables de gestión de datos para responder consultas RDF sobre grandes volúmenes de datos heterogéneos. Una opción popular consiste en la traducción de consultas RDF en consultas SQL a ser ejecutadas en los maduros y eficientes sistemas de gestión de bases de datos relacionales tradicionales (RDBMS). Sin embargo, las bases de datos para Web Semántica plantean retos específicos a las tecnologías clásicas de gestión de datos debido a la presencia de datos implícitos, a los cuales los RDBMS no tienen en cuenta durante la evaluación de consultas. Para achicar la brecha entre las bases de datos de Web Semántica que contienen datos impl´ıcitos y la evaluación de consultas proporcionada por los RDBMS actuales, una opción es reformular la consulta entrante para luego traducirla en una consulta SQL que, al ser evaluada por el RDBMS, devuelve las respuestas completas . Si bien este enfoque es conceptualmente suficiente para garantizar el eficaz procesamiento de las consultas de Web Semántica en un RDBMS, en la práctica aparecen problemas significativos de rendimiento debido a la longitud sintáctica de las consultas SQL que resultan de reformulación. Reconocidos y eficientes RDBMSs no son capaces de optimizar eficientemente estas consultas. En algunos casos los RDBMSs simplemente fallan al intentar responder estas consultas, mientras en otros casos se registran tiempos de evaluación muy elevados [1]. En este trabajo, hemos identificado y explotado dos grados de libertad que pueden ser aprovechados para realizar la evaluación de las consultas reformuladas de forma más eficiente. En primer lugar, se enumeran un espectro de consultas alternativas equivalentes, obtenidas mediante el agrupamiento de los átomos de la consulta original y la reformulación de fragmentos (de átomos) de la consulta; las reformulaciones de los fragmentos resultantes son env´ıadas en forma individual al RDBMS para su evaluación, para luego realizar la operación de join entre los resultados intermedios a fines de obtener la respuesta completa a la consulta original. En segundo lugar, SQL proporciona distintas alternativas sintácticas para expresar este tipo de consultas (que consiste en subconsultas cuyos resultados deben ser unidos); detectamos que esta elección sintáctica también permite mejoras en el rendimiento. Diseñamos un modelo de costos que refleja el impacto de las decisiones tomadas dentro de los dos grados de libertad descritos anteriormente. Basado en este modelo de costos, proponemos distintos algoritmos heurísticos que, dada una consulta inicial y las reglas semánticas que aplican en la base de datos (e implican los datos implícitos), realizan las elecciones necesarias en forma automática a fines de producir una consulta SQL cuya evaluación genera la respuesta completa a la consulta de forma eficiente. Por último, presentamos una amplia gama de experimentos basados en un DBMS off-the-shelf, que dan soporte a los beneficios de los algoritmos propuestos.The development of the Semantic Web and the increasing popularity of its main data format RDF, efficient and scalable data management techniques are needed to handle RDF query answering on large volumes of heterogeneous data. A popular option consists thus of translating RDF queries into SQL queries to be handled by mature and efficient relational database management systems (RDBMSs). However, Semantic Web databases pose specific challenges to classical data management technologies through the presence of implicit data, which RDBMS query evaluation fails to account for. To bridge the gap between the Semantic Web databases containing implicit data and the simple query evaluation provided by RDBMSs, one can reformulate the incoming query into an SQL query which, when evaluated by the RDBMS, returns complete answers. While this approach is conceptually sufficient to ensure efficient processing of Semantic Web queries within RDBMSs, in practice it raises significant performance problems due to the syntactic size of the SQL queries resulting from reformulation. It turns out that many efficient RDBMSs are unable to efficiently optimize such queries. In some cases RDBMS evaluation simply fails, while in other cases very high evaluation times are recorded [1]. In this work, we have identified and exploited two degrees of freedom that could be exploited to make the evaluation of reformulated queries more efficient. First, we enumerate a space of alternative equivalent queries, obtained by grouping atoms from the original query and reformulating query fragments; the resulting reformulated fragments are sent individually for evaluation to the RDBMS before joining their results to obtain the complete query answer. Second, SQL provides alternative syntaxes for expressing such queries (consisting of subqueries whose results must be joined); we found that this syntactic choice leads to performance improvements, too. We have devised a cost model capturing the impact of the choices made within the two freedom degrees described above. Based on this cost model, we propose several heuristic algorithms which, given an initial query and the semantic rules holding on the database (and entailing implicit data), automatically makes the necessary choices in order to produce an SQL query whose evaluation computes the query answers more efficiently. Finally, we present an extensive experimental evaluation based on an off-the-shelf DBMS, which validates the benefits of our proposed algorithms.Fil: Bursztyn, Damián Alexis. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesRuz, Cecilia AnaManolescu, LoanaGoasdoué, FrançoisColazzo, Darío2013info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000717_Bursztynenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-10-16T09:31:03Zseminario:seminario_nCOM000717_BursztynInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-10-16 09:31:04.467Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Optimizing reformulated RDF queries
Optimizing reformulated rdf queries
title Optimizing reformulated RDF queries
spellingShingle Optimizing reformulated RDF queries
Bursztyn, Damián Alexis
PROCESAMIENTO DE CONSULTAS RDF
SPARQL
REFORMULACION DE CONSULTAS
GESTION DE DATOS SEMANTICOS EN LA WEB
OPTIMIZACION DE CONSULTAS
ALGORITMOS HEURISTICOS
RDF QUERY ANSWERING
QUERY REFORMULATION
SEMANTIC WEB DATA MANAGEMENT
QUERY OPTIMIZATION
HEURISTIC ALGORITHMS
title_short Optimizing reformulated RDF queries
title_full Optimizing reformulated RDF queries
title_fullStr Optimizing reformulated RDF queries
title_full_unstemmed Optimizing reformulated RDF queries
title_sort Optimizing reformulated RDF queries
dc.creator.none.fl_str_mv Bursztyn, Damián Alexis
author Bursztyn, Damián Alexis
author_facet Bursztyn, Damián Alexis
author_role author
dc.contributor.none.fl_str_mv Ruz, Cecilia Ana
Manolescu, Loana
Goasdoué, François
Colazzo, Darío
dc.subject.none.fl_str_mv PROCESAMIENTO DE CONSULTAS RDF
SPARQL
REFORMULACION DE CONSULTAS
GESTION DE DATOS SEMANTICOS EN LA WEB
OPTIMIZACION DE CONSULTAS
ALGORITMOS HEURISTICOS
RDF QUERY ANSWERING
QUERY REFORMULATION
SEMANTIC WEB DATA MANAGEMENT
QUERY OPTIMIZATION
HEURISTIC ALGORITHMS
topic PROCESAMIENTO DE CONSULTAS RDF
SPARQL
REFORMULACION DE CONSULTAS
GESTION DE DATOS SEMANTICOS EN LA WEB
OPTIMIZACION DE CONSULTAS
ALGORITMOS HEURISTICOS
RDF QUERY ANSWERING
QUERY REFORMULATION
SEMANTIC WEB DATA MANAGEMENT
QUERY OPTIMIZATION
HEURISTIC ALGORITHMS
dc.description.none.fl_txt_mv El desarrollo de la Web Semántica y la creciente popularidad de su principal formato de datos, RDF, trae aparejada la necesidad de técnicas eficientes y escalables de gestión de datos para responder consultas RDF sobre grandes volúmenes de datos heterogéneos. Una opción popular consiste en la traducción de consultas RDF en consultas SQL a ser ejecutadas en los maduros y eficientes sistemas de gestión de bases de datos relacionales tradicionales (RDBMS). Sin embargo, las bases de datos para Web Semántica plantean retos específicos a las tecnologías clásicas de gestión de datos debido a la presencia de datos implícitos, a los cuales los RDBMS no tienen en cuenta durante la evaluación de consultas. Para achicar la brecha entre las bases de datos de Web Semántica que contienen datos impl´ıcitos y la evaluación de consultas proporcionada por los RDBMS actuales, una opción es reformular la consulta entrante para luego traducirla en una consulta SQL que, al ser evaluada por el RDBMS, devuelve las respuestas completas . Si bien este enfoque es conceptualmente suficiente para garantizar el eficaz procesamiento de las consultas de Web Semántica en un RDBMS, en la práctica aparecen problemas significativos de rendimiento debido a la longitud sintáctica de las consultas SQL que resultan de reformulación. Reconocidos y eficientes RDBMSs no son capaces de optimizar eficientemente estas consultas. En algunos casos los RDBMSs simplemente fallan al intentar responder estas consultas, mientras en otros casos se registran tiempos de evaluación muy elevados [1]. En este trabajo, hemos identificado y explotado dos grados de libertad que pueden ser aprovechados para realizar la evaluación de las consultas reformuladas de forma más eficiente. En primer lugar, se enumeran un espectro de consultas alternativas equivalentes, obtenidas mediante el agrupamiento de los átomos de la consulta original y la reformulación de fragmentos (de átomos) de la consulta; las reformulaciones de los fragmentos resultantes son env´ıadas en forma individual al RDBMS para su evaluación, para luego realizar la operación de join entre los resultados intermedios a fines de obtener la respuesta completa a la consulta original. En segundo lugar, SQL proporciona distintas alternativas sintácticas para expresar este tipo de consultas (que consiste en subconsultas cuyos resultados deben ser unidos); detectamos que esta elección sintáctica también permite mejoras en el rendimiento. Diseñamos un modelo de costos que refleja el impacto de las decisiones tomadas dentro de los dos grados de libertad descritos anteriormente. Basado en este modelo de costos, proponemos distintos algoritmos heurísticos que, dada una consulta inicial y las reglas semánticas que aplican en la base de datos (e implican los datos implícitos), realizan las elecciones necesarias en forma automática a fines de producir una consulta SQL cuya evaluación genera la respuesta completa a la consulta de forma eficiente. Por último, presentamos una amplia gama de experimentos basados en un DBMS off-the-shelf, que dan soporte a los beneficios de los algoritmos propuestos.
The development of the Semantic Web and the increasing popularity of its main data format RDF, efficient and scalable data management techniques are needed to handle RDF query answering on large volumes of heterogeneous data. A popular option consists thus of translating RDF queries into SQL queries to be handled by mature and efficient relational database management systems (RDBMSs). However, Semantic Web databases pose specific challenges to classical data management technologies through the presence of implicit data, which RDBMS query evaluation fails to account for. To bridge the gap between the Semantic Web databases containing implicit data and the simple query evaluation provided by RDBMSs, one can reformulate the incoming query into an SQL query which, when evaluated by the RDBMS, returns complete answers. While this approach is conceptually sufficient to ensure efficient processing of Semantic Web queries within RDBMSs, in practice it raises significant performance problems due to the syntactic size of the SQL queries resulting from reformulation. It turns out that many efficient RDBMSs are unable to efficiently optimize such queries. In some cases RDBMS evaluation simply fails, while in other cases very high evaluation times are recorded [1]. In this work, we have identified and exploited two degrees of freedom that could be exploited to make the evaluation of reformulated queries more efficient. First, we enumerate a space of alternative equivalent queries, obtained by grouping atoms from the original query and reformulating query fragments; the resulting reformulated fragments are sent individually for evaluation to the RDBMS before joining their results to obtain the complete query answer. Second, SQL provides alternative syntaxes for expressing such queries (consisting of subqueries whose results must be joined); we found that this syntactic choice leads to performance improvements, too. We have devised a cost model capturing the impact of the choices made within the two freedom degrees described above. Based on this cost model, we propose several heuristic algorithms which, given an initial query and the semantic rules holding on the database (and entailing implicit data), automatically makes the necessary choices in order to produce an SQL query whose evaluation computes the query answers more efficiently. Finally, we present an extensive experimental evaluation based on an off-the-shelf DBMS, which validates the benefits of our proposed algorithms.
Fil: Bursztyn, Damián Alexis. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description El desarrollo de la Web Semántica y la creciente popularidad de su principal formato de datos, RDF, trae aparejada la necesidad de técnicas eficientes y escalables de gestión de datos para responder consultas RDF sobre grandes volúmenes de datos heterogéneos. Una opción popular consiste en la traducción de consultas RDF en consultas SQL a ser ejecutadas en los maduros y eficientes sistemas de gestión de bases de datos relacionales tradicionales (RDBMS). Sin embargo, las bases de datos para Web Semántica plantean retos específicos a las tecnologías clásicas de gestión de datos debido a la presencia de datos implícitos, a los cuales los RDBMS no tienen en cuenta durante la evaluación de consultas. Para achicar la brecha entre las bases de datos de Web Semántica que contienen datos impl´ıcitos y la evaluación de consultas proporcionada por los RDBMS actuales, una opción es reformular la consulta entrante para luego traducirla en una consulta SQL que, al ser evaluada por el RDBMS, devuelve las respuestas completas . Si bien este enfoque es conceptualmente suficiente para garantizar el eficaz procesamiento de las consultas de Web Semántica en un RDBMS, en la práctica aparecen problemas significativos de rendimiento debido a la longitud sintáctica de las consultas SQL que resultan de reformulación. Reconocidos y eficientes RDBMSs no son capaces de optimizar eficientemente estas consultas. En algunos casos los RDBMSs simplemente fallan al intentar responder estas consultas, mientras en otros casos se registran tiempos de evaluación muy elevados [1]. En este trabajo, hemos identificado y explotado dos grados de libertad que pueden ser aprovechados para realizar la evaluación de las consultas reformuladas de forma más eficiente. En primer lugar, se enumeran un espectro de consultas alternativas equivalentes, obtenidas mediante el agrupamiento de los átomos de la consulta original y la reformulación de fragmentos (de átomos) de la consulta; las reformulaciones de los fragmentos resultantes son env´ıadas en forma individual al RDBMS para su evaluación, para luego realizar la operación de join entre los resultados intermedios a fines de obtener la respuesta completa a la consulta original. En segundo lugar, SQL proporciona distintas alternativas sintácticas para expresar este tipo de consultas (que consiste en subconsultas cuyos resultados deben ser unidos); detectamos que esta elección sintáctica también permite mejoras en el rendimiento. Diseñamos un modelo de costos que refleja el impacto de las decisiones tomadas dentro de los dos grados de libertad descritos anteriormente. Basado en este modelo de costos, proponemos distintos algoritmos heurísticos que, dada una consulta inicial y las reglas semánticas que aplican en la base de datos (e implican los datos implícitos), realizan las elecciones necesarias en forma automática a fines de producir una consulta SQL cuya evaluación genera la respuesta completa a la consulta de forma eficiente. Por último, presentamos una amplia gama de experimentos basados en un DBMS off-the-shelf, que dan soporte a los beneficios de los algoritmos propuestos.
publishDate 2013
dc.date.none.fl_str_mv 2013
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000717_Bursztyn
url https://hdl.handle.net/20.500.12110/seminario_nCOM000717_Bursztyn
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1846142860536053760
score 12.712165