Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales

Autores
Hörmann Manriquez, Nicolás
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Sánchez, Jorge
Descripción
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Esta tesis analiza el papel de la información posicional en modelos de Comprensión de Expresiones Referenciales (REC). La tarea se sitúa en la intersección entre visión por computadora y procesamiento del lenguaje natural. Se estudian arquitecturas Transformer y el uso de codificaciones posicionales absolutas. Se evalúa cómo distintos tipos de expresiones (espaciales, ordinales, relacionales e intrínsecas) dependen de la información visual y posicional. Mediante experimentos de ablación, se mide el impacto de eliminar estas fuentes de información. Los resultados muestran que la información posicional mejora significativamente el desempeño del modelo. Su efecto es especialmente relevante en expresiones que requieren razonamiento espacial. Sin información visual, el rendimiento cae en promedio un 60%. Aun así, el modelo conserva ciertos patrones espaciales derivados del lenguaje. Estos hallazgos orientan nuevas líneas de investigación para equilibrar mejor la información visual, textual y posicional en tareas multimodales.
This thesis analyzes the role of positional information in Referring Expression Comprehension (REC) models. The task lies at the intersection of computer vision and natural language processing. Transformer architectures and their use of absolute positional encodings are studied. Different expression types (spatial, ordinal, relational, and intrinsic) are evaluated in relation to visual and positional information. Ablation experiments measure the impact of removing these information sources. Results show that positional information significantly improves model performance. Its effect is particularly relevant for expressions requiring spatial reasoning. When visual information is removed, performance drops by about 60%. Nevertheless, the model preserves some spatial patterns inferred from language alone. These findings motivate future research toward models that better balance visual, textual, and positional information in multimodal grounding tasks.
Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Materia
Computing methodologies
Machine learning
Machine learning approaches
Neural networks
Comprensión de Expresiones Referenciales
Vision
Language
Transformers
Multimodal
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/558724

id RDUUNC_058648dadeed96d6c254be221def3270
oai_identifier_str oai:rdu.unc.edu.ar:11086/558724
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Información posicional y su importancia en modelos de Comprensión de Expresiones ReferencialesHörmann Manriquez, NicolásComputing methodologiesMachine learningMachine learning approachesNeural networksComprensión de Expresiones ReferencialesVisionLanguageTransformersMultimodalTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Esta tesis analiza el papel de la información posicional en modelos de Comprensión de Expresiones Referenciales (REC). La tarea se sitúa en la intersección entre visión por computadora y procesamiento del lenguaje natural. Se estudian arquitecturas Transformer y el uso de codificaciones posicionales absolutas. Se evalúa cómo distintos tipos de expresiones (espaciales, ordinales, relacionales e intrínsecas) dependen de la información visual y posicional. Mediante experimentos de ablación, se mide el impacto de eliminar estas fuentes de información. Los resultados muestran que la información posicional mejora significativamente el desempeño del modelo. Su efecto es especialmente relevante en expresiones que requieren razonamiento espacial. Sin información visual, el rendimiento cae en promedio un 60%. Aun así, el modelo conserva ciertos patrones espaciales derivados del lenguaje. Estos hallazgos orientan nuevas líneas de investigación para equilibrar mejor la información visual, textual y posicional en tareas multimodales.This thesis analyzes the role of positional information in Referring Expression Comprehension (REC) models. The task lies at the intersection of computer vision and natural language processing. Transformer architectures and their use of absolute positional encodings are studied. Different expression types (spatial, ordinal, relational, and intrinsic) are evaluated in relation to visual and positional information. Ablation experiments measure the impact of removing these information sources. Results show that positional information significantly improves model performance. Its effect is particularly relevant for expressions requiring spatial reasoning. When visual information is removed, performance drops by about 60%. Nevertheless, the model preserves some spatial patterns inferred from language alone. These findings motivate future research toward models that better balance visual, textual, and positional information in multimodal grounding tasks.Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Sánchez, Jorge2025-09info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/558724spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-30T11:20:04Zoai:rdu.unc.edu.ar:11086/558724Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-30 11:20:04.964Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
title Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
spellingShingle Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
Hörmann Manriquez, Nicolás
Computing methodologies
Machine learning
Machine learning approaches
Neural networks
Comprensión de Expresiones Referenciales
Vision
Language
Transformers
Multimodal
title_short Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
title_full Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
title_fullStr Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
title_full_unstemmed Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
title_sort Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
dc.creator.none.fl_str_mv Hörmann Manriquez, Nicolás
author Hörmann Manriquez, Nicolás
author_facet Hörmann Manriquez, Nicolás
author_role author
dc.contributor.none.fl_str_mv Sánchez, Jorge
dc.subject.none.fl_str_mv Computing methodologies
Machine learning
Machine learning approaches
Neural networks
Comprensión de Expresiones Referenciales
Vision
Language
Transformers
Multimodal
topic Computing methodologies
Machine learning
Machine learning approaches
Neural networks
Comprensión de Expresiones Referenciales
Vision
Language
Transformers
Multimodal
dc.description.none.fl_txt_mv Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Esta tesis analiza el papel de la información posicional en modelos de Comprensión de Expresiones Referenciales (REC). La tarea se sitúa en la intersección entre visión por computadora y procesamiento del lenguaje natural. Se estudian arquitecturas Transformer y el uso de codificaciones posicionales absolutas. Se evalúa cómo distintos tipos de expresiones (espaciales, ordinales, relacionales e intrínsecas) dependen de la información visual y posicional. Mediante experimentos de ablación, se mide el impacto de eliminar estas fuentes de información. Los resultados muestran que la información posicional mejora significativamente el desempeño del modelo. Su efecto es especialmente relevante en expresiones que requieren razonamiento espacial. Sin información visual, el rendimiento cae en promedio un 60%. Aun así, el modelo conserva ciertos patrones espaciales derivados del lenguaje. Estos hallazgos orientan nuevas líneas de investigación para equilibrar mejor la información visual, textual y posicional en tareas multimodales.
This thesis analyzes the role of positional information in Referring Expression Comprehension (REC) models. The task lies at the intersection of computer vision and natural language processing. Transformer architectures and their use of absolute positional encodings are studied. Different expression types (spatial, ordinal, relational, and intrinsic) are evaluated in relation to visual and positional information. Ablation experiments measure the impact of removing these information sources. Results show that positional information significantly improves model performance. Its effect is particularly relevant for expressions requiring spatial reasoning. When visual information is removed, performance drops by about 60%. Nevertheless, the model preserves some spatial patterns inferred from language alone. These findings motivate future research toward models that better balance visual, textual, and positional information in multimodal grounding tasks.
Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
description Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
publishDate 2025
dc.date.none.fl_str_mv 2025-09
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/558724
url http://hdl.handle.net/11086/558724
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1847419213231161344
score 13.10058