Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales
- Autores
- Hörmann Manriquez, Nicolás
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Sánchez, Jorge
- Descripción
- Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.
Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Esta tesis analiza el papel de la información posicional en modelos de Comprensión de Expresiones Referenciales (REC). La tarea se sitúa en la intersección entre visión por computadora y procesamiento del lenguaje natural. Se estudian arquitecturas Transformer y el uso de codificaciones posicionales absolutas. Se evalúa cómo distintos tipos de expresiones (espaciales, ordinales, relacionales e intrínsecas) dependen de la información visual y posicional. Mediante experimentos de ablación, se mide el impacto de eliminar estas fuentes de información. Los resultados muestran que la información posicional mejora significativamente el desempeño del modelo. Su efecto es especialmente relevante en expresiones que requieren razonamiento espacial. Sin información visual, el rendimiento cae en promedio un 60%. Aun así, el modelo conserva ciertos patrones espaciales derivados del lenguaje. Estos hallazgos orientan nuevas líneas de investigación para equilibrar mejor la información visual, textual y posicional en tareas multimodales.
This thesis analyzes the role of positional information in Referring Expression Comprehension (REC) models. The task lies at the intersection of computer vision and natural language processing. Transformer architectures and their use of absolute positional encodings are studied. Different expression types (spatial, ordinal, relational, and intrinsic) are evaluated in relation to visual and positional information. Ablation experiments measure the impact of removing these information sources. Results show that positional information significantly improves model performance. Its effect is particularly relevant for expressions requiring spatial reasoning. When visual information is removed, performance drops by about 60%. Nevertheless, the model preserves some spatial patterns inferred from language alone. These findings motivate future research toward models that better balance visual, textual, and positional information in multimodal grounding tasks.
Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. - Materia
-
Computing methodologies
Machine learning
Machine learning approaches
Neural networks
Comprensión de Expresiones Referenciales
Vision
Language
Transformers
Multimodal - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- Repositorio
.jpg)
- Institución
- Universidad Nacional de Córdoba
- OAI Identificador
- oai:rdu.unc.edu.ar:11086/558724
Ver los metadatos del registro completo
| id |
RDUUNC_058648dadeed96d6c254be221def3270 |
|---|---|
| oai_identifier_str |
oai:rdu.unc.edu.ar:11086/558724 |
| network_acronym_str |
RDUUNC |
| repository_id_str |
2572 |
| network_name_str |
Repositorio Digital Universitario (UNC) |
| spelling |
Información posicional y su importancia en modelos de Comprensión de Expresiones ReferencialesHörmann Manriquez, NicolásComputing methodologiesMachine learningMachine learning approachesNeural networksComprensión de Expresiones ReferencialesVisionLanguageTransformersMultimodalTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025.Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Esta tesis analiza el papel de la información posicional en modelos de Comprensión de Expresiones Referenciales (REC). La tarea se sitúa en la intersección entre visión por computadora y procesamiento del lenguaje natural. Se estudian arquitecturas Transformer y el uso de codificaciones posicionales absolutas. Se evalúa cómo distintos tipos de expresiones (espaciales, ordinales, relacionales e intrínsecas) dependen de la información visual y posicional. Mediante experimentos de ablación, se mide el impacto de eliminar estas fuentes de información. Los resultados muestran que la información posicional mejora significativamente el desempeño del modelo. Su efecto es especialmente relevante en expresiones que requieren razonamiento espacial. Sin información visual, el rendimiento cae en promedio un 60%. Aun así, el modelo conserva ciertos patrones espaciales derivados del lenguaje. Estos hallazgos orientan nuevas líneas de investigación para equilibrar mejor la información visual, textual y posicional en tareas multimodales.This thesis analyzes the role of positional information in Referring Expression Comprehension (REC) models. The task lies at the intersection of computer vision and natural language processing. Transformer architectures and their use of absolute positional encodings are studied. Different expression types (spatial, ordinal, relational, and intrinsic) are evaluated in relation to visual and positional information. Ablation experiments measure the impact of removing these information sources. Results show that positional information significantly improves model performance. Its effect is particularly relevant for expressions requiring spatial reasoning. When visual information is removed, performance drops by about 60%. Nevertheless, the model preserves some spatial patterns inferred from language alone. These findings motivate future research toward models that better balance visual, textual, and positional information in multimodal grounding tasks.Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Sánchez, Jorge2025-09info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://hdl.handle.net/11086/558724spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-30T11:20:04Zoai:rdu.unc.edu.ar:11086/558724Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-30 11:20:04.964Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse |
| dc.title.none.fl_str_mv |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| title |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| spellingShingle |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales Hörmann Manriquez, Nicolás Computing methodologies Machine learning Machine learning approaches Neural networks Comprensión de Expresiones Referenciales Vision Language Transformers Multimodal |
| title_short |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| title_full |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| title_fullStr |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| title_full_unstemmed |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| title_sort |
Información posicional y su importancia en modelos de Comprensión de Expresiones Referenciales |
| dc.creator.none.fl_str_mv |
Hörmann Manriquez, Nicolás |
| author |
Hörmann Manriquez, Nicolás |
| author_facet |
Hörmann Manriquez, Nicolás |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Sánchez, Jorge |
| dc.subject.none.fl_str_mv |
Computing methodologies Machine learning Machine learning approaches Neural networks Comprensión de Expresiones Referenciales Vision Language Transformers Multimodal |
| topic |
Computing methodologies Machine learning Machine learning approaches Neural networks Comprensión de Expresiones Referenciales Vision Language Transformers Multimodal |
| dc.description.none.fl_txt_mv |
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025. Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. Esta tesis analiza el papel de la información posicional en modelos de Comprensión de Expresiones Referenciales (REC). La tarea se sitúa en la intersección entre visión por computadora y procesamiento del lenguaje natural. Se estudian arquitecturas Transformer y el uso de codificaciones posicionales absolutas. Se evalúa cómo distintos tipos de expresiones (espaciales, ordinales, relacionales e intrínsecas) dependen de la información visual y posicional. Mediante experimentos de ablación, se mide el impacto de eliminar estas fuentes de información. Los resultados muestran que la información posicional mejora significativamente el desempeño del modelo. Su efecto es especialmente relevante en expresiones que requieren razonamiento espacial. Sin información visual, el rendimiento cae en promedio un 60%. Aun así, el modelo conserva ciertos patrones espaciales derivados del lenguaje. Estos hallazgos orientan nuevas líneas de investigación para equilibrar mejor la información visual, textual y posicional en tareas multimodales. This thesis analyzes the role of positional information in Referring Expression Comprehension (REC) models. The task lies at the intersection of computer vision and natural language processing. Transformer architectures and their use of absolute positional encodings are studied. Different expression types (spatial, ordinal, relational, and intrinsic) are evaluated in relation to visual and positional information. Ablation experiments measure the impact of removing these information sources. Results show that positional information significantly improves model performance. Its effect is particularly relevant for expressions requiring spatial reasoning. When visual information is removed, performance drops by about 60%. Nevertheless, the model preserves some spatial patterns inferred from language alone. These findings motivate future research toward models that better balance visual, textual, and positional information in multimodal grounding tasks. Fil: Hörmann Manriquez, Nicolás. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. |
| description |
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2025. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-09 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11086/558724 |
| url |
http://hdl.handle.net/11086/558724 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositorio Digital Universitario (UNC) instname:Universidad Nacional de Córdoba instacron:UNC |
| reponame_str |
Repositorio Digital Universitario (UNC) |
| collection |
Repositorio Digital Universitario (UNC) |
| instname_str |
Universidad Nacional de Córdoba |
| instacron_str |
UNC |
| institution |
UNC |
| repository.name.fl_str_mv |
Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba |
| repository.mail.fl_str_mv |
oca.unc@gmail.com |
| _version_ |
1847419213231161344 |
| score |
13.10058 |