Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos

Autores
Straminsky, Axel Gustavo
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Buemi, María Elena
Descripción
El reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos.
The recognition of activities and objects in videos captured with cameras mounted on a person constitutes an area of importance since it has multiple applications: health care, non-invasive monitoring, vision in robots, among others. The recognition of actions captured by these devices require recognition of objects and their locations. In general, this problem is dealt with with large equipment such as clusters or several GPU units. The objective of this work was to analyze the performance of locating objects and to propose alternatives that allow obtaining the same or better results with smaller resources. For this, we adapted an Action Recognition model in egocentric videos based on Attention Mechanisms combined with Optical Flow. It is an architecture model that uses 2 sub-models in parallel: one based on Optical Flow and the other based on the video itself (RGB images), to which the following improvements were introduced: incorporate mixed precision in the training cycle, use of Ranger Optimizer instead of vanilla SGD, while extending the attention mechanism. For the tests, the EGTEA Gaze+ dataset was used, which consists of videos of first-person actions of daily life and the experimentation carried out with the results achieved leaves open the possibility of testing more complex datasets.
Fil: Straminsky, Axel Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
VISION EGOCENTRICA
ATTENTION MECHANISMS
RECONOCIMIENTO DE ACCIONES
EGOCENTRIC VISION
ATTENTION MECHANISMS
ACTION RECOGNITION
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000548_Straminsky

id BDUBAFCEN_e16db2734392f99a0dda1730a9afcb58
oai_identifier_str seminario:seminario_nCOM000548_Straminsky
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videosStraminsky, Axel GustavoVISION EGOCENTRICAATTENTION MECHANISMSRECONOCIMIENTO DE ACCIONESEGOCENTRIC VISIONATTENTION MECHANISMSACTION RECOGNITIONEl reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos.The recognition of activities and objects in videos captured with cameras mounted on a person constitutes an area of importance since it has multiple applications: health care, non-invasive monitoring, vision in robots, among others. The recognition of actions captured by these devices require recognition of objects and their locations. In general, this problem is dealt with with large equipment such as clusters or several GPU units. The objective of this work was to analyze the performance of locating objects and to propose alternatives that allow obtaining the same or better results with smaller resources. For this, we adapted an Action Recognition model in egocentric videos based on Attention Mechanisms combined with Optical Flow. It is an architecture model that uses 2 sub-models in parallel: one based on Optical Flow and the other based on the video itself (RGB images), to which the following improvements were introduced: incorporate mixed precision in the training cycle, use of Ranger Optimizer instead of vanilla SGD, while extending the attention mechanism. For the tests, the EGTEA Gaze+ dataset was used, which consists of videos of first-person actions of daily life and the experimentation carried out with the results achieved leaves open the possibility of testing more complex datasets.Fil: Straminsky, Axel Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBuemi, María Elena2022info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000548_Straminskyspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:34Zseminario:seminario_nCOM000548_StraminskyInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:35.561Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
title Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
spellingShingle Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
Straminsky, Axel Gustavo
VISION EGOCENTRICA
ATTENTION MECHANISMS
RECONOCIMIENTO DE ACCIONES
EGOCENTRIC VISION
ATTENTION MECHANISMS
ACTION RECOGNITION
title_short Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
title_full Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
title_fullStr Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
title_full_unstemmed Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
title_sort Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
dc.creator.none.fl_str_mv Straminsky, Axel Gustavo
author Straminsky, Axel Gustavo
author_facet Straminsky, Axel Gustavo
author_role author
dc.contributor.none.fl_str_mv Buemi, María Elena
dc.subject.none.fl_str_mv VISION EGOCENTRICA
ATTENTION MECHANISMS
RECONOCIMIENTO DE ACCIONES
EGOCENTRIC VISION
ATTENTION MECHANISMS
ACTION RECOGNITION
topic VISION EGOCENTRICA
ATTENTION MECHANISMS
RECONOCIMIENTO DE ACCIONES
EGOCENTRIC VISION
ATTENTION MECHANISMS
ACTION RECOGNITION
dc.description.none.fl_txt_mv El reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos.
The recognition of activities and objects in videos captured with cameras mounted on a person constitutes an area of importance since it has multiple applications: health care, non-invasive monitoring, vision in robots, among others. The recognition of actions captured by these devices require recognition of objects and their locations. In general, this problem is dealt with with large equipment such as clusters or several GPU units. The objective of this work was to analyze the performance of locating objects and to propose alternatives that allow obtaining the same or better results with smaller resources. For this, we adapted an Action Recognition model in egocentric videos based on Attention Mechanisms combined with Optical Flow. It is an architecture model that uses 2 sub-models in parallel: one based on Optical Flow and the other based on the video itself (RGB images), to which the following improvements were introduced: incorporate mixed precision in the training cycle, use of Ranger Optimizer instead of vanilla SGD, while extending the attention mechanism. For the tests, the EGTEA Gaze+ dataset was used, which consists of videos of first-person actions of daily life and the experimentation carried out with the results achieved leaves open the possibility of testing more complex datasets.
Fil: Straminsky, Axel Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description El reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos.
publishDate 2022
dc.date.none.fl_str_mv 2022
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000548_Straminsky
url https://hdl.handle.net/20.500.12110/seminario_nCOM000548_Straminsky
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618754132017152
score 13.070432