Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos
- Autores
- Straminsky, Axel Gustavo
- Año de publicación
- 2022
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Buemi, María Elena
- Descripción
- El reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos.
The recognition of activities and objects in videos captured with cameras mounted on a person constitutes an area of importance since it has multiple applications: health care, non-invasive monitoring, vision in robots, among others. The recognition of actions captured by these devices require recognition of objects and their locations. In general, this problem is dealt with with large equipment such as clusters or several GPU units. The objective of this work was to analyze the performance of locating objects and to propose alternatives that allow obtaining the same or better results with smaller resources. For this, we adapted an Action Recognition model in egocentric videos based on Attention Mechanisms combined with Optical Flow. It is an architecture model that uses 2 sub-models in parallel: one based on Optical Flow and the other based on the video itself (RGB images), to which the following improvements were introduced: incorporate mixed precision in the training cycle, use of Ranger Optimizer instead of vanilla SGD, while extending the attention mechanism. For the tests, the EGTEA Gaze+ dataset was used, which consists of videos of first-person actions of daily life and the experimentation carried out with the results achieved leaves open the possibility of testing more complex datasets.
Fil: Straminsky, Axel Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
VISION EGOCENTRICA
ATTENTION MECHANISMS
RECONOCIMIENTO DE ACCIONES
EGOCENTRIC VISION
ATTENTION MECHANISMS
ACTION RECOGNITION - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000548_Straminsky
Ver los metadatos del registro completo
id |
BDUBAFCEN_e16db2734392f99a0dda1730a9afcb58 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000548_Straminsky |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videosStraminsky, Axel GustavoVISION EGOCENTRICAATTENTION MECHANISMSRECONOCIMIENTO DE ACCIONESEGOCENTRIC VISIONATTENTION MECHANISMSACTION RECOGNITIONEl reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos.The recognition of activities and objects in videos captured with cameras mounted on a person constitutes an area of importance since it has multiple applications: health care, non-invasive monitoring, vision in robots, among others. The recognition of actions captured by these devices require recognition of objects and their locations. In general, this problem is dealt with with large equipment such as clusters or several GPU units. The objective of this work was to analyze the performance of locating objects and to propose alternatives that allow obtaining the same or better results with smaller resources. For this, we adapted an Action Recognition model in egocentric videos based on Attention Mechanisms combined with Optical Flow. It is an architecture model that uses 2 sub-models in parallel: one based on Optical Flow and the other based on the video itself (RGB images), to which the following improvements were introduced: incorporate mixed precision in the training cycle, use of Ranger Optimizer instead of vanilla SGD, while extending the attention mechanism. For the tests, the EGTEA Gaze+ dataset was used, which consists of videos of first-person actions of daily life and the experimentation carried out with the results achieved leaves open the possibility of testing more complex datasets.Fil: Straminsky, Axel Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesBuemi, María Elena2022info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000548_Straminskyspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:34Zseminario:seminario_nCOM000548_StraminskyInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:35.561Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
title |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
spellingShingle |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos Straminsky, Axel Gustavo VISION EGOCENTRICA ATTENTION MECHANISMS RECONOCIMIENTO DE ACCIONES EGOCENTRIC VISION ATTENTION MECHANISMS ACTION RECOGNITION |
title_short |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
title_full |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
title_fullStr |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
title_full_unstemmed |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
title_sort |
Estudio de metodologías espacio-temporales basadas en Modelos de Atención para reconocimiento de Acciones Egocéntricas en videos |
dc.creator.none.fl_str_mv |
Straminsky, Axel Gustavo |
author |
Straminsky, Axel Gustavo |
author_facet |
Straminsky, Axel Gustavo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Buemi, María Elena |
dc.subject.none.fl_str_mv |
VISION EGOCENTRICA ATTENTION MECHANISMS RECONOCIMIENTO DE ACCIONES EGOCENTRIC VISION ATTENTION MECHANISMS ACTION RECOGNITION |
topic |
VISION EGOCENTRICA ATTENTION MECHANISMS RECONOCIMIENTO DE ACCIONES EGOCENTRIC VISION ATTENTION MECHANISMS ACTION RECOGNITION |
dc.description.none.fl_txt_mv |
El reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos. The recognition of activities and objects in videos captured with cameras mounted on a person constitutes an area of importance since it has multiple applications: health care, non-invasive monitoring, vision in robots, among others. The recognition of actions captured by these devices require recognition of objects and their locations. In general, this problem is dealt with with large equipment such as clusters or several GPU units. The objective of this work was to analyze the performance of locating objects and to propose alternatives that allow obtaining the same or better results with smaller resources. For this, we adapted an Action Recognition model in egocentric videos based on Attention Mechanisms combined with Optical Flow. It is an architecture model that uses 2 sub-models in parallel: one based on Optical Flow and the other based on the video itself (RGB images), to which the following improvements were introduced: incorporate mixed precision in the training cycle, use of Ranger Optimizer instead of vanilla SGD, while extending the attention mechanism. For the tests, the EGTEA Gaze+ dataset was used, which consists of videos of first-person actions of daily life and the experimentation carried out with the results achieved leaves open the possibility of testing more complex datasets. Fil: Straminsky, Axel Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
El reconocimiento de actividades y objetos en vídeos capturados con cámaras montadas en una persona constituye un área de importancia ya que tiene múltiples aplicaciones: asistencia sanitaria, monitoreo no invasivo, visión en robots entre otros. El reconocimiento de acciones capturadas por estos dispositivos requieren reconocimiento de objetos y sus ubicaciones. En general este problema lo tratan con grandes equipos como clusters o varias unidades de GPU. El objetivo de este trabajo fue analizar la performance de localización de objetos y proponer alternativas que permitan obtener iguales o mejores resultados con recursos de menor envergadura. Para ello adaptamos un modelo de Reconocimiento de Acción en videos egocéntricos basado en mecanismos de atención combinado con Optical Flow. Se trata de un modelo de arquitectura que usa 2 submodelos en paralelo: uno basado en Optical Flow y el otro basado en el video en s´ı (im´agenes RGB), al que se le introdujo las siguientes mejoras: incorporar precisión mixta en el ciclo de entrenamiento, uso de optimizador Ranger en lugar de vanilla SGD, a la vez que se amplía el mecanismo de atención. Para las pruebas se utilizó el dataset EGTEA Gaze+, que consiste en videos de acciones en primera persona de la vida diarias y la experimentación realizada con los resultados alcanzados deja abierta la posibilidad de hacer pruebas con datasets más complejos. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000548_Straminsky |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000548_Straminsky |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618754132017152 |
score |
13.070432 |