Reconocimiento de acciones egocéntricas usando Visual Transformers

Autores: Giusto, Maximiliano; Buemi, María Elena
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: El reconocimiento de acciones es importante para la comprensión de videos, más aún cuando se trata de videos egocéntricos.Existen múltiples aplicaciones para este tipo de reconocimiento, como el monitoreo automático y continuo de actividades de la vida cotidiana, resumen de videos, interpretación de interacciones sociales, entre otros. El desafío de este tipo de videos se encuentra en la velocidad de la cámara, oclusiones y fondos de escena desordenados. Una manera de abordar este problema se centra en explorar la información de la ubicación de las manos y objetos del portador del dispositivo de captura (Gopro, HoloLens). Con el fin de disminuir el costo computacional, un abordaje es utilizar datos 2D. En este estudio se propone el reconocimiento de acciones egocéntricas empleando la pose 2D de manos y objetos para la clasificación de secuencias utilizando un método basado en la combinación de YOLOv8 y Visual Transfomer sobre un subconjunto del dataset H2O.
Sociedad Argentina de Informática e Investigación Operativa
Materia: Ciencias Informáticas
reconocimiento de acciones egoncéntricas
visual transformer
datos 2D
keypoints
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/190461

Acceder

id	SEDICI_33bb68de38a06de5b899b46a2477f095
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/190461
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Reconocimiento de acciones egocéntricas usando Visual TransformersGiusto, MaximilianoBuemi, María ElenaCiencias Informáticasreconocimiento de acciones egoncéntricasvisual transformerdatos 2DkeypointsEl reconocimiento de acciones es importante para la comprensión de videos, más aún cuando se trata de videos egocéntricos.Existen múltiples aplicaciones para este tipo de reconocimiento, como el monitoreo automático y continuo de actividades de la vida cotidiana, resumen de videos, interpretación de interacciones sociales, entre otros. El desafío de este tipo de videos se encuentra en la velocidad de la cámara, oclusiones y fondos de escena desordenados. Una manera de abordar este problema se centra en explorar la información de la ubicación de las manos y objetos del portador del dispositivo de captura (Gopro, HoloLens). Con el fin de disminuir el costo computacional, un abordaje es utilizar datos 2D. En este estudio se propone el reconocimiento de acciones egocéntricas empleando la pose 2D de manos y objetos para la clasificación de secuencias utilizando un método basado en la combinación de YOLOv8 y Visual Transfomer sobre un subconjunto del dataset H2O.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf58-64http://sedici.unlp.edu.ar/handle/10915/190461spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19569info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:41:22Zoai:sedici.unlp.edu.ar:10915/190461Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:41:22.339SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Reconocimiento de acciones egocéntricas usando Visual Transformers
title	Reconocimiento de acciones egocéntricas usando Visual Transformers
spellingShingle	Reconocimiento de acciones egocéntricas usando Visual Transformers Giusto, Maximiliano Ciencias Informáticas reconocimiento de acciones egoncéntricas visual transformer datos 2D keypoints
title_short	Reconocimiento de acciones egocéntricas usando Visual Transformers
title_full	Reconocimiento de acciones egocéntricas usando Visual Transformers
title_fullStr	Reconocimiento de acciones egocéntricas usando Visual Transformers
title_full_unstemmed	Reconocimiento de acciones egocéntricas usando Visual Transformers
title_sort	Reconocimiento de acciones egocéntricas usando Visual Transformers
dc.creator.none.fl_str_mv	Giusto, Maximiliano Buemi, María Elena
author	Giusto, Maximiliano
author_facet	Giusto, Maximiliano Buemi, María Elena
author_role	author
author2	Buemi, María Elena
author2_role	author
dc.subject.none.fl_str_mv	Ciencias Informáticas reconocimiento de acciones egoncéntricas visual transformer datos 2D keypoints
topic	Ciencias Informáticas reconocimiento de acciones egoncéntricas visual transformer datos 2D keypoints
dc.description.none.fl_txt_mv	El reconocimiento de acciones es importante para la comprensión de videos, más aún cuando se trata de videos egocéntricos.Existen múltiples aplicaciones para este tipo de reconocimiento, como el monitoreo automático y continuo de actividades de la vida cotidiana, resumen de videos, interpretación de interacciones sociales, entre otros. El desafío de este tipo de videos se encuentra en la velocidad de la cámara, oclusiones y fondos de escena desordenados. Una manera de abordar este problema se centra en explorar la información de la ubicación de las manos y objetos del portador del dispositivo de captura (Gopro, HoloLens). Con el fin de disminuir el costo computacional, un abordaje es utilizar datos 2D. En este estudio se propone el reconocimiento de acciones egocéntricas empleando la pose 2D de manos y objetos para la clasificación de secuencias utilizando un método basado en la combinación de YOLOv8 y Visual Transfomer sobre un subconjunto del dataset H2O. Sociedad Argentina de Informática e Investigación Operativa
description	El reconocimiento de acciones es importante para la comprensión de videos, más aún cuando se trata de videos egocéntricos.Existen múltiples aplicaciones para este tipo de reconocimiento, como el monitoreo automático y continuo de actividades de la vida cotidiana, resumen de videos, interpretación de interacciones sociales, entre otros. El desafío de este tipo de videos se encuentra en la velocidad de la cámara, oclusiones y fondos de escena desordenados. Una manera de abordar este problema se centra en explorar la información de la ubicación de las manos y objetos del portador del dispositivo de captura (Gopro, HoloLens). Con el fin de disminuir el costo computacional, un abordaje es utilizar datos 2D. En este estudio se propone el reconocimiento de acciones egocéntricas empleando la pose 2D de manos y objetos para la clasificación de secuencias utilizando un método basado en la combinación de YOLOv8 y Visual Transfomer sobre un subconjunto del dataset H2O.
publishDate	2025
dc.date.none.fl_str_mv	2025-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/190461
url	http://sedici.unlp.edu.ar/handle/10915/190461
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19569 info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf 58-64
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1861199750170148864
score	13.332987

Reconocimiento de acciones egocéntricas usando Visual Transformers

Publicaciones similares