Reconocimiento de acciones en videos de profundidad

Autores
Ubalde, Sebastián
Año de publicación
2016
Idioma
inglés
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Mejail, Marta Estela
Descripción
El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.
The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods.
Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n5922_Ubalde

id BDUBAFCEN_8c790a480fa0c9b09952e290672162b4
oai_identifier_str tesis:tesis_n5922_Ubalde
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Reconocimiento de acciones en videos de profundidadAction recognition in depth videosUbalde, SebastiánVIDEO DE PROFUNDIDADAPRENDIZAJE MULTI INSTANCIACITATION-KNNEDIT DISTANCE ON REAL SEQUENCEINSTANCIA-A-CLASEDEPTH VIDEOMULTIPLE INSTANCE LEARNINGCITATION-KNNEDIT DISTANCE ON REAL SEQUENCEINSTANCE-TO-CLASSEl problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods.Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesMejail, Marta Estela2016-03-22info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n5922_Ubaldeenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:22Ztesis:tesis_n5922_UbaldeInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:23.802Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Reconocimiento de acciones en videos de profundidad
Action recognition in depth videos
title Reconocimiento de acciones en videos de profundidad
spellingShingle Reconocimiento de acciones en videos de profundidad
Ubalde, Sebastián
VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
title_short Reconocimiento de acciones en videos de profundidad
title_full Reconocimiento de acciones en videos de profundidad
title_fullStr Reconocimiento de acciones en videos de profundidad
title_full_unstemmed Reconocimiento de acciones en videos de profundidad
title_sort Reconocimiento de acciones en videos de profundidad
dc.creator.none.fl_str_mv Ubalde, Sebastián
author Ubalde, Sebastián
author_facet Ubalde, Sebastián
author_role author
dc.contributor.none.fl_str_mv Mejail, Marta Estela
dc.subject.none.fl_str_mv VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
topic VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
dc.description.none.fl_txt_mv El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.
The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods.
Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.
publishDate 2016
dc.date.none.fl_str_mv 2016-03-22
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde
url https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618723868016640
score 13.070432