Reconocimiento de acciones en videos de profundidad
- Autores
- Ubalde, Sebastián
- Año de publicación
- 2016
- Idioma
- inglés
- Tipo de recurso
- tesis doctoral
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Mejail, Marta Estela
- Descripción
- El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.
The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods.
Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- tesis:tesis_n5922_Ubalde
Ver los metadatos del registro completo
id |
BDUBAFCEN_8c790a480fa0c9b09952e290672162b4 |
---|---|
oai_identifier_str |
tesis:tesis_n5922_Ubalde |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Reconocimiento de acciones en videos de profundidadAction recognition in depth videosUbalde, SebastiánVIDEO DE PROFUNDIDADAPRENDIZAJE MULTI INSTANCIACITATION-KNNEDIT DISTANCE ON REAL SEQUENCEINSTANCIA-A-CLASEDEPTH VIDEOMULTIPLE INSTANCE LEARNINGCITATION-KNNEDIT DISTANCE ON REAL SEQUENCEINSTANCE-TO-CLASSEl problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods.Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesMejail, Marta Estela2016-03-22info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n5922_Ubaldeenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:42:22Ztesis:tesis_n5922_UbaldeInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:42:23.802Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Reconocimiento de acciones en videos de profundidad Action recognition in depth videos |
title |
Reconocimiento de acciones en videos de profundidad |
spellingShingle |
Reconocimiento de acciones en videos de profundidad Ubalde, Sebastián VIDEO DE PROFUNDIDAD APRENDIZAJE MULTI INSTANCIA CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCIA-A-CLASE DEPTH VIDEO MULTIPLE INSTANCE LEARNING CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCE-TO-CLASS |
title_short |
Reconocimiento de acciones en videos de profundidad |
title_full |
Reconocimiento de acciones en videos de profundidad |
title_fullStr |
Reconocimiento de acciones en videos de profundidad |
title_full_unstemmed |
Reconocimiento de acciones en videos de profundidad |
title_sort |
Reconocimiento de acciones en videos de profundidad |
dc.creator.none.fl_str_mv |
Ubalde, Sebastián |
author |
Ubalde, Sebastián |
author_facet |
Ubalde, Sebastián |
author_role |
author |
dc.contributor.none.fl_str_mv |
Mejail, Marta Estela |
dc.subject.none.fl_str_mv |
VIDEO DE PROFUNDIDAD APRENDIZAJE MULTI INSTANCIA CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCIA-A-CLASE DEPTH VIDEO MULTIPLE INSTANCE LEARNING CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCE-TO-CLASS |
topic |
VIDEO DE PROFUNDIDAD APRENDIZAJE MULTI INSTANCIA CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCIA-A-CLASE DEPTH VIDEO MULTIPLE INSTANCE LEARNING CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCE-TO-CLASS |
dc.description.none.fl_txt_mv |
El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte. The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods. Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte. |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016-03-22 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_db06 info:ar-repo/semantics/tesisDoctoral |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde |
url |
https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618723868016640 |
score |
13.070432 |