Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB

Autores
Osimani, César
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión publicada
Colaborador/a o director/a de tesis
Araguás, Roberto Gastón
https://orcid.org/0000-0003-0579-6231
Descripción
Tesis (DCI)--FCEFN-UNC, 2023
Fil: Osimani, César. Universidad Blas Pascal; Argentina.
El constante desarrollo y mejoras realizadas sobre los algoritmos de aprendizaje profundo ha motivado a realizar grandes inversiones de tiempo y dinero para la implementación de soluciones basadas en esta tecnología. Casos de éxito de nuevas empresas son cada vez más frecuentes en este campo, ya sea en el procesamiento del lenguaje natural, visión artificial o distintas áreas de la inteligencia artificial. La visión artificial, definida en pocas palabras, es la automatización de la vista humana. Actualmente podemos encontrar visión artificial en aplicaciones de diversos sectores, como agricultura, seguridad y vigilancia, automatización y control de calidad en las industrias, servicios de salud, logística, ciudades inteligentes, entre otros. También hay momentos en que la visión artificial queda en un segundo plano y se limita a ser una herramienta de asistencia en las tareas que el humano realiza, por ejemplo, actuando como un medio para la interacción entre los humanos y las computadoras. En este sentido, el uso de la visión artificial para identificar los gestos de las manos ofrece una alternativa para el control de computadoras sin necesidad de tocar los periféricos o sistemas de mando, tal como el teclado, mouse o pantalla táctil. Este trabajo presenta una solución que reconoce los gestos de la mano mediante el análisis de puntos de referencia tridimensionales ubicados en las articulaciones de la misma, los cuales definen su esqueleto. Estos puntos de referencia se extraen utilizando un modelo creado con técnicas de aprendizaje automático con el uso de una cámara web que permiten obtener 21 puntos de referencia distribuidos: uno en la muñeca y cuatro más en cada dedo. Cada punto de referencia es una estimación de una coordenada tridimensional ( x , y, z ) que corresponde a la ubicación ( x , y ) dentro de la imagen y la dimensión z es una estimación de la distancia hacia la cámara. Estos 21 puntos tridimensionales de cada mano detectada en las imágenes son los datos de entrada para una red neuronal profunda que permite identificar 9 gestos. Además del diseño de una arquitectura de red apropiada para esto, la creación de un dataset propio y el entrenamiento de la red, otra de las principales aportaciones de este trabajo es la implementación de un procesamiento de los datos previo a ingresar a la red. Este procesamiento es una normalización de los datos y una transformación de los puntos de referencia, lo que mejora considerablemente el rendimiento del modelo. La evaluación del modelo propuesto entrega una tasa de aciertos del 99,87% en las predicciones realizadas en el reconocimiento de los 9 gestos de la mano. Finalmente, se realiza la implementación del modelo en una aplicación que se le da el nombre Hand Controller, la cual es una interfaz natural de usuario que permite tomar el control del teclado y mouse de una computadora a través de gestos (o secuencias de gestos) y desplazamientos de la mano.
Fil: Osimani, César. Universidad Blas Pascal; Argentina.
Materia
Redes Neuronales Artificiales
Visión Artificial
Reconocimiento de gestos de las manos
Nube de puntos
Cámara digital RGB
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/550095

id RDUUNC_0540fb35a17bdcdfe2078830cd4d2d49
oai_identifier_str oai:rdu.unc.edu.ar:11086/550095
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGBOsimani, CésarRedes Neuronales ArtificialesVisión ArtificialReconocimiento de gestos de las manosNube de puntosCámara digital RGBTesis (DCI)--FCEFN-UNC, 2023Fil: Osimani, César. Universidad Blas Pascal; Argentina.El constante desarrollo y mejoras realizadas sobre los algoritmos de aprendizaje profundo ha motivado a realizar grandes inversiones de tiempo y dinero para la implementación de soluciones basadas en esta tecnología. Casos de éxito de nuevas empresas son cada vez más frecuentes en este campo, ya sea en el procesamiento del lenguaje natural, visión artificial o distintas áreas de la inteligencia artificial. La visión artificial, definida en pocas palabras, es la automatización de la vista humana. Actualmente podemos encontrar visión artificial en aplicaciones de diversos sectores, como agricultura, seguridad y vigilancia, automatización y control de calidad en las industrias, servicios de salud, logística, ciudades inteligentes, entre otros. También hay momentos en que la visión artificial queda en un segundo plano y se limita a ser una herramienta de asistencia en las tareas que el humano realiza, por ejemplo, actuando como un medio para la interacción entre los humanos y las computadoras. En este sentido, el uso de la visión artificial para identificar los gestos de las manos ofrece una alternativa para el control de computadoras sin necesidad de tocar los periféricos o sistemas de mando, tal como el teclado, mouse o pantalla táctil. Este trabajo presenta una solución que reconoce los gestos de la mano mediante el análisis de puntos de referencia tridimensionales ubicados en las articulaciones de la misma, los cuales definen su esqueleto. Estos puntos de referencia se extraen utilizando un modelo creado con técnicas de aprendizaje automático con el uso de una cámara web que permiten obtener 21 puntos de referencia distribuidos: uno en la muñeca y cuatro más en cada dedo. Cada punto de referencia es una estimación de una coordenada tridimensional ( x , y, z ) que corresponde a la ubicación ( x , y ) dentro de la imagen y la dimensión z es una estimación de la distancia hacia la cámara. Estos 21 puntos tridimensionales de cada mano detectada en las imágenes son los datos de entrada para una red neuronal profunda que permite identificar 9 gestos. Además del diseño de una arquitectura de red apropiada para esto, la creación de un dataset propio y el entrenamiento de la red, otra de las principales aportaciones de este trabajo es la implementación de un procesamiento de los datos previo a ingresar a la red. Este procesamiento es una normalización de los datos y una transformación de los puntos de referencia, lo que mejora considerablemente el rendimiento del modelo. La evaluación del modelo propuesto entrega una tasa de aciertos del 99,87% en las predicciones realizadas en el reconocimiento de los 9 gestos de la mano. Finalmente, se realiza la implementación del modelo en una aplicación que se le da el nombre Hand Controller, la cual es una interfaz natural de usuario que permite tomar el control del teclado y mouse de una computadora a través de gestos (o secuencias de gestos) y desplazamientos de la mano.Fil: Osimani, César. Universidad Blas Pascal; Argentina.Araguás, Roberto Gastónhttps://orcid.org/0000-0003-0579-62312023info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttp://hdl.handle.net/11086/550095spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-23T11:17:22Zoai:rdu.unc.edu.ar:11086/550095Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-23 11:17:22.961Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
title Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
spellingShingle Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
Osimani, César
Redes Neuronales Artificiales
Visión Artificial
Reconocimiento de gestos de las manos
Nube de puntos
Cámara digital RGB
title_short Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
title_full Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
title_fullStr Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
title_full_unstemmed Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
title_sort Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
dc.creator.none.fl_str_mv Osimani, César
author Osimani, César
author_facet Osimani, César
author_role author
dc.contributor.none.fl_str_mv Araguás, Roberto Gastón
https://orcid.org/0000-0003-0579-6231
dc.subject.none.fl_str_mv Redes Neuronales Artificiales
Visión Artificial
Reconocimiento de gestos de las manos
Nube de puntos
Cámara digital RGB
topic Redes Neuronales Artificiales
Visión Artificial
Reconocimiento de gestos de las manos
Nube de puntos
Cámara digital RGB
dc.description.none.fl_txt_mv Tesis (DCI)--FCEFN-UNC, 2023
Fil: Osimani, César. Universidad Blas Pascal; Argentina.
El constante desarrollo y mejoras realizadas sobre los algoritmos de aprendizaje profundo ha motivado a realizar grandes inversiones de tiempo y dinero para la implementación de soluciones basadas en esta tecnología. Casos de éxito de nuevas empresas son cada vez más frecuentes en este campo, ya sea en el procesamiento del lenguaje natural, visión artificial o distintas áreas de la inteligencia artificial. La visión artificial, definida en pocas palabras, es la automatización de la vista humana. Actualmente podemos encontrar visión artificial en aplicaciones de diversos sectores, como agricultura, seguridad y vigilancia, automatización y control de calidad en las industrias, servicios de salud, logística, ciudades inteligentes, entre otros. También hay momentos en que la visión artificial queda en un segundo plano y se limita a ser una herramienta de asistencia en las tareas que el humano realiza, por ejemplo, actuando como un medio para la interacción entre los humanos y las computadoras. En este sentido, el uso de la visión artificial para identificar los gestos de las manos ofrece una alternativa para el control de computadoras sin necesidad de tocar los periféricos o sistemas de mando, tal como el teclado, mouse o pantalla táctil. Este trabajo presenta una solución que reconoce los gestos de la mano mediante el análisis de puntos de referencia tridimensionales ubicados en las articulaciones de la misma, los cuales definen su esqueleto. Estos puntos de referencia se extraen utilizando un modelo creado con técnicas de aprendizaje automático con el uso de una cámara web que permiten obtener 21 puntos de referencia distribuidos: uno en la muñeca y cuatro más en cada dedo. Cada punto de referencia es una estimación de una coordenada tridimensional ( x , y, z ) que corresponde a la ubicación ( x , y ) dentro de la imagen y la dimensión z es una estimación de la distancia hacia la cámara. Estos 21 puntos tridimensionales de cada mano detectada en las imágenes son los datos de entrada para una red neuronal profunda que permite identificar 9 gestos. Además del diseño de una arquitectura de red apropiada para esto, la creación de un dataset propio y el entrenamiento de la red, otra de las principales aportaciones de este trabajo es la implementación de un procesamiento de los datos previo a ingresar a la red. Este procesamiento es una normalización de los datos y una transformación de los puntos de referencia, lo que mejora considerablemente el rendimiento del modelo. La evaluación del modelo propuesto entrega una tasa de aciertos del 99,87% en las predicciones realizadas en el reconocimiento de los 9 gestos de la mano. Finalmente, se realiza la implementación del modelo en una aplicación que se le da el nombre Hand Controller, la cual es una interfaz natural de usuario que permite tomar el control del teclado y mouse de una computadora a través de gestos (o secuencias de gestos) y desplazamientos de la mano.
Fil: Osimani, César. Universidad Blas Pascal; Argentina.
description Tesis (DCI)--FCEFN-UNC, 2023
publishDate 2023
dc.date.none.fl_str_mv 2023
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/550095
url http://hdl.handle.net/11086/550095
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1846785279433637888
score 12.982451