Expansión de la capacidad de los filtros convolucionales en redes neuronales

Autores
Larregui, Juan Ignacio
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Castro, Silvia
Descripción
En los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias.
In the last years, the field of Computer Vision has seen incredible success through the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to approach a few years before. In particular, these networks have become the most popular models within this field of Computer Sciences. Throughout the last decade, the state-of-the-art research in the different Computer Vision problems had almost exclusively included this type of model. However, the structure of some components of Convolutional Networks has remained almost unaffected. This is the case with convolutional filters, which have kept their original geometric structure in the last decades. The overall goal of this thesis is to explore the limitations inherent to the traditional structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed, which enables dynamic behaviors in the dilation of the filters during the training process. Based on these new definitions, two new operations are presented: the Adaptive Dilation Convolution and the Random Dilation Convolution. The first one introduces the capacity for Convolutional Networks to optimize the dilation of the filters according to the input data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale transformations in the data, aiming to increase the scale invariance of these networks, one of their known limitations. Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics. Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed operations. Moreover, their design is modular, enabling them to be included in arbitrary architectures.
Fil: Larregui, Juan Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina
Materia
Ciencias de la computación
Visión artificial
Aprendizaje profundo
Redes neuronales
Filtros convolucionales
Convolución dilatada
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-nd/4.0/
Repositorio
Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
Institución
Universidad Nacional del Sur
OAI Identificador
oai:repositorio.bc.uns.edu.ar:123456789/6402

id RID-UNS_72634b0a0c4d63dc0cc7bfd5cbec7637
oai_identifier_str oai:repositorio.bc.uns.edu.ar:123456789/6402
network_acronym_str RID-UNS
repository_id_str
network_name_str Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
spelling Expansión de la capacidad de los filtros convolucionales en redes neuronalesLarregui, Juan IgnacioCiencias de la computaciónVisión artificialAprendizaje profundoRedes neuronalesFiltros convolucionalesConvolución dilatadaEn los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias.In the last years, the field of Computer Vision has seen incredible success through the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to approach a few years before. In particular, these networks have become the most popular models within this field of Computer Sciences. Throughout the last decade, the state-of-the-art research in the different Computer Vision problems had almost exclusively included this type of model. However, the structure of some components of Convolutional Networks has remained almost unaffected. This is the case with convolutional filters, which have kept their original geometric structure in the last decades. The overall goal of this thesis is to explore the limitations inherent to the traditional structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed, which enables dynamic behaviors in the dilation of the filters during the training process. Based on these new definitions, two new operations are presented: the Adaptive Dilation Convolution and the Random Dilation Convolution. The first one introduces the capacity for Convolutional Networks to optimize the dilation of the filters according to the input data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale transformations in the data, aiming to increase the scale invariance of these networks, one of their known limitations. Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics. Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed operations. Moreover, their design is modular, enabling them to be included in arbitrary architectures.Fil: Larregui, Juan Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; ArgentinaCastro, Silvia2021-05-10info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://repositoriodigital.uns.edu.ar/handle/123456789/6402spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/reponame:Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)instname:Universidad Nacional del Sur2025-09-11T10:20:24Zoai:repositorio.bc.uns.edu.ar:123456789/6402instacron:UNSInstitucionalhttp://repositoriodigital.uns.edu.ar/Universidad públicaNo correspondehttp://repositoriodigital.uns.edu.ar/oaimesnaola@uns.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:2025-09-11 10:20:24.747Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS) - Universidad Nacional del Surfalse
dc.title.none.fl_str_mv Expansión de la capacidad de los filtros convolucionales en redes neuronales
title Expansión de la capacidad de los filtros convolucionales en redes neuronales
spellingShingle Expansión de la capacidad de los filtros convolucionales en redes neuronales
Larregui, Juan Ignacio
Ciencias de la computación
Visión artificial
Aprendizaje profundo
Redes neuronales
Filtros convolucionales
Convolución dilatada
title_short Expansión de la capacidad de los filtros convolucionales en redes neuronales
title_full Expansión de la capacidad de los filtros convolucionales en redes neuronales
title_fullStr Expansión de la capacidad de los filtros convolucionales en redes neuronales
title_full_unstemmed Expansión de la capacidad de los filtros convolucionales en redes neuronales
title_sort Expansión de la capacidad de los filtros convolucionales en redes neuronales
dc.creator.none.fl_str_mv Larregui, Juan Ignacio
author Larregui, Juan Ignacio
author_facet Larregui, Juan Ignacio
author_role author
dc.contributor.none.fl_str_mv Castro, Silvia
dc.subject.none.fl_str_mv Ciencias de la computación
Visión artificial
Aprendizaje profundo
Redes neuronales
Filtros convolucionales
Convolución dilatada
topic Ciencias de la computación
Visión artificial
Aprendizaje profundo
Redes neuronales
Filtros convolucionales
Convolución dilatada
dc.description.none.fl_txt_mv En los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias.
In the last years, the field of Computer Vision has seen incredible success through the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to approach a few years before. In particular, these networks have become the most popular models within this field of Computer Sciences. Throughout the last decade, the state-of-the-art research in the different Computer Vision problems had almost exclusively included this type of model. However, the structure of some components of Convolutional Networks has remained almost unaffected. This is the case with convolutional filters, which have kept their original geometric structure in the last decades. The overall goal of this thesis is to explore the limitations inherent to the traditional structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed, which enables dynamic behaviors in the dilation of the filters during the training process. Based on these new definitions, two new operations are presented: the Adaptive Dilation Convolution and the Random Dilation Convolution. The first one introduces the capacity for Convolutional Networks to optimize the dilation of the filters according to the input data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale transformations in the data, aiming to increase the scale invariance of these networks, one of their known limitations. Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics. Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed operations. Moreover, their design is modular, enabling them to be included in arbitrary architectures.
Fil: Larregui, Juan Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina
description En los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias.
publishDate 2021
dc.date.none.fl_str_mv 2021-05-10
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://repositoriodigital.uns.edu.ar/handle/123456789/6402
url https://repositoriodigital.uns.edu.ar/handle/123456789/6402
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
instname:Universidad Nacional del Sur
reponame_str Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
collection Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
instname_str Universidad Nacional del Sur
repository.name.fl_str_mv Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS) - Universidad Nacional del Sur
repository.mail.fl_str_mv mesnaola@uns.edu.ar
_version_ 1842975426674163712
score 12.993085