Efficient large-scale image search with a vocabulary tree
- Autores
- Uriza, Esteban
- Año de publicación
- 2016
- Idioma
- inglés
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Gómez Fernández, Francisco Roberto
Rais, Martín Emilio - Descripción
- La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.
The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line.
Fil: Uriza, Esteban. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
ARBOL DE VOCABULARIO
BUSQUEDA ESCALABLE
PROCESAMIENTO DE IMAGENES
VISION POR COMPUTADORA
RECONOCIMIENTO DE OBJETOS EN IMAGENES
BAG OF FEATURES
VOCABULARY TREE
SCALABLE SEARCH
IMAGE PROCESSING
COMPUTER VISION
IMAGE OBJECT RECOGNITION
BAG OF FEATURES - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000670_Uriza
Ver los metadatos del registro completo
id |
BDUBAFCEN_dec4a1c40d95ae458249a66a25e49d8e |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000670_Uriza |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Efficient large-scale image search with a vocabulary treeBúsqueda eficiente de objetos en imágenes mediante un árbol de vocabularioUriza, EstebanARBOL DE VOCABULARIOBUSQUEDA ESCALABLEPROCESAMIENTO DE IMAGENESVISION POR COMPUTADORARECONOCIMIENTO DE OBJETOS EN IMAGENESBAG OF FEATURESVOCABULARY TREESCALABLE SEARCHIMAGE PROCESSINGCOMPUTER VISIONIMAGE OBJECT RECOGNITIONBAG OF FEATURESLa tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line.Fil: Uriza, Esteban. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesGómez Fernández, Francisco RobertoRais, Martín Emilio2016info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000670_Urizaenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-10-16T09:31:05Zseminario:seminario_nCOM000670_UrizaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-10-16 09:31:06.775Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Efficient large-scale image search with a vocabulary tree Búsqueda eficiente de objetos en imágenes mediante un árbol de vocabulario |
title |
Efficient large-scale image search with a vocabulary tree |
spellingShingle |
Efficient large-scale image search with a vocabulary tree Uriza, Esteban ARBOL DE VOCABULARIO BUSQUEDA ESCALABLE PROCESAMIENTO DE IMAGENES VISION POR COMPUTADORA RECONOCIMIENTO DE OBJETOS EN IMAGENES BAG OF FEATURES VOCABULARY TREE SCALABLE SEARCH IMAGE PROCESSING COMPUTER VISION IMAGE OBJECT RECOGNITION BAG OF FEATURES |
title_short |
Efficient large-scale image search with a vocabulary tree |
title_full |
Efficient large-scale image search with a vocabulary tree |
title_fullStr |
Efficient large-scale image search with a vocabulary tree |
title_full_unstemmed |
Efficient large-scale image search with a vocabulary tree |
title_sort |
Efficient large-scale image search with a vocabulary tree |
dc.creator.none.fl_str_mv |
Uriza, Esteban |
author |
Uriza, Esteban |
author_facet |
Uriza, Esteban |
author_role |
author |
dc.contributor.none.fl_str_mv |
Gómez Fernández, Francisco Roberto Rais, Martín Emilio |
dc.subject.none.fl_str_mv |
ARBOL DE VOCABULARIO BUSQUEDA ESCALABLE PROCESAMIENTO DE IMAGENES VISION POR COMPUTADORA RECONOCIMIENTO DE OBJETOS EN IMAGENES BAG OF FEATURES VOCABULARY TREE SCALABLE SEARCH IMAGE PROCESSING COMPUTER VISION IMAGE OBJECT RECOGNITION BAG OF FEATURES |
topic |
ARBOL DE VOCABULARIO BUSQUEDA ESCALABLE PROCESAMIENTO DE IMAGENES VISION POR COMPUTADORA RECONOCIMIENTO DE OBJETOS EN IMAGENES BAG OF FEATURES VOCABULARY TREE SCALABLE SEARCH IMAGE PROCESSING COMPUTER VISION IMAGE OBJECT RECOGNITION BAG OF FEATURES |
dc.description.none.fl_txt_mv |
La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online. The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line. Fil: Uriza, Esteban. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online. |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1846142861713604608 |
score |
12.712165 |