Efficient large-scale image search with a vocabulary tree

Autores: Uriza, Esteban
Año de publicación: 2016
Idioma: inglés
Tipo de recurso: tesis de grado
Estado: versión publicada
Colaborador/a o director/a de tesis: Gómez Fernández, Francisco Roberto
Rais, Martín Emilio
Descripción: La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.
The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line.
Fil: Uriza, Esteban. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: ARBOL DE VOCABULARIO
BUSQUEDA ESCALABLE
PROCESAMIENTO DE IMAGENES
VISION POR COMPUTADORA
RECONOCIMIENTO DE OBJETOS EN IMAGENES
BAG OF FEATURES
VOCABULARY TREE
SCALABLE SEARCH
IMAGE PROCESSING
COMPUTER VISION
IMAGE OBJECT RECOGNITION
BAG OF FEATURES
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: seminario:seminario_nCOM000670_Uriza

Acceder

id	BDUBAFCEN_dec4a1c40d95ae458249a66a25e49d8e
oai_identifier_str	seminario:seminario_nCOM000670_Uriza
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Efficient large-scale image search with a vocabulary treeBúsqueda eficiente de objetos en imágenes mediante un árbol de vocabularioUriza, EstebanARBOL DE VOCABULARIOBUSQUEDA ESCALABLEPROCESAMIENTO DE IMAGENESVISION POR COMPUTADORARECONOCIMIENTO DE OBJETOS EN IMAGENESBAG OF FEATURESVOCABULARY TREESCALABLE SEARCHIMAGE PROCESSINGCOMPUTER VISIONIMAGE OBJECT RECOGNITIONBAG OF FEATURESLa tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line.Fil: Uriza, Esteban. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesGómez Fernández, Francisco RobertoRais, Martín Emilio2016info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000670_Urizaenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-05-28T08:45:38Zseminario:seminario_nCOM000670_UrizaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-05-28 08:45:39.48Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Efficient large-scale image search with a vocabulary tree Búsqueda eficiente de objetos en imágenes mediante un árbol de vocabulario
title	Efficient large-scale image search with a vocabulary tree
spellingShingle	Efficient large-scale image search with a vocabulary tree Uriza, Esteban ARBOL DE VOCABULARIO BUSQUEDA ESCALABLE PROCESAMIENTO DE IMAGENES VISION POR COMPUTADORA RECONOCIMIENTO DE OBJETOS EN IMAGENES BAG OF FEATURES VOCABULARY TREE SCALABLE SEARCH IMAGE PROCESSING COMPUTER VISION IMAGE OBJECT RECOGNITION BAG OF FEATURES
title_short	Efficient large-scale image search with a vocabulary tree
title_full	Efficient large-scale image search with a vocabulary tree
title_fullStr	Efficient large-scale image search with a vocabulary tree
title_full_unstemmed	Efficient large-scale image search with a vocabulary tree
title_sort	Efficient large-scale image search with a vocabulary tree
dc.creator.none.fl_str_mv	Uriza, Esteban
author	Uriza, Esteban
author_facet	Uriza, Esteban
author_role	author
dc.contributor.none.fl_str_mv	Gómez Fernández, Francisco Roberto Rais, Martín Emilio
dc.subject.none.fl_str_mv	ARBOL DE VOCABULARIO BUSQUEDA ESCALABLE PROCESAMIENTO DE IMAGENES VISION POR COMPUTADORA RECONOCIMIENTO DE OBJETOS EN IMAGENES BAG OF FEATURES VOCABULARY TREE SCALABLE SEARCH IMAGE PROCESSING COMPUTER VISION IMAGE OBJECT RECOGNITION BAG OF FEATURES
topic	ARBOL DE VOCABULARIO BUSQUEDA ESCALABLE PROCESAMIENTO DE IMAGENES VISION POR COMPUTADORA RECONOCIMIENTO DE OBJETOS EN IMAGENES BAG OF FEATURES VOCABULARY TREE SCALABLE SEARCH IMAGE PROCESSING COMPUTER VISION IMAGE OBJECT RECOGNITION BAG OF FEATURES
dc.description.none.fl_txt_mv	La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online. The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line. Fil: Uriza, Esteban. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.
publishDate	2016
dc.date.none.fl_str_mv	2016
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado
format	bachelorThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza
url	https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza
dc.language.none.fl_str_mv	eng
language	eng
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1866437362539560961
score	13.143419

Efficient large-scale image search with a vocabulary tree

Publicaciones similares