Análisis y predicción de la búsqueda visual humana

Autores
Sclar, Melanie
Año de publicación
2017
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Kamienkowski, Juan Esteban
Solovey, Guillermo
Descripción
La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.
Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting.
Fil: Sclar, Melanie. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
BUSQUEDA VISUAL
VISION HUMANA
MAPA DE SALIENCIA
MODELOS BAYESIANOS
METRICAS DE COMPARACION DE SCANPATHS
VISUAL SEARCH
HUMAN VISION
SALIENCY MAP
BAYESIAN MODELS
SCANPATH COMPARISON METRICS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000475_Sclar

id BDUBAFCEN_418afa8843389bbfc31cb8fe7e68d3ed
oai_identifier_str seminario:seminario_nCOM000475_Sclar
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Análisis y predicción de la búsqueda visual humanaAnalysis and prediction of human visual searchSclar, MelanieBUSQUEDA VISUALVISION HUMANAMAPA DE SALIENCIAMODELOS BAYESIANOSMETRICAS DE COMPARACION DE SCANPATHSVISUAL SEARCHHUMAN VISIONSALIENCY MAPBAYESIAN MODELSSCANPATH COMPARISON METRICSLa búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting.Fil: Sclar, Melanie. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesKamienkowski, Juan EstebanSolovey, Guillermo2017-09-27info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclarspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-05-14T10:38:38Zseminario:seminario_nCOM000475_SclarInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-05-14 10:38:40.097Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Análisis y predicción de la búsqueda visual humana
Analysis and prediction of human visual search
title Análisis y predicción de la búsqueda visual humana
spellingShingle Análisis y predicción de la búsqueda visual humana
Sclar, Melanie
BUSQUEDA VISUAL
VISION HUMANA
MAPA DE SALIENCIA
MODELOS BAYESIANOS
METRICAS DE COMPARACION DE SCANPATHS
VISUAL SEARCH
HUMAN VISION
SALIENCY MAP
BAYESIAN MODELS
SCANPATH COMPARISON METRICS
title_short Análisis y predicción de la búsqueda visual humana
title_full Análisis y predicción de la búsqueda visual humana
title_fullStr Análisis y predicción de la búsqueda visual humana
title_full_unstemmed Análisis y predicción de la búsqueda visual humana
title_sort Análisis y predicción de la búsqueda visual humana
dc.creator.none.fl_str_mv Sclar, Melanie
author Sclar, Melanie
author_facet Sclar, Melanie
author_role author
dc.contributor.none.fl_str_mv Kamienkowski, Juan Esteban
Solovey, Guillermo
dc.subject.none.fl_str_mv BUSQUEDA VISUAL
VISION HUMANA
MAPA DE SALIENCIA
MODELOS BAYESIANOS
METRICAS DE COMPARACION DE SCANPATHS
VISUAL SEARCH
HUMAN VISION
SALIENCY MAP
BAYESIAN MODELS
SCANPATH COMPARISON METRICS
topic BUSQUEDA VISUAL
VISION HUMANA
MAPA DE SALIENCIA
MODELOS BAYESIANOS
METRICAS DE COMPARACION DE SCANPATHS
VISUAL SEARCH
HUMAN VISION
SALIENCY MAP
BAYESIAN MODELS
SCANPATH COMPARISON METRICS
dc.description.none.fl_txt_mv La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.
Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting.
Fil: Sclar, Melanie. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.
publishDate 2017
dc.date.none.fl_str_mv 2017-09-27
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar
url https://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1865181115308834816
score 13.115601