Análisis y predicción de la búsqueda visual humana
- Autores
- Sclar, Melanie
- Año de publicación
- 2017
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Kamienkowski, Juan Esteban
Solovey, Guillermo - Descripción
- La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.
Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting.
Fil: Sclar, Melanie. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
BUSQUEDA VISUAL
VISION HUMANA
MAPA DE SALIENCIA
MODELOS BAYESIANOS
METRICAS DE COMPARACION DE SCANPATHS
VISUAL SEARCH
HUMAN VISION
SALIENCY MAP
BAYESIAN MODELS
SCANPATH COMPARISON METRICS - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
.jpg)
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000475_Sclar
Ver los metadatos del registro completo
| id |
BDUBAFCEN_418afa8843389bbfc31cb8fe7e68d3ed |
|---|---|
| oai_identifier_str |
seminario:seminario_nCOM000475_Sclar |
| network_acronym_str |
BDUBAFCEN |
| repository_id_str |
1896 |
| network_name_str |
Biblioteca Digital (UBA-FCEN) |
| spelling |
Análisis y predicción de la búsqueda visual humanaAnalysis and prediction of human visual searchSclar, MelanieBUSQUEDA VISUALVISION HUMANAMAPA DE SALIENCIAMODELOS BAYESIANOSMETRICAS DE COMPARACION DE SCANPATHSVISUAL SEARCHHUMAN VISIONSALIENCY MAPBAYESIAN MODELSSCANPATH COMPARISON METRICSLa búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting.Fil: Sclar, Melanie. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesKamienkowski, Juan EstebanSolovey, Guillermo2017-09-27info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclarspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-05-14T10:38:38Zseminario:seminario_nCOM000475_SclarInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-05-14 10:38:40.097Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
| dc.title.none.fl_str_mv |
Análisis y predicción de la búsqueda visual humana Analysis and prediction of human visual search |
| title |
Análisis y predicción de la búsqueda visual humana |
| spellingShingle |
Análisis y predicción de la búsqueda visual humana Sclar, Melanie BUSQUEDA VISUAL VISION HUMANA MAPA DE SALIENCIA MODELOS BAYESIANOS METRICAS DE COMPARACION DE SCANPATHS VISUAL SEARCH HUMAN VISION SALIENCY MAP BAYESIAN MODELS SCANPATH COMPARISON METRICS |
| title_short |
Análisis y predicción de la búsqueda visual humana |
| title_full |
Análisis y predicción de la búsqueda visual humana |
| title_fullStr |
Análisis y predicción de la búsqueda visual humana |
| title_full_unstemmed |
Análisis y predicción de la búsqueda visual humana |
| title_sort |
Análisis y predicción de la búsqueda visual humana |
| dc.creator.none.fl_str_mv |
Sclar, Melanie |
| author |
Sclar, Melanie |
| author_facet |
Sclar, Melanie |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Kamienkowski, Juan Esteban Solovey, Guillermo |
| dc.subject.none.fl_str_mv |
BUSQUEDA VISUAL VISION HUMANA MAPA DE SALIENCIA MODELOS BAYESIANOS METRICAS DE COMPARACION DE SCANPATHS VISUAL SEARCH HUMAN VISION SALIENCY MAP BAYESIAN MODELS SCANPATH COMPARISON METRICS |
| topic |
BUSQUEDA VISUAL VISION HUMANA MAPA DE SALIENCIA MODELOS BAYESIANOS METRICAS DE COMPARACION DE SCANPATHS VISUAL SEARCH HUMAN VISION SALIENCY MAP BAYESIAN MODELS SCANPATH COMPARISON METRICS |
| dc.description.none.fl_txt_mv |
La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano. Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting. Fil: Sclar, Melanie. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
| description |
La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano. |
| publishDate |
2017 |
| dc.date.none.fl_str_mv |
2017-09-27 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar |
| url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
| reponame_str |
Biblioteca Digital (UBA-FCEN) |
| collection |
Biblioteca Digital (UBA-FCEN) |
| instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| instacron_str |
UBA-FCEN |
| institution |
UBA-FCEN |
| repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
| _version_ |
1865181115308834816 |
| score |
13.115601 |