Escalado multidimensional métrico en problemas con grandes datos

Autores
Cosatto Ammann, Pedro Camilo
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Rodríguez, Daniela Andrea
Descripción
En este trabajo describimos y aplicamos métodos de escalado multidimensional (MDS) para muestras con gran cantidad de datos. El escalado multidimensional es un conjunto de técnicas de representación de objetos basadas en las distancias, similaridades o disimilaridades entre ellos. Estos métodos tienen severas limitaciones cuando el tamaño de la muestra aumenta, debido a las dificultades de cómputo. Analizamos tres algoritmos distintos para sortear este problema: dos de ellos basados en la idea de división y conquista, y uno de ellos basado en un método de interpolación. Luego, aplicamos uno de ellos a un problema de agrupamiento. Los métodos estudiados logran reproducir con gran exactitud y precisión la solución que se obtendría con los métodos clásicos, aunque se descubrieron algunos aspectos a mejorar, especialmente con la aparición de datos atípicos. Por lo realizado en el problema de aplicación, creemos que estas variantes aportan ventajas al MDS como método de reducción de la dimensión, poniéndolo al mismo nivel que otras técnicas comúnmente usadas en el tratamiento de muestras grandes, como el análisis de Componentes Principales o t-SNE.
In this work, we describe and apply multidimensional scaling (MDS) methods with large samples. Multidimensional scaling is a set of object representation techniques based on distances, similarities, or dissimilarities between them. These methods have severe limitations when the sample size increases, due to computational difficulties. We analyze three different algorithms to overcome this problem: two of them based on the idea of ’divide and conquer’, and one of them based on an interpolation method. Then, we apply one of them to a clustering problem. The studied methods accurately and precisely reproduce the solution that would be obtained with classic methods, although some aspects to improve were discovered, especially with the appearance of outliers. Based on the application problem, we believe that these variants provide advantages to MDS as a dimension reduction method, putting it at the same level as other techniques commonly used in the treatment of large samples, such as Principal Component Analysis or t-SNE.
Fil: Cosatto Ammann, Pedro Camilo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
ESCALADO MULTIDIMENSIONAL
ESCALADO CLASICO
GRANDES DATOS
REDUCCION DE LA DIMENSION
TRANSFORMACIONES DE PROCRUSTES
INTERPOLACION
APRENDIZAJE NO SUPERVISADO
MULTIDIMENSIONAL SCALING
CLASSICAL SCALING
BIG DATA
DIMENSIONALITY REDUCCION
PROCRSUTES TRANSFORMATIONS
INTERPOLATION
UNSUPERVISED LEARNING
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7398_CosattoAmmann

id BDUBAFCEN_f5caf55ab6753b4e6ab1c7d8777f84ec
oai_identifier_str tesis:tesis_n7398_CosattoAmmann
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Escalado multidimensional métrico en problemas con grandes datosMultidimensional scaling in big dataCosatto Ammann, Pedro CamiloESCALADO MULTIDIMENSIONALESCALADO CLASICOGRANDES DATOSREDUCCION DE LA DIMENSIONTRANSFORMACIONES DE PROCRUSTESINTERPOLACIONAPRENDIZAJE NO SUPERVISADOMULTIDIMENSIONAL SCALINGCLASSICAL SCALINGBIG DATADIMENSIONALITY REDUCCIONPROCRSUTES TRANSFORMATIONSINTERPOLATIONUNSUPERVISED LEARNINGEn este trabajo describimos y aplicamos métodos de escalado multidimensional (MDS) para muestras con gran cantidad de datos. El escalado multidimensional es un conjunto de técnicas de representación de objetos basadas en las distancias, similaridades o disimilaridades entre ellos. Estos métodos tienen severas limitaciones cuando el tamaño de la muestra aumenta, debido a las dificultades de cómputo. Analizamos tres algoritmos distintos para sortear este problema: dos de ellos basados en la idea de división y conquista, y uno de ellos basado en un método de interpolación. Luego, aplicamos uno de ellos a un problema de agrupamiento. Los métodos estudiados logran reproducir con gran exactitud y precisión la solución que se obtendría con los métodos clásicos, aunque se descubrieron algunos aspectos a mejorar, especialmente con la aparición de datos atípicos. Por lo realizado en el problema de aplicación, creemos que estas variantes aportan ventajas al MDS como método de reducción de la dimensión, poniéndolo al mismo nivel que otras técnicas comúnmente usadas en el tratamiento de muestras grandes, como el análisis de Componentes Principales o t-SNE.In this work, we describe and apply multidimensional scaling (MDS) methods with large samples. Multidimensional scaling is a set of object representation techniques based on distances, similarities, or dissimilarities between them. These methods have severe limitations when the sample size increases, due to computational difficulties. We analyze three different algorithms to overcome this problem: two of them based on the idea of ’divide and conquer’, and one of them based on an interpolation method. Then, we apply one of them to a clustering problem. The studied methods accurately and precisely reproduce the solution that would be obtained with classic methods, although some aspects to improve were discovered, especially with the appearance of outliers. Based on the application problem, we believe that these variants provide advantages to MDS as a dimension reduction method, putting it at the same level as other techniques commonly used in the treatment of large samples, such as Principal Component Analysis or t-SNE.Fil: Cosatto Ammann, Pedro Camilo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesRodríguez, Daniela Andrea2023-07-31info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7398_CosattoAmmannspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:41:04Ztesis:tesis_n7398_CosattoAmmannInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:41:05.382Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Escalado multidimensional métrico en problemas con grandes datos
Multidimensional scaling in big data
title Escalado multidimensional métrico en problemas con grandes datos
spellingShingle Escalado multidimensional métrico en problemas con grandes datos
Cosatto Ammann, Pedro Camilo
ESCALADO MULTIDIMENSIONAL
ESCALADO CLASICO
GRANDES DATOS
REDUCCION DE LA DIMENSION
TRANSFORMACIONES DE PROCRUSTES
INTERPOLACION
APRENDIZAJE NO SUPERVISADO
MULTIDIMENSIONAL SCALING
CLASSICAL SCALING
BIG DATA
DIMENSIONALITY REDUCCION
PROCRSUTES TRANSFORMATIONS
INTERPOLATION
UNSUPERVISED LEARNING
title_short Escalado multidimensional métrico en problemas con grandes datos
title_full Escalado multidimensional métrico en problemas con grandes datos
title_fullStr Escalado multidimensional métrico en problemas con grandes datos
title_full_unstemmed Escalado multidimensional métrico en problemas con grandes datos
title_sort Escalado multidimensional métrico en problemas con grandes datos
dc.creator.none.fl_str_mv Cosatto Ammann, Pedro Camilo
author Cosatto Ammann, Pedro Camilo
author_facet Cosatto Ammann, Pedro Camilo
author_role author
dc.contributor.none.fl_str_mv Rodríguez, Daniela Andrea
dc.subject.none.fl_str_mv ESCALADO MULTIDIMENSIONAL
ESCALADO CLASICO
GRANDES DATOS
REDUCCION DE LA DIMENSION
TRANSFORMACIONES DE PROCRUSTES
INTERPOLACION
APRENDIZAJE NO SUPERVISADO
MULTIDIMENSIONAL SCALING
CLASSICAL SCALING
BIG DATA
DIMENSIONALITY REDUCCION
PROCRSUTES TRANSFORMATIONS
INTERPOLATION
UNSUPERVISED LEARNING
topic ESCALADO MULTIDIMENSIONAL
ESCALADO CLASICO
GRANDES DATOS
REDUCCION DE LA DIMENSION
TRANSFORMACIONES DE PROCRUSTES
INTERPOLACION
APRENDIZAJE NO SUPERVISADO
MULTIDIMENSIONAL SCALING
CLASSICAL SCALING
BIG DATA
DIMENSIONALITY REDUCCION
PROCRSUTES TRANSFORMATIONS
INTERPOLATION
UNSUPERVISED LEARNING
dc.description.none.fl_txt_mv En este trabajo describimos y aplicamos métodos de escalado multidimensional (MDS) para muestras con gran cantidad de datos. El escalado multidimensional es un conjunto de técnicas de representación de objetos basadas en las distancias, similaridades o disimilaridades entre ellos. Estos métodos tienen severas limitaciones cuando el tamaño de la muestra aumenta, debido a las dificultades de cómputo. Analizamos tres algoritmos distintos para sortear este problema: dos de ellos basados en la idea de división y conquista, y uno de ellos basado en un método de interpolación. Luego, aplicamos uno de ellos a un problema de agrupamiento. Los métodos estudiados logran reproducir con gran exactitud y precisión la solución que se obtendría con los métodos clásicos, aunque se descubrieron algunos aspectos a mejorar, especialmente con la aparición de datos atípicos. Por lo realizado en el problema de aplicación, creemos que estas variantes aportan ventajas al MDS como método de reducción de la dimensión, poniéndolo al mismo nivel que otras técnicas comúnmente usadas en el tratamiento de muestras grandes, como el análisis de Componentes Principales o t-SNE.
In this work, we describe and apply multidimensional scaling (MDS) methods with large samples. Multidimensional scaling is a set of object representation techniques based on distances, similarities, or dissimilarities between them. These methods have severe limitations when the sample size increases, due to computational difficulties. We analyze three different algorithms to overcome this problem: two of them based on the idea of ’divide and conquer’, and one of them based on an interpolation method. Then, we apply one of them to a clustering problem. The studied methods accurately and precisely reproduce the solution that would be obtained with classic methods, although some aspects to improve were discovered, especially with the appearance of outliers. Based on the application problem, we believe that these variants provide advantages to MDS as a dimension reduction method, putting it at the same level as other techniques commonly used in the treatment of large samples, such as Principal Component Analysis or t-SNE.
Fil: Cosatto Ammann, Pedro Camilo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description En este trabajo describimos y aplicamos métodos de escalado multidimensional (MDS) para muestras con gran cantidad de datos. El escalado multidimensional es un conjunto de técnicas de representación de objetos basadas en las distancias, similaridades o disimilaridades entre ellos. Estos métodos tienen severas limitaciones cuando el tamaño de la muestra aumenta, debido a las dificultades de cómputo. Analizamos tres algoritmos distintos para sortear este problema: dos de ellos basados en la idea de división y conquista, y uno de ellos basado en un método de interpolación. Luego, aplicamos uno de ellos a un problema de agrupamiento. Los métodos estudiados logran reproducir con gran exactitud y precisión la solución que se obtendría con los métodos clásicos, aunque se descubrieron algunos aspectos a mejorar, especialmente con la aparición de datos atípicos. Por lo realizado en el problema de aplicación, creemos que estas variantes aportan ventajas al MDS como método de reducción de la dimensión, poniéndolo al mismo nivel que otras técnicas comúnmente usadas en el tratamiento de muestras grandes, como el análisis de Componentes Principales o t-SNE.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-31
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7398_CosattoAmmann
url https://hdl.handle.net/20.500.12110/tesis_n7398_CosattoAmmann
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618699883937793
score 13.070432