Comparative study of methods for the inference of socioeconomic status in a communications graph

Autores
Fixman, Martín
Año de publicación
2018
Idioma
inglés
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Sarraute, Carlos
Feuerstein, Esteban Zindel
Descripción
Obtener y procesar datos demográficos y sociológicos fueron uno de los procesos más importantes para entender fenómenos que afectan a toda la población desde por lo menos el Siglo XVII [Fri06], y encontrar formas simples e intuitivas de visualizarlos tiene un gran impacto en nuestra manera de entender los datos [Min44, Sno55]. Formas comunes de obtener datos cuantitativos de estratificación económica usualmente involucran investigación de archivos o encuestas sociales [Bul77], y dependen de métodos estadísticos. Las operadoras de telecomunicaciones (“telcos”) tienen acceso a una gran cantidad de información sobre las comunicaciones y hábitos de sus usuarios [Huu03], pero la habilidad de guardar y procesar esos datos ha dado grandes pasos en los últimos años gracias a nuevas y más poderosas computadoras y técnicas de minería de datos. Lo mismo puede decirse sobre la información sociológica y económica contenida por bancos y tarjetas de crédito, y por la relación entre estas dos fuentes de datos. La minería de datos de telcos a gran escala es un área relativamente nueva que se usa principalmente para aplicaciones internas [HAK+02], pero la gran cantidad de información sociológica es de gran interés para temas académicos relacionados a la sociología. Esta tesis se basa en métodos usaros por Óskarsdottir et al. [ÓBV+16] y Singh et al. [SFLP13], además de una fuente de información de una telco y de un banco grande para encontrar que la distribución de ingresos de los usuarios sigue de manera cercana (pero no exacta) la distribución de ingresos de la población en general. Hay una fuerte homofilia entre los ingresos de contactos en la telco, que se usa junto con la distribución desigual de dinero en la población para crear una metodología, basada en estadística bayesiana, para inferir el nivel socioeconómico de un gran subconjunto de usuarios en la red sin información bancaria con AUC = 0.746. El método bayesiano es luego comparado con otros métodos basados en aprendizaje automático supervisado para probar que, aunque toma menos información de entrada, es un mejor predictor de características sociales en este tipo particular de red.
Obtaining and processing demographical and sociological data have been some of the most important processes for understanding population-wide phenomena since at least 17th century [Fri06], and finding simple and intuitive ways of visualizing them has a big impact in our ways of understanding the data [Min44, Sno55]. Common ways of obtaining useful qualitative data on socioeconomic stratification usually involved archival research or social surveys [Bul77], and rely on statistical methods. Telecommunication operators (“telcos”) have access to a wealth of information about their users’ communications and habits [Huu03], but the ability to store and process that data has taken large strides in the last few years thanks to new and more powerful computers and data mining techniques. The same can be said for sociological and economic information owned by banks and credit cards, and the relation between these two data sources. Large scale data mining of data from the telecommunications industry is a relatively new area that’s been so far mostly used for internal applications [HAK+02], but the gigantic wealth of real-time sociological data has been of interest for academic purposes related to sociology. This thesis builds on methods used by Óskarsdottir et al. [ÓBV+16] and Singh et al. [SFLP13], along with a large dataset of information for a certain telco and a large bank to find that the income distribution of the users follows closely (but not exactly) the income distribution of the whole population. We have observed a strong homophily between the incomes of contacts in the telco, which along with the uneven distribution of wealth in the population is leveraged to create a methodology, grounded in Bayesian statistics, to infer socioeconomic level of a large subset of users in the network without banking information which is very accurate at AUC = 0.746. The Bayesian method is later compared to several other methods based on supervised machine learning to prove that, even though it uses less input information, it is a better predictor of social features in this particular kind of network.
Fil: Fixman, Martín. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000476_Fixman

id BDUBAFCEN_f516272a3c9ac7b7ca751928d464405a
oai_identifier_str seminario:seminario_nCOM000476_Fixman
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Comparative study of methods for the inference of socioeconomic status in a communications graphFixman, MartínObtener y procesar datos demográficos y sociológicos fueron uno de los procesos más importantes para entender fenómenos que afectan a toda la población desde por lo menos el Siglo XVII [Fri06], y encontrar formas simples e intuitivas de visualizarlos tiene un gran impacto en nuestra manera de entender los datos [Min44, Sno55]. Formas comunes de obtener datos cuantitativos de estratificación económica usualmente involucran investigación de archivos o encuestas sociales [Bul77], y dependen de métodos estadísticos. Las operadoras de telecomunicaciones (“telcos”) tienen acceso a una gran cantidad de información sobre las comunicaciones y hábitos de sus usuarios [Huu03], pero la habilidad de guardar y procesar esos datos ha dado grandes pasos en los últimos años gracias a nuevas y más poderosas computadoras y técnicas de minería de datos. Lo mismo puede decirse sobre la información sociológica y económica contenida por bancos y tarjetas de crédito, y por la relación entre estas dos fuentes de datos. La minería de datos de telcos a gran escala es un área relativamente nueva que se usa principalmente para aplicaciones internas [HAK+02], pero la gran cantidad de información sociológica es de gran interés para temas académicos relacionados a la sociología. Esta tesis se basa en métodos usaros por Óskarsdottir et al. [ÓBV+16] y Singh et al. [SFLP13], además de una fuente de información de una telco y de un banco grande para encontrar que la distribución de ingresos de los usuarios sigue de manera cercana (pero no exacta) la distribución de ingresos de la población en general. Hay una fuerte homofilia entre los ingresos de contactos en la telco, que se usa junto con la distribución desigual de dinero en la población para crear una metodología, basada en estadística bayesiana, para inferir el nivel socioeconómico de un gran subconjunto de usuarios en la red sin información bancaria con AUC = 0.746. El método bayesiano es luego comparado con otros métodos basados en aprendizaje automático supervisado para probar que, aunque toma menos información de entrada, es un mejor predictor de características sociales en este tipo particular de red.Obtaining and processing demographical and sociological data have been some of the most important processes for understanding population-wide phenomena since at least 17th century [Fri06], and finding simple and intuitive ways of visualizing them has a big impact in our ways of understanding the data [Min44, Sno55]. Common ways of obtaining useful qualitative data on socioeconomic stratification usually involved archival research or social surveys [Bul77], and rely on statistical methods. Telecommunication operators (“telcos”) have access to a wealth of information about their users’ communications and habits [Huu03], but the ability to store and process that data has taken large strides in the last few years thanks to new and more powerful computers and data mining techniques. The same can be said for sociological and economic information owned by banks and credit cards, and the relation between these two data sources. Large scale data mining of data from the telecommunications industry is a relatively new area that’s been so far mostly used for internal applications [HAK+02], but the gigantic wealth of real-time sociological data has been of interest for academic purposes related to sociology. This thesis builds on methods used by Óskarsdottir et al. [ÓBV+16] and Singh et al. [SFLP13], along with a large dataset of information for a certain telco and a large bank to find that the income distribution of the users follows closely (but not exactly) the income distribution of the whole population. We have observed a strong homophily between the incomes of contacts in the telco, which along with the uneven distribution of wealth in the population is leveraged to create a methodology, grounded in Bayesian statistics, to infer socioeconomic level of a large subset of users in the network without banking information which is very accurate at AUC = 0.746. The Bayesian method is later compared to several other methods based on supervised machine learning to prove that, even though it uses less input information, it is a better predictor of social features in this particular kind of network.Fil: Fixman, Martín. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesSarraute, CarlosFeuerstein, Esteban Zindel2018-11-18info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000476_Fixmanenginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-18T10:09:59Zseminario:seminario_nCOM000476_FixmanInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-18 10:10:00.481Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Comparative study of methods for the inference of socioeconomic status in a communications graph
title Comparative study of methods for the inference of socioeconomic status in a communications graph
spellingShingle Comparative study of methods for the inference of socioeconomic status in a communications graph
Fixman, Martín
title_short Comparative study of methods for the inference of socioeconomic status in a communications graph
title_full Comparative study of methods for the inference of socioeconomic status in a communications graph
title_fullStr Comparative study of methods for the inference of socioeconomic status in a communications graph
title_full_unstemmed Comparative study of methods for the inference of socioeconomic status in a communications graph
title_sort Comparative study of methods for the inference of socioeconomic status in a communications graph
dc.creator.none.fl_str_mv Fixman, Martín
author Fixman, Martín
author_facet Fixman, Martín
author_role author
dc.contributor.none.fl_str_mv Sarraute, Carlos
Feuerstein, Esteban Zindel
dc.description.none.fl_txt_mv Obtener y procesar datos demográficos y sociológicos fueron uno de los procesos más importantes para entender fenómenos que afectan a toda la población desde por lo menos el Siglo XVII [Fri06], y encontrar formas simples e intuitivas de visualizarlos tiene un gran impacto en nuestra manera de entender los datos [Min44, Sno55]. Formas comunes de obtener datos cuantitativos de estratificación económica usualmente involucran investigación de archivos o encuestas sociales [Bul77], y dependen de métodos estadísticos. Las operadoras de telecomunicaciones (“telcos”) tienen acceso a una gran cantidad de información sobre las comunicaciones y hábitos de sus usuarios [Huu03], pero la habilidad de guardar y procesar esos datos ha dado grandes pasos en los últimos años gracias a nuevas y más poderosas computadoras y técnicas de minería de datos. Lo mismo puede decirse sobre la información sociológica y económica contenida por bancos y tarjetas de crédito, y por la relación entre estas dos fuentes de datos. La minería de datos de telcos a gran escala es un área relativamente nueva que se usa principalmente para aplicaciones internas [HAK+02], pero la gran cantidad de información sociológica es de gran interés para temas académicos relacionados a la sociología. Esta tesis se basa en métodos usaros por Óskarsdottir et al. [ÓBV+16] y Singh et al. [SFLP13], además de una fuente de información de una telco y de un banco grande para encontrar que la distribución de ingresos de los usuarios sigue de manera cercana (pero no exacta) la distribución de ingresos de la población en general. Hay una fuerte homofilia entre los ingresos de contactos en la telco, que se usa junto con la distribución desigual de dinero en la población para crear una metodología, basada en estadística bayesiana, para inferir el nivel socioeconómico de un gran subconjunto de usuarios en la red sin información bancaria con AUC = 0.746. El método bayesiano es luego comparado con otros métodos basados en aprendizaje automático supervisado para probar que, aunque toma menos información de entrada, es un mejor predictor de características sociales en este tipo particular de red.
Obtaining and processing demographical and sociological data have been some of the most important processes for understanding population-wide phenomena since at least 17th century [Fri06], and finding simple and intuitive ways of visualizing them has a big impact in our ways of understanding the data [Min44, Sno55]. Common ways of obtaining useful qualitative data on socioeconomic stratification usually involved archival research or social surveys [Bul77], and rely on statistical methods. Telecommunication operators (“telcos”) have access to a wealth of information about their users’ communications and habits [Huu03], but the ability to store and process that data has taken large strides in the last few years thanks to new and more powerful computers and data mining techniques. The same can be said for sociological and economic information owned by banks and credit cards, and the relation between these two data sources. Large scale data mining of data from the telecommunications industry is a relatively new area that’s been so far mostly used for internal applications [HAK+02], but the gigantic wealth of real-time sociological data has been of interest for academic purposes related to sociology. This thesis builds on methods used by Óskarsdottir et al. [ÓBV+16] and Singh et al. [SFLP13], along with a large dataset of information for a certain telco and a large bank to find that the income distribution of the users follows closely (but not exactly) the income distribution of the whole population. We have observed a strong homophily between the incomes of contacts in the telco, which along with the uneven distribution of wealth in the population is leveraged to create a methodology, grounded in Bayesian statistics, to infer socioeconomic level of a large subset of users in the network without banking information which is very accurate at AUC = 0.746. The Bayesian method is later compared to several other methods based on supervised machine learning to prove that, even though it uses less input information, it is a better predictor of social features in this particular kind of network.
Fil: Fixman, Martín. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Obtener y procesar datos demográficos y sociológicos fueron uno de los procesos más importantes para entender fenómenos que afectan a toda la población desde por lo menos el Siglo XVII [Fri06], y encontrar formas simples e intuitivas de visualizarlos tiene un gran impacto en nuestra manera de entender los datos [Min44, Sno55]. Formas comunes de obtener datos cuantitativos de estratificación económica usualmente involucran investigación de archivos o encuestas sociales [Bul77], y dependen de métodos estadísticos. Las operadoras de telecomunicaciones (“telcos”) tienen acceso a una gran cantidad de información sobre las comunicaciones y hábitos de sus usuarios [Huu03], pero la habilidad de guardar y procesar esos datos ha dado grandes pasos en los últimos años gracias a nuevas y más poderosas computadoras y técnicas de minería de datos. Lo mismo puede decirse sobre la información sociológica y económica contenida por bancos y tarjetas de crédito, y por la relación entre estas dos fuentes de datos. La minería de datos de telcos a gran escala es un área relativamente nueva que se usa principalmente para aplicaciones internas [HAK+02], pero la gran cantidad de información sociológica es de gran interés para temas académicos relacionados a la sociología. Esta tesis se basa en métodos usaros por Óskarsdottir et al. [ÓBV+16] y Singh et al. [SFLP13], además de una fuente de información de una telco y de un banco grande para encontrar que la distribución de ingresos de los usuarios sigue de manera cercana (pero no exacta) la distribución de ingresos de la población en general. Hay una fuerte homofilia entre los ingresos de contactos en la telco, que se usa junto con la distribución desigual de dinero en la población para crear una metodología, basada en estadística bayesiana, para inferir el nivel socioeconómico de un gran subconjunto de usuarios en la red sin información bancaria con AUC = 0.746. El método bayesiano es luego comparado con otros métodos basados en aprendizaje automático supervisado para probar que, aunque toma menos información de entrada, es un mejor predictor de características sociales en este tipo particular de red.
publishDate 2018
dc.date.none.fl_str_mv 2018-11-18
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000476_Fixman
url https://hdl.handle.net/20.500.12110/seminario_nCOM000476_Fixman
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1843608750088257536
score 13.000565