Modelo de predicción de compra de tarjeta de crédito

Autores
Stivala, Ignacio José
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Rodríguez, Daniela Andrea
Venturini, Ludmila V.
Descripción
El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente.
This work shows the complete development of a binary classification model, applied to a real problem in the banking industry, which presents a large amount of data (2,380,000 records and 1,400 variables) and a large imbalance (1.8 %). The response is whether or not the customer buys a credit card, and the interest variable is the probability of that purchase. It was developed in a macroeconomic context of high inflation, requiring work with monetary variables. The stages developed are collecting data, cleaning and preprocessing, variable selection/dimension reduction, application of algorithms, evaluation and selection of the final model. Various techniques are used in order to obtain the best prediction: logistic regression, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree and Light Gradient Boosting Machine (light GBM). SHapley Additive exPlanations (SHAP) are used for the explanation of the variables. In addition, an analysis is shown that allows deciding if it is convenient to work with a global model or two different models splitting the universe by an independent variable.
Fil: Stivala, Ignacio José. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
CLASIFICACION BINARIA
DESBALANCEO
SELECCION DE VARIABLES
REDUCCION DE DIMENSION
REGRESION LOGISTICA
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
BINARY CLASSIFICATION
IMBALANCE DATA
VARIABLE SELECTION
DIMENSION REDUCTION
LOGISTIC REGRESSION
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7343_Stivala

id BDUBAFCEN_0d97b076f61ac862602ba742b33a31c4
oai_identifier_str tesis:tesis_n7343_Stivala
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Modelo de predicción de compra de tarjeta de créditoCredit card purchase prediction modelStivala, Ignacio JoséCLASIFICACION BINARIADESBALANCEOSELECCION DE VARIABLESREDUCCION DE DIMENSIONREGRESION LOGISTICAPLS-DARANDOM FORESTLIGHT GBMSHAPBINARY CLASSIFICATIONIMBALANCE DATAVARIABLE SELECTIONDIMENSION REDUCTIONLOGISTIC REGRESSIONPLS-DARANDOM FORESTLIGHT GBMSHAPEl trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente.This work shows the complete development of a binary classification model, applied to a real problem in the banking industry, which presents a large amount of data (2,380,000 records and 1,400 variables) and a large imbalance (1.8 %). The response is whether or not the customer buys a credit card, and the interest variable is the probability of that purchase. It was developed in a macroeconomic context of high inflation, requiring work with monetary variables. The stages developed are collecting data, cleaning and preprocessing, variable selection/dimension reduction, application of algorithms, evaluation and selection of the final model. Various techniques are used in order to obtain the best prediction: logistic regression, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree and Light Gradient Boosting Machine (light GBM). SHapley Additive exPlanations (SHAP) are used for the explanation of the variables. In addition, an analysis is shown that allows deciding if it is convenient to work with a global model or two different models splitting the universe by an independent variable.Fil: Stivala, Ignacio José. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesRodríguez, Daniela AndreaVenturini, Ludmila V.2023-06-21info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7343_Stivalaspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:40:59Ztesis:tesis_n7343_StivalaInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:41:00.54Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Modelo de predicción de compra de tarjeta de crédito
Credit card purchase prediction model
title Modelo de predicción de compra de tarjeta de crédito
spellingShingle Modelo de predicción de compra de tarjeta de crédito
Stivala, Ignacio José
CLASIFICACION BINARIA
DESBALANCEO
SELECCION DE VARIABLES
REDUCCION DE DIMENSION
REGRESION LOGISTICA
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
BINARY CLASSIFICATION
IMBALANCE DATA
VARIABLE SELECTION
DIMENSION REDUCTION
LOGISTIC REGRESSION
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
title_short Modelo de predicción de compra de tarjeta de crédito
title_full Modelo de predicción de compra de tarjeta de crédito
title_fullStr Modelo de predicción de compra de tarjeta de crédito
title_full_unstemmed Modelo de predicción de compra de tarjeta de crédito
title_sort Modelo de predicción de compra de tarjeta de crédito
dc.creator.none.fl_str_mv Stivala, Ignacio José
author Stivala, Ignacio José
author_facet Stivala, Ignacio José
author_role author
dc.contributor.none.fl_str_mv Rodríguez, Daniela Andrea
Venturini, Ludmila V.
dc.subject.none.fl_str_mv CLASIFICACION BINARIA
DESBALANCEO
SELECCION DE VARIABLES
REDUCCION DE DIMENSION
REGRESION LOGISTICA
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
BINARY CLASSIFICATION
IMBALANCE DATA
VARIABLE SELECTION
DIMENSION REDUCTION
LOGISTIC REGRESSION
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
topic CLASIFICACION BINARIA
DESBALANCEO
SELECCION DE VARIABLES
REDUCCION DE DIMENSION
REGRESION LOGISTICA
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
BINARY CLASSIFICATION
IMBALANCE DATA
VARIABLE SELECTION
DIMENSION REDUCTION
LOGISTIC REGRESSION
PLS-DA
RANDOM FOREST
LIGHT GBM
SHAP
dc.description.none.fl_txt_mv El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente.
This work shows the complete development of a binary classification model, applied to a real problem in the banking industry, which presents a large amount of data (2,380,000 records and 1,400 variables) and a large imbalance (1.8 %). The response is whether or not the customer buys a credit card, and the interest variable is the probability of that purchase. It was developed in a macroeconomic context of high inflation, requiring work with monetary variables. The stages developed are collecting data, cleaning and preprocessing, variable selection/dimension reduction, application of algorithms, evaluation and selection of the final model. Various techniques are used in order to obtain the best prediction: logistic regression, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree and Light Gradient Boosting Machine (light GBM). SHapley Additive exPlanations (SHAP) are used for the explanation of the variables. In addition, an analysis is shown that allows deciding if it is convenient to work with a global model or two different models splitting the universe by an independent variable.
Fil: Stivala, Ignacio José. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-21
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7343_Stivala
url https://hdl.handle.net/20.500.12110/tesis_n7343_Stivala
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618697397764096
score 13.070432