Modelos de predicción del abandono en la Universidad Nacional de Hurlingham

Autores
Pustilnik, Martín Ariel
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Iarussi, Emmanuel
Descripción
Se estima que en el sistema universitario sólo el 27,66% de los estudiantes que ingresan se gradúa en un tiempo teórico de 5 años. Para las carreras de informática, este número es incluso más bajo: cercano al 20%. Entendemos que el abandono estudiantil es, tal vez, el factor individual más importante que explica este fenómeno. La medición del abandono en sí presenta diversas complejidades. Con el fin de enfocarse en la emisión de alertas tempranas en lugar de identificar un "abandono definitivo", se considera en situación de abandono a aquel estudiante que tras haber iniciado sus estudios, no muestra actividad académica durante al menos un semestre. Esto puede deberse a una pausa en sus estudios, un cambio de universidad o de carrera, con la posibilidad de retomar su formación en un momento posterior. La Universidad Nacional de Hurlingham (UNAHUR) es pública y gratuita, funciona desde 2016 con gran integración con la comunidad y alto interés por la permanencia de sus estudiantes, pero con alta tasa de abandono estudiantil. Su matrícula crece aceleradamente y presenta alta incidencia de estudiantes de primera generación de universitarios (77% para 2023) y de bajos ingresos económicos. Entre las acciones para abordar la prevención del abandono, con la participación del autor de esta tesis, la UNAHUR ha estado desarrollando modelos de predicción de abandono utilizando técnicas de Aprendizaje Automático para identificar estudiantes en riesgo, con el objetivo de prevenir el abandono estudiantil de manera temprana. Estos modelos se basan en los datos del Sistema de Información Universitaria Guaraní (SIU-Guaraní) y en datos generados a partir de la ingeniería de atributos, con la perspectiva teórica de autores de referencia y la de otros actores de la misma universidad. Una vez entrenados, son capaces de detectar estudiantes con alto riesgo de abandono, a la vez que permiten indagar en algunos de los motivos subyacentes. En este trabajo se realizó una investigación bibliográfica de los modelos empleados hasta la fecha, haciendo foco en aquellos que utilizaran Aprendizaje Automático. Luego, se desarrollaron modelos que proporcionan alertas tempranas de abandono en el contexto de la UNAHUR, para poder intervenir y asistir a las personas antes de que abandonen. Se probaron hipótesis para identificar qué variables influyen en el abandono, y así mejorar futuros modelos. Se proporcionaron recomendaciones sobre variables no relevadas y que deberían ser censadas. Se generó un reporte de personas en riesgo, indicando además de la probabilidad de abandono, los factores más significativos para cada individuo, permitiendo así iniciar la comunicación y explorar los motivos subyacentes sin tener que censar a toda la población estudiantil. Se utilizaron métricas como curva ROC y exactitud balanceada para medir la performance de los modelos, alcanzando un Área bajo la curva ROC de 0,88 para el mejor de ellos.
It is estimated that only 27.66% of students entering the university system graduate within the theoretical time of 5 years. For computer science degrees, this number is even lower: around 20%. We understand that student dropout is perhaps the most important individual factor explaining this phenomenon. Measuring dropout itself presents various complexities. In order to focus on issuing early alerts rather than identifying a "definitive dropout", a student is considered in a dropout situation if, after starting their studies, they do not show academic activity for at least one semester. This may be due to a pause in their studies, a change of university or degree, with the possibility of resuming their education at a later time. The Universidad Nacional de Hurlingham (UNAHUR) is a public and free institution that has been operating since 2016 with great integration with the community and high interest in student permanence, but with a high dropout rate. Its enrollment is growing rapidly and has a high incidence of first-generation university students (77% by 2023) and low-income students. Among the actions to address dropout prevention, with the participation of the author of this thesis, UNAHUR has been developing dropout prediction models using Machine Learning techniques to identify students at risk, aiming to prevent student dropout early. These models are based on data from the Guaraní University Information System (SIU-Guaraní) and data generated from feature engineering, with the theoretical perspective of reference authors and other actors from the same university. Once trained, they are able to detect students at high risk of dropping out, while allowing us to investigate some of the underlying reasons. In this work, a bibliographical investigation of the models used to date was carried out, focusing on those that used Machine Learning. Then, models that provide early warnings of abandonment in the context of UNAHUR were developed to intervene and assist students before they drop out. Hypotheses were tested to identify which variables influence dropout to improve future models. Recommendations were provided on unrevealed variables that should be surveyed. A report of individuals at risk was generated, indicating in addition to the probability of dropping out, the most significant factors for each individual, thus allowing specialists to initiate communication and explore the underlying reasons without having to survey the entire student population. Metrics such as ROC curve and balanced accuracy were used to measure the performance of the models, achieving an Area under the ROC curve of 0.88 for the best model.
Fil: Pustilnik, Martín Ariel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
ABANDONO UNIVERSITARIO
MODELO PREDICCION
APRENDIZAJE AUTOMATICO
UNIVERSITY DROPOUT
PREDICTION MODEL
MACHINE LEARNING
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
tesis:tesis_n7759_Pustilnik

id BDUBAFCEN_b92f9d85f845bb48621733868457e2af
oai_identifier_str tesis:tesis_n7759_Pustilnik
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Modelos de predicción del abandono en la Universidad Nacional de HurlinghamDropout prediction models at the Universidad Nacional de HurlinghamPustilnik, Martín ArielABANDONO UNIVERSITARIOMODELO PREDICCIONAPRENDIZAJE AUTOMATICOUNIVERSITY DROPOUTPREDICTION MODELMACHINE LEARNINGSe estima que en el sistema universitario sólo el 27,66% de los estudiantes que ingresan se gradúa en un tiempo teórico de 5 años. Para las carreras de informática, este número es incluso más bajo: cercano al 20%. Entendemos que el abandono estudiantil es, tal vez, el factor individual más importante que explica este fenómeno. La medición del abandono en sí presenta diversas complejidades. Con el fin de enfocarse en la emisión de alertas tempranas en lugar de identificar un "abandono definitivo", se considera en situación de abandono a aquel estudiante que tras haber iniciado sus estudios, no muestra actividad académica durante al menos un semestre. Esto puede deberse a una pausa en sus estudios, un cambio de universidad o de carrera, con la posibilidad de retomar su formación en un momento posterior. La Universidad Nacional de Hurlingham (UNAHUR) es pública y gratuita, funciona desde 2016 con gran integración con la comunidad y alto interés por la permanencia de sus estudiantes, pero con alta tasa de abandono estudiantil. Su matrícula crece aceleradamente y presenta alta incidencia de estudiantes de primera generación de universitarios (77% para 2023) y de bajos ingresos económicos. Entre las acciones para abordar la prevención del abandono, con la participación del autor de esta tesis, la UNAHUR ha estado desarrollando modelos de predicción de abandono utilizando técnicas de Aprendizaje Automático para identificar estudiantes en riesgo, con el objetivo de prevenir el abandono estudiantil de manera temprana. Estos modelos se basan en los datos del Sistema de Información Universitaria Guaraní (SIU-Guaraní) y en datos generados a partir de la ingeniería de atributos, con la perspectiva teórica de autores de referencia y la de otros actores de la misma universidad. Una vez entrenados, son capaces de detectar estudiantes con alto riesgo de abandono, a la vez que permiten indagar en algunos de los motivos subyacentes. En este trabajo se realizó una investigación bibliográfica de los modelos empleados hasta la fecha, haciendo foco en aquellos que utilizaran Aprendizaje Automático. Luego, se desarrollaron modelos que proporcionan alertas tempranas de abandono en el contexto de la UNAHUR, para poder intervenir y asistir a las personas antes de que abandonen. Se probaron hipótesis para identificar qué variables influyen en el abandono, y así mejorar futuros modelos. Se proporcionaron recomendaciones sobre variables no relevadas y que deberían ser censadas. Se generó un reporte de personas en riesgo, indicando además de la probabilidad de abandono, los factores más significativos para cada individuo, permitiendo así iniciar la comunicación y explorar los motivos subyacentes sin tener que censar a toda la población estudiantil. Se utilizaron métricas como curva ROC y exactitud balanceada para medir la performance de los modelos, alcanzando un Área bajo la curva ROC de 0,88 para el mejor de ellos.It is estimated that only 27.66% of students entering the university system graduate within the theoretical time of 5 years. For computer science degrees, this number is even lower: around 20%. We understand that student dropout is perhaps the most important individual factor explaining this phenomenon. Measuring dropout itself presents various complexities. In order to focus on issuing early alerts rather than identifying a "definitive dropout", a student is considered in a dropout situation if, after starting their studies, they do not show academic activity for at least one semester. This may be due to a pause in their studies, a change of university or degree, with the possibility of resuming their education at a later time. The Universidad Nacional de Hurlingham (UNAHUR) is a public and free institution that has been operating since 2016 with great integration with the community and high interest in student permanence, but with a high dropout rate. Its enrollment is growing rapidly and has a high incidence of first-generation university students (77% by 2023) and low-income students. Among the actions to address dropout prevention, with the participation of the author of this thesis, UNAHUR has been developing dropout prediction models using Machine Learning techniques to identify students at risk, aiming to prevent student dropout early. These models are based on data from the Guaraní University Information System (SIU-Guaraní) and data generated from feature engineering, with the theoretical perspective of reference authors and other actors from the same university. Once trained, they are able to detect students at high risk of dropping out, while allowing us to investigate some of the underlying reasons. In this work, a bibliographical investigation of the models used to date was carried out, focusing on those that used Machine Learning. Then, models that provide early warnings of abandonment in the context of UNAHUR were developed to intervene and assist students before they drop out. Hypotheses were tested to identify which variables influence dropout to improve future models. Recommendations were provided on unrevealed variables that should be surveyed. A report of individuals at risk was generated, indicating in addition to the probability of dropping out, the most significant factors for each individual, thus allowing specialists to initiate communication and explore the underlying reasons without having to survey the entire student population. Metrics such as ROC curve and balanced accuracy were used to measure the performance of the models, achieving an Area under the ROC curve of 0.88 for the best model.Fil: Pustilnik, Martín Ariel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesIarussi, Emmanuel2025-06-24info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7759_Pustilnikspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-06-04T09:40:54Ztesis:tesis_n7759_PustilnikInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-06-04 09:40:55.474Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
Dropout prediction models at the Universidad Nacional de Hurlingham
title Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
spellingShingle Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
Pustilnik, Martín Ariel
ABANDONO UNIVERSITARIO
MODELO PREDICCION
APRENDIZAJE AUTOMATICO
UNIVERSITY DROPOUT
PREDICTION MODEL
MACHINE LEARNING
title_short Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
title_full Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
title_fullStr Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
title_full_unstemmed Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
title_sort Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
dc.creator.none.fl_str_mv Pustilnik, Martín Ariel
author Pustilnik, Martín Ariel
author_facet Pustilnik, Martín Ariel
author_role author
dc.contributor.none.fl_str_mv Iarussi, Emmanuel
dc.subject.none.fl_str_mv ABANDONO UNIVERSITARIO
MODELO PREDICCION
APRENDIZAJE AUTOMATICO
UNIVERSITY DROPOUT
PREDICTION MODEL
MACHINE LEARNING
topic ABANDONO UNIVERSITARIO
MODELO PREDICCION
APRENDIZAJE AUTOMATICO
UNIVERSITY DROPOUT
PREDICTION MODEL
MACHINE LEARNING
dc.description.none.fl_txt_mv Se estima que en el sistema universitario sólo el 27,66% de los estudiantes que ingresan se gradúa en un tiempo teórico de 5 años. Para las carreras de informática, este número es incluso más bajo: cercano al 20%. Entendemos que el abandono estudiantil es, tal vez, el factor individual más importante que explica este fenómeno. La medición del abandono en sí presenta diversas complejidades. Con el fin de enfocarse en la emisión de alertas tempranas en lugar de identificar un "abandono definitivo", se considera en situación de abandono a aquel estudiante que tras haber iniciado sus estudios, no muestra actividad académica durante al menos un semestre. Esto puede deberse a una pausa en sus estudios, un cambio de universidad o de carrera, con la posibilidad de retomar su formación en un momento posterior. La Universidad Nacional de Hurlingham (UNAHUR) es pública y gratuita, funciona desde 2016 con gran integración con la comunidad y alto interés por la permanencia de sus estudiantes, pero con alta tasa de abandono estudiantil. Su matrícula crece aceleradamente y presenta alta incidencia de estudiantes de primera generación de universitarios (77% para 2023) y de bajos ingresos económicos. Entre las acciones para abordar la prevención del abandono, con la participación del autor de esta tesis, la UNAHUR ha estado desarrollando modelos de predicción de abandono utilizando técnicas de Aprendizaje Automático para identificar estudiantes en riesgo, con el objetivo de prevenir el abandono estudiantil de manera temprana. Estos modelos se basan en los datos del Sistema de Información Universitaria Guaraní (SIU-Guaraní) y en datos generados a partir de la ingeniería de atributos, con la perspectiva teórica de autores de referencia y la de otros actores de la misma universidad. Una vez entrenados, son capaces de detectar estudiantes con alto riesgo de abandono, a la vez que permiten indagar en algunos de los motivos subyacentes. En este trabajo se realizó una investigación bibliográfica de los modelos empleados hasta la fecha, haciendo foco en aquellos que utilizaran Aprendizaje Automático. Luego, se desarrollaron modelos que proporcionan alertas tempranas de abandono en el contexto de la UNAHUR, para poder intervenir y asistir a las personas antes de que abandonen. Se probaron hipótesis para identificar qué variables influyen en el abandono, y así mejorar futuros modelos. Se proporcionaron recomendaciones sobre variables no relevadas y que deberían ser censadas. Se generó un reporte de personas en riesgo, indicando además de la probabilidad de abandono, los factores más significativos para cada individuo, permitiendo así iniciar la comunicación y explorar los motivos subyacentes sin tener que censar a toda la población estudiantil. Se utilizaron métricas como curva ROC y exactitud balanceada para medir la performance de los modelos, alcanzando un Área bajo la curva ROC de 0,88 para el mejor de ellos.
It is estimated that only 27.66% of students entering the university system graduate within the theoretical time of 5 years. For computer science degrees, this number is even lower: around 20%. We understand that student dropout is perhaps the most important individual factor explaining this phenomenon. Measuring dropout itself presents various complexities. In order to focus on issuing early alerts rather than identifying a "definitive dropout", a student is considered in a dropout situation if, after starting their studies, they do not show academic activity for at least one semester. This may be due to a pause in their studies, a change of university or degree, with the possibility of resuming their education at a later time. The Universidad Nacional de Hurlingham (UNAHUR) is a public and free institution that has been operating since 2016 with great integration with the community and high interest in student permanence, but with a high dropout rate. Its enrollment is growing rapidly and has a high incidence of first-generation university students (77% by 2023) and low-income students. Among the actions to address dropout prevention, with the participation of the author of this thesis, UNAHUR has been developing dropout prediction models using Machine Learning techniques to identify students at risk, aiming to prevent student dropout early. These models are based on data from the Guaraní University Information System (SIU-Guaraní) and data generated from feature engineering, with the theoretical perspective of reference authors and other actors from the same university. Once trained, they are able to detect students at high risk of dropping out, while allowing us to investigate some of the underlying reasons. In this work, a bibliographical investigation of the models used to date was carried out, focusing on those that used Machine Learning. Then, models that provide early warnings of abandonment in the context of UNAHUR were developed to intervene and assist students before they drop out. Hypotheses were tested to identify which variables influence dropout to improve future models. Recommendations were provided on unrevealed variables that should be surveyed. A report of individuals at risk was generated, indicating in addition to the probability of dropping out, the most significant factors for each individual, thus allowing specialists to initiate communication and explore the underlying reasons without having to survey the entire student population. Metrics such as ROC curve and balanced accuracy were used to measure the performance of the models, achieving an Area under the ROC curve of 0.88 for the best model.
Fil: Pustilnik, Martín Ariel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Se estima que en el sistema universitario sólo el 27,66% de los estudiantes que ingresan se gradúa en un tiempo teórico de 5 años. Para las carreras de informática, este número es incluso más bajo: cercano al 20%. Entendemos que el abandono estudiantil es, tal vez, el factor individual más importante que explica este fenómeno. La medición del abandono en sí presenta diversas complejidades. Con el fin de enfocarse en la emisión de alertas tempranas en lugar de identificar un "abandono definitivo", se considera en situación de abandono a aquel estudiante que tras haber iniciado sus estudios, no muestra actividad académica durante al menos un semestre. Esto puede deberse a una pausa en sus estudios, un cambio de universidad o de carrera, con la posibilidad de retomar su formación en un momento posterior. La Universidad Nacional de Hurlingham (UNAHUR) es pública y gratuita, funciona desde 2016 con gran integración con la comunidad y alto interés por la permanencia de sus estudiantes, pero con alta tasa de abandono estudiantil. Su matrícula crece aceleradamente y presenta alta incidencia de estudiantes de primera generación de universitarios (77% para 2023) y de bajos ingresos económicos. Entre las acciones para abordar la prevención del abandono, con la participación del autor de esta tesis, la UNAHUR ha estado desarrollando modelos de predicción de abandono utilizando técnicas de Aprendizaje Automático para identificar estudiantes en riesgo, con el objetivo de prevenir el abandono estudiantil de manera temprana. Estos modelos se basan en los datos del Sistema de Información Universitaria Guaraní (SIU-Guaraní) y en datos generados a partir de la ingeniería de atributos, con la perspectiva teórica de autores de referencia y la de otros actores de la misma universidad. Una vez entrenados, son capaces de detectar estudiantes con alto riesgo de abandono, a la vez que permiten indagar en algunos de los motivos subyacentes. En este trabajo se realizó una investigación bibliográfica de los modelos empleados hasta la fecha, haciendo foco en aquellos que utilizaran Aprendizaje Automático. Luego, se desarrollaron modelos que proporcionan alertas tempranas de abandono en el contexto de la UNAHUR, para poder intervenir y asistir a las personas antes de que abandonen. Se probaron hipótesis para identificar qué variables influyen en el abandono, y así mejorar futuros modelos. Se proporcionaron recomendaciones sobre variables no relevadas y que deberían ser censadas. Se generó un reporte de personas en riesgo, indicando además de la probabilidad de abandono, los factores más significativos para cada individuo, permitiendo así iniciar la comunicación y explorar los motivos subyacentes sin tener que censar a toda la población estudiantil. Se utilizaron métricas como curva ROC y exactitud balanceada para medir la performance de los modelos, alcanzando un Área bajo la curva ROC de 0,88 para el mejor de ellos.
publishDate 2025
dc.date.none.fl_str_mv 2025-06-24
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/tesis_n7759_Pustilnik
url https://hdl.handle.net/20.500.12110/tesis_n7759_Pustilnik
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1867090930776932352
score 13.343307