CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar

Autores
Pincay-Ponce, Jorge Iván; De Giusti, Armando Eduardo; Sánchez-Andrade, Diana Alexandra; Figueroa-Suárez, Juan Alberto
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros.
The academic performance of children is an important task for schools and is attractive from the field of data science that addresses this multifactorial problem with various data mining techniques on increasingly complete data sets that address socioeconomic factors such as possible conditions. We present a method that improves the accuracy of the prediction of school performance by combining the application of the ensemble learning algorithms CatBoost with the explanation and improvement of the transparency of the classification that it performs, by scoring the characteristics based on the SHAP values. (Shapley Additive exPlanations). Four types of averages are available: Master the Learning Requirement (DAR), Meet the Learning Requirement (AAR), Close to Meeting the Learning Requirement (PAAR), and Not Meet the Learning Requirement (NAAR). How the PAAR and NAAR types of averages constitute minority classes were balanced with respect to the DAR and AAR majority classes. An accuracy and precision of 91% were achieved. The characteristics with the greatest impact on the prediction are social skills, the father's occupation, family income, gender, possible disability, behavior, family structure, and number of siblings, among others.
Facultad de Informática
Materia
Ciencias Informáticas
Aprendizaje automático
CatBoost
Shapley
Rendimiento académico
Métodos de ensamble
Machine learning
Academic performance
Assembly methods
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/168258

id SEDICI_71b133bc682ab71791a93798ef69ccb3
oai_identifier_str oai:sedici.unlp.edu.ar:10915/168258
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolarCatBoost: Ensemble machine learning for the analysis of socioeconomic factors that affect school performancePincay-Ponce, Jorge IvánDe Giusti, Armando EduardoSánchez-Andrade, Diana AlexandraFigueroa-Suárez, Juan AlbertoCiencias InformáticasAprendizaje automáticoCatBoostShapleyRendimiento académicoMétodos de ensambleMachine learningAcademic performanceAssembly methodsEl rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros.The academic performance of children is an important task for schools and is attractive from the field of data science that addresses this multifactorial problem with various data mining techniques on increasingly complete data sets that address socioeconomic factors such as possible conditions. We present a method that improves the accuracy of the prediction of school performance by combining the application of the ensemble learning algorithms CatBoost with the explanation and improvement of the transparency of the classification that it performs, by scoring the characteristics based on the SHAP values. (Shapley Additive exPlanations). Four types of averages are available: Master the Learning Requirement (DAR), Meet the Learning Requirement (AAR), Close to Meeting the Learning Requirement (PAAR), and Not Meet the Learning Requirement (NAAR). How the PAAR and NAAR types of averages constitute minority classes were balanced with respect to the DAR and AAR majority classes. An accuracy and precision of 91% were achieved. The characteristics with the greatest impact on the prediction are social skills, the father's occupation, family income, gender, possible disability, behavior, family structure, and number of siblings, among others.Facultad de Informática2024-06info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf31-39http://sedici.unlp.edu.ar/handle/10915/168258spainfo:eu-repo/semantics/altIdentifier/issn/1850-9959info:eu-repo/semantics/altIdentifier/doi/10.24215/18509959.38.e3info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/4.0/Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-15T11:36:39Zoai:sedici.unlp.edu.ar:10915/168258Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-15 11:36:40.209SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
CatBoost: Ensemble machine learning for the analysis of socioeconomic factors that affect school performance
title CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
spellingShingle CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
Pincay-Ponce, Jorge Iván
Ciencias Informáticas
Aprendizaje automático
CatBoost
Shapley
Rendimiento académico
Métodos de ensamble
Machine learning
Academic performance
Assembly methods
title_short CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
title_full CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
title_fullStr CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
title_full_unstemmed CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
title_sort CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
dc.creator.none.fl_str_mv Pincay-Ponce, Jorge Iván
De Giusti, Armando Eduardo
Sánchez-Andrade, Diana Alexandra
Figueroa-Suárez, Juan Alberto
author Pincay-Ponce, Jorge Iván
author_facet Pincay-Ponce, Jorge Iván
De Giusti, Armando Eduardo
Sánchez-Andrade, Diana Alexandra
Figueroa-Suárez, Juan Alberto
author_role author
author2 De Giusti, Armando Eduardo
Sánchez-Andrade, Diana Alexandra
Figueroa-Suárez, Juan Alberto
author2_role author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Aprendizaje automático
CatBoost
Shapley
Rendimiento académico
Métodos de ensamble
Machine learning
Academic performance
Assembly methods
topic Ciencias Informáticas
Aprendizaje automático
CatBoost
Shapley
Rendimiento académico
Métodos de ensamble
Machine learning
Academic performance
Assembly methods
dc.description.none.fl_txt_mv El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros.
The academic performance of children is an important task for schools and is attractive from the field of data science that addresses this multifactorial problem with various data mining techniques on increasingly complete data sets that address socioeconomic factors such as possible conditions. We present a method that improves the accuracy of the prediction of school performance by combining the application of the ensemble learning algorithms CatBoost with the explanation and improvement of the transparency of the classification that it performs, by scoring the characteristics based on the SHAP values. (Shapley Additive exPlanations). Four types of averages are available: Master the Learning Requirement (DAR), Meet the Learning Requirement (AAR), Close to Meeting the Learning Requirement (PAAR), and Not Meet the Learning Requirement (NAAR). How the PAAR and NAAR types of averages constitute minority classes were balanced with respect to the DAR and AAR majority classes. An accuracy and precision of 91% were achieved. The characteristics with the greatest impact on the prediction are social skills, the father's occupation, family income, gender, possible disability, behavior, family structure, and number of siblings, among others.
Facultad de Informática
description El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros.
publishDate 2024
dc.date.none.fl_str_mv 2024-06
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/168258
url http://sedici.unlp.edu.ar/handle/10915/168258
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/issn/1850-9959
info:eu-repo/semantics/altIdentifier/doi/10.24215/18509959.38.e3
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc/4.0/
Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/4.0/
Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.format.none.fl_str_mv application/pdf
31-39
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1846064388576903168
score 13.22299