Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados

Autores
Cevallos Culqui, Alex Santiago
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Pons, Claudia Fabiana
Rodríguez, Gustavo
Olivas Varela, José Ángel
Falappa, Marcelo Alejandro
Fernández Bariviera, Aurelio
Descripción
La escasez de documentos etiquetados en la mayoría de los conjuntos de datos en distintos dominios dificulta la correcta clasificación de documentos y la generación de aprendizaje, además de implicar altos costos en términos de recursos para su proceso de etiquetado. En este contexto, los modelos de aprendizaje semi-supervisados (Semi-Supervised Learning, SSL) surgen como una alternativa para mitigar esta limitación, sin embargo, la falta de un análisis comparativo que evidencie las fortalezas y debilidades de los distintos tipos de modelos dificulta su selección. Así, se plantea una Revisión de Literatura Sistemática (Systematic Literature Review, SLR) que identifica que las principales limitaciones de los modelos están relacionadas con los límites de decisión y la adaptación de dominio, factores que afectan sus niveles de rendimiento medidos en precisión. Es por esta razón que en la presente tesis se propone diseñar un modelo combinado de clasificación SSL que optimiza el proceso de etiquetado y la clasificación de documentos, mejorando su eficacia y niveles de precisión. Para ello, se desarrolla un marco comparativo que evalúa los distintos tipos de modelos y se implementa una estructura que integra las mejores prácticas identificadas. La metodología de trabajo para el análisis de los modelos se fundamenta en el enfoque PICOC para la estrategia de búsqueda y en la guía PRISMA para la definición de los criterios de exclusión. El modelo propuesto se estructura empleando una combinación de técnicas de co-entrenamiento y transferencia de aprendizaje (COTRA) para el procesamiento y entrenamiento de datos respectivamente, su entrenamiento se refuerza mediante el uso del conjunto de datos pre-entrenado de BERT. A diferencia de modelos previos, la estructura de COTRA fortalece el estado del arte al abordar de manera conjunta los desafíos de adaptación de dominio y límite de decisión. Esto se logra mediante una representación multivista optimizada que integra diversas representaciones de documentos con información complementaria proveniente de fuentes pre-entrenadas. Esta estrategia permite reducir la incertidumbre en la asignación de etiquetas y mejorar la capacidad de generalización en escenarios con datos etiquetados limitados, proporcionando un modelo más robusto y adaptable para la clasificación de textos en contextos con restricciones de datos. Para la evaluación de COTRA, se llevaron a cabo experimentos con documentos científicos clasificados en cinco y once categorías correspondientes a sus áreas de estudio. El modelo se comparó con modelos SSL individuales basados en auto-entrenamiento, así también con modelos que incorporan co-entrenamiento, algoritmos genéticos y aprendizaje por transferencia a través de pipelines de clasificación como enfoques zero-shot. COTRA ha logrado los mejores niveles de rendimiento en comparación con el resto de modelos, alcanzando una precisión máxima de 0,87 entre los modelos de co-entrenamiento, frente a la mejor métrica de 0,78 obtenida por los modelos individuales de auto-entrenamiento en la clasificación de cinco categorías. Estos resultados indican que el co-entrenamiento representa una estrategia efectiva para mejorar el desempeño predictivo en la clasificación de documentos.
The limited availability of labeled documents in most datasets across diverse domains constitutes a critical obstacle to accurate document classification and the development of effective learning models, while also incurring high resource costs for labeling. In this context, Semi-Supervised Learning (SSL) models emerge as an alternative to mitigate this limitation. However, the absence of a comprehensive comparative analysis that highlights the strengths and weaknesses of different model types poses a significant challenge to informed model selection. This work proposes a Systematic Literature Review (SLR), identifying that the main limitations of SSL models are related to decision boundaries and domain adaptation, which impact their performance levels measured in accuracy. Accordingly, the present thesis aims to design a combined SSL classification model that optimizes the labeling process and document classification, improving both efficiency and accuracy levels. A comparative framework is developed to evaluate different types of models, and a structure is implemented to integrate the best identified practices. The methodology for models analysis is based on the PICOC framework for search strategy and the PRISMA guidelines for defining exclusion criteria. The proposed model is structured using a combination of co-training and transfer learning techniques (COTRA) for data processing and training, respectively. Its training is reinforced with the use of the pre-trained BERT dataset. In contrast to previous models, COTRA contributes to the state of the art by jointly addressing the issues of domain adaptation and decision boundary. This is achieved through an optimized multi-view representation that integrates various document representations with complementary information from pre-trained sources. This strategy reduces uncertainty in label assignment and improves generalization capability in scenarios with limited labeled data, providing a robust and adaptable model for text classification in contexts with a limited number of labeled data. To evaluate COTRA, experiments were conducted using scientific documents classified into five and eleven categories corresponding to their research fields. The model was compared with individual SSL models based on self-training, as well as approaches that integrate co-training, genetic algorithms, and transfer learning through classification pipelines under zero-shot conditions. In this context, COTRA achieved the highest performance levels among the models, reaching a maximum accuracy of 0.87 among co-training models, compared to the best metric of 0.78 obtained by individual self-training models in the five-category classification task. These outcomes demonstrate that co-training represents an effective strategy for improving predictive performance in documents classification.
Doctor en Ciencias Informáticas
Universidad Nacional de La Plata
Facultad de Informática
Materia
Ciencias Informáticas
co-entrenamiento
aprendizaje transferencia
semi-supervisado
SSL
clasificación documentos
procesamiento de texto
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/189159

id SEDICI_a52b76e159ae54698f7256a825e8f96f
oai_identifier_str oai:sedici.unlp.edu.ar:10915/189159
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisadosCevallos Culqui, Alex SantiagoCiencias Informáticasco-entrenamientoaprendizaje transferenciasemi-supervisadoSSLclasificación documentosprocesamiento de textoLa escasez de documentos etiquetados en la mayoría de los conjuntos de datos en distintos dominios dificulta la correcta clasificación de documentos y la generación de aprendizaje, además de implicar altos costos en términos de recursos para su proceso de etiquetado. En este contexto, los modelos de aprendizaje semi-supervisados (Semi-Supervised Learning, SSL) surgen como una alternativa para mitigar esta limitación, sin embargo, la falta de un análisis comparativo que evidencie las fortalezas y debilidades de los distintos tipos de modelos dificulta su selección. Así, se plantea una Revisión de Literatura Sistemática (Systematic Literature Review, SLR) que identifica que las principales limitaciones de los modelos están relacionadas con los límites de decisión y la adaptación de dominio, factores que afectan sus niveles de rendimiento medidos en precisión. Es por esta razón que en la presente tesis se propone diseñar un modelo combinado de clasificación SSL que optimiza el proceso de etiquetado y la clasificación de documentos, mejorando su eficacia y niveles de precisión. Para ello, se desarrolla un marco comparativo que evalúa los distintos tipos de modelos y se implementa una estructura que integra las mejores prácticas identificadas. La metodología de trabajo para el análisis de los modelos se fundamenta en el enfoque PICOC para la estrategia de búsqueda y en la guía PRISMA para la definición de los criterios de exclusión. El modelo propuesto se estructura empleando una combinación de técnicas de co-entrenamiento y transferencia de aprendizaje (COTRA) para el procesamiento y entrenamiento de datos respectivamente, su entrenamiento se refuerza mediante el uso del conjunto de datos pre-entrenado de BERT. A diferencia de modelos previos, la estructura de COTRA fortalece el estado del arte al abordar de manera conjunta los desafíos de adaptación de dominio y límite de decisión. Esto se logra mediante una representación multivista optimizada que integra diversas representaciones de documentos con información complementaria proveniente de fuentes pre-entrenadas. Esta estrategia permite reducir la incertidumbre en la asignación de etiquetas y mejorar la capacidad de generalización en escenarios con datos etiquetados limitados, proporcionando un modelo más robusto y adaptable para la clasificación de textos en contextos con restricciones de datos. Para la evaluación de COTRA, se llevaron a cabo experimentos con documentos científicos clasificados en cinco y once categorías correspondientes a sus áreas de estudio. El modelo se comparó con modelos SSL individuales basados en auto-entrenamiento, así también con modelos que incorporan co-entrenamiento, algoritmos genéticos y aprendizaje por transferencia a través de pipelines de clasificación como enfoques zero-shot. COTRA ha logrado los mejores niveles de rendimiento en comparación con el resto de modelos, alcanzando una precisión máxima de 0,87 entre los modelos de co-entrenamiento, frente a la mejor métrica de 0,78 obtenida por los modelos individuales de auto-entrenamiento en la clasificación de cinco categorías. Estos resultados indican que el co-entrenamiento representa una estrategia efectiva para mejorar el desempeño predictivo en la clasificación de documentos.The limited availability of labeled documents in most datasets across diverse domains constitutes a critical obstacle to accurate document classification and the development of effective learning models, while also incurring high resource costs for labeling. In this context, Semi-Supervised Learning (SSL) models emerge as an alternative to mitigate this limitation. However, the absence of a comprehensive comparative analysis that highlights the strengths and weaknesses of different model types poses a significant challenge to informed model selection. This work proposes a Systematic Literature Review (SLR), identifying that the main limitations of SSL models are related to decision boundaries and domain adaptation, which impact their performance levels measured in accuracy. Accordingly, the present thesis aims to design a combined SSL classification model that optimizes the labeling process and document classification, improving both efficiency and accuracy levels. A comparative framework is developed to evaluate different types of models, and a structure is implemented to integrate the best identified practices. The methodology for models analysis is based on the PICOC framework for search strategy and the PRISMA guidelines for defining exclusion criteria. The proposed model is structured using a combination of co-training and transfer learning techniques (COTRA) for data processing and training, respectively. Its training is reinforced with the use of the pre-trained BERT dataset. In contrast to previous models, COTRA contributes to the state of the art by jointly addressing the issues of domain adaptation and decision boundary. This is achieved through an optimized multi-view representation that integrates various document representations with complementary information from pre-trained sources. This strategy reduces uncertainty in label assignment and improves generalization capability in scenarios with limited labeled data, providing a robust and adaptable model for text classification in contexts with a limited number of labeled data. To evaluate COTRA, experiments were conducted using scientific documents classified into five and eleven categories corresponding to their research fields. The model was compared with individual SSL models based on self-training, as well as approaches that integrate co-training, genetic algorithms, and transfer learning through classification pipelines under zero-shot conditions. In this context, COTRA achieved the highest performance levels among the models, reaching a maximum accuracy of 0.87 among co-training models, compared to the best metric of 0.78 obtained by individual self-training models in the five-category classification task. These outcomes demonstrate that co-training represents an effective strategy for improving predictive performance in documents classification.Doctor en Ciencias InformáticasUniversidad Nacional de La PlataFacultad de InformáticaPons, Claudia FabianaRodríguez, GustavoOlivas Varela, José ÁngelFalappa, Marcelo AlejandroFernández Bariviera, Aurelio2025-11-12info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionTesis de doctoradohttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/189159https://doi.org/10.35537/10915/189159spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-12-23T11:54:09Zoai:sedici.unlp.edu.ar:10915/189159Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-12-23 11:54:09.903SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
title Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
spellingShingle Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
Cevallos Culqui, Alex Santiago
Ciencias Informáticas
co-entrenamiento
aprendizaje transferencia
semi-supervisado
SSL
clasificación documentos
procesamiento de texto
title_short Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
title_full Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
title_fullStr Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
title_full_unstemmed Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
title_sort Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados
dc.creator.none.fl_str_mv Cevallos Culqui, Alex Santiago
author Cevallos Culqui, Alex Santiago
author_facet Cevallos Culqui, Alex Santiago
author_role author
dc.contributor.none.fl_str_mv Pons, Claudia Fabiana
Rodríguez, Gustavo
Olivas Varela, José Ángel
Falappa, Marcelo Alejandro
Fernández Bariviera, Aurelio
dc.subject.none.fl_str_mv Ciencias Informáticas
co-entrenamiento
aprendizaje transferencia
semi-supervisado
SSL
clasificación documentos
procesamiento de texto
topic Ciencias Informáticas
co-entrenamiento
aprendizaje transferencia
semi-supervisado
SSL
clasificación documentos
procesamiento de texto
dc.description.none.fl_txt_mv La escasez de documentos etiquetados en la mayoría de los conjuntos de datos en distintos dominios dificulta la correcta clasificación de documentos y la generación de aprendizaje, además de implicar altos costos en términos de recursos para su proceso de etiquetado. En este contexto, los modelos de aprendizaje semi-supervisados (Semi-Supervised Learning, SSL) surgen como una alternativa para mitigar esta limitación, sin embargo, la falta de un análisis comparativo que evidencie las fortalezas y debilidades de los distintos tipos de modelos dificulta su selección. Así, se plantea una Revisión de Literatura Sistemática (Systematic Literature Review, SLR) que identifica que las principales limitaciones de los modelos están relacionadas con los límites de decisión y la adaptación de dominio, factores que afectan sus niveles de rendimiento medidos en precisión. Es por esta razón que en la presente tesis se propone diseñar un modelo combinado de clasificación SSL que optimiza el proceso de etiquetado y la clasificación de documentos, mejorando su eficacia y niveles de precisión. Para ello, se desarrolla un marco comparativo que evalúa los distintos tipos de modelos y se implementa una estructura que integra las mejores prácticas identificadas. La metodología de trabajo para el análisis de los modelos se fundamenta en el enfoque PICOC para la estrategia de búsqueda y en la guía PRISMA para la definición de los criterios de exclusión. El modelo propuesto se estructura empleando una combinación de técnicas de co-entrenamiento y transferencia de aprendizaje (COTRA) para el procesamiento y entrenamiento de datos respectivamente, su entrenamiento se refuerza mediante el uso del conjunto de datos pre-entrenado de BERT. A diferencia de modelos previos, la estructura de COTRA fortalece el estado del arte al abordar de manera conjunta los desafíos de adaptación de dominio y límite de decisión. Esto se logra mediante una representación multivista optimizada que integra diversas representaciones de documentos con información complementaria proveniente de fuentes pre-entrenadas. Esta estrategia permite reducir la incertidumbre en la asignación de etiquetas y mejorar la capacidad de generalización en escenarios con datos etiquetados limitados, proporcionando un modelo más robusto y adaptable para la clasificación de textos en contextos con restricciones de datos. Para la evaluación de COTRA, se llevaron a cabo experimentos con documentos científicos clasificados en cinco y once categorías correspondientes a sus áreas de estudio. El modelo se comparó con modelos SSL individuales basados en auto-entrenamiento, así también con modelos que incorporan co-entrenamiento, algoritmos genéticos y aprendizaje por transferencia a través de pipelines de clasificación como enfoques zero-shot. COTRA ha logrado los mejores niveles de rendimiento en comparación con el resto de modelos, alcanzando una precisión máxima de 0,87 entre los modelos de co-entrenamiento, frente a la mejor métrica de 0,78 obtenida por los modelos individuales de auto-entrenamiento en la clasificación de cinco categorías. Estos resultados indican que el co-entrenamiento representa una estrategia efectiva para mejorar el desempeño predictivo en la clasificación de documentos.
The limited availability of labeled documents in most datasets across diverse domains constitutes a critical obstacle to accurate document classification and the development of effective learning models, while also incurring high resource costs for labeling. In this context, Semi-Supervised Learning (SSL) models emerge as an alternative to mitigate this limitation. However, the absence of a comprehensive comparative analysis that highlights the strengths and weaknesses of different model types poses a significant challenge to informed model selection. This work proposes a Systematic Literature Review (SLR), identifying that the main limitations of SSL models are related to decision boundaries and domain adaptation, which impact their performance levels measured in accuracy. Accordingly, the present thesis aims to design a combined SSL classification model that optimizes the labeling process and document classification, improving both efficiency and accuracy levels. A comparative framework is developed to evaluate different types of models, and a structure is implemented to integrate the best identified practices. The methodology for models analysis is based on the PICOC framework for search strategy and the PRISMA guidelines for defining exclusion criteria. The proposed model is structured using a combination of co-training and transfer learning techniques (COTRA) for data processing and training, respectively. Its training is reinforced with the use of the pre-trained BERT dataset. In contrast to previous models, COTRA contributes to the state of the art by jointly addressing the issues of domain adaptation and decision boundary. This is achieved through an optimized multi-view representation that integrates various document representations with complementary information from pre-trained sources. This strategy reduces uncertainty in label assignment and improves generalization capability in scenarios with limited labeled data, providing a robust and adaptable model for text classification in contexts with a limited number of labeled data. To evaluate COTRA, experiments were conducted using scientific documents classified into five and eleven categories corresponding to their research fields. The model was compared with individual SSL models based on self-training, as well as approaches that integrate co-training, genetic algorithms, and transfer learning through classification pipelines under zero-shot conditions. In this context, COTRA achieved the highest performance levels among the models, reaching a maximum accuracy of 0.87 among co-training models, compared to the best metric of 0.78 obtained by individual self-training models in the five-category classification task. These outcomes demonstrate that co-training represents an effective strategy for improving predictive performance in documents classification.
Doctor en Ciencias Informáticas
Universidad Nacional de La Plata
Facultad de Informática
description La escasez de documentos etiquetados en la mayoría de los conjuntos de datos en distintos dominios dificulta la correcta clasificación de documentos y la generación de aprendizaje, además de implicar altos costos en términos de recursos para su proceso de etiquetado. En este contexto, los modelos de aprendizaje semi-supervisados (Semi-Supervised Learning, SSL) surgen como una alternativa para mitigar esta limitación, sin embargo, la falta de un análisis comparativo que evidencie las fortalezas y debilidades de los distintos tipos de modelos dificulta su selección. Así, se plantea una Revisión de Literatura Sistemática (Systematic Literature Review, SLR) que identifica que las principales limitaciones de los modelos están relacionadas con los límites de decisión y la adaptación de dominio, factores que afectan sus niveles de rendimiento medidos en precisión. Es por esta razón que en la presente tesis se propone diseñar un modelo combinado de clasificación SSL que optimiza el proceso de etiquetado y la clasificación de documentos, mejorando su eficacia y niveles de precisión. Para ello, se desarrolla un marco comparativo que evalúa los distintos tipos de modelos y se implementa una estructura que integra las mejores prácticas identificadas. La metodología de trabajo para el análisis de los modelos se fundamenta en el enfoque PICOC para la estrategia de búsqueda y en la guía PRISMA para la definición de los criterios de exclusión. El modelo propuesto se estructura empleando una combinación de técnicas de co-entrenamiento y transferencia de aprendizaje (COTRA) para el procesamiento y entrenamiento de datos respectivamente, su entrenamiento se refuerza mediante el uso del conjunto de datos pre-entrenado de BERT. A diferencia de modelos previos, la estructura de COTRA fortalece el estado del arte al abordar de manera conjunta los desafíos de adaptación de dominio y límite de decisión. Esto se logra mediante una representación multivista optimizada que integra diversas representaciones de documentos con información complementaria proveniente de fuentes pre-entrenadas. Esta estrategia permite reducir la incertidumbre en la asignación de etiquetas y mejorar la capacidad de generalización en escenarios con datos etiquetados limitados, proporcionando un modelo más robusto y adaptable para la clasificación de textos en contextos con restricciones de datos. Para la evaluación de COTRA, se llevaron a cabo experimentos con documentos científicos clasificados en cinco y once categorías correspondientes a sus áreas de estudio. El modelo se comparó con modelos SSL individuales basados en auto-entrenamiento, así también con modelos que incorporan co-entrenamiento, algoritmos genéticos y aprendizaje por transferencia a través de pipelines de clasificación como enfoques zero-shot. COTRA ha logrado los mejores niveles de rendimiento en comparación con el resto de modelos, alcanzando una precisión máxima de 0,87 entre los modelos de co-entrenamiento, frente a la mejor métrica de 0,78 obtenida por los modelos individuales de auto-entrenamiento en la clasificación de cinco categorías. Estos resultados indican que el co-entrenamiento representa una estrategia efectiva para mejorar el desempeño predictivo en la clasificación de documentos.
publishDate 2025
dc.date.none.fl_str_mv 2025-11-12
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
Tesis de doctorado
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/189159
https://doi.org/10.35537/10915/189159
url http://sedici.unlp.edu.ar/handle/10915/189159
https://doi.org/10.35537/10915/189159
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1852334852870766592
score 12.952241