Semi-supervised learning models for documentclassification: A systematic review and meta-analysis

Autores
Cevallos-Culqui, Alex; Pons, Claudia Fabiana; Rodríguez, Gustavo
Año de publicación
2023
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
The proliferation of digital documents in the internet has given rise to the search for informationpatterns that allow for the categorization of organizational documents to generate knowledge in a institution.One of the Artificial Intelligence techniques for this purpose is text classification, which for its application useslabels (categorized documents) with supervised (with labels) or unsupervised (without labels) training models.Both traditional models with their advantages and disadvantages have been consolidated into semi-supervisedmodels to extract the best qualities of each one, however, the labeling process involves resources that need to beoptimized to improve the classification accuracy. An analysis of the types of semi-supervised models would showthe strengths of their training and how the structure of each of them affects the accuracy of their classification. Thepresent study proposes a structure of semi-supervised model in document classification, in order to analyze thequalities of each one in their categorization process, it through a systematic literature review (SLR) that analyzesthe performance of the studies to conduct a meta-analysis. Further, the study search strategy was defined by thePICOC method (Population, Intervention, Comparison, Outcome, Context), supported by two research questionsand delimited in a search chain that allowed the collection of 332 research studies. These papers were filteredusing the PRISMA method and the determination of exclusion criteria, in total 46 papers have been selected forthe present study.From this SLR, an organizational structure has been obtained for semi-supervised models anda scheme for the classification process. In addition, the advantages and disadvantages of different learning typeshave been analyzed, evaluating their classification performance in each type of learning through a meta-analysis.This has determined that the models that present the best levels of performance are active learning model (0.88)and ensemble learning model (0.84)
La proliferación de documentos digitales en la red ha dado lugar a la búsqueda de patrones de información que permitan la categorización de documentos organizacionales para generar conocimiento en una determinada institución. Una de las técnicas de la Inteligencia Artificial para este efecto es la clasificación de texto, la cual para su aplicación emplea etiquetas (documentos categorizados) con modelos de entrenamiento supervisados (con etiquetas) o no-supervisados (sin etiquetas). Ambos modelos tradicionales con sus ventajas y desventajas, se han visto cohesionados en los modelos semi-supervisados que extraen las mejores cualidades de cada uno, sin embargo, el proceso de etiquetado implica recursos que buscan ser optimizados para mejorar la precisión de clasificación. Un análisis de los tipos de modelos semi-supervisados mostraría las fortalezas de su entrenamiento y la forma en que la estructura de cada uno de ellos incide en la precisión de su clasificación. En el presente estudio se propone una estructura de los tipos de modelos semi-supervisados en la clasificación de documentos, para de esta manera analizar las cualidades de cada uno de ellos en su proceso de categorización, esto a través de una SLR (Revisión de literatura sistemática) que analiza el rendimiento de los estudios para efectuar un meta-análisis. La estrategia de búsqueda de estudios ha sido definida con el método PICOC (Población, Intervención, Comparación, Salidas, Contexto), el cual, apoyado en dos preguntas de investigación, define una cadena de búsqueda que ha permitido recopilar 332 investigaciones, filtradas con el método de la declaración PRISMA y la determinación de criterios de exclusión, seleccionando así 46 investigaciones para el estudio. De la SLR se ha obtenido una estructura de organización para los modelos semi-supervisados y un esquema del proceso de clasificación. También, se ha analizado las ventajas y desventajas de los diferentes tipos de aprendizaje, evaluando su desempeño de clasificación en cada tipo de aprendizaje a través de un meta-análisis. Se determina que los modelos que presentan los mejores niveles de rendimiento son el aprendizaje activo (0.88) y ensamblado (0.84).
Materia
Ciencias de la Computación e Información
text classification
document classification
semi-supervised models
systematic review
clasificación de texto
clasificación documentos
modelos semi-supervisado
revisión sistemática
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc/4.0/
Repositorio
CIC Digital (CICBA)
Institución
Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
OAI Identificador
oai:digital.cic.gba.gob.ar:11746/12477

id CICBA_0f5ee281fc5ec571a96552da7f497907
oai_identifier_str oai:digital.cic.gba.gob.ar:11746/12477
network_acronym_str CICBA
repository_id_str 9441
network_name_str CIC Digital (CICBA)
spelling Semi-supervised learning models for documentclassification: A systematic review and meta-analysisCevallos-Culqui, AlexPons, Claudia FabianaRodríguez, GustavoCiencias de la Computación e Informacióntext classificationdocument classificationsemi-supervised modelssystematic reviewclasificación de textoclasificación documentosmodelos semi-supervisadorevisión sistemáticaThe proliferation of digital documents in the internet has given rise to the search for informationpatterns that allow for the categorization of organizational documents to generate knowledge in a institution.One of the Artificial Intelligence techniques for this purpose is text classification, which for its application useslabels (categorized documents) with supervised (with labels) or unsupervised (without labels) training models.Both traditional models with their advantages and disadvantages have been consolidated into semi-supervisedmodels to extract the best qualities of each one, however, the labeling process involves resources that need to beoptimized to improve the classification accuracy. An analysis of the types of semi-supervised models would showthe strengths of their training and how the structure of each of them affects the accuracy of their classification. Thepresent study proposes a structure of semi-supervised model in document classification, in order to analyze thequalities of each one in their categorization process, it through a systematic literature review (SLR) that analyzesthe performance of the studies to conduct a meta-analysis. Further, the study search strategy was defined by thePICOC method (Population, Intervention, Comparison, Outcome, Context), supported by two research questionsand delimited in a search chain that allowed the collection of 332 research studies. These papers were filteredusing the PRISMA method and the determination of exclusion criteria, in total 46 papers have been selected forthe present study.From this SLR, an organizational structure has been obtained for semi-supervised models anda scheme for the classification process. In addition, the advantages and disadvantages of different learning typeshave been analyzed, evaluating their classification performance in each type of learning through a meta-analysis.This has determined that the models that present the best levels of performance are active learning model (0.88)and ensemble learning model (0.84)La proliferación de documentos digitales en la red ha dado lugar a la búsqueda de patrones de información que permitan la categorización de documentos organizacionales para generar conocimiento en una determinada institución. Una de las técnicas de la Inteligencia Artificial para este efecto es la clasificación de texto, la cual para su aplicación emplea etiquetas (documentos categorizados) con modelos de entrenamiento supervisados (con etiquetas) o no-supervisados (sin etiquetas). Ambos modelos tradicionales con sus ventajas y desventajas, se han visto cohesionados en los modelos semi-supervisados que extraen las mejores cualidades de cada uno, sin embargo, el proceso de etiquetado implica recursos que buscan ser optimizados para mejorar la precisión de clasificación. Un análisis de los tipos de modelos semi-supervisados mostraría las fortalezas de su entrenamiento y la forma en que la estructura de cada uno de ellos incide en la precisión de su clasificación. En el presente estudio se propone una estructura de los tipos de modelos semi-supervisados en la clasificación de documentos, para de esta manera analizar las cualidades de cada uno de ellos en su proceso de categorización, esto a través de una SLR (Revisión de literatura sistemática) que analiza el rendimiento de los estudios para efectuar un meta-análisis. La estrategia de búsqueda de estudios ha sido definida con el método PICOC (Población, Intervención, Comparación, Salidas, Contexto), el cual, apoyado en dos preguntas de investigación, define una cadena de búsqueda que ha permitido recopilar 332 investigaciones, filtradas con el método de la declaración PRISMA y la determinación de criterios de exclusión, seleccionando así 46 investigaciones para el estudio. De la SLR se ha obtenido una estructura de organización para los modelos semi-supervisados y un esquema del proceso de clasificación. También, se ha analizado las ventajas y desventajas de los diferentes tipos de aprendizaje, evaluando su desempeño de clasificación en cada tipo de aprendizaje a través de un meta-análisis. Se determina que los modelos que presentan los mejores niveles de rendimiento son el aprendizaje activo (0.88) y ensamblado (0.84).2023-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/12477enginfo:eu-repo/semantics/altIdentifier/doi/10.4114/intartif.vol26iss72info:eu-repo/semantics/altIdentifier/issn/1988-3064info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2025-09-29T13:39:51Zoai:digital.cic.gba.gob.ar:11746/12477Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412025-09-29 13:39:51.769CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse
dc.title.none.fl_str_mv Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
title Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
spellingShingle Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
Cevallos-Culqui, Alex
Ciencias de la Computación e Información
text classification
document classification
semi-supervised models
systematic review
clasificación de texto
clasificación documentos
modelos semi-supervisado
revisión sistemática
title_short Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
title_full Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
title_fullStr Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
title_full_unstemmed Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
title_sort Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
dc.creator.none.fl_str_mv Cevallos-Culqui, Alex
Pons, Claudia Fabiana
Rodríguez, Gustavo
author Cevallos-Culqui, Alex
author_facet Cevallos-Culqui, Alex
Pons, Claudia Fabiana
Rodríguez, Gustavo
author_role author
author2 Pons, Claudia Fabiana
Rodríguez, Gustavo
author2_role author
author
dc.subject.none.fl_str_mv Ciencias de la Computación e Información
text classification
document classification
semi-supervised models
systematic review
clasificación de texto
clasificación documentos
modelos semi-supervisado
revisión sistemática
topic Ciencias de la Computación e Información
text classification
document classification
semi-supervised models
systematic review
clasificación de texto
clasificación documentos
modelos semi-supervisado
revisión sistemática
dc.description.none.fl_txt_mv The proliferation of digital documents in the internet has given rise to the search for informationpatterns that allow for the categorization of organizational documents to generate knowledge in a institution.One of the Artificial Intelligence techniques for this purpose is text classification, which for its application useslabels (categorized documents) with supervised (with labels) or unsupervised (without labels) training models.Both traditional models with their advantages and disadvantages have been consolidated into semi-supervisedmodels to extract the best qualities of each one, however, the labeling process involves resources that need to beoptimized to improve the classification accuracy. An analysis of the types of semi-supervised models would showthe strengths of their training and how the structure of each of them affects the accuracy of their classification. Thepresent study proposes a structure of semi-supervised model in document classification, in order to analyze thequalities of each one in their categorization process, it through a systematic literature review (SLR) that analyzesthe performance of the studies to conduct a meta-analysis. Further, the study search strategy was defined by thePICOC method (Population, Intervention, Comparison, Outcome, Context), supported by two research questionsand delimited in a search chain that allowed the collection of 332 research studies. These papers were filteredusing the PRISMA method and the determination of exclusion criteria, in total 46 papers have been selected forthe present study.From this SLR, an organizational structure has been obtained for semi-supervised models anda scheme for the classification process. In addition, the advantages and disadvantages of different learning typeshave been analyzed, evaluating their classification performance in each type of learning through a meta-analysis.This has determined that the models that present the best levels of performance are active learning model (0.88)and ensemble learning model (0.84)
La proliferación de documentos digitales en la red ha dado lugar a la búsqueda de patrones de información que permitan la categorización de documentos organizacionales para generar conocimiento en una determinada institución. Una de las técnicas de la Inteligencia Artificial para este efecto es la clasificación de texto, la cual para su aplicación emplea etiquetas (documentos categorizados) con modelos de entrenamiento supervisados (con etiquetas) o no-supervisados (sin etiquetas). Ambos modelos tradicionales con sus ventajas y desventajas, se han visto cohesionados en los modelos semi-supervisados que extraen las mejores cualidades de cada uno, sin embargo, el proceso de etiquetado implica recursos que buscan ser optimizados para mejorar la precisión de clasificación. Un análisis de los tipos de modelos semi-supervisados mostraría las fortalezas de su entrenamiento y la forma en que la estructura de cada uno de ellos incide en la precisión de su clasificación. En el presente estudio se propone una estructura de los tipos de modelos semi-supervisados en la clasificación de documentos, para de esta manera analizar las cualidades de cada uno de ellos en su proceso de categorización, esto a través de una SLR (Revisión de literatura sistemática) que analiza el rendimiento de los estudios para efectuar un meta-análisis. La estrategia de búsqueda de estudios ha sido definida con el método PICOC (Población, Intervención, Comparación, Salidas, Contexto), el cual, apoyado en dos preguntas de investigación, define una cadena de búsqueda que ha permitido recopilar 332 investigaciones, filtradas con el método de la declaración PRISMA y la determinación de criterios de exclusión, seleccionando así 46 investigaciones para el estudio. De la SLR se ha obtenido una estructura de organización para los modelos semi-supervisados y un esquema del proceso de clasificación. También, se ha analizado las ventajas y desventajas de los diferentes tipos de aprendizaje, evaluando su desempeño de clasificación en cada tipo de aprendizaje a través de un meta-análisis. Se determina que los modelos que presentan los mejores niveles de rendimiento son el aprendizaje activo (0.88) y ensamblado (0.84).
description The proliferation of digital documents in the internet has given rise to the search for informationpatterns that allow for the categorization of organizational documents to generate knowledge in a institution.One of the Artificial Intelligence techniques for this purpose is text classification, which for its application useslabels (categorized documents) with supervised (with labels) or unsupervised (without labels) training models.Both traditional models with their advantages and disadvantages have been consolidated into semi-supervisedmodels to extract the best qualities of each one, however, the labeling process involves resources that need to beoptimized to improve the classification accuracy. An analysis of the types of semi-supervised models would showthe strengths of their training and how the structure of each of them affects the accuracy of their classification. Thepresent study proposes a structure of semi-supervised model in document classification, in order to analyze thequalities of each one in their categorization process, it through a systematic literature review (SLR) that analyzesthe performance of the studies to conduct a meta-analysis. Further, the study search strategy was defined by thePICOC method (Population, Intervention, Comparison, Outcome, Context), supported by two research questionsand delimited in a search chain that allowed the collection of 332 research studies. These papers were filteredusing the PRISMA method and the determination of exclusion criteria, in total 46 papers have been selected forthe present study.From this SLR, an organizational structure has been obtained for semi-supervised models anda scheme for the classification process. In addition, the advantages and disadvantages of different learning typeshave been analyzed, evaluating their classification performance in each type of learning through a meta-analysis.This has determined that the models that present the best levels of performance are active learning model (0.88)and ensemble learning model (0.84)
publishDate 2023
dc.date.none.fl_str_mv 2023-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://digital.cic.gba.gob.ar/handle/11746/12477
url https://digital.cic.gba.gob.ar/handle/11746/12477
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/doi/10.4114/intartif.vol26iss72
info:eu-repo/semantics/altIdentifier/issn/1988-3064
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:CIC Digital (CICBA)
instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron:CICBA
reponame_str CIC Digital (CICBA)
collection CIC Digital (CICBA)
instname_str Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron_str CICBA
institution CICBA
repository.name.fl_str_mv CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
repository.mail.fl_str_mv marisa.degiusti@sedici.unlp.edu.ar
_version_ 1844618581440987136
score 13.070432