Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI
- Autores
- Nusch, Carlos Javier; Cagnina, Leticia Cecilia; Peloche, Silvia Beatriz; Villarreal, Gonzalo Luján; Lira, Ariel Jorge; Antonelli, Rubén Leandro; Folegotto, Lucas Eduardo; Errecalde, Marcelo Luis; De Giusti, Marisa Raquel
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Presentación del problema: El presente trabajo aborda la tarea de clasificación automática por materias para los contenidos albergados en el repositorio institucional SEDICI. A partir de un corpus de 126.081 ítems se propone ahora un enfoque supervisado de clasificación multilabel que permita predecir las materias asignadas a los ítems del repositorio a partir de sus resúmenes y palabras clave. Materiales y metodología: Los ítems incluyen resúmenes textuales, palabras clave y etiquetas temáticas. Se realizó un análisis de cobertura de etiquetas para obtener un subconjunto óptimo de clases que concentren la mayor parte de los ejemplos en el corpus. Luego se aplicaron distintas técnicas de representación del texto, incluyendo vectorizaciones clásicas por n-gramas (TF-IDF y frecuencia de términos) y modelos de embeddings multilingües (SBERT y LaBSE). Sobre estas representaciones se entrenaron varios clasificadores multilabel, como regresión logística, máquinas de soporte vectorial, Random Forest, Multinomial Naive Bayes y clasificadores por descenso de gradiente. La evaluación se realizó mediante métricas específicas para clasificación multilabel, incluyendo F1-score micro y macro. Resultados: Se observó que la combinación de Frecuencia de Término - Frecuencia Inversa de Documento (TF-IDF) con Máquinas de Soporte Vectorial Lineal (Linear SVC) ofreció un rendimiento destacado entre los enfoques clásicos, alcanzando los mayores valores de F1 macro y F1 micro en ambas configuraciones del conjunto de etiquetas. Los modelos basados en embeddings, especialmente LaBSE y SBERT combinados con Linear SVC, demostraron también un desempeño competitivo, superando en varios casos a los métodos clásicos, aunque a costa de mayores tiempos de entrenamiento. El Clasificador Lineal entrenado con Descenso de Gradiente Estocástico (SGD) se posicionó como una alternativa eficiente y escalable, con tiempos reducidos y métricas satisfactorias. La reducción del espacio de etiquetas de 61 a 37 materias permitió mejorar globalmente la precisión y reducir la complejidad computacional. Conclusiones: Este estudio se propuso demostrar la viabilidad de aplicar modelos supervisados para la clasificación automática de materias en grandes volúmenes de datos textuales en repositorios institucionales. La metodología propuesta es replicable y puede adaptarse a otros contextos documentales con estructuras temáticas similares, y podría contribuir a mejorar la eficiencia y calidad del proceso de curaduría de datos y materiales en repositorios institucionales.
Apresentação do problema: O presente trabalho aborda a tarefa de classificação automática por matérias para os conteúdos hospedados no repositório institucional SEDICI. A partir de um corpus de 126.081 itens, propõe-se agora uma abordagem supervisionada de classificação multilabel, que permite prever as matérias atribuídas aos itens do repositório com base em seus resumos e palavras-chave. Materiais e metodologia: Os itens incluem resumos textuais, palavras-chave e rótulos temáticos. Foi realizada uma análise de cobertura de rótulos para obter um subconjunto ideal de classes que concentrasse a maior parte dos exemplos no corpus. Em seguida, aplicaram-se diferentes técnicas de representação textual, incluindo vetorizações clássicas por n-gramas (TF-IDF e frequência de termos) e modelos de embeddings multilíngues (SBERT e LaBSE). Sobre essas representações, foram treinados vários classificadores multilabel, como Regressão Logística, Máquinas de Vetores de Suporte (SVM), Random Forest, Naive Bayes Multinomial e classificadores baseados em Descida de Gradiente. A avaliação foi realizada utilizando métricas específicas para classificação multilabel, incluindo F1-score micro e macro. Resultados: Observou-se que a combinação de Frequência de Termo – Frequência Inversa de Documento (TF-IDF) com Máquinas de Vetores de Suporte Lineares (Linear SVC) apresentou um desempenho destacado entre as abordagens clássicas, alcançando os maiores valores de F1 macro e F1 micro em ambas as configurações do conjunto de rótulos. Os modelos baseados em embeddings, especialmente LaBSE e SBERT combinados com Linear SVC, também demonstraram desempenho competitivo, superando em vários casos os métodos clássicos, embora com maiores tempos de treinamento. O classificador linear treinado com Descida de Gradiente Estocástica (SGD) destacou-se como uma alternativa eficiente e escalável, apresentando tempos reduzidos e métricas satisfatórias. A redução do espaço de rótulos de 61 para 37 matérias permitiu melhorar globalmente a precisão e reduzir a complexidade computacional. Conclusões: Este estudo procurou demonstrar a viabilidade da aplicação de modelos supervisionados para a classificação automática de matérias em grandes volumes de dados textuais de repositórios institucionais. A metodologia proposta é replicável e pode ser adaptada a outros contextos documentais com estruturas temáticas semelhantes, podendo contribuir para melhorar a eficiência e a qualidade do processo de curadoria de dados e materiais em repositórios institucionais.
Problem Statement: This work addresses the task of automatic subject classification for the contents hosted in the SEDICI institutional repository. Based on a corpus of 126,081 items, we propose a supervised multilabel classification approach to predict the subjects assigned to repository items from their abstracts and keywords. Materials and Methods: The items include textual abstracts, keywords, and subject tags. We conducted a label coverage analysis to obtain an optimal subset of classes that concentrates most examples in the corpus. We then applied different text representation techniques, including classical n-gram vectorizations (TF-IDF and term frequency) and multilingual embedding models (SBERT and LaBSE). On top of these representations, we trained several multilabel classifiers such as Logistic Regression, Support Vector Machines, Random Forest, Multinomial Naive Bayes, and Stochastic Gradient Descent classifiers. Evaluation was performed using metrics specific to multilabel classification, including micro and macro F1-score. Results: The combination of Term Frequency–Inverse Document Frequency (TF-IDF) with Linear Support Vector Machines (Linear SVC) delivered standout performance among the classical approaches, achieving the highest macro- and micro-F1 values under both label-set configurations. Embedding-based models—especially LaBSE and SBERT paired with Linear SVC—also showed competitive performance, often outperforming classical methods, albeit at the cost of longer training times. The Linear Classifier trained with Stochastic Gradient Descent (SGD) emerged as an efficient and scalable alternative, with reduced training times and satisfactory metrics. Reducing the label space from 61 to 37 subjects improved overall accuracy and lowered computational complexity. Conclusions: This study demonstrates the feasibility of applying supervised models to automatic subject classification over large volumes of textual data in institutional repositories. The proposed methodology is replicable and can be adapted to other documentary contexts with similar thematic structures, and it may help improve the efficiency and quality of data and materials curation processes in institutional repositories.
Dirección PREBI-SEDICI - Materia
-
Informática
Repositorios Institucionales
clasificación multilabel
aprendizaje automático
mapeo temático
SBERT
LaBSE
TF-IDF
curaduría de metadatos
Repositórios Institucionais
classificação multilabel
aprendizado de máquina
mapeamento temático
SBERT
LaBSE
TF-IDF
curadoria de metadados
Institutional Repositories
multilabel classification
machine learning
thematic mapping
metadata curation - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/185805
Ver los metadatos del registro completo
| id |
SEDICI_87037e550d2a05e3ae21b127e3177522 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/185805 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICIClassificação automática de matérias em repositórios institucionais por meio de aprendizado supervisionado e representações vetoriais multilíngues: um estudo de caso no SEDICIAutomatic subject classification in institutional repositories using supervised learning and multilingual vector representations: a case study in SEDICINusch, Carlos JavierCagnina, Leticia CeciliaPeloche, Silvia BeatrizVillarreal, Gonzalo LujánLira, Ariel JorgeAntonelli, Rubén LeandroFolegotto, Lucas EduardoErrecalde, Marcelo LuisDe Giusti, Marisa RaquelInformáticaRepositorios Institucionalesclasificación multilabelaprendizaje automáticomapeo temáticoSBERTLaBSETF-IDFcuraduría de metadatosRepositórios Institucionaisclassificação multilabelaprendizado de máquinamapeamento temáticoSBERTLaBSETF-IDFcuradoria de metadadosInstitutional Repositoriesmultilabel classificationmachine learningthematic mappingmetadata curationPresentación del problema: El presente trabajo aborda la tarea de clasificación automática por materias para los contenidos albergados en el repositorio institucional SEDICI. A partir de un corpus de 126.081 ítems se propone ahora un enfoque supervisado de clasificación multilabel que permita predecir las materias asignadas a los ítems del repositorio a partir de sus resúmenes y palabras clave. Materiales y metodología: Los ítems incluyen resúmenes textuales, palabras clave y etiquetas temáticas. Se realizó un análisis de cobertura de etiquetas para obtener un subconjunto óptimo de clases que concentren la mayor parte de los ejemplos en el corpus. Luego se aplicaron distintas técnicas de representación del texto, incluyendo vectorizaciones clásicas por n-gramas (TF-IDF y frecuencia de términos) y modelos de embeddings multilingües (SBERT y LaBSE). Sobre estas representaciones se entrenaron varios clasificadores multilabel, como regresión logística, máquinas de soporte vectorial, Random Forest, Multinomial Naive Bayes y clasificadores por descenso de gradiente. La evaluación se realizó mediante métricas específicas para clasificación multilabel, incluyendo F1-score micro y macro. Resultados: Se observó que la combinación de Frecuencia de Término - Frecuencia Inversa de Documento (TF-IDF) con Máquinas de Soporte Vectorial Lineal (Linear SVC) ofreció un rendimiento destacado entre los enfoques clásicos, alcanzando los mayores valores de F1 macro y F1 micro en ambas configuraciones del conjunto de etiquetas. Los modelos basados en embeddings, especialmente LaBSE y SBERT combinados con Linear SVC, demostraron también un desempeño competitivo, superando en varios casos a los métodos clásicos, aunque a costa de mayores tiempos de entrenamiento. El Clasificador Lineal entrenado con Descenso de Gradiente Estocástico (SGD) se posicionó como una alternativa eficiente y escalable, con tiempos reducidos y métricas satisfactorias. La reducción del espacio de etiquetas de 61 a 37 materias permitió mejorar globalmente la precisión y reducir la complejidad computacional. Conclusiones: Este estudio se propuso demostrar la viabilidad de aplicar modelos supervisados para la clasificación automática de materias en grandes volúmenes de datos textuales en repositorios institucionales. La metodología propuesta es replicable y puede adaptarse a otros contextos documentales con estructuras temáticas similares, y podría contribuir a mejorar la eficiencia y calidad del proceso de curaduría de datos y materiales en repositorios institucionales.Apresentação do problema: O presente trabalho aborda a tarefa de classificação automática por matérias para os conteúdos hospedados no repositório institucional SEDICI. A partir de um corpus de 126.081 itens, propõe-se agora uma abordagem supervisionada de classificação multilabel, que permite prever as matérias atribuídas aos itens do repositório com base em seus resumos e palavras-chave. Materiais e metodologia: Os itens incluem resumos textuais, palavras-chave e rótulos temáticos. Foi realizada uma análise de cobertura de rótulos para obter um subconjunto ideal de classes que concentrasse a maior parte dos exemplos no corpus. Em seguida, aplicaram-se diferentes técnicas de representação textual, incluindo vetorizações clássicas por n-gramas (TF-IDF e frequência de termos) e modelos de embeddings multilíngues (SBERT e LaBSE). Sobre essas representações, foram treinados vários classificadores multilabel, como Regressão Logística, Máquinas de Vetores de Suporte (SVM), Random Forest, Naive Bayes Multinomial e classificadores baseados em Descida de Gradiente. A avaliação foi realizada utilizando métricas específicas para classificação multilabel, incluindo F1-score micro e macro. Resultados: Observou-se que a combinação de Frequência de Termo – Frequência Inversa de Documento (TF-IDF) com Máquinas de Vetores de Suporte Lineares (Linear SVC) apresentou um desempenho destacado entre as abordagens clássicas, alcançando os maiores valores de F1 macro e F1 micro em ambas as configurações do conjunto de rótulos. Os modelos baseados em embeddings, especialmente LaBSE e SBERT combinados com Linear SVC, também demonstraram desempenho competitivo, superando em vários casos os métodos clássicos, embora com maiores tempos de treinamento. O classificador linear treinado com Descida de Gradiente Estocástica (SGD) destacou-se como uma alternativa eficiente e escalável, apresentando tempos reduzidos e métricas satisfatórias. A redução do espaço de rótulos de 61 para 37 matérias permitiu melhorar globalmente a precisão e reduzir a complexidade computacional. Conclusões: Este estudo procurou demonstrar a viabilidade da aplicação de modelos supervisionados para a classificação automática de matérias em grandes volumes de dados textuais de repositórios institucionais. A metodologia proposta é replicável e pode ser adaptada a outros contextos documentais com estruturas temáticas semelhantes, podendo contribuir para melhorar a eficiência e a qualidade do processo de curadoria de dados e materiais em repositórios institucionais.Problem Statement: This work addresses the task of automatic subject classification for the contents hosted in the SEDICI institutional repository. Based on a corpus of 126,081 items, we propose a supervised multilabel classification approach to predict the subjects assigned to repository items from their abstracts and keywords. Materials and Methods: The items include textual abstracts, keywords, and subject tags. We conducted a label coverage analysis to obtain an optimal subset of classes that concentrates most examples in the corpus. We then applied different text representation techniques, including classical n-gram vectorizations (TF-IDF and term frequency) and multilingual embedding models (SBERT and LaBSE). On top of these representations, we trained several multilabel classifiers such as Logistic Regression, Support Vector Machines, Random Forest, Multinomial Naive Bayes, and Stochastic Gradient Descent classifiers. Evaluation was performed using metrics specific to multilabel classification, including micro and macro F1-score. Results: The combination of Term Frequency–Inverse Document Frequency (TF-IDF) with Linear Support Vector Machines (Linear SVC) delivered standout performance among the classical approaches, achieving the highest macro- and micro-F1 values under both label-set configurations. Embedding-based models—especially LaBSE and SBERT paired with Linear SVC—also showed competitive performance, often outperforming classical methods, albeit at the cost of longer training times. The Linear Classifier trained with Stochastic Gradient Descent (SGD) emerged as an efficient and scalable alternative, with reduced training times and satisfactory metrics. Reducing the label space from 61 to 37 subjects improved overall accuracy and lowered computational complexity. Conclusions: This study demonstrates the feasibility of applying supervised models to automatic subject classification over large volumes of textual data in institutional repositories. The proposed methodology is replicable and can be adapted to other documentary contexts with similar thematic structures, and it may help improve the efficiency and quality of data and materials curation processes in institutional repositories.Dirección PREBI-SEDICI2025-10-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/185805spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-02-20T13:19:26Zoai:sedici.unlp.edu.ar:10915/185805Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-02-20 13:19:26.541SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI Classificação automática de matérias em repositórios institucionais por meio de aprendizado supervisionado e representações vetoriais multilíngues: um estudo de caso no SEDICI Automatic subject classification in institutional repositories using supervised learning and multilingual vector representations: a case study in SEDICI |
| title |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI |
| spellingShingle |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI Nusch, Carlos Javier Informática Repositorios Institucionales clasificación multilabel aprendizaje automático mapeo temático SBERT LaBSE TF-IDF curaduría de metadatos Repositórios Institucionais classificação multilabel aprendizado de máquina mapeamento temático SBERT LaBSE TF-IDF curadoria de metadados Institutional Repositories multilabel classification machine learning thematic mapping metadata curation |
| title_short |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI |
| title_full |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI |
| title_fullStr |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI |
| title_full_unstemmed |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI |
| title_sort |
Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI |
| dc.creator.none.fl_str_mv |
Nusch, Carlos Javier Cagnina, Leticia Cecilia Peloche, Silvia Beatriz Villarreal, Gonzalo Luján Lira, Ariel Jorge Antonelli, Rubén Leandro Folegotto, Lucas Eduardo Errecalde, Marcelo Luis De Giusti, Marisa Raquel |
| author |
Nusch, Carlos Javier |
| author_facet |
Nusch, Carlos Javier Cagnina, Leticia Cecilia Peloche, Silvia Beatriz Villarreal, Gonzalo Luján Lira, Ariel Jorge Antonelli, Rubén Leandro Folegotto, Lucas Eduardo Errecalde, Marcelo Luis De Giusti, Marisa Raquel |
| author_role |
author |
| author2 |
Cagnina, Leticia Cecilia Peloche, Silvia Beatriz Villarreal, Gonzalo Luján Lira, Ariel Jorge Antonelli, Rubén Leandro Folegotto, Lucas Eduardo Errecalde, Marcelo Luis De Giusti, Marisa Raquel |
| author2_role |
author author author author author author author author |
| dc.subject.none.fl_str_mv |
Informática Repositorios Institucionales clasificación multilabel aprendizaje automático mapeo temático SBERT LaBSE TF-IDF curaduría de metadatos Repositórios Institucionais classificação multilabel aprendizado de máquina mapeamento temático SBERT LaBSE TF-IDF curadoria de metadados Institutional Repositories multilabel classification machine learning thematic mapping metadata curation |
| topic |
Informática Repositorios Institucionales clasificación multilabel aprendizaje automático mapeo temático SBERT LaBSE TF-IDF curaduría de metadatos Repositórios Institucionais classificação multilabel aprendizado de máquina mapeamento temático SBERT LaBSE TF-IDF curadoria de metadados Institutional Repositories multilabel classification machine learning thematic mapping metadata curation |
| dc.description.none.fl_txt_mv |
Presentación del problema: El presente trabajo aborda la tarea de clasificación automática por materias para los contenidos albergados en el repositorio institucional SEDICI. A partir de un corpus de 126.081 ítems se propone ahora un enfoque supervisado de clasificación multilabel que permita predecir las materias asignadas a los ítems del repositorio a partir de sus resúmenes y palabras clave. Materiales y metodología: Los ítems incluyen resúmenes textuales, palabras clave y etiquetas temáticas. Se realizó un análisis de cobertura de etiquetas para obtener un subconjunto óptimo de clases que concentren la mayor parte de los ejemplos en el corpus. Luego se aplicaron distintas técnicas de representación del texto, incluyendo vectorizaciones clásicas por n-gramas (TF-IDF y frecuencia de términos) y modelos de embeddings multilingües (SBERT y LaBSE). Sobre estas representaciones se entrenaron varios clasificadores multilabel, como regresión logística, máquinas de soporte vectorial, Random Forest, Multinomial Naive Bayes y clasificadores por descenso de gradiente. La evaluación se realizó mediante métricas específicas para clasificación multilabel, incluyendo F1-score micro y macro. Resultados: Se observó que la combinación de Frecuencia de Término - Frecuencia Inversa de Documento (TF-IDF) con Máquinas de Soporte Vectorial Lineal (Linear SVC) ofreció un rendimiento destacado entre los enfoques clásicos, alcanzando los mayores valores de F1 macro y F1 micro en ambas configuraciones del conjunto de etiquetas. Los modelos basados en embeddings, especialmente LaBSE y SBERT combinados con Linear SVC, demostraron también un desempeño competitivo, superando en varios casos a los métodos clásicos, aunque a costa de mayores tiempos de entrenamiento. El Clasificador Lineal entrenado con Descenso de Gradiente Estocástico (SGD) se posicionó como una alternativa eficiente y escalable, con tiempos reducidos y métricas satisfactorias. La reducción del espacio de etiquetas de 61 a 37 materias permitió mejorar globalmente la precisión y reducir la complejidad computacional. Conclusiones: Este estudio se propuso demostrar la viabilidad de aplicar modelos supervisados para la clasificación automática de materias en grandes volúmenes de datos textuales en repositorios institucionales. La metodología propuesta es replicable y puede adaptarse a otros contextos documentales con estructuras temáticas similares, y podría contribuir a mejorar la eficiencia y calidad del proceso de curaduría de datos y materiales en repositorios institucionales. Apresentação do problema: O presente trabalho aborda a tarefa de classificação automática por matérias para os conteúdos hospedados no repositório institucional SEDICI. A partir de um corpus de 126.081 itens, propõe-se agora uma abordagem supervisionada de classificação multilabel, que permite prever as matérias atribuídas aos itens do repositório com base em seus resumos e palavras-chave. Materiais e metodologia: Os itens incluem resumos textuais, palavras-chave e rótulos temáticos. Foi realizada uma análise de cobertura de rótulos para obter um subconjunto ideal de classes que concentrasse a maior parte dos exemplos no corpus. Em seguida, aplicaram-se diferentes técnicas de representação textual, incluindo vetorizações clássicas por n-gramas (TF-IDF e frequência de termos) e modelos de embeddings multilíngues (SBERT e LaBSE). Sobre essas representações, foram treinados vários classificadores multilabel, como Regressão Logística, Máquinas de Vetores de Suporte (SVM), Random Forest, Naive Bayes Multinomial e classificadores baseados em Descida de Gradiente. A avaliação foi realizada utilizando métricas específicas para classificação multilabel, incluindo F1-score micro e macro. Resultados: Observou-se que a combinação de Frequência de Termo – Frequência Inversa de Documento (TF-IDF) com Máquinas de Vetores de Suporte Lineares (Linear SVC) apresentou um desempenho destacado entre as abordagens clássicas, alcançando os maiores valores de F1 macro e F1 micro em ambas as configurações do conjunto de rótulos. Os modelos baseados em embeddings, especialmente LaBSE e SBERT combinados com Linear SVC, também demonstraram desempenho competitivo, superando em vários casos os métodos clássicos, embora com maiores tempos de treinamento. O classificador linear treinado com Descida de Gradiente Estocástica (SGD) destacou-se como uma alternativa eficiente e escalável, apresentando tempos reduzidos e métricas satisfatórias. A redução do espaço de rótulos de 61 para 37 matérias permitiu melhorar globalmente a precisão e reduzir a complexidade computacional. Conclusões: Este estudo procurou demonstrar a viabilidade da aplicação de modelos supervisionados para a classificação automática de matérias em grandes volumes de dados textuais de repositórios institucionais. A metodologia proposta é replicável e pode ser adaptada a outros contextos documentais com estruturas temáticas semelhantes, podendo contribuir para melhorar a eficiência e a qualidade do processo de curadoria de dados e materiais em repositórios institucionais. Problem Statement: This work addresses the task of automatic subject classification for the contents hosted in the SEDICI institutional repository. Based on a corpus of 126,081 items, we propose a supervised multilabel classification approach to predict the subjects assigned to repository items from their abstracts and keywords. Materials and Methods: The items include textual abstracts, keywords, and subject tags. We conducted a label coverage analysis to obtain an optimal subset of classes that concentrates most examples in the corpus. We then applied different text representation techniques, including classical n-gram vectorizations (TF-IDF and term frequency) and multilingual embedding models (SBERT and LaBSE). On top of these representations, we trained several multilabel classifiers such as Logistic Regression, Support Vector Machines, Random Forest, Multinomial Naive Bayes, and Stochastic Gradient Descent classifiers. Evaluation was performed using metrics specific to multilabel classification, including micro and macro F1-score. Results: The combination of Term Frequency–Inverse Document Frequency (TF-IDF) with Linear Support Vector Machines (Linear SVC) delivered standout performance among the classical approaches, achieving the highest macro- and micro-F1 values under both label-set configurations. Embedding-based models—especially LaBSE and SBERT paired with Linear SVC—also showed competitive performance, often outperforming classical methods, albeit at the cost of longer training times. The Linear Classifier trained with Stochastic Gradient Descent (SGD) emerged as an efficient and scalable alternative, with reduced training times and satisfactory metrics. Reducing the label space from 61 to 37 subjects improved overall accuracy and lowered computational complexity. Conclusions: This study demonstrates the feasibility of applying supervised models to automatic subject classification over large volumes of textual data in institutional repositories. The proposed methodology is replicable and can be adapted to other documentary contexts with similar thematic structures, and it may help improve the efficiency and quality of data and materials curation processes in institutional repositories. Dirección PREBI-SEDICI |
| description |
Presentación del problema: El presente trabajo aborda la tarea de clasificación automática por materias para los contenidos albergados en el repositorio institucional SEDICI. A partir de un corpus de 126.081 ítems se propone ahora un enfoque supervisado de clasificación multilabel que permita predecir las materias asignadas a los ítems del repositorio a partir de sus resúmenes y palabras clave. Materiales y metodología: Los ítems incluyen resúmenes textuales, palabras clave y etiquetas temáticas. Se realizó un análisis de cobertura de etiquetas para obtener un subconjunto óptimo de clases que concentren la mayor parte de los ejemplos en el corpus. Luego se aplicaron distintas técnicas de representación del texto, incluyendo vectorizaciones clásicas por n-gramas (TF-IDF y frecuencia de términos) y modelos de embeddings multilingües (SBERT y LaBSE). Sobre estas representaciones se entrenaron varios clasificadores multilabel, como regresión logística, máquinas de soporte vectorial, Random Forest, Multinomial Naive Bayes y clasificadores por descenso de gradiente. La evaluación se realizó mediante métricas específicas para clasificación multilabel, incluyendo F1-score micro y macro. Resultados: Se observó que la combinación de Frecuencia de Término - Frecuencia Inversa de Documento (TF-IDF) con Máquinas de Soporte Vectorial Lineal (Linear SVC) ofreció un rendimiento destacado entre los enfoques clásicos, alcanzando los mayores valores de F1 macro y F1 micro en ambas configuraciones del conjunto de etiquetas. Los modelos basados en embeddings, especialmente LaBSE y SBERT combinados con Linear SVC, demostraron también un desempeño competitivo, superando en varios casos a los métodos clásicos, aunque a costa de mayores tiempos de entrenamiento. El Clasificador Lineal entrenado con Descenso de Gradiente Estocástico (SGD) se posicionó como una alternativa eficiente y escalable, con tiempos reducidos y métricas satisfactorias. La reducción del espacio de etiquetas de 61 a 37 materias permitió mejorar globalmente la precisión y reducir la complejidad computacional. Conclusiones: Este estudio se propuso demostrar la viabilidad de aplicar modelos supervisados para la clasificación automática de materias en grandes volúmenes de datos textuales en repositorios institucionales. La metodología propuesta es replicable y puede adaptarse a otros contextos documentales con estructuras temáticas similares, y podría contribuir a mejorar la eficiencia y calidad del proceso de curaduría de datos y materiales en repositorios institucionales. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10-10 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/185805 |
| url |
http://sedici.unlp.edu.ar/handle/10915/185805 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1857677036530696192 |
| score |
12.9253 |