De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estánda...

Autores
Nusch, Carlos Javier (CESGI); Calarco, Gabriel Alejandro; Del Rio Riande, María Gimena; Cagnina, Leticia Cecilia; Antonelli, Leandro; Errecalde, Marcelo Luis
Año de publicación
2026
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.
This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight.
Materia
Ciencias de la Información y Bioinformática
Literaturas Específicas
digital edition
XML-TEI
Latin poetry
Natural Language Processing
LatinCy
Named Entity Recognition
lemmatization
thematic annotation
Levenshtein distance
visualization
edición digital
poesía latina
Procesamiento del lenguaje natural
reconocimiento de entidades nombradas
lematización
codificación temática
distancia de Levenshtein
Visualización
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by/4.0/
Repositorio
CIC Digital (CICBA)
Institución
Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
OAI Identificador
oai:digital.cic.gba.gob.ar:11746/12695

id CICBA_9c0c1c588ab92d5743a56cbacd6bae6e
oai_identifier_str oai:digital.cic.gba.gob.ar:11746/12695
network_acronym_str CICBA
repository_id_str 9441
network_name_str CIC Digital (CICBA)
spelling De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEINusch, Carlos Javier (CESGI)Calarco, Gabriel AlejandroDel Rio Riande, María GimenaCagnina, Leticia CeciliaAntonelli, LeandroErrecalde, Marcelo LuisCiencias de la Información y BioinformáticaLiteraturas Específicasdigital editionXML-TEILatin poetryNatural Language ProcessingLatinCyNamed Entity Recognitionlemmatizationthematic annotationLevenshtein distancevisualizationedición digitalpoesía latinaProcesamiento del lenguaje naturalreconocimiento de entidades nombradaslematizacióncodificación temáticadistancia de LevenshteinVisualizaciónEste artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight.2026-05-27info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/12695spainfo:eu-repo/semantics/altIdentifier/doi/10.4000/16a7iinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2026-06-11T09:49:36Zoai:digital.cic.gba.gob.ar:11746/12695Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412026-06-11 09:49:36.631CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse
dc.title.none.fl_str_mv De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
title De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
spellingShingle De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
Nusch, Carlos Javier (CESGI)
Ciencias de la Información y Bioinformática
Literaturas Específicas
digital edition
XML-TEI
Latin poetry
Natural Language Processing
LatinCy
Named Entity Recognition
lemmatization
thematic annotation
Levenshtein distance
visualization
edición digital
poesía latina
Procesamiento del lenguaje natural
reconocimiento de entidades nombradas
lematización
codificación temática
distancia de Levenshtein
Visualización
title_short De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
title_full De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
title_fullStr De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
title_full_unstemmed De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
title_sort De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI
dc.creator.none.fl_str_mv Nusch, Carlos Javier (CESGI)
Calarco, Gabriel Alejandro
Del Rio Riande, María Gimena
Cagnina, Leticia Cecilia
Antonelli, Leandro
Errecalde, Marcelo Luis
author Nusch, Carlos Javier (CESGI)
author_facet Nusch, Carlos Javier (CESGI)
Calarco, Gabriel Alejandro
Del Rio Riande, María Gimena
Cagnina, Leticia Cecilia
Antonelli, Leandro
Errecalde, Marcelo Luis
author_role author
author2 Calarco, Gabriel Alejandro
Del Rio Riande, María Gimena
Cagnina, Leticia Cecilia
Antonelli, Leandro
Errecalde, Marcelo Luis
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias de la Información y Bioinformática
Literaturas Específicas
digital edition
XML-TEI
Latin poetry
Natural Language Processing
LatinCy
Named Entity Recognition
lemmatization
thematic annotation
Levenshtein distance
visualization
edición digital
poesía latina
Procesamiento del lenguaje natural
reconocimiento de entidades nombradas
lematización
codificación temática
distancia de Levenshtein
Visualización
topic Ciencias de la Información y Bioinformática
Literaturas Específicas
digital edition
XML-TEI
Latin poetry
Natural Language Processing
LatinCy
Named Entity Recognition
lemmatization
thematic annotation
Levenshtein distance
visualization
edición digital
poesía latina
Procesamiento del lenguaje natural
reconocimiento de entidades nombradas
lematización
codificación temática
distancia de Levenshtein
Visualización
dc.description.none.fl_txt_mv Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.
This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight.
description Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.
publishDate 2026
dc.date.none.fl_str_mv 2026-05-27
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://digital.cic.gba.gob.ar/handle/11746/12695
url https://digital.cic.gba.gob.ar/handle/11746/12695
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/doi/10.4000/16a7i
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:CIC Digital (CICBA)
instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron:CICBA
reponame_str CIC Digital (CICBA)
collection CIC Digital (CICBA)
instname_str Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron_str CICBA
institution CICBA
repository.name.fl_str_mv CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
repository.mail.fl_str_mv marisa.degiusti@sedici.unlp.edu.ar
_version_ 1867706865256759296
score 12.98848