De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estánda...
- Autores
- Nusch, Carlos Javier (CESGI); Calarco, Gabriel Alejandro; Del Rio Riande, María Gimena; Cagnina, Leticia Cecilia; Antonelli, Leandro; Errecalde, Marcelo Luis
- Año de publicación
- 2026
- Idioma
- español castellano
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.
This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight. - Materia
-
Ciencias de la Información y Bioinformática
Literaturas Específicas
digital edition
XML-TEI
Latin poetry
Natural Language Processing
LatinCy
Named Entity Recognition
lemmatization
thematic annotation
Levenshtein distance
visualization
edición digital
poesía latina
Procesamiento del lenguaje natural
reconocimiento de entidades nombradas
lematización
codificación temática
distancia de Levenshtein
Visualización - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by/4.0/
- Repositorio
.jpg)
- Institución
- Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
- OAI Identificador
- oai:digital.cic.gba.gob.ar:11746/12695
Ver los metadatos del registro completo
| id |
CICBA_9c0c1c588ab92d5743a56cbacd6bae6e |
|---|---|
| oai_identifier_str |
oai:digital.cic.gba.gob.ar:11746/12695 |
| network_acronym_str |
CICBA |
| repository_id_str |
9441 |
| network_name_str |
CIC Digital (CICBA) |
| spelling |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEINusch, Carlos Javier (CESGI)Calarco, Gabriel AlejandroDel Rio Riande, María GimenaCagnina, Leticia CeciliaAntonelli, LeandroErrecalde, Marcelo LuisCiencias de la Información y BioinformáticaLiteraturas Específicasdigital editionXML-TEILatin poetryNatural Language ProcessingLatinCyNamed Entity Recognitionlemmatizationthematic annotationLevenshtein distancevisualizationedición digitalpoesía latinaProcesamiento del lenguaje naturalreconocimiento de entidades nombradaslematizacióncodificación temáticadistancia de LevenshteinVisualizaciónEste artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight.2026-05-27info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/12695spainfo:eu-repo/semantics/altIdentifier/doi/10.4000/16a7iinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2026-06-11T09:49:36Zoai:digital.cic.gba.gob.ar:11746/12695Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412026-06-11 09:49:36.631CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse |
| dc.title.none.fl_str_mv |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| title |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| spellingShingle |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI Nusch, Carlos Javier (CESGI) Ciencias de la Información y Bioinformática Literaturas Específicas digital edition XML-TEI Latin poetry Natural Language Processing LatinCy Named Entity Recognition lemmatization thematic annotation Levenshtein distance visualization edición digital poesía latina Procesamiento del lenguaje natural reconocimiento de entidades nombradas lematización codificación temática distancia de Levenshtein Visualización |
| title_short |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| title_full |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| title_fullStr |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| title_full_unstemmed |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| title_sort |
De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI |
| dc.creator.none.fl_str_mv |
Nusch, Carlos Javier (CESGI) Calarco, Gabriel Alejandro Del Rio Riande, María Gimena Cagnina, Leticia Cecilia Antonelli, Leandro Errecalde, Marcelo Luis |
| author |
Nusch, Carlos Javier (CESGI) |
| author_facet |
Nusch, Carlos Javier (CESGI) Calarco, Gabriel Alejandro Del Rio Riande, María Gimena Cagnina, Leticia Cecilia Antonelli, Leandro Errecalde, Marcelo Luis |
| author_role |
author |
| author2 |
Calarco, Gabriel Alejandro Del Rio Riande, María Gimena Cagnina, Leticia Cecilia Antonelli, Leandro Errecalde, Marcelo Luis |
| author2_role |
author author author author author |
| dc.subject.none.fl_str_mv |
Ciencias de la Información y Bioinformática Literaturas Específicas digital edition XML-TEI Latin poetry Natural Language Processing LatinCy Named Entity Recognition lemmatization thematic annotation Levenshtein distance visualization edición digital poesía latina Procesamiento del lenguaje natural reconocimiento de entidades nombradas lematización codificación temática distancia de Levenshtein Visualización |
| topic |
Ciencias de la Información y Bioinformática Literaturas Específicas digital edition XML-TEI Latin poetry Natural Language Processing LatinCy Named Entity Recognition lemmatization thematic annotation Levenshtein distance visualization edición digital poesía latina Procesamiento del lenguaje natural reconocimiento de entidades nombradas lematización codificación temática distancia de Levenshtein Visualización |
| dc.description.none.fl_txt_mv |
Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial. This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight. |
| description |
Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial. |
| publishDate |
2026 |
| dc.date.none.fl_str_mv |
2026-05-27 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
https://digital.cic.gba.gob.ar/handle/11746/12695 |
| url |
https://digital.cic.gba.gob.ar/handle/11746/12695 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/doi/10.4000/16a7i |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/4.0/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:CIC Digital (CICBA) instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires instacron:CICBA |
| reponame_str |
CIC Digital (CICBA) |
| collection |
CIC Digital (CICBA) |
| instname_str |
Comisión de Investigaciones Científicas de la Provincia de Buenos Aires |
| instacron_str |
CICBA |
| institution |
CICBA |
| repository.name.fl_str_mv |
CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires |
| repository.mail.fl_str_mv |
marisa.degiusti@sedici.unlp.edu.ar |
| _version_ |
1867706865256759296 |
| score |
12.98848 |