Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software

Autores: Acosta, Nicolás; Espeche, Paula
Año de publicación: 2018
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión aceptada
Descripción: En esta comunicación presentaremos, dentro del proceso de construcción del Corpus de Español en el Discurso Académico de la Universidad Nacional de Cuyo (EspaDA-UNCuyo), el desarrollo de una metodología eficiente para la transcripción orientada a la implementación en sistemas digitales. También exhibiremos la primera versión de una interfaz de software que indexa este corpus en un entorno de procesamiento de lenguaje natural (PLN), programada en Perl y CGI, con acceso web. El corpus EspaDA-UNCuyo se desarrolla en el marco del proyecto 06/G718, de la Secretaría de Ciencia, Técnica y Posgrado, de la Universidad Nacional de Cuyo. Su propósito es otorgar al investigador acceso a un corpus especializado en el español académico, compuesto por textos tanto orales como escritos que se producen en la Universidad Nacional de Cuyo. Para esto, se implementan metodologías automatizadas de PLN como el etiquetado morfosintáctico y la indexación de los textos para búsquedas de contextos de formas, lemas o expresiones. Al centrarnos en el trabajo con el discurso académico oral, haremos foco en los principales problemas al momento de transformar dicho discurso a un formato escrito a través del trabajo de transcripción, el cual siempre está influenciado por la subjetividad propia del transcriptor. En cuanto a las metodologías de transcripción orientadas al procesamiento digital, se han buscado convenciones amigables para que el transcriptor pueda componer su transcripción desde un procesador de textos, y luego puedan ser convertidas al formato de texto plano. Estas convenciones se han basado en las que se utilizaron para la construcción de otro corpus especializado de discurso académico oral: MICASE, de la Universidad de Michigan. A estas convenciones les hemos hecho algunas modificaciones en la notación de los fenómenos orales como los solapamientos o interrupciones. Para finalizar, haremos hincapié en la importancia del diálogo entre el transcriptor y el lingüista computacional para generar una metodología eficiente para la transcripción, orientada a la implementación en sistemas digitales, que concluya en la creación de un corpus exhaustivo, completo, de fácil acceso y útil para el investigador lingüístico. Palabras clave: corpus especializado; procesamiento de lenguaje natural; transcripción; géneros académicos; español académico.
Fil: Fil: Acosta, Nicolás. Universidad Nacional de Cuyo. Facultad de Filosofía y Letras; Argentina.
Fil: Fil: Espeche, Paula. Universidad Nacional de Cuyo. Facultad de Filosofía y Letras; Argentina.
Materia: Corpus de Español
EspaDA-UNCuyo
Universidad Nacional de Cuyo
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc/4.0/deed.es
Repositorio
Institución: Universidad Nacional de Rosario
OAI Identificador: oai:rephip.unr.edu.ar:2133/13834

Acceder

id	RepHipUNR_f91cbdfdda22483e895bac8ffae27aea
oai_identifier_str	oai:rephip.unr.edu.ar:2133/13834
network_acronym_str	RepHipUNR
repository_id_str	1550
network_name_str	RepHipUNR (UNR)
spelling	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de softwareAcosta, NicolásEspeche, PaulaCorpus de EspañolEspaDA-UNCuyoUniversidad Nacional de CuyoEn esta comunicación presentaremos, dentro del proceso de construcción del Corpus de Español en el Discurso Académico de la Universidad Nacional de Cuyo (EspaDA-UNCuyo), el desarrollo de una metodología eficiente para la transcripción orientada a la implementación en sistemas digitales. También exhibiremos la primera versión de una interfaz de software que indexa este corpus en un entorno de procesamiento de lenguaje natural (PLN), programada en Perl y CGI, con acceso web. El corpus EspaDA-UNCuyo se desarrolla en el marco del proyecto 06/G718, de la Secretaría de Ciencia, Técnica y Posgrado, de la Universidad Nacional de Cuyo. Su propósito es otorgar al investigador acceso a un corpus especializado en el español académico, compuesto por textos tanto orales como escritos que se producen en la Universidad Nacional de Cuyo. Para esto, se implementan metodologías automatizadas de PLN como el etiquetado morfosintáctico y la indexación de los textos para búsquedas de contextos de formas, lemas o expresiones. Al centrarnos en el trabajo con el discurso académico oral, haremos foco en los principales problemas al momento de transformar dicho discurso a un formato escrito a través del trabajo de transcripción, el cual siempre está influenciado por la subjetividad propia del transcriptor. En cuanto a las metodologías de transcripción orientadas al procesamiento digital, se han buscado convenciones amigables para que el transcriptor pueda componer su transcripción desde un procesador de textos, y luego puedan ser convertidas al formato de texto plano. Estas convenciones se han basado en las que se utilizaron para la construcción de otro corpus especializado de discurso académico oral: MICASE, de la Universidad de Michigan. A estas convenciones les hemos hecho algunas modificaciones en la notación de los fenómenos orales como los solapamientos o interrupciones. Para finalizar, haremos hincapié en la importancia del diálogo entre el transcriptor y el lingüista computacional para generar una metodología eficiente para la transcripción, orientada a la implementación en sistemas digitales, que concluya en la creación de un corpus exhaustivo, completo, de fácil acceso y útil para el investigador lingüístico. Palabras clave: corpus especializado; procesamiento de lenguaje natural; transcripción; géneros académicos; español académico.Fil: Fil: Acosta, Nicolás. Universidad Nacional de Cuyo. Facultad de Filosofía y Letras; Argentina.Fil: Fil: Espeche, Paula. Universidad Nacional de Cuyo. Facultad de Filosofía y Letras; Argentina.Universidad Nacional de Rosario. Facultad de Humanidades y ArtesAsociación Argentina de Humanidades Digitales (AAHD). Facultad de Humanidades de la Universidad Nacional de Rosario (UNR)2018-11info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://hdl.handle.net/2133/13834spainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc/4.0/deed.eshttps://creativecommons.org/licenses/by-nc/4.0/Licencia RepHipreponame:RepHipUNR (UNR)instname:Universidad Nacional de Rosario2026-06-04T09:42:41Zoai:rephip.unr.edu.ar:2133/13834instacron:UNRInstitucionalhttps://rephip.unr.edu.ar/Universidad públicaNo correspondehttps://rephip.unr.edu.ar/oai/requestrephip@unr.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:15502026-06-04 09:42:41.523RepHipUNR (UNR) - Universidad Nacional de Rosariofalse
dc.title.none.fl_str_mv	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
title	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
spellingShingle	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software Acosta, Nicolás Corpus de Español EspaDA-UNCuyo Universidad Nacional de Cuyo
title_short	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
title_full	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
title_fullStr	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
title_full_unstemmed	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
title_sort	Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
dc.creator.none.fl_str_mv	Acosta, Nicolás Espeche, Paula
author	Acosta, Nicolás
author_facet	Acosta, Nicolás Espeche, Paula
author_role	author
author2	Espeche, Paula
author2_role	author
dc.contributor.none.fl_str_mv	Asociación Argentina de Humanidades Digitales (AAHD). Facultad de Humanidades de la Universidad Nacional de Rosario (UNR)
dc.subject.none.fl_str_mv	Corpus de Español EspaDA-UNCuyo Universidad Nacional de Cuyo
topic	Corpus de Español EspaDA-UNCuyo Universidad Nacional de Cuyo
dc.description.none.fl_txt_mv	En esta comunicación presentaremos, dentro del proceso de construcción del Corpus de Español en el Discurso Académico de la Universidad Nacional de Cuyo (EspaDA-UNCuyo), el desarrollo de una metodología eficiente para la transcripción orientada a la implementación en sistemas digitales. También exhibiremos la primera versión de una interfaz de software que indexa este corpus en un entorno de procesamiento de lenguaje natural (PLN), programada en Perl y CGI, con acceso web. El corpus EspaDA-UNCuyo se desarrolla en el marco del proyecto 06/G718, de la Secretaría de Ciencia, Técnica y Posgrado, de la Universidad Nacional de Cuyo. Su propósito es otorgar al investigador acceso a un corpus especializado en el español académico, compuesto por textos tanto orales como escritos que se producen en la Universidad Nacional de Cuyo. Para esto, se implementan metodologías automatizadas de PLN como el etiquetado morfosintáctico y la indexación de los textos para búsquedas de contextos de formas, lemas o expresiones. Al centrarnos en el trabajo con el discurso académico oral, haremos foco en los principales problemas al momento de transformar dicho discurso a un formato escrito a través del trabajo de transcripción, el cual siempre está influenciado por la subjetividad propia del transcriptor. En cuanto a las metodologías de transcripción orientadas al procesamiento digital, se han buscado convenciones amigables para que el transcriptor pueda componer su transcripción desde un procesador de textos, y luego puedan ser convertidas al formato de texto plano. Estas convenciones se han basado en las que se utilizaron para la construcción de otro corpus especializado de discurso académico oral: MICASE, de la Universidad de Michigan. A estas convenciones les hemos hecho algunas modificaciones en la notación de los fenómenos orales como los solapamientos o interrupciones. Para finalizar, haremos hincapié en la importancia del diálogo entre el transcriptor y el lingüista computacional para generar una metodología eficiente para la transcripción, orientada a la implementación en sistemas digitales, que concluya en la creación de un corpus exhaustivo, completo, de fácil acceso y útil para el investigador lingüístico. Palabras clave: corpus especializado; procesamiento de lenguaje natural; transcripción; géneros académicos; español académico. Fil: Fil: Acosta, Nicolás. Universidad Nacional de Cuyo. Facultad de Filosofía y Letras; Argentina. Fil: Fil: Espeche, Paula. Universidad Nacional de Cuyo. Facultad de Filosofía y Letras; Argentina.
description	En esta comunicación presentaremos, dentro del proceso de construcción del Corpus de Español en el Discurso Académico de la Universidad Nacional de Cuyo (EspaDA-UNCuyo), el desarrollo de una metodología eficiente para la transcripción orientada a la implementación en sistemas digitales. También exhibiremos la primera versión de una interfaz de software que indexa este corpus en un entorno de procesamiento de lenguaje natural (PLN), programada en Perl y CGI, con acceso web. El corpus EspaDA-UNCuyo se desarrolla en el marco del proyecto 06/G718, de la Secretaría de Ciencia, Técnica y Posgrado, de la Universidad Nacional de Cuyo. Su propósito es otorgar al investigador acceso a un corpus especializado en el español académico, compuesto por textos tanto orales como escritos que se producen en la Universidad Nacional de Cuyo. Para esto, se implementan metodologías automatizadas de PLN como el etiquetado morfosintáctico y la indexación de los textos para búsquedas de contextos de formas, lemas o expresiones. Al centrarnos en el trabajo con el discurso académico oral, haremos foco en los principales problemas al momento de transformar dicho discurso a un formato escrito a través del trabajo de transcripción, el cual siempre está influenciado por la subjetividad propia del transcriptor. En cuanto a las metodologías de transcripción orientadas al procesamiento digital, se han buscado convenciones amigables para que el transcriptor pueda componer su transcripción desde un procesador de textos, y luego puedan ser convertidas al formato de texto plano. Estas convenciones se han basado en las que se utilizaron para la construcción de otro corpus especializado de discurso académico oral: MICASE, de la Universidad de Michigan. A estas convenciones les hemos hecho algunas modificaciones en la notación de los fenómenos orales como los solapamientos o interrupciones. Para finalizar, haremos hincapié en la importancia del diálogo entre el transcriptor y el lingüista computacional para generar una metodología eficiente para la transcripción, orientada a la implementación en sistemas digitales, que concluya en la creación de un corpus exhaustivo, completo, de fácil acceso y útil para el investigador lingüístico. Palabras clave: corpus especializado; procesamiento de lenguaje natural; transcripción; géneros académicos; español académico.
publishDate	2018
dc.date.none.fl_str_mv	2018-11
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/acceptedVersion http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	acceptedVersion
dc.identifier.none.fl_str_mv	http://hdl.handle.net/2133/13834
url	http://hdl.handle.net/2133/13834
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc/4.0/deed.es https://creativecommons.org/licenses/by-nc/4.0/ Licencia RepHip
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc/4.0/deed.es https://creativecommons.org/licenses/by-nc/4.0/ Licencia RepHip
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad Nacional de Rosario. Facultad de Humanidades y Artes
publisher.none.fl_str_mv	Universidad Nacional de Rosario. Facultad de Humanidades y Artes
dc.source.none.fl_str_mv	reponame:RepHipUNR (UNR) instname:Universidad Nacional de Rosario
reponame_str	RepHipUNR (UNR)
collection	RepHipUNR (UNR)
instname_str	Universidad Nacional de Rosario
repository.name.fl_str_mv	RepHipUNR (UNR) - Universidad Nacional de Rosario
repository.mail.fl_str_mv	rephip@unr.edu.ar
_version_	1867091092588986368
score	12.957546

Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software

Publicaciones similares