Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español

Autores
Pérez, Gabriela Alejandra; Mostaccio, Catalina Alba; Antonelli, Leandro
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa.
Materia
Ciencias de la Computación e Información
Requerimientos
NLP
LLM
Similaridad Semántica
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
CIC Digital (CICBA)
Institución
Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
OAI Identificador
oai:digital.cic.gba.gob.ar:11746/12542

id CICBA_a3106da8d8b020ba01a26aa83ccba53c
oai_identifier_str oai:digital.cic.gba.gob.ar:11746/12542
network_acronym_str CICBA
repository_id_str 9441
network_name_str CIC Digital (CICBA)
spelling Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en españolPérez, Gabriela AlejandraMostaccio, Catalina AlbaAntonelli, LeandroCiencias de la Computación e InformaciónRequerimientosNLPLLMSimilaridad SemánticaLa ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa.2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/12542spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2025-09-11T10:18:32Zoai:digital.cic.gba.gob.ar:11746/12542Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412025-09-11 10:18:33.225CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse
dc.title.none.fl_str_mv Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
title Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
spellingShingle Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
Pérez, Gabriela Alejandra
Ciencias de la Computación e Información
Requerimientos
NLP
LLM
Similaridad Semántica
title_short Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
title_full Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
title_fullStr Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
title_full_unstemmed Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
title_sort Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
dc.creator.none.fl_str_mv Pérez, Gabriela Alejandra
Mostaccio, Catalina Alba
Antonelli, Leandro
author Pérez, Gabriela Alejandra
author_facet Pérez, Gabriela Alejandra
Mostaccio, Catalina Alba
Antonelli, Leandro
author_role author
author2 Mostaccio, Catalina Alba
Antonelli, Leandro
author2_role author
author
dc.subject.none.fl_str_mv Ciencias de la Computación e Información
Requerimientos
NLP
LLM
Similaridad Semántica
topic Ciencias de la Computación e Información
Requerimientos
NLP
LLM
Similaridad Semántica
dc.description.none.fl_txt_mv La ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa.
description La ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa.
publishDate 2025
dc.date.none.fl_str_mv 2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv https://digital.cic.gba.gob.ar/handle/11746/12542
url https://digital.cic.gba.gob.ar/handle/11746/12542
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:CIC Digital (CICBA)
instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron:CICBA
reponame_str CIC Digital (CICBA)
collection CIC Digital (CICBA)
instname_str Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron_str CICBA
institution CICBA
repository.name.fl_str_mv CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
repository.mail.fl_str_mv marisa.degiusti@sedici.unlp.edu.ar
_version_ 1842974769158291456
score 12.993085