Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español
- Autores
- Pérez, Gabriela Alejandra; Mostaccio, Catalina Alba; Antonelli, Leandro
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa.
- Materia
-
Ciencias de la Computación e Información
Requerimientos
NLP
LLM
Similaridad Semántica - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
- OAI Identificador
- oai:digital.cic.gba.gob.ar:11746/12542
Ver los metadatos del registro completo
id |
CICBA_a3106da8d8b020ba01a26aa83ccba53c |
---|---|
oai_identifier_str |
oai:digital.cic.gba.gob.ar:11746/12542 |
network_acronym_str |
CICBA |
repository_id_str |
9441 |
network_name_str |
CIC Digital (CICBA) |
spelling |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en españolPérez, Gabriela AlejandraMostaccio, Catalina AlbaAntonelli, LeandroCiencias de la Computación e InformaciónRequerimientosNLPLLMSimilaridad SemánticaLa ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa.2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/12542spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2025-09-11T10:18:32Zoai:digital.cic.gba.gob.ar:11746/12542Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412025-09-11 10:18:33.225CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse |
dc.title.none.fl_str_mv |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
title |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
spellingShingle |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español Pérez, Gabriela Alejandra Ciencias de la Computación e Información Requerimientos NLP LLM Similaridad Semántica |
title_short |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
title_full |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
title_fullStr |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
title_full_unstemmed |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
title_sort |
Análisis comparativo de arquitecturas de NLP para detectar similitudes entre escenarios en español |
dc.creator.none.fl_str_mv |
Pérez, Gabriela Alejandra Mostaccio, Catalina Alba Antonelli, Leandro |
author |
Pérez, Gabriela Alejandra |
author_facet |
Pérez, Gabriela Alejandra Mostaccio, Catalina Alba Antonelli, Leandro |
author_role |
author |
author2 |
Mostaccio, Catalina Alba Antonelli, Leandro |
author2_role |
author author |
dc.subject.none.fl_str_mv |
Ciencias de la Computación e Información Requerimientos NLP LLM Similaridad Semántica |
topic |
Ciencias de la Computación e Información Requerimientos NLP LLM Similaridad Semántica |
dc.description.none.fl_txt_mv |
La ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa. |
description |
La ingeniería de requerimientos es una fase crítica en el desarrollo de software, ya que permite identificar y definir los requerimientos del sistema. Involucra clientes y desarrolladores, quienes deben comunicarse de manera efectiva a pesar de manejar vocabulario diferente. Uno de los artefactos utilizado para este propósito es el escenario, ya que permite especificar el conocimiento de un dominio utilizando lenguaje natural. La especificación de requerimientos implica un trabajo colaborativo, por lo tanto, es esencial detectar tempranamente escenarios similares, con el fin de evitar la duplicación de esfuerzos. Una técnica comúnmente utilizada para identificar similitudes entre oraciones es el uso de LLMs para generar representaciones vectoriales que capturan el significado semántico de las frases en un espacio de alta dimensionalidad. Sin embargo, tienden a generar falsos positivos cuando dos oraciones emplean términos similares con significados distintos, debido a la proximidad superficial de sus embeddings en el espacio vectorial. En este trabajo, se analizan arquitecturas de modelos de procesamiento de lenguaje natural basadas en modelos encoder-decoder para detectar similitudes entre escenarios escritos en español. Para abordar las limitaciones de los encoders tradicionales, se analizan otras estrategias que combinan eficientemente arquitecturas de codificación y decodificación. Esta investigación busca determinar si estas aproximaciones pueden aumentar la precisión y reducir la tasa de falsos positivos en escenarios con terminología diversa. |
publishDate |
2025 |
dc.date.none.fl_str_mv |
2025-08 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://digital.cic.gba.gob.ar/handle/11746/12542 |
url |
https://digital.cic.gba.gob.ar/handle/11746/12542 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:CIC Digital (CICBA) instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires instacron:CICBA |
reponame_str |
CIC Digital (CICBA) |
collection |
CIC Digital (CICBA) |
instname_str |
Comisión de Investigaciones Científicas de la Provincia de Buenos Aires |
instacron_str |
CICBA |
institution |
CICBA |
repository.name.fl_str_mv |
CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires |
repository.mail.fl_str_mv |
marisa.degiusti@sedici.unlp.edu.ar |
_version_ |
1842974769158291456 |
score |
12.993085 |