Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM

Autores
Torres, Juan Ignacio; Pasini, Ariel Cristian; Pesado, Patricia Mabel
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa.
Red de Universidades con Carreras en Informática
Materia
Ciencias Informáticas
Modelos de lenguaje
Evaluación de calidad
Inteligencia artificial
ISO/IEC 25059
ISO/IEC TS 25058
GQM
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/191129

id SEDICI_197ece07a6b12a788449b8d5c4277d95
oai_identifier_str oai:sedici.unlp.edu.ar:10915/191129
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQMTorres, Juan IgnacioPasini, Ariel CristianPesado, Patricia MabelCiencias InformáticasModelos de lenguajeEvaluación de calidadInteligencia artificialISO/IEC 25059ISO/IEC TS 25058GQMLa creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa.Red de Universidades con Carreras en Informática2025-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf628-637http://sedici.unlp.edu.ar/handle/10915/191129spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-8258-99-7info:eu-repo/semantics/reference/hdl/10915/189846info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-06T13:00:03Zoai:sedici.unlp.edu.ar:10915/191129Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-06 13:00:04.158SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
title Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
spellingShingle Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
Torres, Juan Ignacio
Ciencias Informáticas
Modelos de lenguaje
Evaluación de calidad
Inteligencia artificial
ISO/IEC 25059
ISO/IEC TS 25058
GQM
title_short Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
title_full Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
title_fullStr Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
title_full_unstemmed Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
title_sort Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
dc.creator.none.fl_str_mv Torres, Juan Ignacio
Pasini, Ariel Cristian
Pesado, Patricia Mabel
author Torres, Juan Ignacio
author_facet Torres, Juan Ignacio
Pasini, Ariel Cristian
Pesado, Patricia Mabel
author_role author
author2 Pasini, Ariel Cristian
Pesado, Patricia Mabel
author2_role author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Modelos de lenguaje
Evaluación de calidad
Inteligencia artificial
ISO/IEC 25059
ISO/IEC TS 25058
GQM
topic Ciencias Informáticas
Modelos de lenguaje
Evaluación de calidad
Inteligencia artificial
ISO/IEC 25059
ISO/IEC TS 25058
GQM
dc.description.none.fl_txt_mv La creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa.
Red de Universidades con Carreras en Informática
description La creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa.
publishDate 2025
dc.date.none.fl_str_mv 2025-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/191129
url http://sedici.unlp.edu.ar/handle/10915/191129
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-987-8258-99-7
info:eu-repo/semantics/reference/hdl/10915/189846
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
628-637
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1864469133927645184
score 13.1485815