Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM
- Autores
- Torres, Juan Ignacio; Pasini, Ariel Cristian; Pesado, Patricia Mabel
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa.
Red de Universidades con Carreras en Informática - Materia
-
Ciencias Informáticas
Modelos de lenguaje
Evaluación de calidad
Inteligencia artificial
ISO/IEC 25059
ISO/IEC TS 25058
GQM - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/191129
Ver los metadatos del registro completo
| id |
SEDICI_197ece07a6b12a788449b8d5c4277d95 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/191129 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQMTorres, Juan IgnacioPasini, Ariel CristianPesado, Patricia MabelCiencias InformáticasModelos de lenguajeEvaluación de calidadInteligencia artificialISO/IEC 25059ISO/IEC TS 25058GQMLa creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa.Red de Universidades con Carreras en Informática2025-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf628-637http://sedici.unlp.edu.ar/handle/10915/191129spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-8258-99-7info:eu-repo/semantics/reference/hdl/10915/189846info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-06T13:00:03Zoai:sedici.unlp.edu.ar:10915/191129Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-06 13:00:04.158SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| title |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| spellingShingle |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM Torres, Juan Ignacio Ciencias Informáticas Modelos de lenguaje Evaluación de calidad Inteligencia artificial ISO/IEC 25059 ISO/IEC TS 25058 GQM |
| title_short |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| title_full |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| title_fullStr |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| title_full_unstemmed |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| title_sort |
Evaluación de la calidad de modelos de lenguaje de gran escala basada en ISO/IEC 25059 e ISO/IEC TS 25058 mediante el enfoque GQM |
| dc.creator.none.fl_str_mv |
Torres, Juan Ignacio Pasini, Ariel Cristian Pesado, Patricia Mabel |
| author |
Torres, Juan Ignacio |
| author_facet |
Torres, Juan Ignacio Pasini, Ariel Cristian Pesado, Patricia Mabel |
| author_role |
author |
| author2 |
Pasini, Ariel Cristian Pesado, Patricia Mabel |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Modelos de lenguaje Evaluación de calidad Inteligencia artificial ISO/IEC 25059 ISO/IEC TS 25058 GQM |
| topic |
Ciencias Informáticas Modelos de lenguaje Evaluación de calidad Inteligencia artificial ISO/IEC 25059 ISO/IEC TS 25058 GQM |
| dc.description.none.fl_txt_mv |
La creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa. Red de Universidades con Carreras en Informática |
| description |
La creciente integración de modelos de lenguaje de gran escala en aplicaciones críticas demanda marcos de evaluación específicos que consideren su naturaleza no determinista. Se presenta una evaluación comparativa de cinco modelos de lenguaje de gran escala (LLMs) utilizando el enfoque Goal-QuestionMetric (GQM) y tomando como referencia las normas ISO/IEC 25059 e ISO/IEC TS 25058. A partir de estas normas se definieron objetivos evaluativos, preguntas específicas y métricas asociadas, orientadas a capturar propiedades relevantes desde la perspectiva del usuario. El instrumento fue aplicado por diez evaluadores con perfiles diversos, lo que permitió obtener una visión amplia sobre el comportamiento de cada modelo. Los resultados revelan diferencias significativas entre los sistemas evaluados, así como patrones comunes que permiten identificar fortalezas y debilidades compartidas, proporcionando insumos valiosos para la mejora de la calidad de sistemas de IA generativa. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/191129 |
| url |
http://sedici.unlp.edu.ar/handle/10915/191129 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/isbn/978-987-8258-99-7 info:eu-repo/semantics/reference/hdl/10915/189846 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 628-637 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1864469133927645184 |
| score |
13.1485815 |