Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración

Autores
Ferrer, Luciana; Ramos, Daniel
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.
Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these systems is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics—most commonly, the expected calibration error (ECE)—as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality and expected PSRs should instead be used for this job. While not useful for performance assessment, calibration metrics may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss. We compare this metric with the ECE and with the expected score divergence metric and argue that calibration loss is superior to these two metrics.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Teoría de decisión
Proper scoring rules
Calibración
Sistemas de clasificación
Decision theory
Calibration
Classification systems
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/190605

id SEDICI_9c1d099a0a5adf6bb317226257060c56
oai_identifier_str oai:sedici.unlp.edu.ar:10915/190605
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibraciónEvaluating posterior probabilities: Decision theory, proper scoring rules, and calibrationFerrer, LucianaRamos, DanielCiencias InformáticasTeoría de decisiónProper scoring rulesCalibraciónSistemas de clasificaciónDecision theoryCalibrationClassification systemsLa mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these systems is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics—most commonly, the expected calibration error (ECE)—as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality and expected PSRs should instead be used for this job. While not useful for performance assessment, calibration metrics may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss. We compare this metric with the ECE and with the expected score divergence metric and argue that calibration loss is superior to these two metrics.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionResumenhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf217-218http://sedici.unlp.edu.ar/handle/10915/190605spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19795info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:41:19Zoai:sedici.unlp.edu.ar:10915/190605Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:41:20.208SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
Evaluating posterior probabilities: Decision theory, proper scoring rules, and calibration
title Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
spellingShingle Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
Ferrer, Luciana
Ciencias Informáticas
Teoría de decisión
Proper scoring rules
Calibración
Sistemas de clasificación
Decision theory
Calibration
Classification systems
title_short Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_full Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_fullStr Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_full_unstemmed Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_sort Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
dc.creator.none.fl_str_mv Ferrer, Luciana
Ramos, Daniel
author Ferrer, Luciana
author_facet Ferrer, Luciana
Ramos, Daniel
author_role author
author2 Ramos, Daniel
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Teoría de decisión
Proper scoring rules
Calibración
Sistemas de clasificación
Decision theory
Calibration
Classification systems
topic Ciencias Informáticas
Teoría de decisión
Proper scoring rules
Calibración
Sistemas de clasificación
Decision theory
Calibration
Classification systems
dc.description.none.fl_txt_mv La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.
Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these systems is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics—most commonly, the expected calibration error (ECE)—as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality and expected PSRs should instead be used for this job. While not useful for performance assessment, calibration metrics may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss. We compare this metric with the ECE and with the expected score divergence metric and argue that calibration loss is superior to these two metrics.
Sociedad Argentina de Informática e Investigación Operativa
description La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.
publishDate 2025
dc.date.none.fl_str_mv 2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Resumen
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/190605
url http://sedici.unlp.edu.ar/handle/10915/190605
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19795
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
217-218
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1861199749413076992
score 13.231807