Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración

Autores: Ferrer, Luciana; Ramos, Daniel
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.
Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these systems is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics—most commonly, the expected calibration error (ECE)—as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality and expected PSRs should instead be used for this job. While not useful for performance assessment, calibration metrics may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss. We compare this metric with the ECE and with the expected score divergence metric and argue that calibration loss is superior to these two metrics.
Sociedad Argentina de Informática e Investigación Operativa
Materia: Ciencias Informáticas
Teoría de decisión
Proper scoring rules
Calibración
Sistemas de clasificación
Decision theory
Calibration
Classification systems
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/190605

Acceder

id	SEDICI_9c1d099a0a5adf6bb317226257060c56
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/190605
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibraciónEvaluating posterior probabilities: Decision theory, proper scoring rules, and calibrationFerrer, LucianaRamos, DanielCiencias InformáticasTeoría de decisiónProper scoring rulesCalibraciónSistemas de clasificaciónDecision theoryCalibrationClassification systemsLa mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these systems is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics—most commonly, the expected calibration error (ECE)—as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality and expected PSRs should instead be used for this job. While not useful for performance assessment, calibration metrics may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss. We compare this metric with the ECE and with the expected score divergence metric and argue that calibration loss is superior to these two metrics.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf217-218http://sedici.unlp.edu.ar/handle/10915/190605spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19795info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:46:30Zoai:sedici.unlp.edu.ar:10915/190605Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:46:31.143SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración Evaluating posterior probabilities: Decision theory, proper scoring rules, and calibration
title	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
spellingShingle	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración Ferrer, Luciana Ciencias Informáticas Teoría de decisión Proper scoring rules Calibración Sistemas de clasificación Decision theory Calibration Classification systems
title_short	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_full	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_fullStr	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_full_unstemmed	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
title_sort	Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración
dc.creator.none.fl_str_mv	Ferrer, Luciana Ramos, Daniel
author	Ferrer, Luciana
author_facet	Ferrer, Luciana Ramos, Daniel
author_role	author
author2	Ramos, Daniel
author2_role	author
dc.subject.none.fl_str_mv	Ciencias Informáticas Teoría de decisión Proper scoring rules Calibración Sistemas de clasificación Decision theory Calibration Classification systems
topic	Ciencias Informáticas Teoría de decisión Proper scoring rules Calibración Sistemas de clasificación Decision theory Calibration Classification systems
dc.description.none.fl_txt_mv	La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas. Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these systems is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics—most commonly, the expected calibration error (ECE)—as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality and expected PSRs should instead be used for this job. While not useful for performance assessment, calibration metrics may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss. We compare this metric with the ECE and with the expected score divergence metric and argue that calibration loss is superior to these two metrics. Sociedad Argentina de Informática e Investigación Operativa
description	La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.
publishDate	2025
dc.date.none.fl_str_mv	2025-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/190605
url	http://sedici.unlp.edu.ar/handle/10915/190605
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19795 info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf 217-218
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866372189624729600
score	13.143419

Evaluación de probabilidades a posteriori: teoría de decisión, proper scoring rules y calibración

Publicaciones similares