Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características

Autores
Masino, Nicolás Martín; Quintero-Rincón, Antonio
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Fil: Masino, Nicolás Martín. Pontificia Universidad Católica Argentina. Facultad de Ingeniería y Ciencias Agrarias. Departamento de Ciencia de Datos. Laboratorio de Ciencia de Datos e Inteligencia Artificial; Argentina
Fil: Quintero-Rincón, Antonio. Pontificia Universidad Católica Argentina. Departamento de Informática; Argentina
El cancer de mama es un tumor maligno que comienza a desarrollarse dentro de los conductos galatóforos o de los lobulillos que producen leche del seno, lo que resulta mortal si no se recibe tratamiento a tiempo. En consonancia con la Organización Mundial de la Salud (OMS), en el añoo 2020 se diagnosticaron cerca de 2,3 millones de mujeres con cáncer mamario. Asimismo, el tumor puede afectar a cualquier individuo indiscriminadamente, aunque la tasa suele ser mayor en sujetos femeninos mayores de 50 años. Con este escenario mundial resulta imprescindible contar con estrategias de detecci´on temprana de cáncer de mama. Bajo dicho lema, se propone usar el tamañoo del efecto d de Cohen como selector de caracter´ısticas para ser aplicado en un modelo de clasificación de Machine Learning (ML). El objetivo es reducir la dimensionalidad de los datos y así optimizar los predictores para diagnosticar el cáncer de mama. d de Cohen mide la fuerza de la relación entre dos poblaciones en una escala num´erica. Este selector propuesto se compara con dos métodos clásicos: cuantificación de vectores de aprendizaje (LVQ: Learning Vector Quantization) y eliminación recursiva de características (RFE: Recursive Feature Elimination). Para fines de experimentación se trabajo con las base de datos Breast Cancer Wisconsin. La evaluación aleatoria de las características de cada selector, se realizó 100 veces a través de un clasificador de máquina de vectores de soporte (SVM: Support Vector Machine), obteniéndose en promedio, los siguientes resultados: una sensibilidad de 0.91 y una especificidad de 0.96 para el modelo basado en LVQ, una sensibilidad de 0.96 y una especificidad de 0.97 empleando el método propuesto d de Cohen, contra una sensibilidad de 0.95 y una especificidad de 0.98 utilizando RFE. Estos resultados prometedores sugieren que la metodología propuesta es potencialmente útil como selector de características y abren una luz en la larga investigación en la detección de cáncer de mama.
Breast cancer is a tumor that begins to grow in the milk ducts or lobules and can become lethal if treatment is not administered in time. According to the World Health Organization (WHO), there were approximately 2.3 million cases of breast cancer in 2020. Furthermore, breast cancer can affect anyone, particularly women over 50 years old. Therefore, it is crucial to have early diagnostic techniques. We propose a novel method based on Cohen’s d for feature selection in this context. Cohen’s d is a statistical concept that quantifies the strength of the relationship between two populations on a numeric scale. The central idea is to utilize Cohen’s d effect size as a feature selector to reduce the dimensionality of the data and enhance the predictors through a Machine Learning (ML) classifier model for diagnosing breast cancer. For experimental purposes, the Breast Cancer Wisconsin database was used. This proposed feature selector is compared with two classical methods: Learning Vector Quantization (LVQ) and Recursive Feature Elimination (RFE). A random evaluation of the features of each selector was conducted 100 times using a Support Vector Machine (SVM) classifier, resulting in the following average outcomes: Cohen’s d based feature selector showed 0.96 sensitivity and 0.97 specificity, RFE based feature selector exhibited 0.95 sensitivity and 0.98 specificity, and LVQ based feature selector demonstrated 0.91 sensitivity and 0.96 specificity. These promising results indicate that the proposed methodology utilizing Cohen’s d may be a valuable feature selector and sheds light on the long-standing research into breast cancer detection.
Fuente
Inteligencia Artificial. 2025, 28(75)
Materia
CANCER DE MAMA
TAMAÑO DE EFECTO
D DE COHEN
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Repositorio Institucional (UCA)
Institución
Pontificia Universidad Católica Argentina
OAI Identificador
oai:ucacris:123456789/19868

id RIUCA_105cf9a597b7e5eed943111523153b3a
oai_identifier_str oai:ucacris:123456789/19868
network_acronym_str RIUCA
repository_id_str 2585
network_name_str Repositorio Institucional (UCA)
spelling Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de característicasMasino, Nicolás MartínQuintero-Rincón, AntonioCANCER DE MAMATAMAÑO DE EFECTOD DE COHENFil: Masino, Nicolás Martín. Pontificia Universidad Católica Argentina. Facultad de Ingeniería y Ciencias Agrarias. Departamento de Ciencia de Datos. Laboratorio de Ciencia de Datos e Inteligencia Artificial; ArgentinaFil: Quintero-Rincón, Antonio. Pontificia Universidad Católica Argentina. Departamento de Informática; ArgentinaEl cancer de mama es un tumor maligno que comienza a desarrollarse dentro de los conductos galatóforos o de los lobulillos que producen leche del seno, lo que resulta mortal si no se recibe tratamiento a tiempo. En consonancia con la Organización Mundial de la Salud (OMS), en el añoo 2020 se diagnosticaron cerca de 2,3 millones de mujeres con cáncer mamario. Asimismo, el tumor puede afectar a cualquier individuo indiscriminadamente, aunque la tasa suele ser mayor en sujetos femeninos mayores de 50 años. Con este escenario mundial resulta imprescindible contar con estrategias de detecci´on temprana de cáncer de mama. Bajo dicho lema, se propone usar el tamañoo del efecto d de Cohen como selector de caracter´ısticas para ser aplicado en un modelo de clasificación de Machine Learning (ML). El objetivo es reducir la dimensionalidad de los datos y así optimizar los predictores para diagnosticar el cáncer de mama. d de Cohen mide la fuerza de la relación entre dos poblaciones en una escala num´erica. Este selector propuesto se compara con dos métodos clásicos: cuantificación de vectores de aprendizaje (LVQ: Learning Vector Quantization) y eliminación recursiva de características (RFE: Recursive Feature Elimination). Para fines de experimentación se trabajo con las base de datos Breast Cancer Wisconsin. La evaluación aleatoria de las características de cada selector, se realizó 100 veces a través de un clasificador de máquina de vectores de soporte (SVM: Support Vector Machine), obteniéndose en promedio, los siguientes resultados: una sensibilidad de 0.91 y una especificidad de 0.96 para el modelo basado en LVQ, una sensibilidad de 0.96 y una especificidad de 0.97 empleando el método propuesto d de Cohen, contra una sensibilidad de 0.95 y una especificidad de 0.98 utilizando RFE. Estos resultados prometedores sugieren que la metodología propuesta es potencialmente útil como selector de características y abren una luz en la larga investigación en la detección de cáncer de mama.Breast cancer is a tumor that begins to grow in the milk ducts or lobules and can become lethal if treatment is not administered in time. According to the World Health Organization (WHO), there were approximately 2.3 million cases of breast cancer in 2020. Furthermore, breast cancer can affect anyone, particularly women over 50 years old. Therefore, it is crucial to have early diagnostic techniques. We propose a novel method based on Cohen’s d for feature selection in this context. Cohen’s d is a statistical concept that quantifies the strength of the relationship between two populations on a numeric scale. The central idea is to utilize Cohen’s d effect size as a feature selector to reduce the dimensionality of the data and enhance the predictors through a Machine Learning (ML) classifier model for diagnosing breast cancer. For experimental purposes, the Breast Cancer Wisconsin database was used. This proposed feature selector is compared with two classical methods: Learning Vector Quantization (LVQ) and Recursive Feature Elimination (RFE). A random evaluation of the features of each selector was conducted 100 times using a Support Vector Machine (SVM) classifier, resulting in the following average outcomes: Cohen’s d based feature selector showed 0.96 sensitivity and 0.97 specificity, RFE based feature selector exhibited 0.95 sensitivity and 0.98 specificity, and LVQ based feature selector demonstrated 0.91 sensitivity and 0.96 specificity. These promising results indicate that the proposed methodology utilizing Cohen’s d may be a valuable feature selector and sheds light on the long-standing research into breast cancer detection.Iberamia2025info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://repositorio.uca.edu.ar/handle/123456789/198681988-30641137-360110.4114/intartif.vol28iss75pp260-280Inteligencia Artificial. 2025, 28(75)reponame:Repositorio Institucional (UCA)instname:Pontificia Universidad Católica ArgentinaspaInteligencia artificial aplicada a ciencias biomédicasinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/2025-07-03T11:00:14Zoai:ucacris:123456789/19868instacron:UCAInstitucionalhttps://repositorio.uca.edu.ar/Universidad privadaNo correspondehttps://repositorio.uca.edu.ar/oaiclaudia_fernandez@uca.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:25852025-07-03 11:00:15.045Repositorio Institucional (UCA) - Pontificia Universidad Católica Argentinafalse
dc.title.none.fl_str_mv Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
title Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
spellingShingle Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
Masino, Nicolás Martín
CANCER DE MAMA
TAMAÑO DE EFECTO
D DE COHEN
title_short Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
title_full Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
title_fullStr Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
title_full_unstemmed Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
title_sort Diagnóstico de cáncer de mama usando el tamaño del efecto d de Cohen como selector de características
dc.creator.none.fl_str_mv Masino, Nicolás Martín
Quintero-Rincón, Antonio
author Masino, Nicolás Martín
author_facet Masino, Nicolás Martín
Quintero-Rincón, Antonio
author_role author
author2 Quintero-Rincón, Antonio
author2_role author
dc.subject.none.fl_str_mv CANCER DE MAMA
TAMAÑO DE EFECTO
D DE COHEN
topic CANCER DE MAMA
TAMAÑO DE EFECTO
D DE COHEN
dc.description.none.fl_txt_mv Fil: Masino, Nicolás Martín. Pontificia Universidad Católica Argentina. Facultad de Ingeniería y Ciencias Agrarias. Departamento de Ciencia de Datos. Laboratorio de Ciencia de Datos e Inteligencia Artificial; Argentina
Fil: Quintero-Rincón, Antonio. Pontificia Universidad Católica Argentina. Departamento de Informática; Argentina
El cancer de mama es un tumor maligno que comienza a desarrollarse dentro de los conductos galatóforos o de los lobulillos que producen leche del seno, lo que resulta mortal si no se recibe tratamiento a tiempo. En consonancia con la Organización Mundial de la Salud (OMS), en el añoo 2020 se diagnosticaron cerca de 2,3 millones de mujeres con cáncer mamario. Asimismo, el tumor puede afectar a cualquier individuo indiscriminadamente, aunque la tasa suele ser mayor en sujetos femeninos mayores de 50 años. Con este escenario mundial resulta imprescindible contar con estrategias de detecci´on temprana de cáncer de mama. Bajo dicho lema, se propone usar el tamañoo del efecto d de Cohen como selector de caracter´ısticas para ser aplicado en un modelo de clasificación de Machine Learning (ML). El objetivo es reducir la dimensionalidad de los datos y así optimizar los predictores para diagnosticar el cáncer de mama. d de Cohen mide la fuerza de la relación entre dos poblaciones en una escala num´erica. Este selector propuesto se compara con dos métodos clásicos: cuantificación de vectores de aprendizaje (LVQ: Learning Vector Quantization) y eliminación recursiva de características (RFE: Recursive Feature Elimination). Para fines de experimentación se trabajo con las base de datos Breast Cancer Wisconsin. La evaluación aleatoria de las características de cada selector, se realizó 100 veces a través de un clasificador de máquina de vectores de soporte (SVM: Support Vector Machine), obteniéndose en promedio, los siguientes resultados: una sensibilidad de 0.91 y una especificidad de 0.96 para el modelo basado en LVQ, una sensibilidad de 0.96 y una especificidad de 0.97 empleando el método propuesto d de Cohen, contra una sensibilidad de 0.95 y una especificidad de 0.98 utilizando RFE. Estos resultados prometedores sugieren que la metodología propuesta es potencialmente útil como selector de características y abren una luz en la larga investigación en la detección de cáncer de mama.
Breast cancer is a tumor that begins to grow in the milk ducts or lobules and can become lethal if treatment is not administered in time. According to the World Health Organization (WHO), there were approximately 2.3 million cases of breast cancer in 2020. Furthermore, breast cancer can affect anyone, particularly women over 50 years old. Therefore, it is crucial to have early diagnostic techniques. We propose a novel method based on Cohen’s d for feature selection in this context. Cohen’s d is a statistical concept that quantifies the strength of the relationship between two populations on a numeric scale. The central idea is to utilize Cohen’s d effect size as a feature selector to reduce the dimensionality of the data and enhance the predictors through a Machine Learning (ML) classifier model for diagnosing breast cancer. For experimental purposes, the Breast Cancer Wisconsin database was used. This proposed feature selector is compared with two classical methods: Learning Vector Quantization (LVQ) and Recursive Feature Elimination (RFE). A random evaluation of the features of each selector was conducted 100 times using a Support Vector Machine (SVM) classifier, resulting in the following average outcomes: Cohen’s d based feature selector showed 0.96 sensitivity and 0.97 specificity, RFE based feature selector exhibited 0.95 sensitivity and 0.98 specificity, and LVQ based feature selector demonstrated 0.91 sensitivity and 0.96 specificity. These promising results indicate that the proposed methodology utilizing Cohen’s d may be a valuable feature selector and sheds light on the long-standing research into breast cancer detection.
description Fil: Masino, Nicolás Martín. Pontificia Universidad Católica Argentina. Facultad de Ingeniería y Ciencias Agrarias. Departamento de Ciencia de Datos. Laboratorio de Ciencia de Datos e Inteligencia Artificial; Argentina
publishDate 2025
dc.date.none.fl_str_mv 2025
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://repositorio.uca.edu.ar/handle/123456789/19868
1988-3064
1137-3601
10.4114/intartif.vol28iss75pp260-280
url https://repositorio.uca.edu.ar/handle/123456789/19868
identifier_str_mv 1988-3064
1137-3601
10.4114/intartif.vol28iss75pp260-280
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv Inteligencia artificial aplicada a ciencias biomédicas
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Iberamia
publisher.none.fl_str_mv Iberamia
dc.source.none.fl_str_mv Inteligencia Artificial. 2025, 28(75)
reponame:Repositorio Institucional (UCA)
instname:Pontificia Universidad Católica Argentina
reponame_str Repositorio Institucional (UCA)
collection Repositorio Institucional (UCA)
instname_str Pontificia Universidad Católica Argentina
repository.name.fl_str_mv Repositorio Institucional (UCA) - Pontificia Universidad Católica Argentina
repository.mail.fl_str_mv claudia_fernandez@uca.edu.ar
_version_ 1836638377424715776
score 13.000565