CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images
- Autores
- Gaggion Zulpo, Rafael Nicolás; Mosquera, Candelaria; Mansilla, Lucas Andrés; Saidman, Julia Mariel; Aineseder, Martina; Milone, Diego Humberto; Ferrante, Enzo
- Año de publicación
- 2024
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from five well-known publicly available databases: ChestX-ray8, CheXpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 657,566 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis.
Fil: Gaggion Zulpo, Rafael Nicolás. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina
Fil: Mosquera, Candelaria. Hospital Italiano. Departamento de Informática En Salud.; Argentina. Universidad Tecnológica Nacional; Argentina
Fil: Mansilla, Lucas Andrés. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina
Fil: Saidman, Julia Mariel. Hospital Italiano. Departamento de Informática En Salud.; Argentina
Fil: Aineseder, Martina. Hospital Italiano. Departamento de Informática En Salud.; Argentina
Fil: Milone, Diego Humberto. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina
Fil: Ferrante, Enzo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina - Materia
-
deep learning
datasets
xray
medical image segmentation - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/258292
Ver los metadatos del registro completo
id |
CONICETDig_5ecc9ce0ddbe16053c45ca8523dd23c0 |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/258292 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray imagesGaggion Zulpo, Rafael NicolásMosquera, CandelariaMansilla, Lucas AndrésSaidman, Julia MarielAineseder, MartinaMilone, Diego HumbertoFerrante, Enzodeep learningdatasetsxraymedical image segmentationhttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from five well-known publicly available databases: ChestX-ray8, CheXpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 657,566 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis.Fil: Gaggion Zulpo, Rafael Nicolás. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; ArgentinaFil: Mosquera, Candelaria. Hospital Italiano. Departamento de Informática En Salud.; Argentina. Universidad Tecnológica Nacional; ArgentinaFil: Mansilla, Lucas Andrés. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; ArgentinaFil: Saidman, Julia Mariel. Hospital Italiano. Departamento de Informática En Salud.; ArgentinaFil: Aineseder, Martina. Hospital Italiano. Departamento de Informática En Salud.; ArgentinaFil: Milone, Diego Humberto. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; ArgentinaFil: Ferrante, Enzo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; ArgentinaNature2024-05info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/258292Gaggion Zulpo, Rafael Nicolás; Mosquera, Candelaria; Mansilla, Lucas Andrés; Saidman, Julia Mariel; Aineseder, Martina; et al.; CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images; Nature; Scientific Data; 11; 1; 5-2024; 1-162052-4463CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://www.nature.com/articles/s41597-024-03358-1info:eu-repo/semantics/altIdentifier/doi/10.1038/s41597-024-03358-1info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T10:23:12Zoai:ri.conicet.gov.ar:11336/258292instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 10:23:13.122CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
title |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
spellingShingle |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images Gaggion Zulpo, Rafael Nicolás deep learning datasets xray medical image segmentation |
title_short |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
title_full |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
title_fullStr |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
title_full_unstemmed |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
title_sort |
CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images |
dc.creator.none.fl_str_mv |
Gaggion Zulpo, Rafael Nicolás Mosquera, Candelaria Mansilla, Lucas Andrés Saidman, Julia Mariel Aineseder, Martina Milone, Diego Humberto Ferrante, Enzo |
author |
Gaggion Zulpo, Rafael Nicolás |
author_facet |
Gaggion Zulpo, Rafael Nicolás Mosquera, Candelaria Mansilla, Lucas Andrés Saidman, Julia Mariel Aineseder, Martina Milone, Diego Humberto Ferrante, Enzo |
author_role |
author |
author2 |
Mosquera, Candelaria Mansilla, Lucas Andrés Saidman, Julia Mariel Aineseder, Martina Milone, Diego Humberto Ferrante, Enzo |
author2_role |
author author author author author author |
dc.subject.none.fl_str_mv |
deep learning datasets xray medical image segmentation |
topic |
deep learning datasets xray medical image segmentation |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/1.2 https://purl.org/becyt/ford/1 |
dc.description.none.fl_txt_mv |
The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from five well-known publicly available databases: ChestX-ray8, CheXpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 657,566 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis. Fil: Gaggion Zulpo, Rafael Nicolás. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina Fil: Mosquera, Candelaria. Hospital Italiano. Departamento de Informática En Salud.; Argentina. Universidad Tecnológica Nacional; Argentina Fil: Mansilla, Lucas Andrés. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina Fil: Saidman, Julia Mariel. Hospital Italiano. Departamento de Informática En Salud.; Argentina Fil: Aineseder, Martina. Hospital Italiano. Departamento de Informática En Salud.; Argentina Fil: Milone, Diego Humberto. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina Fil: Ferrante, Enzo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Santa Fe. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas. Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional; Argentina |
description |
The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from five well-known publicly available databases: ChestX-ray8, CheXpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 657,566 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-05 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/258292 Gaggion Zulpo, Rafael Nicolás; Mosquera, Candelaria; Mansilla, Lucas Andrés; Saidman, Julia Mariel; Aineseder, Martina; et al.; CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images; Nature; Scientific Data; 11; 1; 5-2024; 1-16 2052-4463 CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/258292 |
identifier_str_mv |
Gaggion Zulpo, Rafael Nicolás; Mosquera, Candelaria; Mansilla, Lucas Andrés; Saidman, Julia Mariel; Aineseder, Martina; et al.; CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images; Nature; Scientific Data; 11; 1; 5-2024; 1-16 2052-4463 CONICET Digital CONICET |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://www.nature.com/articles/s41597-024-03358-1 info:eu-repo/semantics/altIdentifier/doi/10.1038/s41597-024-03358-1 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by/2.5/ar/ |
dc.format.none.fl_str_mv |
application/pdf application/pdf application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
Nature |
publisher.none.fl_str_mv |
Nature |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1844614226413355008 |
score |
13.069144 |