A novel distance that reduces information loss in continuous characters with few observations

Autores
Lo Valvo, Gerardo A.; Lehmann, Oscar E. R.; Balseiro, Diego
Año de publicación
2023
Idioma
inglés
Tipo de recurso
conjunto de datos
Estado
versión publicada
Descripción
Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.
Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.
Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
The calculation of pairwise distances is a fundamental step in many statistical analyses in biology and paleontology. The most commonly used distances work with a single observation per object and character, but there are scenarios where multiple observations are available per object. In these situations, the information for the character spans an interval, and pairs of objects can have overlapping intervals, which further complicates the distance calculation. Some coefficients can deal with this wealth of information but are either too coarse to provide detailed results or too computationally demanding for even moderately large data sets. Here, we present the Distance Between Intervals (DBI) as a novel semi-metric distance that can accommodate both singular and multiple observations per object by analyzing them as intervals. The DBI ranges from 0 to 1 when there is an overlap between the objects and from 1 to infinity when there is no overlap between them. It is easy to calculate and can be applied to a wide variety of data types. Both simulated and empirical test cases show that the DBI correctly ranks pairs of objects by their level of overlap and non-overlap, while other distances struggle to do it. Therefore the DBI can provide a finer level of definition than other available distances for empirical data sets, while generally agreeing with the broad results they provide. An implementation of DBI is provided for the R programming language.
En biología y paleontología, el cálculo de distancias pareadas es un paso fundamental en muchos análisis estadísticos. Los coeficientes de distancia más comunes utilizan un único valor por objeto y carácter, pero hay escenarios donde hay múltiples observaciones por objeto. En estas situaciones, la información para el carácter abarca un intervalo y los intervalos de un par de objetos pueden superponerse, complicando aún más el cálculo de la distancia. Existen coeficientes que pueden manejar una gran cantidad de información por objeto, pero por la baja resolución de sus resultados son poco detallados o bien tienen un costo computacional demasiado elevado, incluso para conjuntos de datos moderadamente grandes. Aquí presentamos la Distancia Entre Intervalos (DBI por sus siglas en inglés) como una nueva distancia semimétrica que puede trabajar con objetos con una o más observaciones al analizarlos como intervalos. La DBI varía entre 0 y 1 cuando los intervalos de los objetos se superponen y de 1 a infinito cuando no hay superposición entre ellos. El coeficiente es fácil de calcular y se puede aplicar a una amplia variedad de tipos de datos. Simulaciones computacionales y bases de datos empíricas muestran que DBI es mejor para reconocer las diferencias entre objetos según su variabilidad. Por lo tanto, la DBI puede proporcionar un mayor nivel de definición que otras distancias disponibles en sus resultados, mientras que está de acuerdo con la tendencia general de los resultados que brindan. Se proporciona una implementación de DBI para el lenguaje de programación R.
Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.
Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.
Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
Materia
Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/546977

id RDUUNC_143dd03795ab0c68351356561ed7834e
oai_identifier_str oai:rdu.unc.edu.ar:11086/546977
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling A novel distance that reduces information loss in continuous characters with few observationsNueva distancia que reduce la pérdida de información para caracteres continuos con pocas observacionesLo Valvo, Gerardo A.Lehmann, Oscar E. R.Balseiro, DiegoDistance coefficientDistance matrixContinuous charactersIntervalsOverlapCoeficiente de distanciaMatriz de distanciaCaracteres continuosIntervalosSuperposiciónhttps://purl.org/becyt/ford/1.5Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.The calculation of pairwise distances is a fundamental step in many statistical analyses in biology and paleontology. The most commonly used distances work with a single observation per object and character, but there are scenarios where multiple observations are available per object. In these situations, the information for the character spans an interval, and pairs of objects can have overlapping intervals, which further complicates the distance calculation. Some coefficients can deal with this wealth of information but are either too coarse to provide detailed results or too computationally demanding for even moderately large data sets. Here, we present the Distance Between Intervals (DBI) as a novel semi-metric distance that can accommodate both singular and multiple observations per object by analyzing them as intervals. The DBI ranges from 0 to 1 when there is an overlap between the objects and from 1 to infinity when there is no overlap between them. It is easy to calculate and can be applied to a wide variety of data types. Both simulated and empirical test cases show that the DBI correctly ranks pairs of objects by their level of overlap and non-overlap, while other distances struggle to do it. Therefore the DBI can provide a finer level of definition than other available distances for empirical data sets, while generally agreeing with the broad results they provide. An implementation of DBI is provided for the R programming language.En biología y paleontología, el cálculo de distancias pareadas es un paso fundamental en muchos análisis estadísticos. Los coeficientes de distancia más comunes utilizan un único valor por objeto y carácter, pero hay escenarios donde hay múltiples observaciones por objeto. En estas situaciones, la información para el carácter abarca un intervalo y los intervalos de un par de objetos pueden superponerse, complicando aún más el cálculo de la distancia. Existen coeficientes que pueden manejar una gran cantidad de información por objeto, pero por la baja resolución de sus resultados son poco detallados o bien tienen un costo computacional demasiado elevado, incluso para conjuntos de datos moderadamente grandes. Aquí presentamos la Distancia Entre Intervalos (DBI por sus siglas en inglés) como una nueva distancia semimétrica que puede trabajar con objetos con una o más observaciones al analizarlos como intervalos. La DBI varía entre 0 y 1 cuando los intervalos de los objetos se superponen y de 1 a infinito cuando no hay superposición entre ellos. El coeficiente es fácil de calcular y se puede aplicar a una amplia variedad de tipos de datos. Simulaciones computacionales y bases de datos empíricas muestran que DBI es mejor para reconocer las diferencias entre objetos según su variabilidad. Por lo tanto, la DBI puede proporcionar un mayor nivel de definición que otras distancias disponibles en sus resultados, mientras que está de acuerdo con la tendencia general de los resultados que brindan. Se proporciona una implementación de DBI para el lenguaje de programación R.Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.https://orcid.org/0000-0003-2705-8985https://orcid.org/0000-0002-2582-372Xhttps://orcid.org/0000-0003-3015-90662023info:eu-repo/semantics/dataSetinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_ddb1info:ar-repo/semantics/conjuntoDeDatosapplication/x-rar-compressedapplication/octet-streamtext/plainhttp://hdl.handle.net/11086/546977enginfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2025-10-16T09:31:07Zoai:rdu.unc.edu.ar:11086/546977Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722025-10-16 09:31:07.543Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv A novel distance that reduces information loss in continuous characters with few observations
Nueva distancia que reduce la pérdida de información para caracteres continuos con pocas observaciones
title A novel distance that reduces information loss in continuous characters with few observations
spellingShingle A novel distance that reduces information loss in continuous characters with few observations
Lo Valvo, Gerardo A.
Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
title_short A novel distance that reduces information loss in continuous characters with few observations
title_full A novel distance that reduces information loss in continuous characters with few observations
title_fullStr A novel distance that reduces information loss in continuous characters with few observations
title_full_unstemmed A novel distance that reduces information loss in continuous characters with few observations
title_sort A novel distance that reduces information loss in continuous characters with few observations
dc.creator.none.fl_str_mv Lo Valvo, Gerardo A.
Lehmann, Oscar E. R.
Balseiro, Diego
author Lo Valvo, Gerardo A.
author_facet Lo Valvo, Gerardo A.
Lehmann, Oscar E. R.
Balseiro, Diego
author_role author
author2 Lehmann, Oscar E. R.
Balseiro, Diego
author2_role author
author
dc.contributor.none.fl_str_mv https://orcid.org/0000-0003-2705-8985
https://orcid.org/0000-0002-2582-372X
https://orcid.org/0000-0003-3015-9066
dc.subject.none.fl_str_mv Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
topic Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.5
dc.description.none.fl_txt_mv Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.
Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.
Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
The calculation of pairwise distances is a fundamental step in many statistical analyses in biology and paleontology. The most commonly used distances work with a single observation per object and character, but there are scenarios where multiple observations are available per object. In these situations, the information for the character spans an interval, and pairs of objects can have overlapping intervals, which further complicates the distance calculation. Some coefficients can deal with this wealth of information but are either too coarse to provide detailed results or too computationally demanding for even moderately large data sets. Here, we present the Distance Between Intervals (DBI) as a novel semi-metric distance that can accommodate both singular and multiple observations per object by analyzing them as intervals. The DBI ranges from 0 to 1 when there is an overlap between the objects and from 1 to infinity when there is no overlap between them. It is easy to calculate and can be applied to a wide variety of data types. Both simulated and empirical test cases show that the DBI correctly ranks pairs of objects by their level of overlap and non-overlap, while other distances struggle to do it. Therefore the DBI can provide a finer level of definition than other available distances for empirical data sets, while generally agreeing with the broad results they provide. An implementation of DBI is provided for the R programming language.
En biología y paleontología, el cálculo de distancias pareadas es un paso fundamental en muchos análisis estadísticos. Los coeficientes de distancia más comunes utilizan un único valor por objeto y carácter, pero hay escenarios donde hay múltiples observaciones por objeto. En estas situaciones, la información para el carácter abarca un intervalo y los intervalos de un par de objetos pueden superponerse, complicando aún más el cálculo de la distancia. Existen coeficientes que pueden manejar una gran cantidad de información por objeto, pero por la baja resolución de sus resultados son poco detallados o bien tienen un costo computacional demasiado elevado, incluso para conjuntos de datos moderadamente grandes. Aquí presentamos la Distancia Entre Intervalos (DBI por sus siglas en inglés) como una nueva distancia semimétrica que puede trabajar con objetos con una o más observaciones al analizarlos como intervalos. La DBI varía entre 0 y 1 cuando los intervalos de los objetos se superponen y de 1 a infinito cuando no hay superposición entre ellos. El coeficiente es fácil de calcular y se puede aplicar a una amplia variedad de tipos de datos. Simulaciones computacionales y bases de datos empíricas muestran que DBI es mejor para reconocer las diferencias entre objetos según su variabilidad. Por lo tanto, la DBI puede proporcionar un mayor nivel de definición que otras distancias disponibles en sus resultados, mientras que está de acuerdo con la tendencia general de los resultados que brindan. Se proporciona una implementación de DBI para el lenguaje de programación R.
Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.
Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.
Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
description Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
publishDate 2023
dc.date.none.fl_str_mv 2023
dc.type.none.fl_str_mv info:eu-repo/semantics/dataSet
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_ddb1
info:ar-repo/semantics/conjuntoDeDatos
format dataSet
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/546977
url http://hdl.handle.net/11086/546977
dc.language.none.fl_str_mv eng
language eng
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/x-rar-compressed
application/octet-stream
text/plain
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1846143392124239872
score 13.22299