Thousands of protein linear motif classes may still be undiscovered

Autores
Bulavka, Denys; Aptekmann, Ariel; Méndez, Nicolás Agustín; Krick, Teresa Elena Genoveva; Sánchez Miguel, Ignacio Enrique
Año de publicación
2021
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Linear motifs are short protein subsequences that mediate protein interactions. Hundreds of motif classes including thousands of motif instances are known. Our theory estimates how many motif classes remain undiscovered. As commonly done, we describe motif classes asregular expressions specifying motif length and the allowed amino acids at each motif position.We measure motif specificity for a pair of motif classes by quantifying how many motifdiscriminatingpositions prevent a protein subsequence from matching the two classes atonce. We derive theorems for the maximal number of motif classes that can simultaneouslymaintain a certain number of motif-discriminating positions between all pairs of classes inthe motif universe, for a given amino acid alphabet. We also calculate the fraction of all proteinsubsequences that would belong to a motif class if all potential motif classes came intoexistence. Naturally occurring pairs of motif classes present most often a single motif-discriminatingposition. This mild specificity maximizes the potential number of coexisting motifclasses, the expansion of the motif universe due to amino acid modifications and the fractionof amino acid sequences that code for a motif instance. As a result, thousands of linearmotif classes may remain undiscovered.
Fil: Bulavka, Denys. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Matemática; Argentina
Fil: Aptekmann, Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina. Rutgers University; Estados Unidos
Fil: Méndez, Nicolás Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina
Fil: Krick, Teresa Elena Genoveva. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigaciones Matemáticas "Luis A. Santaló". Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Matemáticas "Luis A. Santaló"; Argentina
Fil: Sánchez Miguel, Ignacio Enrique. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina
Materia
MOTIVOS LINEALES
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/159261

id CONICETDig_1516759d8426b42d42a439651dbc531e
oai_identifier_str oai:ri.conicet.gov.ar:11336/159261
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Thousands of protein linear motif classes may still be undiscoveredBulavka, DenysAptekmann, ArielMéndez, Nicolás AgustínKrick, Teresa Elena GenovevaSánchez Miguel, Ignacio EnriqueMOTIVOS LINEALEShttps://purl.org/becyt/ford/1.6https://purl.org/becyt/ford/1https://purl.org/becyt/ford/1.1https://purl.org/becyt/ford/1Linear motifs are short protein subsequences that mediate protein interactions. Hundreds of motif classes including thousands of motif instances are known. Our theory estimates how many motif classes remain undiscovered. As commonly done, we describe motif classes asregular expressions specifying motif length and the allowed amino acids at each motif position.We measure motif specificity for a pair of motif classes by quantifying how many motifdiscriminatingpositions prevent a protein subsequence from matching the two classes atonce. We derive theorems for the maximal number of motif classes that can simultaneouslymaintain a certain number of motif-discriminating positions between all pairs of classes inthe motif universe, for a given amino acid alphabet. We also calculate the fraction of all proteinsubsequences that would belong to a motif class if all potential motif classes came intoexistence. Naturally occurring pairs of motif classes present most often a single motif-discriminatingposition. This mild specificity maximizes the potential number of coexisting motifclasses, the expansion of the motif universe due to amino acid modifications and the fractionof amino acid sequences that code for a motif instance. As a result, thousands of linearmotif classes may remain undiscovered.Fil: Bulavka, Denys. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Matemática; ArgentinaFil: Aptekmann, Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina. Rutgers University; Estados UnidosFil: Méndez, Nicolás Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; ArgentinaFil: Krick, Teresa Elena Genoveva. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigaciones Matemáticas "Luis A. Santaló". Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Matemáticas "Luis A. Santaló"; ArgentinaFil: Sánchez Miguel, Ignacio Enrique. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; ArgentinaPublic Library of Science2021-05-03info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/159261Bulavka, Denys; Aptekmann, Ariel; Méndez, Nicolás Agustín; Krick, Teresa Elena Genoveva; Sánchez Miguel, Ignacio Enrique; Thousands of protein linear motif classes may still be undiscovered; Public Library of Science; Plos One; 3-5-2021; 1-201932-6203CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/doi/10.1371/journal.pone.0248841info:eu-repo/semantics/altIdentifier/url/https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0248841info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-10-15T14:36:38Zoai:ri.conicet.gov.ar:11336/159261instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-10-15 14:36:38.51CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Thousands of protein linear motif classes may still be undiscovered
title Thousands of protein linear motif classes may still be undiscovered
spellingShingle Thousands of protein linear motif classes may still be undiscovered
Bulavka, Denys
MOTIVOS LINEALES
title_short Thousands of protein linear motif classes may still be undiscovered
title_full Thousands of protein linear motif classes may still be undiscovered
title_fullStr Thousands of protein linear motif classes may still be undiscovered
title_full_unstemmed Thousands of protein linear motif classes may still be undiscovered
title_sort Thousands of protein linear motif classes may still be undiscovered
dc.creator.none.fl_str_mv Bulavka, Denys
Aptekmann, Ariel
Méndez, Nicolás Agustín
Krick, Teresa Elena Genoveva
Sánchez Miguel, Ignacio Enrique
author Bulavka, Denys
author_facet Bulavka, Denys
Aptekmann, Ariel
Méndez, Nicolás Agustín
Krick, Teresa Elena Genoveva
Sánchez Miguel, Ignacio Enrique
author_role author
author2 Aptekmann, Ariel
Méndez, Nicolás Agustín
Krick, Teresa Elena Genoveva
Sánchez Miguel, Ignacio Enrique
author2_role author
author
author
author
dc.subject.none.fl_str_mv MOTIVOS LINEALES
topic MOTIVOS LINEALES
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.6
https://purl.org/becyt/ford/1
https://purl.org/becyt/ford/1.1
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv Linear motifs are short protein subsequences that mediate protein interactions. Hundreds of motif classes including thousands of motif instances are known. Our theory estimates how many motif classes remain undiscovered. As commonly done, we describe motif classes asregular expressions specifying motif length and the allowed amino acids at each motif position.We measure motif specificity for a pair of motif classes by quantifying how many motifdiscriminatingpositions prevent a protein subsequence from matching the two classes atonce. We derive theorems for the maximal number of motif classes that can simultaneouslymaintain a certain number of motif-discriminating positions between all pairs of classes inthe motif universe, for a given amino acid alphabet. We also calculate the fraction of all proteinsubsequences that would belong to a motif class if all potential motif classes came intoexistence. Naturally occurring pairs of motif classes present most often a single motif-discriminatingposition. This mild specificity maximizes the potential number of coexisting motifclasses, the expansion of the motif universe due to amino acid modifications and the fractionof amino acid sequences that code for a motif instance. As a result, thousands of linearmotif classes may remain undiscovered.
Fil: Bulavka, Denys. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Matemática; Argentina
Fil: Aptekmann, Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina. Rutgers University; Estados Unidos
Fil: Méndez, Nicolás Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina
Fil: Krick, Teresa Elena Genoveva. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigaciones Matemáticas "Luis A. Santaló". Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Matemáticas "Luis A. Santaló"; Argentina
Fil: Sánchez Miguel, Ignacio Enrique. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentina
description Linear motifs are short protein subsequences that mediate protein interactions. Hundreds of motif classes including thousands of motif instances are known. Our theory estimates how many motif classes remain undiscovered. As commonly done, we describe motif classes asregular expressions specifying motif length and the allowed amino acids at each motif position.We measure motif specificity for a pair of motif classes by quantifying how many motifdiscriminatingpositions prevent a protein subsequence from matching the two classes atonce. We derive theorems for the maximal number of motif classes that can simultaneouslymaintain a certain number of motif-discriminating positions between all pairs of classes inthe motif universe, for a given amino acid alphabet. We also calculate the fraction of all proteinsubsequences that would belong to a motif class if all potential motif classes came intoexistence. Naturally occurring pairs of motif classes present most often a single motif-discriminatingposition. This mild specificity maximizes the potential number of coexisting motifclasses, the expansion of the motif universe due to amino acid modifications and the fractionof amino acid sequences that code for a motif instance. As a result, thousands of linearmotif classes may remain undiscovered.
publishDate 2021
dc.date.none.fl_str_mv 2021-05-03
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/159261
Bulavka, Denys; Aptekmann, Ariel; Méndez, Nicolás Agustín; Krick, Teresa Elena Genoveva; Sánchez Miguel, Ignacio Enrique; Thousands of protein linear motif classes may still be undiscovered; Public Library of Science; Plos One; 3-5-2021; 1-20
1932-6203
CONICET Digital
CONICET
url http://hdl.handle.net/11336/159261
identifier_str_mv Bulavka, Denys; Aptekmann, Ariel; Méndez, Nicolás Agustín; Krick, Teresa Elena Genoveva; Sánchez Miguel, Ignacio Enrique; Thousands of protein linear motif classes may still be undiscovered; Public Library of Science; Plos One; 3-5-2021; 1-20
1932-6203
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/doi/10.1371/journal.pone.0248841
info:eu-repo/semantics/altIdentifier/url/https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0248841
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Public Library of Science
publisher.none.fl_str_mv Public Library of Science
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1846082833558274048
score 13.22299