IDENTIFICACIÓ DE REPETICIONS D'AMINOÀCIDS EN SEQÜÈNCIES DE PROTEÏNES

Y.Acosta i M.Becerra

Índex:
  1. Introducció
  2. Material
  3. Resultats
  4. Discussió
  5. Referències

Introducció:

En aquest treball hem buscat les repeticions d'aminoàcids a dos mamífers, el ratolí i l'humà, i a Caenorhabditis Elegans. Hem considerat només aquelles repeticions amb més de cinc aminoàcids iguals i consecutives (repeticions en tàndem). Aquest tipus de repeticions són les anomenades Homopolimèriques i són forša abundants entre els eucariotes, normalment com a conseqüència de l'"slippage". En aquest procés, repeticions de trinucleòtids provocarien errors de la polimerasa en la replicació. Aquests errors acabarien produint finalment un augment en el nombre de determinats aminoàcids; les repeticions en baix nombre podrien no ser importants per la funcionalitat final de la proteïna, però en altres casos, depenent dels dominis afectats, es podrien produir proteïnes deficients funcionalment, i per tant en molts casos podrien ser les responsables de determinades malalties.

Hem determinat la posició de cada una de les repeticions dintre de cada proteïna dividint la llargada total de la proteïna en quatre quartils, que ens permetran determinar si es troben al principi (primer quartil), al final (quart quartil) o al mig (segon i tercer quartil). A més també hem determinat la llargada de cada una d'aquestes repeticions. Pel que fa referència a les proteïnes en sí, hem mesurat el nombre de proteïnes amb repeticions a cada organisme del total analitzat. Aquestes dades han estat tractades amb la finalitat de buscar quins són els aminoàcids que més es repeteixen i on queden localitzats dintre de les proteïna, i així intentar treure alguna possible conclusió d'aquests resultats. A més, el fet d'haver comparat dos mamífers, per tant, dos organismes forša propers filogenèticament parlant, ens donarà la possibilitat de pensar si aquestes repeticions són pròpies de l'organisme en concret, o bé, venen d'un antecessor comú. A part dels dos mamífers també hem analitzat un nemàtode, per tant, un organisme molt més llunyà als dos anteriors, i que ens ajudarà a acabar de discutir quant d'antigues són aquestes repeticions.


ÍNDEX

Material:
  • Unix (Emacs i Shell): els hem utilitzat per fer el programa que ens han permès obtenir els resultats de l'humà, el ratolí i el C.elegans; a partir dels quals hem treballat posteriorment.
  • Ensembl: ens ha permès obtenir les proteïnes de C.elegans, així com obtenir les funcions de les proteïnes humanes en un fitxer de text, que posteriorment vam manipular mitjanšant comandes del UNIX per poder-les relacionar amb els nostres resultats.
  • Excel, Word, Adobe Photoshop: han estat utilitzats per l'obtenció dels gràfics i la manipulació de les dades.
  • Les seqüències de les proteïnes humanes i de ratolí: ens van ser proporcionades mitjašant el Persy en format FASTA.

ÍNDEX

Resultats:

Gràfics de número de repeticions d'aminoàcids.


Gràfic 1.
Aquest gràfic mostra en termes absoluts el nombre de repeticions de cada aminoàcid a totes les proteïnes humanes. Observem com els més abundants són (de més a menys) Àcid Glutàmic, Prolina, Leucina, Serina i Alanina. Aquests resultats serien informatius en quant a quins són els aminoàcids que més es repeteixen en aquest organisme, però no serien útils a l'hora de comparar amb altres espècies, ja que el nombre de repeticions total de cada aminoàcid variarà.



Gràfic 2.
Aquest gràfic s'ha obtingut a partir de l'anterior, però ara la informació ve donada en tant per cent. Aquest tipus de resultats ens permetran comparar les repeticions observades a diferents organismes. Les repeticions de cada aminoàcid es divideixen pel nombre total de repeticions observades al conjunt d'aminoàcids, per tant el resultat de les comparacions no vindrà condicionat per exemple pel nombre de proteïnes de cada espècie.



Gràfic 3.
Aquest gràfic és l'equivalent al Gràfic 1., però en aquest cas pel ratolí. Els aminoàcids que més es repeteixen en aquest cas són els mateixos que en el cas de l'humà, però ara la Serina té més repeticions que la Leucina. A més el nombre de repeticions de cada un dels aminoàcids varia respecte a l'humà, però el resultat que principalment ens interessa és el primer. Es pot observar com el nombre de repeticions ha disminuit respecte a l'humà però d'una manera uniforme a tots els aminoàcids, és a dir, les repeticions més abundants són dels mateixos aminoàcids als dos organismes.



Gràfic 4.
De la mateixa manera que en el cas de l'humà hem realitzar el tant per cent per poder comparar. Observem que les proporcions són molt semblants als dos organismes, i no només això, sinó que als dos la proporció de Serines i Leucines repetides és igual.



Gràfic 5.
Aquesta és la gràfica del número de repeticions per cada aminoàcid a C.elegans. En aquest cas els resultats són molt diferents, ja que l'aminoàcid que presenta més repeticions és la Serina, seguit de Prolina, Treonina, Glicina i Glutamina. A més podem observar el fet de que aminoàcids que presentaven moltes repeticions en els organismes anteriors ara no ho fan, seria el cas de l'Àcid glutàmic, la Leucina i l'Alanina.



Gràfic 6.
De la mateixa manera que hem fet amb els dos mamífers, aquesta és la gràfica en tant per cent per C.elegans. Podem observar com el fet que havíem observat als dos organismes anteriors de que la Serina i l'Arginina es repetien en les mateixes proporcions ara no s'observa, és més, la Leucina apareix en molt baixa proporció. Més tard, a la discurssió tractarem aquests resultats.

Gràfics del número de repeticions de cada aminoàcids (per intèrvals).

Els següents gràfics ens permetran comentar posteriorment alguns dels resultats obtinguts en un dels articles de la bibliografia utilitzada per realitzar aquest treball. (Green and Wang 1994).

Gràfic 7.
En aquest gràfic podem veure les proteïnes amb repeticions d'aminoàcids de llargada 5-9 a l'humà.


Gràfic 8.
Gràfic amb repeticions en tàndem d'una llargada de 10 a 14 aminoàcids en humà. Es pot observar com el número de seqüències amb aquesta llargada de repeticions és molt menor que l'anterior. Mentres que en el cas de repeticions de 5 a 9 hi havia aminoàcids que teniem fins a 100 repeticions amb aquesta llargada, en el gràfic de 10 a 14 repeticions cap aminoàcid arriba a tenir més de 80. El que també es pot observar és que les repeticions han disminuit gairebé proporcionalment a tots els aminoàcids, ja que els que no presentaven repeticions més curtes ara tampoc les presenten, i els que sí que en tenien ara continuen apareixent però amb més llargada.


Gràfic 9.
Gràfic que representa les repeticions en humà de llargada 15-19. Aquí veiem com el número de repeticions amb aquesta llargada encara ha disminuit més, ara arriba a 20 en el cas d'un aminoàcid. A més, també observem com l'aminoàcid majoritari en aquest gràfic no és el mateix que als altres dos, ara és la Glutamina i abans eren l'Alanina i l'Àcid Glutàmic


Gràfic 10.
Gràfic de les repeticions en humans que tenen una llargada més gran de 20 aminoàcids. Observem com el nombre de repeticions amb aquesta major longitut encara ha disminuit una mica més que en el cas anterior. A més també podem veure com l'aminoàcid majoritari continua sent la Glutamina, seguit igual que abans per l'Àcid Glutàmic; ara la Serina té una important representació en aquest grup, cosa que no havia passat als anteriors.


Gràfic 11.
Gràfic de les repeticions en tàndem a ratolí amb una llargada que va de 5 a 9. Observem com els resultats obtinguts amb aquests organisme són molt semblants als de l'humà, ja que els aminoàcids majoritaris en aquest grup són els mateixos. El nombre de seqüències total ha disminuit, però com ja hem vist anteriorment aquest fet és normal ja que l'humà presenta més repeticions en general.


Gràfic 12.
Gràfic de les repeticions d'una llargada de 10 a 14 aminoàcids en ratolí. Els resultats observats són molt semblants als anteriors, s'assembla molt alGràfic 8., les diferències segueixen el mateix raonament que en el cas anterior, i és que el nombre de repeticions al dos organismes és diferent en general.


Gràfic 13.
Gràfic que representa el número de repeticions d'aminoàcids que tenen una llargada 15-19 en ratolí. Si la comparem amb la d'humà veiem que l'Àcid Glutàmic és el majoritari dintre d'aquest grup, mentres que en el cas de l'humà és la Glutamina.


Gràfic 14.
Gràfic de repeticions en ratolí amb una llargada de més de 20 aminoàcids. En aquest organisme els tres aminoàcids amb més nombre de repeticions amb aquesta llargada són l'Àcid Glutàmic, la Glutamina i la Lisina. A l'humà els dos primers també eren majoritaris juntament amb la Serina, però la Lisina tenia poques repeticions amb aquesta llargada.


Gràfic 15.
Gràfic de les repeticions a C.elegans amb una llargada de 5 a 9. Els resultats són forša diferents als observats als mamífers ja que aquí la Serina, la Glutamina i la Treonina tenen moltes repeticions d'aquesta llargada i als altres dos organismes no (la Serina sí). A més, aminoàcids com l'Àcid Glutàmic que abans era el majoritari dintre d'aquest grup ara no ho és.


Gràfic 16.
Gràfic de les repeticions amb llargada entre 10 i 14 a C.elegans. Observem com aminoàcids com l'Àcid Glutàmic, l'Alanina i la Prolina que als mamífers tenien moltes repeticions d'aquesta llargada, en aquest organisme no és així, i en canvi hi ha altres com la Treonina que sí que hi són ara i abans no hi eren.


Gràfic 17.
Gràfic de repeticions a C.elegans amb 15-19 aminoàcids seguits. Veiem com hi ha realment molt poques repeticions amb aquesta llargada en aquest organisme, el màxim està a la Treonina amb tres repeticions d'aquesta llargada.


Gràfic 18.
Gràfic de repeticions amb una llargada de més de 20 aminoàcids iguals a C.elegans. Només hi ha dos repeticions d'aquest tipus i les dues són de Serina, per tant els resultats són molt diferents en aquest organisme als dels mamífers.

Gràfiques amb el número de repeticions a cada cromosoma dels tres organismes estudiats.



Gràfic 19.
Gràfic del número de repeticions (de cinc aminoàcids o més seguits) als cromosomes humans. Observem que els que tenen més repeticions són l'1 i el 19 i el que menys el Y; a més, també podem veure que hi ha repeticions a tots els cromosomes.


Gràfic 20.
Gràfic de les repeticions a cada cromosoma de ratolí. Veiem que en aquest cas els cromosomes amb més repeticions són el 2, 7 i 11, no el 19 i l'1 com en el cas de l'humà. Del cromosoma Y no podem dir res ja que no tenim dades, l'individu era una femella.


Gràfic 21.
Gràfic de número de repeticions a cada cromosoma de C.elegans. Veiem que estan repartides de manera forša uniforme pels cromosomes, ja que tots tenen un nombre molt semblant de repeticions. Més tard quan volguem comparar amb els altres dos organismes, haurem de tenir present que els cromosomes de C.elegans no són els mateixos que els dels dos mamífers, que només té 6 parelles de cromosomes.

Gràfics de la posició de les repeticions dintre de la proteïna.

En aquests gràfics les posicions dintre de les proteïnes estan representats de manera que la longitud total de cada una de les proteïnes queda dividida en quartils, així, el primer quartil representa el principi de la proteïna (extrem N-terminal), el segon i tercer quartil representen la part central i el quart el final (extrem C-terminal).


Gràfic 22.
Aquest gràfic mostra com a l'humà les repeticions d'Alanina es troben al primer quartil, el mateix fet passa amb la Leucina, i a més d'una manera més notable. Aquests dos aminoàcids comparteixen la característica apolar. A més cal dir que el nombre de repeticions d'aquests dos aminoàcids en aquesta localització és forša important. La resta d'aminoàcids es distribueixen als quatre quartils (tres regions de les proteïnes) de manera més o menys uniforme.


Gràfic 23.
Aquest gràfic és sinònim de l'anterior. Es torna a observar la mateixa distribució, si bé, ens mostra que l'abundància d'Alanines al principi de la proteïna no és tan important com podia semblar al primer gràfic, representa una mica més del 40%.


Gràfic 24.
En aquest gràfic estan representades les posicions de les repeticions a les proteïnes de ratolí. Els resultats que s'observen són equivalents als observats a l'humà, ja que la distribució també és uniforme menys en el cas de l'Alanina i la Leucina que es troben principalment al primer quartil, i a més en un alt nombre.


Gràfic 25.
Aquest gràfic és una altra representació dels mateixos resultats mostrats a la gràfica anterior. És pot observar clarament la similaritat entre les gràfiques dels dos mamífers. Més del 60% de les repeticions de Leucines es troben al primer quartil, i una mica menys del 40% de les d'Alanina.


Gràfic 26.
Aquest gràfic mostra la distribució de les repeticions a C.elegans. S'observa com aquests resultats són realment molt diferents als dels dos organismes anteriors, ja que aquí els aminoàcids no tenen localitzades les seves repeticions en una part de les proteïnes, sinó que s'observa una distribució més aviat uniforme als quatre quartils. En el cas concret de la Leucina, si que té un nombre més gran de repeticions al primer quartil que a la resta, però el nombre és molt menor. L'Alanina té una distribució totalment uniforme, inclús hi ha més repeticions al quart quartil, és a dir, a l'extrem C-terminal.


Gràfic 27.
Aquest gràfic és sinònim de l'anterior, però aquesta representació permet veure més clarament com la distribució és efectivament molt uniforme menys en el cas de la Leucina, que presenta més del 60% de les repeticions al primer quartil.

Gràfics del percentatge de proteïnes que tenen repeticions.


Gràfic 28.
Gràfic amb el percentatge de proteïnes que presenten repiticions als tres organismes. Per obtenir-la hem dividit el nombre de proteïnes amb repeticions entre el total de proteïnes analitzades a cada espècie. S'observa com l'organisme amb més repeticions és l'humà, després aniria C.elegans i finalment el ratolí. En tots tres casos el percentatge no és massa elevat, ni tampoc massa diferent entre ells.

Quadre amb la funció de les proteïnes amb 25 ó més repeticions d'aminoàcids a l'humà.

Gràfic 29.
Quadre amb la funció de les proteïnes amb repeticions de 25 o més aminoàcids a l'humà. Les hem buscat mitjanšant la web: http://www.ensembl.org. Hi ha algunes de les quals no hem trobat la funció, per tant no l'hem pogut posar.





ÍNDEX

Discussió:

En primer lloc, la primera conclusió que podem extreure d'aquests resultats és que les repeticions homopolimèriques realment són un fet comú als eucariotes, ja que als tres organismes trobem que més del 10% de les proteïnes presenten repeticions (Gràfic 28), i a més podem observar com l'augment o la disminució en el nombre no està relacionat amb el què normalment entendríem com a "complexitat de l'espècie", ja que el ratolí quedaria situat a últim lloc, per sota de C.elegans. Per tant no podríem concloure que les proteïnes en general han anat acumulant repeticions a mesura que l'evolució ha anat avanšant. Sí podríem dir que els errors de la polimerasa a la replicació produirien un percentatge d'errors molt similar a tots els eucariotes, ja que nosaltres hem mirat dos mamífers i un nemàtode, per tant grups molt allunyats filogenèticament parlant i els resultats obtinguts han estat molt similars.


En relació al punt anterior, només comparant els dos mamífers, sí que podríem dir que el nombre de repeticions ha augmentat del ratolí a l'humà, si bé l'augment ha estat proporcional a tots els aminoàcids, així, no hi ha hagut un augment només en un o en uns dels quartils o aminoàcids.


Observant els sis primers gràfics podem observar com les repeticions més abundants als mamífers corresponen als mateixos aminoàcids (E, P, A, L i S), i a més presenten la mateixa localitzaciò dintre de la proteïna (Gràfics 22-27), per tant podríem dir que aquestes repeticions no són pròpies de cap dels dos organismes, sinó que van tenir lloc a un avantpassat comú, si haguèssim observat que un dels aminoàcids haguès estès les seves repeticions en un dels dos, concluiríem el contrari. Si bé, quan inclouem en aquesta comparació el C.elegans, observem com aquesta correspondència es trenca i veiem que els aminoàcids amb més repeticions són la Serina, la Prolina, la Treonina, la Glutamina i la Glicina, per tant només es mantenen dos (E i P), que per altra banda són els més abundants, i apareixen tres (T, Q i G), els quals als dos mamífers presenten un nombre molt baix. Per tant, podríem dir que les repeticions d'aquests tres aminoàcids han perdut importància als mamífers, mentres que les Serines i les Prolines s'han mantingut.


L'estudi de les seqüències d'aminoàcids de les proteïnes de vida mitjana curta (t1/2 < 2 hores) indica que pràcticament totes aquestes proteïnes contenen una o més regions riques en Prolina, Glutamat, Serina i Treonina. Amb l'ús de les dessignacions d'una lletra d'aquests aminoàcids (P, E, S i T, respectivament), a aquestes regions, de entre 12 i 60 residus de longitut, se les ha denominat seqüències PEST. Són molt poques les proteïnes de vida mitjana llarga que contenen aquestes regions. Totes i que aquestes probes són en gran part circumstancials i no ens diuen res sobre la funció bioquímica de les seqüències PEST, el patró és el resultat de l'inspecció de dotzenes de seqüències d'aminoàcids. Sembla probable, doncs, que la regió PEST formi part d'un esquema de reconeixement pels sistemes enzimàtics que degraden les proteïnes de vida mitjana curta, que possiblement inclogui el sistema de marcatge de l'Ubiquitina. (Mathews and Van Holde 1998). Per tant, només mirant el quadre del Gràfic 29, on només estan representades les proteïnes humanes amb més de 25 repeticions (hi ha 27 proteïnes), veiem que 18 entrarien dintre de la descripció de proteïnes de vida mitjana curta segons el raonament del paràgraf anterior, ja que presenten repeticions de més de 25 d'aquests aminoàcids seguits (P, E, S o T).
Seguint el raonament anterior, hi hauria més proteïnes amb aquesta característica dintre de l'humà, ja que les repeticions de llargada 12-25 no les hauríem considerat i també serien d'aquest tipus.
Cal destacar també que, com ja hem comentat anteriorment, la Prolina i el Glutamat que són els dos aminoàcids amb repeticions més abundants als tres organismes, fomen part d'aquestes seqüències susceptibles a degradació.


Com hem comentat anteriorment, als dos mamífers hi ha un evident augment de repeticions d'Alanines a l'extrem N-terminal, i sabem que aquest aminoàcid junt amb la Serina i la Metionina en aquesta situació augmenten la vida mitjana de les proteïnes, per tant podríem dir que aquesta localització podria tenir aquesta funció dintre de les proteïnes.


Un altre punt forša relacionat amb les conclusions anteriors és que experiments amb bactèries han revelat que l'hemivida intracel.lular d'una determinada proteïna varia considerablement en funció de la identitat dels seu residu aminoàcid N-terminal. Un residu N-terminal de Phe, Leu, Tyr, Trp, Lys o Arg està correlacionat amb una vida metabòlica curta, mentres que les proteïnes amb altres aminoàcids terminals tenen una vida més perllongada. Aquestes observacions, que es van realitzar inicialment a proteïnes naturals, s'han vist confirmades per experiments en els quals es va alterar l'aminoterminal d'una proteïna mitjanšant mutagènesi dirigida, el qual va produir canvis corresponents de les hemivides metabòliques de les prote´nes mutants. Aquestes i altres observacions indiquen que determinades característiques estructurals específiques de les proteïnes inclouen informació sobre l'estabilitat metabòlica de les mateixes. La natura molecular d'aquest processat de la informació i les identitats dels enzims que intervenen en aquest procès no s'han determinat encara, però també inclouen el sistema de la Ubiquitina. (Mathews and Van Holde 1998).
Observant els resultats als tres organismes es veu que al primer quartil, és a dir, a l'extrem N-terminal, que és el què precissament ens interessa ara, estan principalment localitzades les repeticions de Leucines, per tant les proteïnes amb aquestes repeticions tindrien una hemivida intracelular curta. A més veiem que aquest fet es manté als tres mamífers.


Si ens fixem en els Gràfics 7-18 podem veure com el C.elegans presenta molt poques repeticions de més de 14 aminoàcids, i a més podem veure com l'aminoàcid amb repeticions més llargues és la Treonina. Per contra als mamífers la llargada més gran la presenta les repeticions de Glutamina, i a més, presenten un nombre més alt de repeticions d'una llargada superior a 14. En humans, moltes malalties neurològiques estan causades per proteïnes que presenten repeticions alterades precissament d'aquest aminoàcid, per tant, s'hauria de fer un anàlisi més acurat per saber si aquestes repeticions en aquest cas són patològiques o no (Albà, Santibanez-Koref and Hancock 1999). A més, segons la similaritat observada durant tot el treball entre els mamífers, podríem dir que el ratolí seria probablement un bon model per l'estudi d'aquestes malalties.


En quant a la distribució de les repeticions als diferents cromosomes no podem extreure conclusions massa significatives, ja que als dos mamífers observem que tots els cromosomes presenten repeticions, i al C.elegans de fet també, però com que es tracta d'un organisme molt més llunyà no ens serviria per comparar (els cromosomes no coincideixen).


A partir del Gràfic 29 podem comprobar alguns fets que la bibliografia utilitzada ens comunicava, com per exemple seria que la TATA box presenta unes 34 Glutamines seguides en el cas de l'humà (Green and Wang 1994), en el nostre cas observem que la proteïna identificada segons Ensembl com a TATA box presenta 35 Glutamines.


Finalment, l'última conclusió que treiem, és que les dades que es mostren a un dels articles de la bibliografia, Green and Wang 1994, no coincideixen amb les nostres. Observem com els gràfics que mostren el nombre de repeticions segons els intèrvals; 5-9, 10-14, 15-19 i >=20 aminoàcids seguits suggereixen uns resultats molt diferents. Nosaltres pensem que aquestes diferències són degudes especialment a la data en què va ser publicat l'article, ja que l'any 1994 possiblement les seqüències de les proteïnes humanes eren molt diferents; per tant, pensem que les nostres dades serien més encertades que les de l'article perquè es basen en seqüències més recents i per tant, possiblement podríem rebatre els resultats allà mostrats.

ÍNDEX

Referències:
  • Alba MM, Santibanez-Koref MF, Hancock JM. (1999)Amino acid reiterations in yeast are overrepresented in particular classes of proteins and show evidence of a slippage-like mutational process. Journal of Molecular Evolution 49(6):789-97.
  • Borstnik B, Pumpernik D. (2002) Tandem repeats in protein coding regions of primate genes. Genome Research 12(6):909-15.
  • Green H, Wang N. (1994) Codon reiteration and the evolution of proteins. Proceedings of the National Academy of Sciences USA. 91(10):4298-302.
  • Huntley MA, Golding GB. (2002). Simple sequences are rare in the Protein Data Bank. Proteins. 48(1):134-40.
  • Karlin, S., Brocchieri, L., Bergman, A., Mrazek, J., and Gentles, A. J. (2002) Amino acid runs in eukaryotic proteomes and disease associations. Proceeding of the National Academy of Sciences USA 99, 333 - 338.
  • Katti MV, Ranjekar, PK, Gupta, VS (2001). Differential distribution of simple sequence repeats in eukaryotic genome sequences. Molecular Biology and Evolution 18(7): 1161-1167.
  • Kruglyak S, Durrett RT, Schug MD, Aquadro CF. (1998).á Equilibrium distributions of microsatellite repeat length resulting from a balance between slippage events and point mutations. Proceedings of the National Academy of Sciences USA. 95(18):10774-8.
  • Mathews CK, Van Holde KE. Bioquímica. Madrid: McGRAW-Hill, 1998.
  • Nakachi Y, Hayakawa T, Oota H, Sumiyama K, Wang L, Ueda S. (1997) Nucleotide compositional constraints on genomes generate alanine-, glycine-, and proline-rich structures in transcription factors. Molecular Biology and Evolution 14(10):1042-9.

ÍNDEX