Perspectiva genómica de las familias de proteínas
Andrés Cuadros SuárezCristina Donaire Ávila
Trifón Giménez Vázquez
Introducción a la Biología Computacional
Origen de la vida Ideas principales:
Subdivisiones en dominios
Evolución a partir de un gen ancestroSecuenciación de genomas Agrupamientos
naturales
Relación de los genomas Familias homólogas:
Ortólogos: Especiación Conservan la función (normalmente)
Parálogos: Duplicación Evolucionan con nuevas funciones
Relación de los genomas (II)
Formación de COGsCOG: grupo de ortólogos o grupo
ortólogo de parálogos Buscar los BeTs
BeT: Mejor acierto en otro genoma Necesarios al menos 3 BeTs para
formar un COG Representar con líneas continuas las
relaciones simétricas (ortólogos) Representar con líneas discontinuas
las relaciones asimétricas (parálogos)
Formación de COGs (II) Agrupar triángulos con lado
común hasta que no haya ninguno nuevo
ANÁLISIS DE RESULTADOS Los COGs no suplantan métodos
tradicionales de análisis filogenéticos, sino más bien, proveen del material apropiado para comenzar esos métodos.
El análisis descrito obtuvo un total de 720 COGs que incluyen 6814 proteínas y distintos dominos y multidominios de proteínas.
ANÁLISIS DE RESULTADOS Muchos de los COGs son grupos de
proteínas relativamente pequeños. Un tercio de los COGs (240 COGs con 1406 proteínas) contienen un representante de cada una de las especies incluidas, y 192 COGs más incluyen parálogos de una sola especie.
El número medio de proteínas por COGs aumenta según el número de genes de un genoma, de 1.2 para el M. genitalium a 2.9 para la levadura.
ANÁLISIS DE RESULTADOS Un aspecto notable es que es típico que uno
de los parálogos muestre consistentemente una alta similitud a los ortólogos en una o muchas de las otras especies (Figura 1, B y C). Así, para numerosos parálogos de la levadura, particularmente componentes del equipo de traducción, la causa subyacente es obvia: el gen cuyo producto es más similar a los ortólogos bacterianos es de origen mitocondrial (Fig. 1B).
Se han encontrado 549 proteínas en 302 COGs cuyos parálogos han mostrado consistentemente una baja similitud con otros miembros del COG (rápida evolución).
ANÁLISIS DE RESULTADOS
E E. coli
H H. influenzae
G M. genitalium
P M. pneumoniae
C Synechocystis
M M. jannaschii
Y S. cerevisiae
En esta figura podemos ver el análisis de los COGs en función de las funciones definidas y las especies. Para la mayor parte de los COGs, la función de la proteína se obtiene directamente de los experimentos, principalmente de E.Coli o levadura, o puede ser inferida de secuencias significativas similares a proteínas caracterizadas funcionalmente de otras especies
ANÁLISIS DE RESULTADOS
En la figura podemos observar la falta de proteínas de la bacteria patogénica (H. influenzae (H) y particularmente los mycoplasmas (G y P) ) en muchos COGs en cada una de las otras categorías funcionales que traducen y trascriben, pero especialmente en las clases con funcionalidad metabólica.
En cambio, la congruencia entre las dos bacterias sin parásitos, E. coli (E) y Synechocystis sp.(C), se mantienen para todos las clases funcionales.
ANÁLISIS DE RESULTADOS Fracción de proteinas pertenecientes a COGs:
70% M.genitalium 40% E.Coli 26% Levadura
Como vemos esta fracción es muy alta cuando trabajamos con genomas pequeños de micoplasmas y mucho más baja en grandes genomas como el E.Coli o la levadura.
Estos resultados se corresponden con lo esperado en las familias conservadas, asociadas con la administración de las funciones celulares.
ANÁLISIS DE RESULTADOS La distribución filogenética de los miembros de
un COG puede ser convenientemente presentada en términos de patrones filogenéticos los cuales muestran la presencia o ausencia de cada especie analizada
ANÁLISIS DE RESULTADOS Los dos patrones más abundantes pueden ser
fácilmente predichos: Todas las especies (Ehgpcmy) Todas las especies excepto los micoplasmas (Eh__cmy).
Lo que parece mucho menos trivial es que estos patrones juntos abarcan sólo un tercio de todos los COGs. Este hecho enfatiza la gran fluidez de la evolución de los genomas, revelada a pesar del análisis concentrado de familias antiguas conservadas.
Múltiples soluciones para la misma función celular parecen ser más una regla que una excepción, al menos cuando se consideran especies filogenéticamente distantes. Por otro lado, los 8 patrones más frecuentes que juntos componen el 85% de los COGs, incluyen tanto a E.coli como a Synechoscystis, enfatizando la congruencia entre estos genomas.
ANÁLISIS DE RESULTADOS Resaltar el alto orden de distribución de los
COGs por los tres dominios de vida, donde sólo el 45% de los COGs incluyen representantes de Bacteria, Archaea, y Eucarya. Esto es otra manifestación de la dinámica de las familias de genes en la evolución (Fig. 3).
Se espera que el dibujo pueda convertirse en algo más complejo, y la fracción de COGs de los tres dominios probablemente disminuirá, pero los COGs sólo de eucariotas, sólo de archaea y el conjunto de archaea-eucariota, emergerán con la acumulación de secuencias del genoma.
Conectar y Expandir COGs Conectar COGs en super-familias
Usamos PSI-BLAST Dos COGs están conectados si dos
proteínas de un COG están en otro COG
Expandir COGs Hay proteínas distantes Usamos los motivos de las super-
familias y PSI-BLAST para conectarlas con COGs
Predicción de Funciones de Proteínas con el Sistema COG
El sistema COG permite la anotación automática funcional y filogenética de un gen
Para conectar una proteína con un COG Se realiza un análisis de la proteína
con el sistema La proteína se conecta con aquellos
COGs en los que se hayan dado dos o mas BeTs
Conclusiones y Perspectiva Con los COGs podemos:
comparar genomas clasificar proteínas, predicción
funcional (con algunos problemas) Cuando se aumente el número
de genomas el sistema mejorará Es un gran marco de trabajo,
tanto funcional como evolutivo, para los nuevos genomas
Top Related