Predicción estructural

Post on 27-Jan-2016

90 views 0 download

description

Predicción estructural. Predicción estructural. Sin homología Predicción 1D Predicción ab initio Homología remota Threading Homología detectable Modelado por homología. Objetivo: Obtener información estructural a partir de secuencia. - PowerPoint PPT Presentation

Transcript of Predicción estructural

Predicción estructural

Predicción estructural

• Sin homología– Predicción 1D– Predicción ab initio

• Homología remota– Threading

• Homología detectable– Modelado por homología

Predicción 1D

Objetivo: Obtener información estructural a partir de secuencia

Método general: Promedio de propiedades de aminoácidos a lo largo de la secuencia

AGGCFHIKLAAGIHLLVILVVKLGFSTRDEEASS

Promedio móvil en una ventana

Predicción 1D

Propiedades usuales

•Propensidades estructura secundaria

•Hidrofobicidad

•Accesibilidad

•H. transmembrana

Predicción 1D

•Métodos originales: Usan una secuencia y parámetros uniformes (fiabilidad 25-30%)

•Primeras mejoras: Uso de parametros espécificos para familias estructurales

•Métodos actuales: Usan perfiles obtenidos a partir de alineamientos múltiples y parámetros obtenidos a partir entrenamiento de redes neurales (fiabilidad 70-75%, hasta el 98% en hel. transmembrana)

PredictProtein (PHD)

1. Generación de un alineamiento múltiple usando Swissprot, prosite y bases de datos de dominios

2. Predicción 1D a partir del perfil generado usando una red neural.

3. Reconocimiento de plegamiento (threading)

4. Evaluación de fiabilidad

PredictProteinInformación disponible

• Alineamientos múltiples MaxHom• Motivos PROSITE• Composition-bias SEG• Threading TOPITS• Estruc. Secundaria PHDSec PROFsec• Hélices transmembrana PHDhtm, PHDtop• Globularidad GLOBE• Coiled-coil COILS• Puentes disulfuro CYSPRED

PredictProteinInformación disponible

• Péptidos señal SignalP

• O-glicosilacion NetOglyc

• Proteasas picornavirus NetPicoRNA

• Señal de cloroplasto CloroP

• Consenso estruc. sec. JPRED

• Transmembrana TMHMM, TOPPRED

• SwissModel

Prediccion estructural Prediccion estructural ab initioab initio

AVVTW...GTTWVRAVVTW...GTTWVR

• Conocimiento química-física de las proteínas

“En teoria” es posible plegar una proteína si se encuentra su mínimo global de energía.

• Problemas técnicos:

– Superficie de potencial es muy compleja

– Espacio conformacional es enorme

Simplificaciones

• Reducir el espacio conformacional– Se trabaja únicamente con 1 átomo por residuo– Se restringe el movimiento a una “lattice” fija

• Utilización de “energías” estadísticas– Distancias promedio entre residuos– Abundancia de interacciones

RESULTADOS AB INITIORESULTADOS AB INITIO

• Error promedio sobre Error promedio sobre 5 Å - 10 Å5 Å - 10 Å

• Difícil predecir Difícil predecir funciónfunción

• Mucho tiempo de Mucho tiempo de cálculocálculo

PROTEINA PROTEINA E.coliE.coli PREDICHA A 7.6 Å PREDICHA A 7.6 Å(CASP3, grupo de H.Scheraga)(CASP3, grupo de H.Scheraga)

Modelo estructural

• La calidad depende fuertemente del alineamiento

• Por debajo del 30% modelos muy pobres

• Para análisis precisos (diseño de fármacos, p.ej): similitud > 70 %

Threading: Comparación Threading: Comparación secuencia-estructurasecuencia-estructura

• Evalua “el grado de ajuste de la secuencia a la estructura”

• Utiliza propiedades diversas: distancias interresiduo, estructura secundaria, etc.

ATTWV....PRKSCTATTWV....PRKSCT SecuenciaSecuenciaHHHHH....CCBBBBHHHHH....CCBBBB Est.Secundaria Pr.Est.Secundaria Pr.eeebb....eeebebeeebb....eeebeb AcAccesibilidad Pr.cesibilidad Pr.

..........

SecuenciaSecuencia GGTV....ATTW ........... ATTVL....FFRK GGTV....ATTW ........... ATTVL....FFRKEst.Sec. Obs.Est.Sec. Obs. BBBB....CCHH ........... HHHB.....CBCB BBBB....CCHH ........... HHHB.....CBCB Acces. Obs.Acces. Obs. EEBE.....BBEB ........... BBEBB....EBBE EEBE.....BBEB ........... BBEBB....EBBE

ALINEAMIENTO SECUENCIA ALINEAMIENTO SECUENCIA - ESTRUCTURA- ESTRUCTURA

ESTRUCTURA BASE DATOSESTRUCTURA BASE DATOS

SECUENCIA INCOGNITASECUENCIA INCOGNITA

..HHH.. EST. SECUNDARIA OBSERVADA..HHH.. EST. SECUNDARIA OBSERVADA

..CCH.. EST. SECUNDARIA PREDICHA..CCH.. EST. SECUNDARIA PREDICHA

+INFORMACION SECUENCIA, ACCESIBILIDADINFORMACION SECUENCIA, ACCESIBILIDAD

Aspectos técnicosAspectos técnicos

• Alineamientos:Alineamientos: Programacion dinámica (Needleman & Programacion dinámica (Needleman & Wunsch, 1970)Wunsch, 1970)

• Función de puntuaciónFunción de puntuación::

wwseqseq.P.Pseqseq + w + wstrstr . (P . (PSSSS + P + PACAC))

PPseqseq: matriz de Dayhoff, P: matriz de Dayhoff, PSSSS y P y PACAC: modelo probabilístico: modelo probabilístico

Capacidad predictiva

• Porcentaje aciertos: 40 - 65 %, para Porcentaje aciertos: 40 - 65 %, para homólogos remotoshomólogos remotos

• Modelo estructural mejor que en los Modelo estructural mejor que en los métodos de comparación secuenciasmétodos de comparación secuencias

• Predicción funcional limitadaPredicción funcional limitada

MAS ALLA DE LA SECUENCIAMAS ALLA DE LA SECUENCIA

LIMITE COMP. SECUENCIASLIMITE COMP. SECUENCIAS

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

% ACIERTOS

5 10 15 20 25

% IDENTIDAD SECUENCIAS

Etapas 3D-PSSM

• Construcción de perfiles 1D / superfamilia• Construcción de perfiles 3D / superfamilia• Obtención/predicción de estructura

secundaria y accesibilidad• Se escoge la mejor de 3 puntuaciones

1. Estructuras vs. PSSM obtenido de la query2. Query vs. 1D-PSSM estructuras3. Query vs. 3D-PSSM estructuras

Modelado por homología

• Apto para homologías >30%

• La fiabilidad se incrementa mucho con homologías > 60%

Objetivo

• Obtener un modelo UTIL de la proteína problema, cuando se desconoce la estructura 3-D real– No necesariamente ha de ser el modelo

“correcto” o experimental!– A veces el modelo “correcto” no es útil.– La calidad del modelo no tiene porque ser

homogénea. Debe ser máxima en las regiones mas interesantes.

Nivel de precisión de la estructura modelada

• Depende dramáticamente de la calidad del alineamiento empleado para derivar el “template”

• Depende mucho del nivel de identidad con el “template”. En general se obtienen estructuras de calidad muy buena (RMSd C < 2 A) cuando identidad sobrepasa el 30%.

• La calidad en el trazado del backbone es siempre superior a la calidad en el posicionamiento de las cadenas laterales.

Etapas

1. Escoger modelos: Proteínas con estructura resuelta experimentalmente con homología significativa (BLAST, PFAM, PDB)

2. Generar alineamiento múltiple.– La calidad del alineamiento es crítica para la

fiabilidad del modelo– Evitar redundancias

Etapas

1. Alinear estructuralmente los modelos

2. Alinear la secuencia incógnita frente al conjunto de estructuras modelo

• El criterio de alineamiento estructural no coincide necesariamente con el alineamiento evolutivo

PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS (verde)

PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS (rojo)

PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS (azul)

Etapas

1. Alinear estructuralmente los modelos

2. Alinear la secuencia incógnita frente al conjunto de estructuras modelo

3. Construir las regiones conservadas (SCR)• Se utilizan las coordenadas de una estructura o un

promedio ponderado de ellas.

• Las cadenas laterales se adaptan a las originales y se utilizan conformeros estándar si ello no es posible

Etapas

1. Alinear estructuralmente los modelos

2. Alinear la secuencia incógnita frente al conjunto de estructuras modelo

3. Construir las regiones conservadas (SCR)

4. Modelado de las regiones no conservadas (“loops”)

Ab initio PDB

Construcción de “loops”

Construcción de “loops”Es necesario escoger

Optimización

1. Optimizar la conformación de cadenas laterales• Minimización restrigida a familia de conformeros y

energia VdW

2. Optimizar el conjunto• Minimización global con restricciones

• Dinámica molecular

Test de calidad

• No hay diferencias evidentes entre un modelo correcto y uno incorrecto

• La utilización de una estructura desde el punto de vista cuantitativo requiere que sea “químicamente correcta”

Programas de análisis

• PROCHECK

• WHATCHECK

• Suite Biotech

• PROSA

Fuentes de la información

• 300 mejores estructuras depositadas en PDB

• Datos geométricos de la base de datos CSD

• Datos teóricos (Ramachandran, p. Ej.)

Procheck

• Geometría covalente

• Planaridad

• Angulos dihedros

• Quiralidad

• Interacciones no enlazantes

• Puentes de hidrógeno de la cadena principal

• Puentes disulfuro

Software de predicción

– Swissmodel (automático)

– Composer (T.Blundell)

– 3D-JIGSAW (M.Stenberg)

– Modeller (A.Sali)

Valoración

• La verificación última es ver si el modelo justifica los datos experimentales y si tiene capacidad predictiva

UN MODELO NO ES CORRECTO O ERRONEO, ES UTIL O INUTIL