Análisis de Herramientas y Métodos: Predicción de Estructura Proteica Terciaria
Daniel F. Rengifo
Marco Teórico:
La predicción de estructuras proteicas, especialmente su estructura terciaria, a partir de una
secuencia de aminoácidos, es un problema abierto para la biología computacional. Este
problema está íntimamente relacionado con un amplio abanico de disciplinas, como lo son la
medicina y la farmacología, entre otras. En medio de la pandemia causada por el SARS-CoV-
2, herramientas de software para reconstruir estructuras de proteínas han sido de gran utilidad
para modelar la forma en la cual el virus y sus proteínas, interactúan con diferentes
compuestos[n]. El problema consiste en poder determinar, con cierto grado de confianza, la
estructura que una cierta proteína adoptará, a partir de las leyes de la interacción molecular
y la termodinámica.
Una proteína, para efectos de este problema, está compuesta de una secuencia única y sin
ramificaciones de compuestos químicos llamados aminoácidos. De acuerdo con las leyes de
fisca de partículas, los aminoácidos procederán a plegarse en el espacio tridimensional,
adoptando así una estructura con propiedades mecánicas (puramente estructurales) y
químicas (ligadas a las propiedades electro-químicas de los átomos presentes). A partir de
estas propiedades, la proteína podrá cumplir funciones a nivel celular, por medio de las
interacciones que pueda llevar a cabo.
Para comprender mejor el proceso de predicción de estructura terciaria, es importante aclarar
las sub-estructuras que lo componen:
- En primer lugar, está la estructura primaria, la cual describe la secuencia neta de
aminoácidos que generará la proteína.
- La estructura secundaria describe la estructura bidimensional de la proteína. Para
poder predecir esta estructura es necesario tener en cuenta las interacciones
moleculares registradas en el campo de la química orgánica.
- La estructura terciaria describe su estructura tridimensional a partir de una estructura
bidimensional. Si bien este paso es similar al anterior, su complejidad es
sustancialmente mayor, dado su estado espacial. Sin embargo, es en este paso donde
se puede dilucidar, con claridad aceptable, la funcionalidad de una proteína
especifica.
- También se puede hacer referencia a la estructura cuaternaria, la cual describe la
forma en la cual una proteína puede relacionarse con otras a nivel estructural.
El proceso de predicción de estructura terciaria, por ende, se puede dividir en un conjunto de
sub-problemas que deben ser resueltos de manera secuencial. Estos sub-problemas hacen
referencia a diferentes facetas de la estructura de una proteína antes descritas[c].
En particular es necesario tener una estructura secundaria como referencia para determinar
una estructura terciaria coherente. Por esta razón, en este proyecto se llevarán a cabo ambos
problemas, de forma conjunta. Sin embargo, es importante anotar que el enfoque del proyecto
se hará sobre la predicción de estructuras terciarias.
A este respecto, se han generado grandes avances experimentales, los cuales han podido
determinar la configuración de estructura terciaria de un elevado número de proteínas. Los
procesos de predicción, no buscan ser utilizados para determinar la estructura de proteínas
conocidas. En vez de esto, este tipo de procesos busca generar una aproximación a la
estructura (y por ende gracias a la estructura cuaternaria) aproximar su comportamiento
frente a otras proteínas. Gracias a esta capacidad, de aproximas propiedades de proteínas
generales, este tipo de programas son utilizados por industrias farmacéuticas para predecir,
de antemano, los efectos de diferentes proteínas antes de generar, dichas proteínas.
Sin embargo, las proteínas determinadas de forma experimental, cumplen un importante
papel en algunos procesos de predicción de estructura terciaria porque permiten llevar a cabo
predicciones por homología. La calidad de una predicción por homología depende de forma
intrínseca de la calidad de los criterios de homología. Las disparidades, que, a nivel de
estructura primaria puedan parecer nimias (eliminaciones, inserciones, repeticiones, etc.)
pueden acarrear un efecto “bola de nieve” sobre la predicción terciaria, magnificando su
efecto en el resultado final a niveles inaceptables. Adicionalmente, existen patrones de
homología, relacionados con el posicionamiento parcial de aminoácidos en el espacio (y sus
interacciones relativas), que pueden ser omitidas por procesos básicos de reconocimiento de
patrones. Como recurso para mitigar este tipo de fenómenos he decidido utilizar un Modelo
Oculto de Markov (HMM, por sus siglas en ingles).
[o]
Figura 1: Modelo Oculto de Markov, implementación especial para perfilamiento de
proteínas.
Un HMM, es una estructura de análisis estadístico que sirve para predecir mecanismos
ocultos que generan datos observados y modelar dependencias en el proceso de generación
de los datos. Los nodos representan los estados no observados (ocultos) del proceso. Cada
nodo tiene un conjunto de emisiones que representan las probabilidades de generar los datos
observados, y transiciones que capturan la información de dependencias entre los diferentes
estados. El caso arriba representado es el caso específico para proteínas, utilizado en este
desarrollo. Como podemos observar se encuentran nodos de inserción (In), para casos en los
cuales se insertan aminoácidos nuevos con respecto a secuencias conocidas; nodos de
eliminación (Dn) para casos en los cuales un aminoácido desaparece, y nodos Identidad (Mn)
para casos en los cuales no hay cambios o hay sustituciones con respecto a las secuencias
conocidas.
Esta estructura, sin embargo, no nos dice mucho aplicada a una sola secuencia, puesto que,
por ley de identidad, no podría tener cambios sobre sí misma. La estructura se utiliza, por
ende, con un gran número de otras secuencias similares, a nivel primario. El modelo se puede
ver como una representación de una secuencia estocástica que agrupa la información de
muchas secuencias cercanas a la secuencia a evaluar.
Estado del Arte:
En la práctica, se utilizan varios métodos para resolver el problema de predicción de
estructura terciaria, entre los cuales se encuentran dos principales vertientes:
- Modelado comparativo[b]: El cual usa estructuras previamente conocidas para inferir
posibles patrones sobre las secuencias a predecir.
Figura 2: Ejemplo simplificado de predicción por Modelo Comparativo
Figura 3: Izquierda, Resultados software Swiss-Model (Estructura terciaria predicha
por software basado en modelo comparativo)
Derecha, Resultados experimentales (Estructura terciaria determinada por
observaciones directas.)
Esta aproximación toma un enfoque sobre las simetrías existentes en la naturaleza,
para poder acercarse a un modelo fidedigno de la estructura de una proteína.
Específicamente, estos modelos toman similitudes presentes tanto en estructuras
primarias como secundarias para poder dar una respuesta al problema de predicción
terciaria.
La efectividad de estos algoritmos recae en la forma como las moléculas se
comportan, es decir de forma predecible, para poder recrear eventos similares al
propuesto. Sin embargo, no intentan hacer un análisis sobre estos comportamientos
molécula a molécula, más bien operan asumiendo la repetición de estos patrones.
Estos algoritmos, por consiguiente, pueden obtener buenos resultados, dependiendo
de las bases de datos sobre las cuales se estén soportando, además de la flexibilidad
y confiabilidad de los estándares bajo los cuales opera, sin embargo, usualmente
fallan en configuraciones de aminoácidos con poca representación en la base de datos
utilizada.
- Predicción de-novo[e]: Una aproximación de fuerza bruta sobre la predicción, la cual
ocupa grandes cantidades de recursos de procesamiento, para poder revisar un colosal
número de posibilidades, frente a patrones de termodinámica e interacciones
moleculares determinados por la física y la química orgánica.
Procesamiento Ab-Initio[h]: Es usual utilizar otros modelos de predicción, para
dividir una secuencia de aminoácidos en segmentos de alta concentración de
interacciones moleculares. Esta división, facilita la labor de algoritmos
predictores a nivel secundario y terciario.
Figura 4: ejemplo simplificado de procesamiento Ab-Initio
Figura 3: Izquierda, Resultados software I-Tasser (Estructura terciaria predicha por
software basado en modelo de-novo)
Derecha, Resultados experimentales (Estructura terciaria determinada por
observaciones directas.)
Esta técnica puede ser extremadamente útil, sobre todo a la hora de reducir
considerablemente el abanico de análisis sobre el cual el algoritmo debe correr.
Sin embargo, puede dar una cierta parcialización a los resultados, puesto que da
un mayor peso a interacciones entre los segmentos, que a interacciones entre los
mismos. Por esta razón es una herramienta que no debe ser tomada a la ligera pues
puede interferir drásticamente con la confiabilidad del software.
Aprendizaje de Maquina: Esta herramienta ha sido utilizada en casi todas las
soluciones modernas propuestas para este problema, dada la gran cantidad de
posibilidades o de estructuras homologas sobre las cuales se debe encontrar
patrones pertinentes. Uno de los tipos de aprendizaje de maquina más popular
para predicciones por homología es el Modelo Oculto de Markov antes descrito.
Debe tenerse en cuenta, sin embargo, que los métodos utilizados para alimentar y
entrenar estos algoritmos difieren sustancialmente entre diferentes propuestas de
solución. Su correcto funcionamiento depende en gran medida del pre-
procesamiento de los datos con los cuales trabaja, así como en su entrenamiento
por lo que no se consideran una solución para la predicción de estructuras
proteicas, por su propia cuenta.
A la hora de utilizar estas herramientas sin embrago, es necesario tomar en cuenta los
patrones y tendencias encontradas en la estructura proteica general. Se han identificado un
gran número de patrones, que como se ha explicado anteriormente, surgen gracias al
comportamiento termodinámico de los átomos y las moléculas, en este caso se han
identificado un buen número de variantes, entre las cuales, las más comunes son[c].:
- Hélice alpha: Estructura con forma de hélice, con propiedades hidrofóbicas,
usualmente encontrado en el núcleo de las proteínas.
Figura 6: Ejemplos de hélices alpha[u]
- Lamina beta: Conjunto continúo ininterrumpido de enlaces de hidrogeno.
Figura 6: Ejemplo lamina beta[u]
- Loop: Estructuras que se encuentran entre hélices alpha y láminas beta, y se
encuentran en la superficie de la estructura. No tienen un componente estructural
definido.
Herramientas de Apoyo:
Para poder llevar a cabo el proceso de predicción de estructura terciara, existen varias
herramientas de terceros, que vale la pena mencionar. En primer lugar, es importante
mencionar las herramientas de validación de resultados. El proceso de validación es un
problema íntimamente relacionado con la predicción, sin embargo, es completamente
diferente a nivel de entradas y salidas. A este respecto, la herramienta más reconocida es
CASP[c]. La cuales permite llevar a cabo un proceso de validación de gran envergadura
(cubriendo un alto número de propiedades y tipos de proteínas). Sin embargo, esta
herramienta, consta de una ejecución programada de forma bi-anual. Por este motivo se
utilizará la herramienta MATRAS[p], la cual cuenta con un nivel inferior de aceptación y
rigor, a comparación de sus contrapartes antes mencionados. Esta herramienta, a diferencia
de CASP solo valida la similitud de estructura secundaria y terciaría, a nivel espacial y de
identidad. Es decir, cuantifica las diferencias entre dos proteínas, a nivel de la posición
relativa de los elementos y su identidad molecular. Deja atrás, sin embargo, otros factores
como la carga eléctrica de los átomos.
Por otro lado, se encuentran también las bases de datos (y sus recursos API) que contienen
las entidades de proteínas pertinentes para el proceso de predicción. En este proyecto nos
enfocaremos en la base de datos Uniprot (+85 millones de proteínas) [i] para estructuras
primarias y Protein Data Bank (+150,000 proteínas) [s] para extraer estructuras terciarias
determinadas experimentalmente.
Motivación:
Como se mencionó anteriormente, la predicción de estructuras proteicas es un problema
abierto en la biología computacional, lo cual implica que existen amplios márgenes de mejora
e indeterminación en las soluciones propuestas actualmente. Más allá de esto, tampoco se
cuenta con un conjunto de respuestas predefinidas para cada uno de los casos, lo cual implica
un amplio nivel de imprecisión y resultados probabilísticos dentro del paradigma del
problema. De estos factores podemos clasificar a este problema como un problema altamente
retador, como un proyecto de grado. A esto se le suma el potencial científico y humanitario
de los algoritmos que puedan resolver este problema, dada su utilidad en campos médicos y
farmacéuticos mencionada anteriormente.
A este respecto es indudable la pertinencia del actual desarrollo frente al panorama mundial,
azotado por una pandemia de origen viral. Las interacciones entre proteínas son una pieza
fundamental en el funcionamiento a nivel virus-hospedero, por lo que, las herramientas de
análisis que se enfocan en este tipo de escenarios son vitales para combatir sus efectos. La
predicción de estructura terciaria, permite dar una idea sobre el tipo de interacción que las
proteínas del SARS-CoV-2 tendrán con aquellas desarrolladas por las investigaciones,
haciendo de este tipo de software, una herramienta invaluable en tiempos de crisis.
Mi interés sobre este tópico, se sostiene específicamente en estos dos pilares ya que siempre
he considerado la programación no determinística como un campo de suma importancia, no
solo en términos médicos o de biología computacional, sino para la ingeniería de la
información como campo más extenso.
Objetivo General:
- Implementar una solución algorítmica, capaz de resolver el problema de predicción
de estructura terciaria (y por ende secundaria) de proteínas, a fin de determinar su
usabilidad en comparación a otras herramientas contemporáneas.
Objetivos Específicos:
- Implementar una herramienta de software, basada en predicción por homología,
capaz de resolver el problema de predicción de estructura terciaria proteica.
- Revisar y explicar los algoritmos modernos propuestos para resolver el problema de
la predicción de estructura secundaria y terciaria de proteínas.
- Hacer una labor comparativa en referencia al desempeño del algoritmo desarrollado,
en contraste con herramientas existentes como I-TASSER en el plano moderno de la
biología computacional.
Herramientas de Comparación:
Se utilizará el algoritmo TASSER[m], como referencia para comparar los procesos a
completar:
- Estructura primaria (input):
MAKSSFKISNPLEARMSESSRIREKYPDRIPVIVEKAGQSDVPDIDKKKYLVP
ADLTVGQ
FVYVVRKRIKLGAEKAIFVFVKNTLPPTAALMSAIYEEHKDEDGFLYMTYS
GENTFGSLT
VA
- Estructura Secundaria (salida sub-principal):
Figura 7: Estructura Secundaria predicha por I-Tasser
- Estructura Terciaria (salida principal):
Figura 8: Visualización de los tres candidatos de predicción de estructura terciaria aportados
por I-Tasser, acompañados por su índice de confiabilidad (C-Score)
- Nota: el archivo que contiene la información textual de la estructura terciaria, posee
un formato que representa cada átomo de forma individual, lo cual genera un archivo
de aproximadamente 62000 líneas en este caso.
Como podemos observar, este algoritmo segmenta su funcionalidad en dos pasos principales,
justo como se implementó en este proyecto. También se toman varias medidas y
procedimientos intermedios, andes de determinar la salida, como medidas de confiabilidad o
sectores candidatos. La medida de confiabilidad específicamente, indica la validez relativa
del modelo predicho. En el caso específico de I-Tasser, sirve para jerarquizar múltiples
modelos de salida.
A la hora de la implementación, sin embargo, se utilizará como referencia principal la
herramienta líder en el año 2009[c], HHpred[l] una excelente implementación de predicción
por homología.
Desarrollo:
Específicamente este proyecto seguirá un proceso de predicción por homología, en la cual,
se encontrarán patrones comunes entre la proteína a predecir, y aquellas proteínas cuya
estructura ya es conocida. Se asumirá que, al seguir las mismas leyes elementales, los
segmentos idénticos tendrán una fuerte tendencia a la similitud en su estructura. Esta
suposición podría no ser del todo correcta, puesto que se toman los segmentos como
elementos independientes, y no se puede negar la posibilidad de que otros elementos externos
al segmento, pero internos a la secuencia en su totalidad, afecten la estructura. Sin embargo,
la predicción por homología ha tenido grandes éxitos a la hora de predecir estructuras a un
nivel de confiabilidad tal que satisfaga los requerimientos establecidos por sus diferentes
utilidades.
Para la realización del proyecto se utilizó el siguiente diagrama de clases bajo el cual se da a
entender el funcionamiento del software:
Figura 9: Modelo de clases utilizado para la implementación.
En primer lugar, la clase principal HHpred estará encargada del manejo de la entrada y
respuestas, utilizando como estructuras de datos complementarias la clase Protein, la cual a
su vez estará encargada del cálculo de predicciones, tanto a nivel secundario como terciario.
Se utilizará el estilo de arquitectura Pipes and Filters, dada la naturaleza secuencial de los
procesos, así como su estructura input-proceso-output.
Primeramente, se utilizan funcionalidades web de forma paralela, utilizando las herramientas
PSI-BLAST[q] y PSIPRED[r] para determinar las estructuras primariamente homologas y una
probable estructura secundaria. Se utilizarán las funcionalidades API-REST de estos
servidores para obtener los resultados a partir de la secuencia inicial.
Posteriormente comenzara la construcción del HMM antes descrito. Se utilizarán un
perfilamiento de los resultados de la secuencia homologas a nivel primario ya determinadas.
De esta forma se conseguirá un HMM no parcializado hacia la secuencia inicial, lo cual nos
permitirá llevar a cabo un perfilamiento sobre dicha secuencia, en referencia a sus homologas
primarias. Este HMM, además, se anotará con la información de estructura secundaria y a
determinada anteriormente.
A este respecto, es interesante mencionar la existencia del nodo de eliminación, el cual por
su propia definición no contiene emisiones. Esto lleva a generar un modelo de HMM capaz
de incorporar estados sin emisiones.
Esta estructura de datos de perfilamiento, finalmente, se convertirá a formato “hmm”,
siguiendo los lineamientos establecidos por Pfam. Esta representación será utilizada para
hacer una consulta de homología con el servicio HMMSearch. Se utilizarán una vez más
recursos API REST para obtener los resultados esperados. Este servicio ejecuta un análisis
de comparación de HMMs a través de bases de datos diferentes, en este caso utilizaremos la
base de datos PDB, dado que es la que más ha demostrado consistencia a la hora de albergar
estructuras terciarias junto a su registro de proteínas.
Estos resultados, serán aquellas proteínas homologas, a partir de la información estructural
extraída del HMM. Gracias a esto, hemos mitigado imperfecciones en el proceso de
homología. Ahora bien, se procederá a extraer, de la base de datos antes mencionada, las
estructuras terciarias, así como el nivel de similitud encontrado por el servicio HMMSearch.
Una vez descargados los perfiles, se hará una recopilación de la información tomando en
cuenta el nivel de similitud referido, como peso. A partir de este resultado obtendremos la
predicción esperada, en base a 3D.
Finalmente usaremos directamente el software de MATRAS para obtener un alineamiento
en tercera dimensión de la estructura descrita, determinando así la validez de los resultados.
Adicionalmente se extraerá de MATRAS un perfil superpuesto de ambas proteínas, en aras
de obtener una representación visual comparativa de los resultados. Estos resultados se
visualizarán utilizando JMol[t].
Resultados:
Las predicciones efectuadas por el algoritmo HHpred, se pueden observar a continuación.
En la primera fila, observamos la predicción generada, seguida de la estructura de la proteína
determinada experimentalmente. Finalmente, en la última fila se observa una superposición
de ambas, eliminando los residuos de margen de error presenten en la primera imagen.
Cada prueba esta anotada con el nivel correspondiente de similitud, determinada por el
software MATRAS.
- Nota:
CRMS: diferencia promedio entre los átomos alpha.
DRMS: diferencia promedio entre los átomos beta.
6LU7-A: Primera cadena de la proteasa principal cristalizada del SARS-CoV-2
Figura 10: Comparación entre resultados de predicción (arriba) y resultados experimentales
(centro) y superposición entre ambas (abajo), eliminando margen de error.
Resultados Análisis MATRAS: CRMS 3.57 DRMS 6.34
4YOI: Estructura de HKU4 adherida a inhibidor 1-A (no Covalente)
Figura 11: Comparación entre resultados de predicción (arriba) y resultados experimentales
(centro) y superposición entre ambas (abajo), eliminando margen de error.
Resultados Análisis MATRAS: CRMS 5.61 DRMS 9.06
4K7T: Estructura del complejo ternario bacitracin, zinc y gyranil-pyrofosfato
Figura 12: Comparación entre resultados de predicción (arriba) y resultados experimentales
(centro) y superposición entre ambas (abajo), eliminando margen de error.
Resultados Análisis MATRAS: CRMS 10.85 DRMS 12.78
Se pueden observar errores generales en los resultados obtenidos. La predicción tiene una
clara tendencia que perjudica la predicción de aminoácidos en posiciones de hélice-beta.
Además, se evidencia la falta de anotación estructural a nivel secundario. Sin embargo,
MATRAS incluye un indicador de similitud de estructura secundaria, y en este indicador, las
predicciones de este proyecto son comparables con las demás herramientas. He decidido no
incluir esta información, dado que este proyecto simplemente utilizo el API REST de una de
las herramientas líder en este tipo de predicciones.
Sin embargo, es importante tener en cuenta que estas predicciones no afirman, ni son capaces
de ser exactas. A continuación, llevaremos a cabo una profunda comparación con otras
herramientas, tanto de-novo como de homología, con sus respectivos resultados.
Comparaciones:
Por motivos de fuerza mayor, los servicios de predicción de estructura proteica se encuentran
saturados. Esta saturación se puede observar en los recursos relacionados con la investigación
ligada al SARS-CoV-2. Por esta razón, se utilizarán varias herramientas con menor
aceptación en los experimentos CASP.
La primera fila indica la predicción, seguida de la predicción llevada a cabo por la
herramienta con la que se está comparando. Finalmente se anota el resultado experimental.
CPHModels:
3IWM: Proteasa octametrica de SARS-CoV-2
Figura 13: Comparación entre resultados de predicción (arriba) y resultados de la
herramienta de comparación (centro) y resultados experimentales (abajo), eliminando
margen de error.
Resultados Análisis MATRAS:
CPHModels: CRMS 1.62 DRMS 1.42
Resultados: CRMS 10.88 DRMS 13.87
6LZG: Estructura de pico de adhesión, adherido a receptor ACE2
Figura 14: Comparación entre resultados de predicción (arriba) y resultados de la
herramienta de comparación (centro) y resultados experimentales (abajo), eliminando
margen de error.
Resultados Análisis MATRAS:
CPHModels: CRMS 2.06 DRMS 1.61
Resultado: CRMS 4.16 DRMS 6.04
I-Tasser:
5XTC: Cryo-EM de complejo respiratorio humano, trans-mebranal
Figura 15: Comparación entre resultados de predicción (arriba) y resultados de la
herramienta de comparación (centro) y resultados experimentales (abajo), eliminando
margen de error.
Resultados Análisis MATRAS:
I-Tasser: CRMS 3.45 DRMS 2.86
Resultados: CRMS 4.36 DRMS 5.33
Como se puede observar, existe una falta de anotación en referencia a la estructura
secundaria, la cual sin embargo está presente dentro de los datos obtenidos. No solo eso sino,
la respuesta dada por MATRAS, indica que la predicción de estructura secundaria esta
generalmente correcta. Esto se debe al formato “pdb” el cual contiene alusiones redundantes
a esta estructura. A un desarrollo futuro, se podría garantizar la anotación en estos elementos
redundantes del formato, incluyendo también varias otras referencias de átomos opcionales
o conectividad eventual.
Conclusiones:
Al concluir el análisis comparativo entre las herramientas principales, relacionadas a este
problema de la bioinformática, he identificado factores claves, los cuales considero, son las
características responsables por la brecha que se ha generado entre herramientas de-novo y
herramientas de predicción por homología.
La predicción de estructura terciaria por homología, depende en primer lugar de un conjunto
de entrenamiento que incluya un amplio rango de conformaciones de, y en segundo lugar de
suposiciones de similitud. Estas relaciones, es bien sabido, no son absolutas, pero el margen
de error es lo suficientemente pequeño como para justificar el uso de estos métodos. Si bien
desarrollos por homología siguen existiendo, gracias a desarrollos de última generación sobre
capacidad y forma de procesamiento en la bioinformática, se ha generado una importante
brecha en resultados con aproximaciones de-novo. Dicha brecha es evidente en el éxito que
ha surgido de la herramienta I-Tasser, la cual es, de lejos, la herramienta líder en estos
tiempos.
No considero, que futuros desarrollos en el campo de la homología cierren esta brecha, ya
que por su propia naturaleza no pueden dejar atrás las limitaciones en referencia a resultados
pasados y a suposiciones no demostrativas. Los métodos de-novo dependen exclusivamente
del entendimiento de las leyes que rigen la forma en la cual los aminoácidos se pliegas, así
como la capacidad de procesamiento de las maquinas ejecutando los programas. Ambos son
aspectos que lejos de limitar el desarrollo, solo pueden incrementar su efectividad.
Sin embargo, este desarrollo deja otra perspectiva, la utilización de HMM indudablemente
mitiga las limitaciones antes mencionadas. Y la información, referente a la forma en la cual
se pliegan los elementos en una cadena de aminoácidos siguen leyes determinísticas. Estas
leyes, al aplicar de forma idéntica a sus respectivos dominios, imponen, por definición, una
relación de homología entre elementos. Dicha relación sin embargo aún no ha sido
correctamente plasmada en los modelos descriptivos disponibles hasta el momento. Sumado
a esto, está la eficiencia computacional de los procesos, en la cual la predicción por
homología reduce la cantidad de configuraciones a considerar mejorando así la eficiencia del
proceso. Podría ser factible que, al desarrollar un modelo capaz de modelar la información
estructural oculta en la termodinámica y la química en referencia a los aminoácidos, se pueda
volver a dar un desarrollo prometedor frente a la predicción de-novo. Sin embargo, no
considero que este conocimiento, este a corto alcance, ni aun a mediano, por lo que, en lo
que respecta al desarrollo actual considero que la predicción de-novo continuara adquiriendo
ventaja frente a los desarrollos de predicción por homología.
Referencias:
a. Xiang Z. (2006). Advances in homology protein structure modeling. Current protein & peptide science,
7(3), 217–227. doi:10.2174/138920306777452312
b. Waterhouse, A., Bertoni, M., Bienert, S., Studer, G., Tauriello, G., Gumienny, R., … Schwede, T. (2018).
SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic acids research,
46(W1), W296–W303. doi:10.1093/nar/gky427
c. Moult, J., Fidelis, K., Kryshtafovych, A., Schwede, T. and Tramontano, A. (2014), Critical assessment of
methods of protein structure prediction (CASP) — round x. Proteins, 82: 1-6. doi:10.1002/prot.24452
d. Bhattacharya, D., Cao, R., & Cheng, J. (2016). UniCon3D: de novo protein structure prediction using
united-residue conformational search via stepwise, probabilistic sampling. Bioinformatics (Oxford,
England), 32(18), 2791–2799. doi:10.1093/bioinformatics/btw316
e. Cheung NJ, Yu W (2018) De novo protein structure prediction using ultra-fast molecular dynamics
simulation. PLoS ONE 13(11): e0205819. https://doi.org/10.1371/journal.pone.0205819
f. Zhang Y. (2008). Progress and challenges in protein structure prediction. Current opinion in structural
biology, 18(3), 342–348. doi:10.1016/j.sbi.2008.02.004
g. Liam J. McGuffin, Kevin Bryson, David T. Jones, The PSIPRED protein structure prediction server ,
Bioinformatics, Volume 16, Issue 4, April 2000, Pages 404–405,
https://doi.org/10.1093/bioinformatics/16.4.404
h. Yuan, X., Shao, Y., & Bystroff, C. (2003). Ab initio protein structure prediction using pathway models.
Comparative and functional genomics, 4(4), 397–401. doi:10.1002/cfg.305
i. Deng, H., Jia, Y., & Zhang, Y. (2018). Protein structure prediction. International journal of modern
physics. B, 32(18), 1840009. doi:10.1142/S021797921840009X
j. Mariani, V., Biasini, M., Barbato, A., & Schwede, T. (2013). lDDT: a local superposition-free score for
comparing protein structures and models using distance difference tests. Bioinformatics (Oxford,
England), 29(21), 2722–2728. doi:10.1093/bioinformatics/btt473
k. Ingrid Y. Y. Koh, Volker A. Eyrich, Marc A. Marti-Renom, Dariusz Przybylski, Mallur S. Madhusudhan,
Narayanan Eswar, Osvaldo Grana, Florencio Pazos, Alfonso Valencia, Andrej Sali, Burkhard Rost, EVA:
evaluation of protein structure prediction servers, Nucleic Acids Research, Volume 31, Issue 13, 1 July
2003, Pages 3311–3315, https://doi.org/10.1093/nar/gkg619 l. Söding, J., Biegert, A., & Lupas, A. N. (2005). The HHpred interactive server for protein homology
detection and structure prediction. Nucleic acids research, 33(Web Server issue), W244–W248.
doi:10.1093/nar/gki408
m. Yang, J., & Zhang, Y. (2015). Protein Structure and Function Prediction Using I-TASSER. Current protocols
in bioinformatics, 52, 5.8.1–5.8.15. doi:10.1002/0471250953.bi0508s52
n. Computational predictions of protein structures associated with COVID-19. (2020, April 8). Retrieved April 27, 2020, from https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19
o. What are HMMs? (2017, September 18). Retrieved April 27, 2020, from https://www.ebi.ac.uk/training/online/course/introduction-protein-classification-ebi/what-are-protein-signatures/signature-types/what-ar-1
p. Matras : Pairwise 3D Alignment. (2011, May 10). Retrieved April 28, 2020, from http://strcomp.protein.osaka-u.ac.jp/matras/matras_pair.html
q. BLAST: Basic Local Alignment Search Tool. (n.d.). Retrieved April 28, 2020, from https://blast.ncbi.nlm.nih.gov/Blast.cgi
r. UCL Computer Science Department Bioinformatics Group. (n.d.). Retrieved April 28, 2020, from http://bioinf.cs.ucl.ac.uk/psipred/
s. wwPDB consortium (2019). Protein Data Bank: the single global archive for 3D macromolecular structure data. Nucleic acids research, 47(D1), D520–D528. https://doi.org/10.1093/nar/gky949
t. Jmol in Launchpad. (n.d.). Retrieved May 19, 2020, from https://launchpad.net/jmol
u. Aimee L. Boyle,3 - Applications of de novo designed peptides,Editor(s): Sotirios Koutsopoulos,Peptide
Applications in Biomedicine, Biotechnology and Bioengineering,Woodhead Publishing,2018,Pages 51-
86,ISBN 9780081007365,https://doi.org/10.1016/B978-0-08-100736-5.00003-
X.(http://www.sciencedirect.com/science/article/pii/B978008100736500003X)Keywords: Peptide; de
novo design; α-helix; β-strand; self-assembly; biomedicine; bionanotechnology
Top Related