TP 3 - Exploración de Bases de datos Humanas Introducción

25
TP 3 - Exploración de Bases de datos Humanas Introducción A partir del avance tecnológico y del desarrollo de nuevas técnicas de alto rendimiento en las ciencias naturales y exactas, en las últimas décadas la cantidad de datos científicos ha crecido exponencialmente. De esta manera surge la necesidad de almacenar toda esa información de manera rápida y ordenada, con la posibilidad de un fácil acceso para su consulta y posterior análisis. Actualmente, este almacenamiento y consulta es, casi exclusivamente, una tarea computacional, donde los datos son guardados de manera digital para agilizar el acceso a ellos de entre una gran maraña de datos, juntándolos y ordenándolos en bases de datos. Particularmente, para las ciencias biológicas, y más específicamente dentro del área de la salud y genómica humana, existe una gran variedad de bases de datos públicas, disponibles gratuitamente que pueden ser consultadas libremente vía internet. En este trabajo práctico (TP) se brindará un recorrido por algunas de las bases de datos más relevantes, con el fin de explorar sus principales características. Tarea 1) Ensembl El proyecto Ensembl es un trabajo en colaboración entre el European Bioinformatic Institute (EMBL-EBI) y el Wellcome Trust Sanger Institute, con el objetivo de centralizar información de genómica y generar una base de datos de genomas para vertebrados y otras especies eucariotas. Link http://www.ensembl.org/ 1

Transcript of TP 3 - Exploración de Bases de datos Humanas Introducción

Page 1: TP 3 - Exploración de Bases de datos Humanas Introducción

TP 3 - Exploración de Bases de datos Humanas

Introducción

A partir del avance tecnológico y del desarrollo de nuevas técnicas de alto rendimiento en

las ciencias naturales y exactas, en las últimas décadas la cantidad de datos científicos ha

crecido exponencialmente. De esta manera surge la necesidad de almacenar toda esa

información de manera rápida y ordenada, con la posibilidad de un fácil acceso para su

consulta y posterior análisis. Actualmente, este almacenamiento y consulta es, casi

exclusivamente, una tarea computacional, donde los datos son guardados de manera digital

para agilizar el acceso a ellos de entre una gran maraña de datos, juntándolos y

ordenándolos en bases de datos. Particularmente, para las ciencias biológicas, y más

específicamente dentro del área de la salud y genómica humana, existe una gran variedad

de bases de datos públicas, disponibles gratuitamente que pueden ser consultadas

libremente vía internet.

En este trabajo práctico (TP) se brindará un recorrido por algunas de las bases de datos más

relevantes, con el fin de explorar sus principales características.

Tarea 1) Ensembl

El proyecto Ensembl es un trabajo en colaboración entre el European Bioinformatic

Institute (EMBL-EBI) y el Wellcome Trust Sanger Institute, con el objetivo de centralizar

información de genómica y generar una base de datos de genomas para vertebrados y otras

especies eucariotas.

Link http://www.ensembl.org/

1

Page 2: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

A. Vaya a la página inicial de Ensembl y allí seleccione, a la izquierda de la pantalla, el

genoma humano. Como verá, debajo de “Human” encontrará el subtítulo

“GRCh38.p10” que corresponde a la versión actual del genoma humano de

referencia (“assembly”). Una vez entre a la página del genoma humano, puede

visitar assemblies anteriores en el menú desplegable debajo de “Other assemblies” y clickeando en “Go”. Trabajaremos ahora con la versión GRCh38 (figura 1) la cual es la más reciente, pero

tenga en cuenta que para los siguientes trabajos prácticos, algunas de las

herramientas que se utilizarán no han sido actualizadas para esta versión, por lo que

si quisiera verificar variantes en base de datos, acuérdese de trabajar con la versión

anterior, GRCh37.

Figura 1: Herramientas que brinda Ensembl para trabajar un con genoma dado, en este caso, el

genoma humano versión GRCh38.

i) Busque información de la versión GRCh38 del genoma en Ensembl y complete la

siguiente tabla.

Fecha de lanzamiento del ensamble

Cantidad de pares de bases

2

Page 3: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Genes codificantes (primary assembly)

Pseudogenes (primary assembly)

Transcriptos

Variantes pequeñas

Variantes estructurales

B. Seleccione ahora la variante de ejemplo suministrada por Ensembl (“example

variant”), en la sección de “variation” (figura 2) y la sección de pestañas

correspondiente (figura 3).

Figura 2: Sección “Variation”.

3

Page 4: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Figura 3: (A) Selección de pestañas. Puede elegir entre ver los datos disponibles de la variante, ver la

región del genoma donde se encuentra la variante (location, ver figura 4), o bien volver a la página

inicial del ensamble GRCh38. (B) Información principal de la variante. (C) Herramientas para la

exploración de la información de la variante.

i) ¿En qué cromosoma se encuentra la variante que está analizando? ¿Cuál es la

posición exacta de la variante dentro del cromosoma? ¿Cuál es el ID de la variante

(rsxxxxx)?

ii) ¿Cuál es el cambio de nucleótido? ¿Es una variante “no sinónima”? De ser así,

indique también cuál es el cambio de aminoácido generado.

iii) Explore desde la pestaña “Location” (figura 4) el entorno cercano de la variante

en el genoma. ¿Existen otras variantes (SNPs) a menos de 300 bp desde el lugar

donde se encuentra la variante del ejemplo?. ¿Cuál es el número de identificación

(rs###) para la variante más cercana?

Figura 4: Pestaña “Location”. Brinda información acerca del cromosoma y la posición en la que se

encuentra una variante, además de un conjunto de gráficas que permiten obtener diferentes grados

de detalle de la misma, considerando el entorno génico.

4

Page 5: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

iv) Utilice ahora las herramientas de exploración de la variante (accesibles desde el

panel superior izquierdo en la pestaña “Variant”) para completar los datos de la

siguiente tabla:

Frecuencia alélica total para el alelo alternativo (1000 Genomes*)

Frecuencia de homocigosis total para el alelo alternativo (1000 Genomes*)

Consecuencia/s de la variante

Cantidad de transcriptos afectados

Fenotipo/s asociado/s a la variante

(*) 1000 Genomes es un proyecto de colaboración internacional en la que se almacenaron datos de

secuenciación de más de mil personas anónimas. La finalidad principal del proyecto es crear un catálogo

completo de variaciones genéticas humanas. De esta manera, 1000 Genomes proporciona una herramienta

sumamente útil para trabajar con datos de variantes que sean raras y que, por lo tanto, aparezcan con una

baja frecuencia en la población.

Hasta este punto del TP, cuando se mencionaba el término “variante”, se estaba refiriendo a

variantes pequeñas. Esto es SNPs (del inglés, Single Nucleotide Polymorphisms,

polimorfismos de un único nucleótido), inserciones y deleciones pequeñas (menores a 50

bp, denominados “indels”) y sustituciones de bloques pequeños (cambio de un grupo de

nucleótidos por otro). Sin embargo, existen también variaciones más grandes dentro del

genoma denominadas variantes estructurales. Entre ellas se observan cambios de grandes

bloques de nucleótidos, inserciones y deleciones, inversiones de secuencias, inserciones de

elementos móviles y cambios en la cantidad de repeticiones de una determinada secuencia

(copy number variation).

C. Seleccione la pestaña Human (GCRh38.p10) para volver a la página principal del

ensamble. Ahora vaya a “Example structural variant”.

i) Al igual que lo que hizo para el ejemplo de SNP, realice una exploración de la

variante estructural de muestra. Anote lo que le parezca interesante. (Ayuda:

transcriptos afectados, fenotipos relacionados, variantes cercanas, entre otras).

ii) Discuta con sus compañeros los resultados obtenidos.

D. En Ensembl diríjase al gen TP53. Visualice la cantidad de transcriptos y localícelos en

la pestaña correspondiente. Para esto configure el gráfico de transcriptos

seleccionando el ícono de configuración (engranaje) que se muestra en la Figura 5.

5

Page 6: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Vaya al apartado “Genes and transcripts” y allí tilde la opción básica. Agregue

además, dentro del apartado “Variation”-”Sequence variants”, “1000 Genomes - All -

short variants (SNPs and indels)” y dentro de “Phenotype(...)”, “All ClinVar variant

annotations - short variants (SNPs and indels)”. Luego, para aplicar los cambios,

diríjase a la esquina superior derecha y clickee sobre el botón visto.

a. Ahora visualice todos los transcriptos, ayudándose con la herramienta de

zoom y desplazamiento.

b. Busque variantes dentro de distintos exones de diferentes transcriptos:

i. ¿Encuentra una relación entre la identificación de variantes

patogénicas y los transcriptos en los que éstas se encuentran

incluídas?

ii. ¿Para todas las variantes encuentra información de relevancia clínica?

Figura 5: Gráfico de transcriptos. Señalado con un círculo rojo está el botón de ajustes del gráfico.

Otras páginas útiles: UCSC Genome Browser on Human https://genome.ucsc.edu/cgi-bin/hgGateway

DECIPHER (para CNVs) https://decipher.sanger.ac.uk/

Tarea 2) Visitando dbSNP

La base de datos de polimorfismos de un solo nucleótido (dbSNP) es una base de datos

pública y libre para el almacenamiento de variaciones genéticas en diferentes especies,

desarrollada por el National Center of Biotechnology Information (NCBI) en colaboración con

6

Page 7: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

el National Human Genome Research Institute (NHGRI). Es quizás la base de datos más

importantes de variantes genómicas en general.

Link http://www.ncbi.nlm.nih.gov/SNP/

Figura 6: Pantalla inicial de dbSNP.

7

Page 8: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Figura 7: Descripción de una variante.

A. Ingrese en el cuadro de búsqueda el identificador de la variante rs137853222.

Ingrese en la variante haciendo click sobre el código rs.

B. Observe la tabla del medio “Allele”.

i) ¿Comprende el significado de cada fila (“Variation Class”, “RefSNP Alleles”, etc.)?.

En particular, la fila “RefSNP Alleles” muestra tres alelos, y menciona que se

encuentran descritos para la hebra reversa o negativa (“REV”). ¿Reversa respecto a

qué?.

ii) Esta información proviene del campo “Submitter records for this RefSNP Cluster”.

Analice las entradas del mismo, ¿cuántas son?

iii) ¿Qué significan los campos “Allele Origin” y “Ancestral Allele”? ¿Qué información

provee el campo Clinical Significance?

C. Observe la posición en el cromosoma em “Integrated maps”. ¿Cuantas posiciones

distintas les aparece? ¿A qué se debe esto? ¿Qué conclusión puede sacar respecto a

la versión del genoma de referencia utilizado para identificar una variante? ¿Basta

con indicar la posición?

D. Si alguien le preguntara sobre la validación del SNP, ¿qué podría responder? ¿qué

significa y qué relevancia tiene la validación de una variante?.

E. Observe la tabla de la derecha “HGVS Names”. ¿Entiende la construcción de los

términos? Relacione estos códigos con las tablas de las secciones “Integrated Maps”

y “GeneView” (“Primary Assembly Mapping” y “RefSeqGene Mapping”).

HGVS o la Human Genome Variation Society establece las reglas de nomenclatura apropiada para cada variante (ver http://varnomen.hgvs.org/).

8

Page 9: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Siempre posee una primera parte que indica la referencia (en qué, en cuál y qué versión) y una

segunda parte, con la descripción de la variante. Esta segunda parte la conforma un prefijo que

indica la secuencia de referencia usada, la posición y la variante propiamente dicha. Dependiendo

el caso la nomenclatura puede complejizarse, pero como introducción veremos un ejemplo;

NM_004006.2:c.5234G>A

NM_004006 .2 :c. 5234 G>A

Secuencia de referencia

Versión de la secuencia de

referencia

Prefijo

Posición de la variante

Referencia y variante referida

● Indicador en letra de la secuencia de referencia:

NC_ una secuencia de referencia genómica basada en un cromosoma

NG_ una secuencia de referencia genómica basada en una región Genética o Genómica

LRG_ una secuencia de referencia genómica, utilizada en un entorno de diagnóstico, basada en

una región Gen o región genómica

NM_ una secuencia de referencia basada en un ARN que codifica una proteína (ARNm)

NR_ una secuencia de referencia basada en un ARN de codificación no proteica

NP_ una secuencia de referencia basada en una secuencia de proteína (aminoácido)

● Prefijo en letra:

"g." Para una secuencia de referencia genómica

"c." Para una secuencia de referencia de ADN codificante

"m." Para una secuencia de referencia de ADN mitocondrial

"n." Para una secuencia de referencia de ADN no codificante

"r." Para una secuencia de referencia de ARN (transcripción)

"p." Para una secuencia de referencia de proteína

F. Analicemos ahora el “entorno de la variante” en la sección de

Visualización/Navegación del genoma.

9

Page 10: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Figura 8: Visualización/Navegación del genoma en dbSNP

i) ¿La variante se encuentra en una región codificante? ¿Cuál es el alelo de referencia en el

genoma?

ii) ¿Encuentra variantes cercanas a la variante del ejemplo? ¿Existen diferencias con las

variantes cercanas encontradas en Ensembl? ¿Puede determinar a qué se deben las

diferencias observadas? Como ayuda,le suministramos el link con el visor de Ensembl

enfocado en la posición de la variante ejemplo:

http://www.ensembl.org/Homo_sapiens/Location/View?db=core;r=17:63917572-63918572

;v=rs137853222;vdb=variation;vf=24027206

iii) ¿Es capaz de encontrar en el mapa la referencia a ClinVar? - ¿Para qué cree que sirve

este link adicional que figura en la sección “Alleles”?.

G. Ahora analizaremos las frecuencias alélicas poblacionales.

En la fila “MAF(...)” (Minor Allele Frequency) se describe la representación del segundo

alelo con mayor representación en la población, referenciado a la posición genómica

correspondiente al SNP. El Alelo de MAF se informa utilizando la hebra de referencia.

i. Observe el valor de “MAF" ¿Considera que la variante informada representa un

polimorfismo o una variante rara? ”

ii. ¿Por qué el alelo minoritario es “A”, a qué alelo de “RefSNP Alleles” corresponde?

La información adicional sobre la frecuencia poblacional se muestran en la sección

“Population diversity” al final de la página:

Figura 9: Population diversity en dbSNP

iii. ¿Para cuáles alelos se tiene información de la frecuencia poblacional? ¿por qué no

está el alelo “A” para el cual se reportó la MAF? ¿Cuál de los alelos reportados para el

10

Page 11: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

SNP no posee información poblacional? ¿En qué población-proyecto se determinaron

las frecuencias?

H. Finalmente analicemos el efecto biológico del SNP en el gen/proteína:

Figura 10: Efecto biológico del SNP en dbSNP

i) ¿Cuál es el cambio que introduce la variante en la proteína?

ii) ¿Por qué si en el genoma la variante es C→G, en el gen figura como G→C?

Otras páginas útiles: VarSome https://varsome.com/

SNPedia https://www.snpedia.com/

Tarea 3) OMIM y ClinVar

OMIM (Online Mendelian Inheritance in Man) es un amplio compendio de genes humanos

y fenotipos genéticos. El objetivo principal es catalogar todas las enfermedades que posean

un componente genético y generar relaciones bibliográficas y con otras bases de datos con

datos genómicos. Una de estas bases de datos es ClinVar, que recopila información de

variantes genómicas y sus relaciones con la salud humana.

Links http://www.omim.org/ http://www.ncbi.nlm.nih.gov/clinvar/

A. Seguiremos trabajando con la variante rs137853222. Vaya primero al sitio web de

OMIM e ingrese la variante.

i) ¿A qué fenotipo (condition) se encuentra relacionada la variante? Puede verificarlo

en OMIM y en ClinVar, incluso también en Ensembl.

ii) ¿Puede identificar cuáles son las publicaciones que relacionan a la variante con el

fenotipo asociado?

11

Page 12: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

B. Ahora cambiaremos el enfoque. Supongamos que nos interesa conocer variantes y

genes relacionados con una enfermedad en particular, por ejemplo fenilcetonuria

(PKU, abreviado en inglés).

i) Busque en la página principal de OMIM la enfermedad fenilcetonuria y seleccione,

entre los resultados, aquel correspondiente a la enfermedad (figura 11). Puede

repasar las características del cuadro clínico, con la información brindada por OMIM.

ii) ¿Cuál es el gen asociado a la enfermedad? ¿Qué modelo de herencia describe la

transmisión de la enfermedad? Desde la página de la enfermedad encuentre el link

que lo lleva hasta la página de dicho gen.

iii) En la página del gen existe una sección donde se detallan las variantes

relacionadas con la enfermedad. Encuentre la sección y seleccione “Table view” para

explorar estas variantes. Analice brevemente las mismas, ¿qué tipo de variantes

son? ¿Hay algún patrón en común?

iv) Identifique en la tabla la variante con el ID “rs75193786” ¿Tiene entrada en

ClinVar? De ser así, abra el link en una pestaña nueva del navegador.

12

Page 13: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Figura 11: (A) Entrada de fenilcetonuria en OMIM. (B) Acceso al gen relacionado (PAH) en OMIM.

C. Explore la entrada de ClinVar abierta en el último inciso del ejercicio anterior, y

complete la siguiente tabla:

Cromosoma y posición de la variante (GRCh38 y GRCh37)

Cambio de aminoácido

Validación de la variante

Significancia clínica

13

Page 14: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

D. En la sección “About” de ClinVar existe documentación acerca de la base de datos.

Ingrese a “Clinical Significance” y en función de la información brindada responda las

siguientes preguntas:

i) ¿Los valores de significancia clínica son asignados por la base de datos? ¿De dónde

surgen?

ii) ¿Cómo se soluciona la situación en la cual una misma variante tiene más de un

valor de significancia clínica asignado?

iii) ClinVar representa los distintos valores de significancia clínica con un código

numérico (ASN.1). Describa brevemente la numeración y cada una de las categorías.

Otras páginas útiles: Genetics Home Reference https://ghr.nlm.nih.gov/

FindZebra http://www.findzebra.com/ Orphanet https://www.orpha.net/consor/cgi-bin/index.php

Tarea 4) UniProt

Uniprot (de Universal Protein) es una fuente integral de datos de secuencias proteicas y

anotaciones funcionales relacionadas a ellas. Las bases de datos que componen Uniprot

(figura 13) son UniprotKB (Uniprot Knowledgebase), UniRef (Uniprot Reference Cluster) y

Uniprot Archive (UniParc).

Link http://www.uniprot.org/

UniprotKB es el eje principal para la recolección de información funcional en proteínas, a

partir de un vasto número de anotaciones. A su vez, esta base de datos está dividida en dos

partes, según sus entradas hayan sido manualmente curadas (Swiss-Prot) o subidas de

manera automática (TrEMBL).

Por ejemplo, el proteoma de Homo Sapiens tiene 173.324 proteínas, donde

aproximadamente el 12% pertenece a Swiss-Prot y el 88% a TrEMBL. Mientras que las

primeras disponen de evidencia experimental, el segundo grupo tiene poca o ninguna

evidencia de que se expresen en el organismo.

UniParc es la recopilación de secuencias proteicas de todas las bases de datos más

conocidas y agrupadas bajo un ID único por proteína. Esto permite eliminar la redundancia

de secuencias debido a múltiples fuentes de datos. Allí también se guarda el “historial” de

las proteínas, es decir, como van cambiando sus anotaciones, secuencia o si son eliminadas

por nuevas entradas.

Por ejemplo, es muy común que:

14

Page 15: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

* Se compruebe que 2 proteínas eran en realidad la misma y junten en un nuevo id

y los ids viejos pasen a ser ids alternativos;

* Se verifique que una proteína no se expresa en el organismo y la entrada se borre;

* Se determina que en realidad “una” proteína eran dos distintas, y la entrada se

borre y se generen 2 nuevas.

En todos los casos, en Uniparc se guarda todo. UniprotKB tiene la última versión.

Por último, Uniref agrupa las secuencias de UniprotKB en clusters según su porcentaje de

identidad de secuencia. Por ejemplo, P62258 está en humano, gallina y en otras especies,

comparten el 100% de la secuencia, pero en gallina tiene el id Q5ZMT0. Tanto P62258 como

Q5ZMT0 (y otras 14 proteínas de distintas especies) pertenecen al cluster

UniRef100_P62258.

Figura 12: Organización de Uniprot.

Ahora vamos a navegar por uniprot para analizar algunas proteínas humanas

A. Ingrese en los proteomas y busque el proteoma humano (figura 13):

i. ¿Resulta lo mismo buscar “human” que buscar “homo sapiens”?

Figura 13: Parte superior de la web de Uniprot. Sección de búsquedas.

15

Page 16: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

ii. En el proteoma seleccionado se pueden ver todos los cromosomas y la

cantidad de proteínas asociadas a cada uno. También se pueden descargar

todas en distintos formatos o visualizarlas desde “View all proteins”. Haga

click sobre ese botón.

La cantidad de proteínas observadas parece muy grande, ¿no?. Cada entrada considera

solo una isoforma, por lo que la aparente gran cantidad de proteínas no se debe solamente a

las variantes de splicing y variantes naturales. Una sola proteína puede contener varias

isoformas y cada una de ellas se encuentra como una entrada separada. Lo más probable es

que esto se deba a consideraciones con las que Uniprot determina cuándo 2 entradas son las

mismas (criterio de redundancia), que luego se van corrigiendo con el tiempo.

Ahora analizaremos entradas de Uniprot buscando sobre UniprotKB.

B. Realice una nueva búsqueda sobre UniprotKB para la palabra “phenylketonuria”:

i. Filtre por humano y Swiss-Prot (antes de filtrar por Swiss-Prot, vea cuántas

entradas distintas hay para el gen PAH).

ii. Utilice el filtro de la izquierda “disease”, éste filtrará aún más la búsqueda.

Las proteínas que quedan son aquellas que tienen variantes directamente

asociadas al trastorno. Verá que en este caso, por ejemplo, desaparece la

entrada Q03393, ¿por qué piensa que la misma es descartada?.

iii. Ingrese a la entrada correspondiente a PAH. ¿Cuál es la función de la proteína

codificada por PAH, la fenilalanin hidroxilasa humana? ¿En qué camino

metabólico (pathway) está involucrada?

iv. En la sección Sequence, ¿pueden identificar una única variante causante de

fenilcetonuria?

v. ¿Hay registradas modificaciones postraduccionales? ¿de qué tipo? ¿sobre

qué aminoácidos?

vi. Vaya a la sección Structure (figura 14) y de ahí a la subsección “3D structure

databases”.

Figura 14: Sección “Structure”. Brinda información sobre la disponibilidad de estructuras obtenidas de la

proteína codificada por el gen PAH.

16

Page 17: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

1. ¿Hay estructuras disponibles? ¿Se observa una buena cobertura horizontal

de la secuencia de la PAH en las estructuras disponibles? ¿Por qué es

importante esto?

2. Para analizar la estructura, clickee sobre el primer código PDB (por Protein

Data Bank) de cuatro dígitos (1dmw), asociado a una estructura

cristalográfica de la proteína codificada por el gen PAH. En este punto, ya

estamos interactuando con otra base de datos: Protein Data Bank in

Europe (PDBe).

2. Para analizar la estructura, entrando por Feature viewer se accede a una pestaña que

permite visualizar características como dominios, estructuras secundarias, registros de

casos, etc. En la parte inferior, a la izquierda se puede visualizar la estructura de PDB (por

Protein Data Bank) identificado en el título, y a la derecha se puede seleccionar las

estructuras disponibles para visualizar. Cada estructura posee un link que lleva a su fuente

en Protein Data Bank in Europe (PDBe).

Link https://www.ebi.ac.uk/pdbe/

Figura 15: Entrada para el código 1dmw, correspondiente a una estructura cristalográfica de la fenilalanin

hidroxilasa humana.

C. Inspeccione la información brindada para la estructura bajo el código 1dmw: i. Haga click sobre alguna de las figuras de la proteína. Podrá ver la estructura

desde distintas vistas y, además, observará algunas con ligandos / metales resaltados. Con esta información, ¿puede determinar si el sitio de reconocimiento del ligando se encuentra sobre la superficie de la proteína o bien en su interior?

ii. Los metales, de estar presentes, suelen jugar un rol muy importante en la función de una proteína, por lo que su identificación dentro de la estructura es una primera incursión hacia un estudio estructural / funcional. El sitio

17

Page 18: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

catalítico, ¿se coordina con algún metal? En caso afirmativo, ¿dónde se encuentra?

iii. A su derecha, en Quick links, clickee en “3D visualization”. Se cargará un visualizador interactivo. Espere a que cargue todos los componentes (se lo va informando en la esquina inferior izquierda).

Otras páginas útiles: NextProt https://www.nextprot.org/

GTEx Portal https://www.gtexportal.org/home/

18

Page 19: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Visualizador Interactivo (para hacer en casa)

Esta herramienta embebida en este sitio web le permite ir moviendo la proteína y verla

desde distintos ángulos (figura 16). Pruebe posicionarse sobre la estructura terciaria y

verá cómo va identificando a cada aminoácido que allí se encuentra, señalándolo con

amarillo y etiquetándolo en la región izquierda superior.

Figura 16: Visor interactivo de la estructura cristalográfica de la fenilalanin hidroxilasa

humana, código de PDB 1dmw.

Intente ahora clickear sobre un

aminoácido determinado, o sobre otra

partícula que desee. Si clickea sobre alguna

zona de la proteína muy cercana al ligando,

por ejemplo, inmediatamente el

visualizador hará zoom sobre esa región y

le mostrará los aminoácidos más cercanos

a esa zona, es decir, aquellos que pueden

estar interactuando con el ligando

mediante distintos tipos de interacciones

químicas.

19

Page 20: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Tarea 5) GWAS catalog

 

Como la clase de teórica de GWAS la tendrán más adelante, haremos por aquí sólo un

recorrido breve.

El acrónimo GWAS hace referencia a Genome-Wide Association Studies, estudios a nivel de

genomas completos, y busca determinar asociaciones entre secuencias de ADN y rasgos

fenotípicos. En estos estudios, se analizan dos grupos de individuos, “casos” (aquellos que

presentan una cierta enfermedad o característica) y “control” (aquellos sanos) y se analiza la

proporción de en que se presentan los alelos alternativos (ALT) y de referencia (REF) en cada

grupo. Es posible que alguno de los dos grupos esté enriqueciendo significativamente a

algún alelo en ciertos SNPs, y se asume que existe una correlación entre la presencia de

dicho alelo y la presencia o ausencia de la enfermedad.

Abajo mostramos una tabla de contingencia hipotética:

Casos Control

Alelo ALT 400 200

Alelo REF 100 800

A través de esta tabla se puede realizar una prueba de Χ2 (CHI cuadrado) para determinar si

estas diferencias se deben al azar o son significativas (donde el valor p es menor a un umbral

determinado). Este análisis puede realizarse para todos los distintos SNPs en el genoma

humano, obteniéndose un gráfico como el de la figura 17 (conocido como Manhattan plot).

Figura 17: Distribución de valores p para distintos SNPs a lo largo del genoma humano relacionados a

un ensayo GWAS.

20

Page 21: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Como pueden observar, existen variantes en ciertos cromosomas con un valor p muy bajo

(valores -log10(p) altos) (¿por qué?) lo que implica que existe una asociación fuertemente

significativa entre el locus y el carácter/condición analizada.

Para estos SNPs significativos se puede calcular un “Odds ratio (OR)”, también conocido

como “cociente de chances” o “razón de momios”, en español. Se define como “chance”, a

un cálculo de la probabilidad de un evento determinado a partir de frecuencias observadas.

Así el cociente de chances queda definido como:

R O = Casos Alt / Controles AltCasos Ref / Controles Ref Si esta razón es igual a 1 implica que no existe relación entre el alelo alternativo (ALT) y la

presencia de la enfermedad. Si es mayor a 1, el ALT estaría relacionado a una mayor

incidencia de la enfermedad. Por último, si es menor a 1, el riesgo mayor estaría dado por el

alelo de referencia (REF). Existe una base de datos que recopila este tipo de información y la

almacena de forma ordenada y accesible, denominada GWAS catalog..

Link http://www.ebi.ac.uk/gwas

A. Ingrese a GWAS catalog, luego vaya primero a la lista de características (traits) que

están descritas en el mismo (si no encuentra el acceso siga este link:

http://www.ebi.ac.uk/gwas/search/traits). Ahí podrá encontrar todos los traits para

los que se ha realizado un GWAS. Como verá los traits pueden ser enfermedades

como “Alzheimer” y “Coronary heart disease” o características muy generales como

“Aging” ó “Coffee consumption”.

Observe un poco las demás entradas, ¿qué tienen en común? ¿Por qué se pueden

realizar estudios GWAS de cosas tan diversas?

B. Seleccione la opción de “Alzheimer’s disease” y clickee “Search for traits” ó escriba

“Alzheimer disease” en la barra superior.

i) Vaya a la sección “Associations”. ¿Puede reconocer los parámetros explicados en la

introducción (OR, p-value)? ¿Que otra información provee GWAScat?

ii) Mire la columna “Functional class”. ¿A qué puede atribuir los tipos de variantes

génicas que allí observa?

C. Busque el SNP rs1333049.

i) ¿Con qué enfermedad está relacionado la variante?

ii) ¿Cuál es su OR? ¿cómo se interpreta ese valor?

21

Page 22: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

iii) Observe el valor de la frecuencia del alelo en la población sana (RAF). ¿Es un

polimorfismo o una variante rara? ¿Encuentra algún correlato entre la frecuencia de

este alelo y la incidencia de esta enfermedad en el mundo?

Tarea 6) PharmGKB

Al igual que para GWAScat, para PharmGKB haremos solo un recorrido breve, ya que la clase

será más adelante.

PharmGKB es un proyecto que recopila y organiza información clínica relacionada con la

farmacogenómica, incluyendo guías de dosaje y asociaciones gen-droga con potencial

relevancia clínica y relaciones genotipo-fenotipo. PharmGKB recopila, cura y publica

información acerca de las variaciones genéticas humanas asociadas a la respuesta de

drogas.

Link www.pharmgkb.org

A. Ingrese en Pharmgkb y busque en la base de datos “hypercholesterolemia”.

Dentro de los resultados que le devuelve la búsqueda:

i) Seleccione, por ejemplo, el rs4149056, el cual, entre las drogas asociadas tiene a

“simvastatin”. Busque, haciendo Ctrl+F, la droga “simvastatin”. ¿Qué información

puede encontrar entre la droga y genotipos posibles en un paciente? ¿Cuán

relevante considera este tipo de información brindada?

ii) ¿Qué tipo de efecto tiene la variante sobre la droga (“Type”)? ¿Con qué nivel de

evidencia se observa esta relación?

iii) ¿Existen otras entradas relacionadas a la misma variante? ¿Todas las entradas

corresponden al mismo cuadro clínico?

iv) ¿Reconoce el gen afectado por la variante? ¿cuál es el resultado funcional de

dicha variante?

D. La FDA (Food and Drug Administration) posee una lista con aquellas drogas usadas

como biomarcadores de farmacogenómica. Así, las drogas pueden tener información

de dosaje, efectividad, mecanismos de acción, etc. que sean dependientes o estén

relacionadas a un cierto genotipo.

Link http://www.fda.gov/drugs/scienceresearch/researchareas/pharmacogenetics/ucm083378.htm

22

Page 23: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

i) Abra el link de FDA y busque en la lista la droga “dolutegravir”. ¿Cuál es el gen cuyo

producto es el blanco de dicha droga? ¿En qué secciones del prospecto (Labelling

Section) se encuentra la información de farmacogenómica?

ii) Ingrese nuevamente en PharmGKB y busque la droga “dolutegravir”. Haga click en

la primera sección “Annotation of FDA Label for dolutegravir and UGT1A1”. Se abrirá

una nueva página. ¿Puede encontrar alguna información que relacione la efectividad

de la droga con aspectos genéticos?

iii) En esta página usted podrá encontrar un link de descarga del prospecto de la

droga (en formato pdf), con la secciones que tienen anotaciones sobre

farmacogenómica resaltadas. ¿Puede encontrar una región resaltada que tenga

información acerca de en qué población es más efectiva la droga?

E. PharmGKB permite también acceder a anotaciones clínicas, que de otra forma son

inaccesibles (para poder visualizarlas tienen que registrarse, pero la página solicita

datos que acrediten que pertenecen a una entidad académica / clínica y la

autorización a veces lleva un tiempo). Para poder realizar este ejercicio, a

continuación le suministramos una captura de pantalla para la variante rs1800497. i) Observe detenidamente la información suministrada para cada caso. Ver figura 18.

ii) ¿Considera estos datos importantes a la hora de recetar un fármaco?

iii) Describa brevemente la interacción de la variante con ambas drogas. Tenga en

cuenta el tipo de interacción, la evidencia, los genotipos, si alguna raza en particular

se ve afectada, etc.

NOTA: Si bien se considera que no existen razas en la especie humana, muchos sitios utilizan

este término como sinónimo a grupo étnico o población en la que se realizó el estudio.

Nosotros no adherimos a esta terminología, pero lo incluimos de esta forma para evitar

confusiones. iv) ¿Le llama la atención que una variante afecte a dos genes distintos? Busque dicha

variante en Ensembl y localícela en el genoma con el visor integral (figura 19).

¿Puede concluir algo al respecto?

23

Page 24: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Figura 18: Anotaciones clínicas detalladas para la variante rs1800497.

24

Page 25: TP 3 - Exploración de Bases de datos Humanas Introducción

 III Escuela de Genómica Clínica    Agosto 2018 

 

Figura 19: Localización de la variante rs1800497 y su entorno génico cercano.

25