Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información...

24
Análisis genético usando datos de secuenciación masiva Michael Hackenberg [email protected]

Transcript of Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información...

Page 1: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Análisis genético usando datos de secuenciación masiva

Michael Hackenberg

[email protected]

Page 2: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Motivación

Existen diferentes situaciones en las que interesa detectar el genotipo de un individuo Identificación del portador: análisis genético de una pareja que está pensando en tener un hijo y cuyos miembros pertenecen a familias con antecedentes . Diagnóstico pre-natal: es el test genético de un feto. Puede ser realizado en los casos en los que existe riesgo de que el bebé presente genes asociados a un retraso mental o discapacidad física. Exploración del recién nacido: se realiza frecuentemente como medida preventiva de salud, presentando una ventaja obvia para el recién nacido cuando existe un tratamiento disponible. Trastornos de aparición tardía: incluye el análisis de enfermedades en adultos como, por ejemplo, cáncer y enfermedades cardiacas. Estas enfermedades son complejas y las causas para su desarrollo pueden ser tanto genéticas como medioambientales.

Page 3: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Enfermedades mendelianas

Page 4: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Ejemplos: Enfermedades mendelianas

Base de datos: OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim

Toda la información acerca de enfermedades mendelianas conocidas

incluyendo 12000 genes y la relación entre el genotipo y fenotipo

Hemoglobinopathies: sickle cell anaemia,thalassemia

Inborn errors of metabolism:PKU,Alkaptonuria……

Albinism

Cystic Fibrosis

Hirschsprung disease

Page 5: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Fenotipos complejos

Objetivo

Corto plazo: Descubrir la base molecular de un fenotipo complejo, es decir la variación genética que puede explicar las diferencias fenotípicas entre los individuos de dos grupos (casos/controles)

Largo plazo: Mejorar la prevención y el tratamiento de enfermedades

Factores genéticos

Factores ambientales

Fenotipo complejo

• Algunos canceres • Diabetes (ambos tipos) • Alzheimer • Adicciones • Altura • Etc, etc, …

Page 6: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

SNPs

En un principio podríamos usar diferentes tipos de variación para detectar las diferencias entre poblaciones o grupos (sanos/enfermos) pero el análisis genético se basa frecuentemente en SNPs

SNPs: Polimorfismo de nucleótido simple • Suelen tener solo dos alelos, por ejemplo

C/T

• Mas de 2/3 de todos los SNPs derivan de un dinucleótido CpG (mutación por metilación)

• MAF: Minor Allele Frequency (frecuencia del alelo menos frecuente)

• A partir de una MAF del 5% (algunas veces del 1%) se define como SNP común

• Los SNPs comunes se suelen emplear en los estudios de asociación

Page 7: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Tipos de variación: insercion y deleción

http://www.hgmd.cf.ac.uk/docs/mut_nom.html

Inserción en humano/chimpancé

Deleción en ratón/rata

Page 8: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Alineamientos

Page 9: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Genotípo y haplotípo

Page 10: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Frecuencia vs. Efecto

Page 11: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Detectar variación con chips de DNA

El principio de detectar variación mediante chips de DNA es el mismo que determinar los perfiles de expresión:

Page 12: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Secuenciación masiva

Métodos actuales Second Generation Sequencing (Secuenciación masiva) 454

Pyrosequencing (PS)

Illumina Reversible Termination (RT)

SOLID Sequencing by Ligation (SBL)

Page 13: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Secuenciación

Page 14: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Secuenciación

Page 15: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Variación y genotípo

SNP calling: detectar si en una posición dada existe variación Genotype calling: Detectar el genotípo de un individuo en la posición

Page 16: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Variación y genotípo

Posición: chr9:139266466-139266536 Alelo de la referencia: C 8 reads indican timina en la muestra 10 reads indican citosina en la muestra

Heterocigoto con genotipo: C/T

Page 17: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Detección de variación y genotípo

Page 18: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Protocolo

(1) discovery: alignment of sequence reads to the reference genome and identification of candidate sites or regions at which one or more samples differ from the reference sequence;

(2) filtering: use of quality control measures to remove candidate sites that were probably false positives;

(3) genotyping: estimation of the alleles present in each individual at variant sites or regions;

(4) validation: assaying a subset of newly discovered variants using an independent technology, enabling the estimation of the false discovery rate (FDR). Independent data sources were used to estimate the accuracy of inferred genotypes.

Page 19: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

El punto de partida: FASTQ

@SRR037876.8543926 GSM522374_1:1:148:931:861 TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# @SRR037876.8543927 GSM522374_1:1:148:931:517 AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT + BBC@3<1=872661.@C;@A93+?:;.2.?386<;> @SRR037876.8543928 GSM522374_1:1:148:931:648 TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT + 5@059)@6?':9>0<@@)@=BA8)99@3258?#### @SRR037876.8543929 GSM522374_1:1:148:931:770 GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT +

Identificador

Secuencia del ‘read’

Calidad del ‘read’

La calidad Los caracteres se pueden convertir en un score (Q, Phred score) de calidad

La salida del secuenciador: Los reads (lecturas) en formato fastq

Page 20: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Phred Quality Score

Línea de calidad: BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#

ASCII codificación B = 66 @=64 + = 43 …

Codificación depende del fabricante (por ejemplo codificación Sanger para la línea de calidad de de arriba) Q(B) = 66 – 33 = 33 (primer base) Q(@) = 64 – 33 = 31 (tercer base) Q(+) = 43 – 33 = 10 (cuarta base) …

Page 21: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Phred Quality Score

Q y probabilidad de un error de secuenciación

Page 22: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Example of extended CIGAR and the pileup output.

Li H et al. Bioinformatics 2009;25:2078-2079

© 2009 The Author(s)‏

Page 24: Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información acerca de enfermedades mendelianas conocidas incluyendo 12000 genes y la relación

Formato VCF