Post on 20-Jul-2020
Algunos problemas computacionales enmetagenómica
Francesc Rosselló
Grupo de Biología Computacional y Bioinformática (UIB)
Técnicas Inteligentes en BioinformáticaSevilla, 16 de junio de 2014
Los reyes de la Tierra?
2 / 53
Los reyes de la Tierra?
2 / 53
Aunque sólo sea por número
N. C. Kyrpides, Nature Biotech. 27 (2009), 627–6323 / 53
Los microbios controlan la atmósfera
El ciclo del carbono
Fuente: http://www.bigelow.org/foodweb/carbon_cycle.jpg4 / 53
Los microbios controlan nuestra saludNuestro zoo interior
Fuente: http://www.washingtonpost.com/national/health-science/microbes-may-play-crucial-role-in-human-health-researchers-discovering/2011/09/24/gIQAH5lFYL_story.html
5 / 53
Los verdaderos amos
6 / 53
Cómo se estudian los microbios?
Era pre-genómica: 1650-1975
7 / 53
Cómo se estudian los microbios?
Era genómica: 1975-. . .
• 1975-1980: Primeros genomas de virus secuenciados
• 1995: Primer genoma de bacteria secuenciado H. influenziæ
• Hoy: Más de 3.000 genomas completos de microorganismossecuenciados y depositados en GenBank, 12.000 proyectos desecuenciado de microorganismos en marcha sólo en el DoE.
• Básicamente, microbios en cultivos puros o (a partir de 2005)de especies dominantes en su comunidad o de genomafácilmente separable.
8 / 53
Cómo se estudian los microbios?
The new science of metagenomics. The National Academies Press (2007). Fig. 1-3
9 / 53
Cómo se estudian los microbios?
The new science of metagenomics. The National Academies Press (2007). Fig. 1-3
10 / 53
Metagenómica
La metagenómica (más allá del estudio genómico de un soloorganismo) analiza las colecciones de secuencias obtenidas demuestras microbianas ambientales
De moda porque:• La mayoría de los microbios no se pueden estudiar aislados enlaboratorios
• El estudio de las comunidades microbianas es más interesante
• Las nuevas técnicas de secuenciación producen cantidadesgrandes de secuencias de DNA a bajo coste
11 / 53
Metagenómica
Secuenciadores de nueva generación
A. Magi et al, Genes 1 (2010), 294–307
12 / 53
Oportunidades en metagenómica
13 / 53
Pasos de un estudio metagenómico
The new science of metagenomics. The National Academies Press (2007). Fig. 4-114 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
15 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo• Las muestras han de ser representativas: Cálculo de curvas de
rarefacción
S. Monira, S Nakamura et al, Front. Microbiol. 2 (2011), 228
• Elección de las condiciones de muestreo
• Metadatos (para poder reciclar los datos)
15 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán• Marcadores específicos
• Secuenciado shotgun aleatorio de DNA
15 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
15 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
5 Procesado computacional de las secuencias• Identificación de anomalías
• Identificación de OTU
15 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
5 Procesado computacional de las secuencias
6 Análisis filogenético o taxonómico de la muestra de secuencias
15 / 53
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
5 Procesado computacional de las secuencias
6 Análisis filogenético o taxonómico de la muestra de secuencias
7 Análisis de la comunidad
15 / 53
rRNA
X. C. Morgan, C. Huttenhower, PLoS Comput. Biol. 8 (2012), e1002808 16 / 53
rRNA
Subunidades 16S (bacterias y archaea) y 18S rRNA (hongosunicelulares)
Fuente: B. Alberts et al, Molecular biology of the cell
17 / 53
rRNA
Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):
• Largas• Ubicuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo
18 / 53
rRNA
Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):
• Largas• Ubícuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo
• Contienen pequeños trozosaltamente conservados: primersuniversales para PCR
• Contienen trozos muy variables:marcadores característicos de laespecie
19 / 53
rRNA
Problemas:
• Raros en el genoma (< 0.1%)• Los trozos similares dificultan el ensamblado correcto delecturas pequeñas
• No todos los rRNA se amplifican en la misma medida con losprimers universales
• Especies con diversas copias de sus genes rRNA• No se conoce un umbral fijo de similitud que separe especies• Tendencia a producirse quimeras en la PCR
20 / 53
Procesado computacional de rRNA
Etapas:
1 Filtrado
2 Eliminación de quimeras y otras anomalías
3 Formación de OTU
4 Identificación de los OTU con organismos en bases de datos
Algunos paquetes permiten llevar a cabo todo el proceso:• mothur: http://www.mothur.org
• QIIME: http://qiime.org
21 / 53
Formación de quimeras en la PCR
22 / 53
Formación de quimeras en la PCR
(Aunque la PCR de emulsión las reduce)23 / 53
Detección computacional de quimeras: Pintail
Fuente: K. E. Ashelford, et al, Appl. Environ. Microbiol. 71 (2005), 7724–773624 / 53
Detección computacional de quimeras: ChiSeqI
Fuente: A. M. Arigon, G. Perrière, M. Gouy, Biochimie 90 (2008), 609–614.25 / 53
Detección computacional de quimeras: Otros
Bellerophon T. Huber et al, Bioinformatics 20 (2004), 2317–2319
Mallard K. E. Ashelford et al, Appl Environ Microbiol. 72 (2006), 5734–5741
ChimeraSlayer B. Haas et al, Genome Res. 21 (2011), 494–504.
Uchime R. Edgar et al, Bioinformatics 27 (2011), 2194-2200.
Perseus C. Quince et al, BMC Bioinformatics 12 (2011), 38.
DECIPHER E. S. Wright et al, Appl. Environ. Microbiol 78 (2012) 717–725
...
26 / 53
Agrupamiento de secuencias en OTU
• Mediante comparación con secuencias consenso (QIIME)• Aceptando o descartando secuencias nuevas
• Recalculando los consensos
• Técnicas de aprendizaje automático supervisado (redesBayesianas, SVM)
• Mediante clustering no supervisado basado en distancias deedición
En todos los casos, el OTU se representa mediante una secuenciade consenso obtenida mediante alineamiento múltiple
27 / 53
Agrupamiento de secuencias en OTU
Clustering no supervisado: mothur
• Alineamiento múltiple con secuencias modelo de una base dedatos (SILVA)
• Clustering jerárquico UPGMA por distancias de edición• Corte manual del árbol para producir los OTU
28 / 53
Agrupamiento de secuencias en OTU
Clustering no supervisado: DBC1 Parte de diversas muestras2 Preclasificación en grupos de 90% de similitud3 Usa una combinación de distancia de edición (por alin.
múltiple) e información sobre distribución en las muestras
S. P. Preheim et al, Appl Environ Microbiol. 79 (2013), 6593–6603 29 / 53
Bases de datos
• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA
• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC
• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC
• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank
• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive
30 / 53
Bases de datos
• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA
• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC
• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC
• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank
• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive
30 / 53
Análisis taxonómico
lecturasreferenciagenómica
estadísticas referenciataxonómica
clasificaciónno-taxonómica
clasificacióntaxonómica
mapeo
asignaciónno-taxonómica
asignacióntaxonómica
31 / 53
Problema de la asignación taxonómica
Input:• Una referencia genómica S (conjunto de secuencias)
• Una referencia taxonómica T (árbol) de hojas L, cada unaetiquetada con una secuencia de S
• Un conjunto R de reads (lecturas) de rRNA
Output:• Para cada Ri ∈ R , un nodo de T que represente lo mejorposible el conjunto Mi ⊆ L de secuencias que se asignan a Ri(hits)
32 / 53
MEGAN
• Filtrado de hits relevantes:• Umbral de puntuación del alineamiento entre read y hoja con
BLASTX, absoluto y en porcentaje del máximo
• Para cada read, sólo los hits de máxima puntuación
• Sólo reads con un número mínimo de hits
• . . .
• Se asigna cada Ri al LCA del Mi obtenido de esta manera
D. Huson et al, Genome Res. 17 (2007), 377–386
33 / 53
TANGO
http://www.lsi.upc.edu/~valiente/tango/
D. Alonso-Alemany et al, Bioinformatics 30 (2014), 17–2334 / 53
Precisión y Exhaustividad
VP: Verdaderos positivos FP: Falsos positivosVN: Verdaderos negativos FN: Falsos negativos
Precisión: P =VP
VP + FP
Exhaustividad: R =VP
VP + FN
Índice F : Media armónica de P y R , F =2
1P + 1
R=
2PRP + R
35 / 53
Precisión y Exhaustividad en una asignación taxonómicaSean• k > 0 un umbral máximo de errores de alineamiento• Ri el i-ésimo read• Mi las hojas de T que contienen Ri salvo k errores• Ti el subárbol de T con raíz el LCA de Mi• Ni las hojas de Ti que no contienen Ri salvo k errores
Hojas de Ti :• VP i = Mi
• FP i = Ni
• VN i = ∅• FN i = ∅
Ti
Ni Mi
FPi VPi 36 / 53
Precisión y Exhaustividad en TANGO
Sean• Tij el subárbol de Ti con raíz en el j-ésimo nodo de Ti
• Mij las hojas Tij que contienen Ri salvo k errores• Nij las hojas Tij que no contienen Ri salvo k errores
Hojas de Ti , paracada j :• VP ij = Mij
• FP ij = Nij
• VN ij = Ni \ Nij
• FN ij = Mi \Mij
Ti
Tij
Ni Nij MijMi
VNij FPij VPij FNij
37 / 53
Evaluación de la asignación taxonómica
• La precisión de la asignación de Ri a la raíz de Tij es
Pij =|VP ij |
|VP ij |+ |FP ij |
• La exhaustividad de la asignación de Ri a la raíz de Tij es
Rij =|VP ij |
|VP ij |+ |FN ij |
• El índice F de la asignación de Ri a la raíz de Tij es
Fij =2PijRij
Pij + Rij
38 / 53
BacteriaAquificae
AquificaeAquificales
AquificaceaeAquifex
Aquifex pyrophilusHydrogenobaculum
Hydrogenobaculum acidophilumHydrogenobacter
Hydrogenobacter subterraneusHydrogenobacter thermophilusHydrogenobacter hydrogenophilus
PersephonellaPersephonella hydrogeniphilaPersephonella marinaPersephonella guaymasensis
SulfurihydrogenibiumSulfurihydrogenibium subterraneumSulfurihydrogenibium azorenseSulfurihydrogenibium yellowstonense
ThermocrinisThermocrinis albusThermocrinis ruber
HydrogenivirgaHydrogenivirga caldilitoris
P = 6/(6+ 8) = 43%R = 6/(6+ 0) = 100%
F = 60%
P = 3/(3+ 0) = 100%R = 3/(3+ 3) = 50%
F = 67%
39 / 53
Evaluación de la asignación taxonómica
• El índice F de la asignación de Ri a la raíz de Tij es
Fij =2PijRij
Pij + Rij=
2|VP ij ||FN ij |+ |FP ij |+ 2|VP ij |
• La penalización de la asignación de Ri a la raíz de Tij es
PS ij = q|FN ij ||VP ij |
+ (1− q)|FP ij ||VP ij |
Asignaremos cada Ri minimizando PS . El parámetro q ∈ [0, 1]influye en la altura de la asignaciónq = 0 Cada Ri se asigna a una hojaq = 0.5 Cada Ri se asigna a un nodo de maximiza F (Teorema)q = 1 Cada Ri se asigna al LCA de Mi
40 / 53
Protocolo de asignación taxonómica
• Aplicar una herramienta de mapeo de reads a R y T paracalcular el conjunto de hits Mi para cada Ri ∈ R
• Especificar q ∈ [0, 1]
• Para cada Ri ∈ R• Si |Mi | = 0, la salida es null• Si |Mi | = 1, la salida es la hoja en Mi• Si no, la salida son los nodos j de Ti con menor PS i,j
41 / 53
Protocolo de asignación taxonómica
TeoremaDados un conjunto Mi ⊆ L de hits y el subárbol Ti de T con raízsu LCA:• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O(|Ti |)
• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O((|Mi |) con un preprocesado (común) en tiempoO(|T |)
42 / 53
Análisis de la comunidad
• Estudio de la biodiversidad por comunidad
• Comparación de composiciones de comunidades
• Predicción de asociación de especies con metadatos
• Análisis de correlaciones para detectar grupos demicroorganismos
43 / 53
Biodiversidad
Obtenemos Ni observaciones del OTU si• Estimación de abundancias relativas
xi =Ni + 1∑i (Ni + 1)
Se puede obtener también su distribución de probabilidad (másinformativo)
P(x |N) = Dir(N + 1)
• Entropía de Shannon para estimar biodiversidad (la máspopular)
H = −∑i
xi ln(xi )
• Número efectivo de especies
neff = eH
44 / 53
Distancia UniFrac entre comunidades
La distancia más popular es UniFrac: la distancia entre lacomunidad A y la comunidad B es la fracción de ramas del árbolfilogenético o taxonómico de las que cuelgan OTU de A o de Bpero no de ambos
Similar Communities Maximally Different Communities
UniFrac Distance Measure = (------) / (------ + ------)
C. Lozupone, R. Knight, Appl. Env. Microbiol. 71 (2005), 8228–8235
45 / 53
Distancia UniFrac entre comunidades
Versiones con pesos según abundancias:
dW (A,B) =
∑i`i |pAi − pBi |∑
i`i (pAi + pBi )
d (α)(A,B) =
∑i`i (pAi + pBi )
α |pAi −p
Bi |
pAi +pB
i∑i`i (pAi + pBi )α
donde• `i : longitud del arco i
• pAi , pBi : abundancias relativas de OTU de A y B que cuelgan
de idW (A,B): C. Lozupone et al, Appl. Environ. Microbiol. 73 (2007), 1576–1585.
d(α): J. Chen et al, Bioinformatics 28 (2012), 2106–2113
46 / 53
Distancia UniFrac entre comunidades
MDS con la distancia UniFrac
¿Qué significan los ejes?
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859
47 / 53
Edge PCA
Partimos de S muestras y un árbol filogenético con E arcos.
1 Para cada muestra s y cada arco e, se calcula el número dereads en s que cuelgan del arco menos el número de los que nocuelgan del arco
2 Organizamos estas diferencias como una matriz S × E : filas,muestras, columnas, arcos
3 Se aplica el PCA. (Con suerte) Los primeros vectoresprincipales explican la mayor parte de la variabilidad de lasmuestras
4 Los vectores principales son combinaciones de arcos, y sepueden visualizar/interpretar en el árbol
5 La proyección sobre los primeros vectores principales ayuda avisualizar la similitud de las muestras
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859
48 / 53
Edge PCA
Microbioma vaginal:
1er vector principal → 56% devariabilidad total
2o vector principal → 24% devariabilidad total
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685949 / 53
Edge PCA
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685950 / 53
Correlaciones entre grupos de microorganismos
Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :
x i = (xi1, . . . , xim)
• Usar correlación de Pearson sobre datos dependientes esincorrecto
• Se han hecho simulaciones mostrando que, en efecto, su usoen variables composiciones en metagenómica da resultadossesgados
51 / 53
SparCC
Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :
x i = (xi1, . . . , xim)
• y ij = log(x i/x j) tiene información sobre abundancias absolutas
• tij = Var(y ij)
• tij = ω2i + ω2
j − 2ρijωij donde las ω son las (co)varianzas dellog de abundancias absolutas y ρij su correlación
• Se pueden aproximar las ω si suponemos ρij ≈ 0 y muchosρij = 0 (sparse correlation), y se despejan las ρij
• Se itera eliminando los pares de especies más correlacionados
L. Friedman, E. J. Alm, PLoS Comput Biol 8 (2012), e1002687
52 / 53
Y éste era el enfoque fácil
Los problemas computacionales en metagenómica con secuenciadoshotgun son mucho más difíciles.
Lectura recomendada:• V. Kunin et al, “A Bioinformatician’s Guide to Metagenomics”.Microbiol. Mol. Biol. Rev. 72 (2008), 557–578
• Briefings in Bioinformatics, Special Issue on Bioinformaticsapproaches and tools for metagenomic analysis, 13 (6) 2012
53 / 53