Relacionando enfermedad y genética

Post on 18-Nov-2021

5 views 0 download

Transcript of Relacionando enfermedad y genética

Relacionando enfermedad y genéticaElvira MayordomoBioinformática14-4-21

Lo que veremos hoy

¿Qué posiciones del DNA se pueden relacionar con una enfermedad?

Dos métodos principales para hacerlo:EstadísticaMachine learning

Diferencias entre los dos, inconvenientes de cada uno, etc

¿Cuándo decimos que una enfermedad es genética? Se ha encontrado diferencia significativa

entre la información genética de los individuos que tienen la enfermedad y los sanos

¿Cuánta diferencia? ¿Exactamente qué información genética?

Términos de genética

Alelo: una de los valores alternativos de DNA en una posición (cromosomas homólogos)

Polimorfismo: existen al menos dos alelos en una posición

Homocigótico: Los dos alelos de una posición son idénticos

Heterocigótico: Los dos alelos de una posición son diferentes

SNP

Single Nucleotide Polymorphism Variación de una sola base En teoría hasta 4 valores posibles En la práctica suelen ser dos Se exige frecuencia ≥ 1% de los

individuos

GAGGAGAACG[C/G]AACTCCGCCG

GWAS

Genome-wide association studies Se buscan unos SNPs en una población Casos= enfermos, Controles =sanos

GWAS

Queremos identificar asociación entre un fenotipo (tiene la enfermedad) con uno de los SNP estudiados

Tenemos el grupo casos vs controles La mayoría de los SNPs saldrán

invariantes, algunos sandrán sobre- o infra-rrepresentados

ESTADÍSTICA

Estadística: test de asociación

Para un SNP: comparar proporciones de cada alelo

GWAS Se prueban 105-106 SNPs “bastante”

independientes 103-105 casos Control de calidad estricto Se utiliza un test de hipotesis (chi

cuadrado) Aparecen a menudo cientos de casos con

p<0.001 Significancia a partir de p=5*10-7

GWAS o Linkage

En realidad no todos los SNPs van por separado, hay pares que se heredan siempre juntos (por su posición)

Si se tiene esto en cuenta aparecen más SNPs significativos

Linkage desequilibrium

Buscar el común a dos SNPs: cuanto más oscuro más se heredan juntos

Problemas de GWAS con estadística Funciona bien cuando se trata de un SNP Cuando se usa “linkage” la información

hay que tenerla a priori (qué SNPs se heredan juntos)

Considerar conjuntos de SNPs (es decir, enfermedades complejas multifactoriales) está más limitado

Poco escalable: ¿y si queremos añadir información epigenética?

Problemas de GWAS con estadística ¿Qué hacemos en realidad?Descartar la hipótesis de que un SNP no

influya en la enfermedadNo tenemos un resultado claro de cómo

influye, de si es el único o si es determinante La estadística hace “inferencia estadística”

infiere el modelo que representa unos datos

La predicción no es el objetivo

MACHINE LEARNING

¿Qué es el Aprendizaje Computacional?

Para GWAS

El objetivo es predecir a partir de los SNPs si un individuo va a tener la enfermedad

O sea predecir entre dos categorías posibles, enfermo o sano

Para GWAS

Experiencia: conjunto etiquetado de ejemplos (DNA(SNPs), diagnóstico)Conjunto de entrenamiento 60-80%Conjunto de validación 10-20%Conjunto de prueba 10-30%

Tarea: clasificar DNA entre los diagnósticos

Medida de prestaciones

Matriz de confusión

Importante

Todas las medidas de prestaciones se refieren a los datos que tenemos

Problemas de ML

Los datos tienen que ser equilibrados (el mismo número de enfermos que de controles)

Si no hay que equilibrarlos artificialmente

Comparando los dos

La estadística puede predecir pero lo suyo no es la precisión si no la predicción estadística

El aprendizaje computacional predice mucho mejor que la estadística lo que no hace muy bien es interpretar la razón de esa predicción

Comparando los dos

Aprendizaje: el mejor en el conjunto dadoHay un salto claro en creer que será la misma

precisión para datos desconocidosPero no es necesario asumir que los datos

son aleatorios, sólo que son representativos (en un sentido poco claro)

Estadística: asume que los datos son aleatorios

Problema de los dos

Reproducibilidad