5 de Octubre de 2011 - vhir.org · Discriminación basada sólo en tamaño Los resultados no están...

193
5 de Octubre de 2011

Transcript of 5 de Octubre de 2011 - vhir.org · Discriminación basada sólo en tamaño Los resultados no están...

5 de Octubre de 2011

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

DIA 1. 5 de Octubre

Microarrays (Ricardo Gonzalo)RTqPCR (Paqui Gallego)Diseño experimental y análisis de resultados (Alex Sánchez)

DIA 2. 30 de Noviembre

Ultrasecuenciación (Paqui Gallego y Alex Sánchez)

Pre-Experimento…

UEB

INVESTIGADOR

UCTS

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

MATERIAL DE PARTIDA: RNA

•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)

TIPOS DE ARRAYS

•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)

EXPERIMENTO DE MICROARRAYS

•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad

MIC

RO

AR

RA

YS

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

MATERIAL DE PARTIDA: RNA

•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)

TIPOS DE ARRAYS

•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)

EXPERIMENTO DE MICROARRAYS

•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad

MIC

RO

AR

RA

YS

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Tipos de arrays de expresión según su tecnología (I)

Arrays de cDNA – 2 colores Arrays de oligos – 1 color

Impresión de la sonda síntesis de la sonda “in situ”

2 dyes fluorescentes (Cy3/5) 1 dye fluorescente (FE)

1 gen = pocos spots/replicados 1 gen = representado por muchas sondas diferentes

2 muestras / slide 1 muestra / slide

Longitud (nt) elevada oligos de 20-25 nt

Medidas relativas medidas absolutas

Tipos de arrays de expresión según su tecnología (II )

•Más económicos

•Alta flexibilidad en el diseño

•Chips de alta densidad

•Muy reproducibles

•Medidas absolutas

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Arrays de cDNA (2 colores) Arrays de oligos (1 color)

pros

•Manejo de clones

•Posibles hibridaciones cruzadas

•Baja reproducibilidad

•Precio elevado

•Falta de flexibilidad en algunos formatos

•Equipamiento especializado

cons

•Genome-Wide SNP Analysis GW Human SNP array 6.0

? 1.8 M marcadores genéticos (900.000 SNP + 900.000 CNV)

•Resequencing Arrays Human Mitochondrial array

“Custom” resequencing arrays

•Citogenética GW Human SNP array 6.0

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Tipos de microarrays (Plataforma de Affymetrix) (I)

DNA ANALYSIS ARRAYS

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

GENE REGULATION ANALYSIS ARRAYS

Tipos de microarrays (Plataforma de Affymetrix) (II)

• ChiP-on-Chip: Estudio de interacciones entre DNA y proteínas y

modificaciones del DNA, ej.

� Sitios de unión de factores de transcripción

� Sitios de unión de histonas

� Metilación del ADN

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Tipos de microarrays (Plataforma de Affymetrix) (III)

EXPRESSION ANALYSIS ARRAYS (I)

3’ Expression Human U133 Plus 2.0 array

Human U219 array plate

Rat, Mouse, Porcine, Zebrafish, …

3’5’

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Tipos de microarrays (Plataforma de Affymetrix) (IV)

EXPRESSION ANALYSIS ARRAYS (II)

Gene Arrays Human, Mouse, Rat Gene 1.0 ST Array

Exon Arrays Human, Mouse, Rat Gene 1.0 ST Array

3’5’

Gene Arrays

Exon Arrays

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Tipos de microarrays (Plataforma de Affymetrix) (V)

miRNA GeneChip miRNA 2.0 Array

•131 organisms in the array (human, mouse, rat, canine, ….)

•100% miRBase v115

•2.334 snoRNAs and scaRNAs (human small nuclear RNAs)

•Low inputs amounts (0.1 to 1 ugtotal RNA)

•2.202 probe sets unique to pre-miRNA hairpins

• Según el método de purificación se enriquece una fracción u otra.

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Tipos de microarrays (Plataforma de Affymetrix) (VI). Re sumen

RNA - 3’IVT Expression Hg U133 Plus 2.0 Formato individual o formato placa (16, 24 ó 96)

Hg U219 Formato placa

- WT-Expression Human Gene Array Formato individual o formato placa

Human Exon Array Formato individual

- miRNA miRNA Array Formato individual

DNA - Resequencing Mitochip Formato individual

“Custom” Formato individual

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

¿Cómo están hechos? (I). Fotolitografía

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

¿Cómo están hechos? (II)

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

MATERIAL DE PARTIDA: RNA

•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)

TIPOS DE ARRAYS

•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)

EXPERIMENTO DE MICROARRAYS

•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad

MIC

RO

AR

RA

YS

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

MATERIAL DE PARTIDA RNA TOTAL

Poli A mRNA

EXTRACCIÓN

Células eucariótas QIAGEN

Tejido TRIZOL

CALIDAD CANTIDADBIOANALYZER

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CALIDAD RNA (I): BIOANALYZER

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CALIDAD RNA (II): BIOANALYZER

CALIDAD RNA (III): BIOANALYZER. Cálculo de la conce ntración

RNA Area: 192.0 RNA Concentration: 150 ng/µlResult Flagging Color: 255 Result Flagging Label: Bad RNA quality

RNA Area: 155.7 RNA Concentration: 122 ng/µlrRNA Ratio [28s / 18s]: 1.6 RNA Integrity Number (RIN): 8.5 (B.02.08) Result Flagging Color: 65280 Result Flagging Label

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Not all expected ladder peaks have been found. You should try to modify peak find settings or add peaks using manual integration.

Issue with ladder peak detection. Please check ladder.

RNA Area: 1,653.2 RNA Concentration: 50,101 pg/µlrRNA Ratio [28s / 18s]: 1.3 RNA Integrity Number (RIN): 7.7 (B.02.08) Result Flagging Color: 65280 Result Flagging Label: Good RNA quality

CALIDAD RNA (IV): BIOANALYZER. Cálculo de la concen tración

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

BIOANALYZER

Chips disponibles:

RNA

PROTEINAS

DNA

CÉLULAS

Agilent RNA 6000 Nano Kit Agilent RNA 6000 Pico Kit Agilent 2100 Small RNA Kit

Agilent DNA 1000Kit Agilent DNA 7500Kit Agilent DNA 12000Kit Agilent High Sensitivity DNA Kit

Agilent Protein 80 Kit Agilent Protein 230 Kit High Sensitivity Protein 250 Kit

Agilent Cell Kit

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CALIDAD RNA (III): RNA INTEGRITY NUMBER

0 ≤ RIN ≤ 10

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CALIDAD RNA (IV): RNA INTEGRITY NUMBER

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CALIDAD RNA (V): RNA INTEGRITY NUMBER

? ¿qué RIN es el más adecuado?

RIN 5.0 RIN 8.0

¿hasta que RIN se puede utilizar?¿se pueden mezclar diferentes RIN?

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CALIDAD RNA (VI): TIPO DE MUESTRA

• kits especiales extracción RNA

• extracción “genes globina”

• no trabajar con sangre total

• HABLAR CON NOSOTROS ANTES

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CANTIDAD RNA

• 3’ IVT ARRAYS 200 ng / 3 µL

• Exon/Gene ARRAYS 200 ng / 3 µL

• NUGEN 500 pg / 5 µL

• miRNA 1 µg / 8 µL

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

MATERIAL DE PARTIDA: RNA

•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)

TIPOS DE ARRAYS

•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)

•EXPERIMENTO DE MICROARRAYS

•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad

MIC

RO

AR

RA

YS

RNA (150 ng)

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

3’IVT EXPRESS

AAAAAAAAAAAA

TTTTTTT

TTTTT

RNA (150 ng) RNA-cDNA dscDNA cRNA (≈ 40 µµµµg)

IVT

O/N

PROCEDIMIENTO (I)

EXON/GENE

NNNNN

RNA-cDNA dscDNA

IVT

O/NcRNA

NNNNN

ssDNA (7 µµµµg)

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

NUGEN

PROCEDIMIENTO (II)

NNNNN

RNA (500 pg) RNA-cDNA dscDNA

SPIA

ssDNA (8 µµµµg)TTTTT

miRNA

ATPAAAAAA

RNA (1 µµµµg) AAAAAA

Biotin-labeled 3DNA

Biotin-labeled RNA

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

PROCEDIMIENTO (III)

Fragmentación

O/N

3’IVT EXPRESS EXON/GENE NUGEN miRNA Resequencing

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

Y ESTO SOLO ACABA DE EMPEZAR…

.CEL

UEB

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

DIFERENCIAS ENTRE LOS KITS

3’ IVT Exon/Gene NUGEN

Oligo dT NNN oligo dT + NNN

cRNA ssDNA ssDNA

15 µµµµg 5.5 µµµµg 5 µµµµg

NO MEZCLAR DIFERENTES PROTOCOLOS DE AMPLIFICACIÓN

EN UN MISMO PROYECTO…

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

GENETITAN (I)

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

GENETITAN(II)

• Formato placa: 16, 24, 96 arrays

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

GENETITAN(III)

• Formato placa: 16, 24, 96 arrays

� mayor high throughtput

�reducción del tiempo de procesado

� disminución de costes

� mayor reproducibilidad (disminución de efecto batch)

� Formato cerrado (16, 24, 96)

� No todos los tipos de especies, tipo de array representados

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CONTROL DE CALIDAD (I)

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CONTROL DE CALIDAD (II)

CONTROL DE CALIDAD (III). cRNA Puricado

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

CONTROL DE CALIDAD (III). cRNA Fragmentado

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

5 de Octubre de 2011

TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA

DIA 1. 5 de Octubre

� Microarrays (Ricardo Gonzalo y Alex Sánchez)� RTqPCR (Paqui Gallego y Alex Sánchez)

Programa del Seminario RTqPCR-2011

� Definición de la técnica

� Terminología asociada a qPCR

� Diseñando un experimento de qPCR

� Etapas en la realización de un experimento de qPCR

� Evaluación de un ensayo de qPCR

� Bibliografía muy recomendada

Definición de la Técnica

Termociclador

con sistema de detección

R QSonda Agentes intercalantes

A G CNucleótidos

Taqpolimerasa

Tampón dereacción

Cebadores Ácido nucléico

PCR en tiempo real o qPCR o RT-qPCR

http://www.appliedbiosystems.com/support/apptech/#rt_pcr

UNG(opcional)

ROX

TTU

ROX como referente pasivo

+ ROX - ROX∆Rn

Ciclos Ciclos

Desv St= ± 0.059

Desv St= ± 0.306

Fluoróforo referente pasivo más comúnmente utilizadopara normalizar la fluorescencia específica en instrumentos de ABI y Stratagene.

ROX=6-carboxy-X-rhodamine

Programa del Seminario RTqPCR-2011

� Definición de la técnica

� Terminología asociada a qPCR

� Diseñando un experimento de qPCR

� Etapas en la realización de un experimento de qPCR

� Evaluación de un ensayo de qPCR

� Bibliografía muy recomendada

Escala semi-logarítmica

Cycle Number

Terminología asociada a qPCR

PlatóLine

al

BaselineCt value= 15.5

ThresholdExpo

nenc

ial

Log

Fluo

resc

ence

Rn

RT-qPCR

� Cualitativa y cuantitativa.

� Elevado rango dinámico de detección� Capaz de detectar cambios 2-fold.� No requiere procesado post-PCR

PCR Convencional

� Semi-cuantitativa:

� Rango dinámico pequeño ›2 logs� Baja Precisión; baja resolución y poco

Sensible.� Manipulación post-PCR .� Baja Resolución� No-automatización� Discriminación basada sólo en tamaño� Los resultados no están expresados

en números.� El BrET no es muy cuantitativo

RT-qPCR vs PCR Convencional

A tiempo real(fase exponencial)

Cuantificación Absoluta

Cuantificación Relativa

A tiempo final(fase plató)

Plus/MinusDiscriminación Alélica

Programa del Seminario RTqPCR-2011

� Definición de la técnica

� Terminología asociada a qPCR

� Diseñando un experimento de qPCR

� Etapas en la realización de un experimento de qPCR

� Evaluación de un ensayo de qPCR

� Bibliografía muy recomendada

Diseñando un experimento de qPCR

� Aplicación

� Método de Normalización

� Química de detección:� Sondas específicas marcadas con fluorocromos� Agentes Intercalantes� Fluorocromos unidos a primers

� Reactivos:� Core kit vs Master Mix� dNTPs/dUTPs y UNG enzyme� ROX como referente pasivo

� Termociclador: � Formato� Número de canales de detección� Software de análisis� Duración del programa� Precio y flexibilidad de la oferta

mRNAmiRNAncRNAsiRNAsaRNACNA

SNPCNVMutacionesAnálisis Metilación

Análisis en Células StemAnálisis en célula Única

MicoplasmaPatógenos en la comida

Aplicaciones RTqPCR

ProteínaTejido

Célula Eucariota

RNA

DNA

VirusBacteria

Target

5´oligo3´oligo

Validación Microarrays

� Normalización respecto a la masa total de RNA exraído(chequeo calidad –RIN, moleculas/ng RNA)

� Normalización respecto al volumen/masa de la muestra( moléculas/mg tejido; moléculas/ml sangre)

� Normalización respecto al número de células( moléculas/célula)

� Normalización respecto a un gen endógeno no regulable(GAPDH, tubulina, actina, albúmina, ciclofilina, micro-globulina, histonas, rRNA, ……)

� Normalización respecto a más de un gen endógeno (›3)� geNorm (Vandesompele et al. 2002. Genome Biology)� BestKeeper (Pfaffl et. Al. 2004; Biotechnology Letters 2004)� Normfinder� Statistical modeling for selecting houskeeper genes (Szabo et al.2004, Genome

Biology)

Estrategias de Normalización qPCR

BMC Bioinformatics 2009, 10:110

Genes and Immunity (2005) 6, 279-284. Review

Placas-384

Plataforma de RTqPCR en la UCTS

Microfluidicas(Arrays de baja densidad)

Placas-96

FAM, TAMRA, VIC, JOE, NED, SYBR, ROX

Formato 384-p: FAM, TAMRA, VIC, JOE, NED, SYBR, ROX, TET.Formato LDA: FAM, VIC, ROX.

7000 SDS 7900HT Fast SDS

Química

Softwares V1.2.3f2 con RQ studyPrimer Express 2.0

SDS 2.4.1RQ Manager 1.2

Tiras de 8 Tubos

LightCycler 480

White Plates-384

mode 9600 Emulation /Standard 9600 Emulation/StandardFast

Formato

Filtros/canales detección:500, 533, 568, 610, 640, 670 nm

Ref. Pasivo ROX ROX Ninguno

Fast

SW 1.5

9600 Emulation/Standard Fast

UNG:

Química: SYBRGreen SondasTaqMann SondasTaqMann

La UCTS dispone de los siguientes reactivos:

Mode:

Sí Sí

Programa del Seminario RTqPCR-2011

� Definición de la técnica

� Terminología asociada a qPCR

� Diseñando un experimento de qPCR

� Etapas en la realización de un experimento de qPCR

� Evaluación de un ensayo de qPCR

� Bibliografía muy recomendada

Etapas Implicadas en la Realización de un ensayo de qPCR

PreparaciónMuestra

Transcripción Reversa (RT)

PCR a tiempo Real (qPCR )

Extracción Ác. Nucléicos

RNA cDNA

Producto AmplificadoMuestra

DNA

Preparación Material de partida

PreparaciónMuestra

Extracción Ácidos Nucléicos

Transcripción Reversa (RT)

PCR a tiempo Real (qPCR )

� Tipo de muestra� Método Extracción

NATURE PROTOCOLS. Vol1, Num3, 2006

RNA cDNA

Producto AmplificadoMuestra

DNA

Preparación Material de partida

PreparaciónMuestra

Extracción Ácidos Nucléicos

Transcripción Reversa (RT)

PCR a tiempo Real (qPCR )

� RNA total/mRNA/DNA� Calidad & Cantidad� Almacenamiento (-80ºC)

NATURE PROTOCOLS. Vol1, Num3, 2006

RNA cDNA

Producto AmplificadoMuestra

DNA

Pureza (ausencia de contaminación por DNA y Proteínas y ausencia de inhibidores)

Integridad Cantidad• Existen dif. métodos de cuantificación.• Generan difs. resultados.•Hay que cuantificar muestras comparables entre sí con el mismo método de cuantificación.

• ODA260/A280=1.8-2.0• OD A260/A230=2• SPUD assay (Nolan, 2006)

• rRNA ( 28S:18S=2:1)• Número RIN (› 5)• Ensayo 3´:5´(alrededor de 1 indica elevada integridad; ›5 degradado)

RNA Q &Q

Gel Desnt.Agarosa

Expert Rev. Mol. Diagn. 5, 493-498 (2005)

Evaluación del RNA

10.0 9.2 8.1 7.2 6.0 5.0 4.4 4.0

BUENO MALOPERFECTO

Molecular Aspects of Medicine 27 (2006) 126–139

2:1

Agilent Bioanalyzer

Reacción de Transcripción Reversa (RT)

� One-Step vs Two Step� CDNA Priming� Pérfil Térmico� Consideraciones Experimentales

PreparaciónMuestra

Extracción Ácidos Nucléicos

Transcripción Reversa (RT)

PCR a tiempo Real (qPCR )

RNA cDNAProducto AmplifcadoMuestra

NATURE PROTOCOLS. Vol1, Num3, 2006

One-Step RT-PCR � Requiere una única mezcla de reacción ya que RT y PCR ocurren en el mismo tubo.

� AmpErase UNG no se puede usar.� Única enzima (ej. PolimerasaTth) RNA-y-DNA

dependiente.� Minimiza tiempo de preparación y el riesgo de

contaminación.� No es posible la optimización por separado de

ambas reacciones.� Requiere primer RT específico de secuencia.� Menos sensible debido a la menor eficiencia de

la actividad RT de la polimerasa.� Acumulación de dímeros de primers.

� Requiere dos mezclas de reacción (reacción RT y reacción PCR).

� Más flexible (El cDNA se puede guardar y ser usado más tarde).

� Permite la optimización por separado de ambas reacciones.

� Permite el uso de primer RT específico de secuencia, random primers o oligo(dT).

Two-Step RT-PCR

One Step RT-PCR vs Two Step RT-PCR

RNA cDNA Producto Amplif.RT qPCR

RNA cDNART

cDNA Producto Amplif.qPCR

NATURE PROTOCOLS. Vol1, Num3, 2006

Transcripción Reversa: cDNA Priming

Consideraciones Experimentales de la RT

� En general, usar el RNA total como molde para la RT.

� Dado que la eficiencia de RT depende del gen diana y de la enzima de RT, es muy importante usar siempre el mismo enzima RT, los mismos primers para la síntesis de cDNA y las mismas condiciones experimentales si se quieren comparar resultados entre sí.

� Hacer réplicas

� Incluir siempre control no-RT

� Añadir la misma cantidad de RNA total en cada reacción.

� Siempre que sea posible, montar las reacciones de RT de todas las muestras al mismo tiempo para evitar la variación entre tandas.

� Cuando se procesan múltiples muestras en diferentes tandas, incluir una muestra control positiva de referencia en todas las tandas.

NATURE PROTOCOLS. Vol1, Num3, 2006

qPCR

� Elección en el software del ensayo a realizar� Perfil Térmico � Consideraciones Experimentales

PreparaciónMuestra

Extracción Ácidos Nucléicos

Transcripción Reversa (RT)

PCR a tiempo Real (qPCR )

RNA cDNAProducto AmplifcadoMuestra

NATURE PROTOCOLS. Vol1, Num3, 2006

Elección en el software del ensayo a realizar

7000 SDS de ABI 7900 SDS de ABI

Absolute Quantification(Standard Curve)

7000 SDS de ABI 7900 SDS de ABI

Con Curva Stándard

Standard Curve (AQ)

Elección en el software del ensayo a realizar

7000 SDS de ABI 7900 SDS de ABI

Relative Quantification (ddCt) Plate

ddCt

7000 SDS 7900 SDS∆∆Ct (RQ)

Relative Quantification (ddCt) Study

LightCycler 480 II

Perfil térmico que incluye paso de Activación UNG

Perfil térmico clásico qPCR

1.- Activación UNG2.- Activación Taq y desnaturalización UNG3.- Desnaturalización del dsDNA4.- Anillamiento y extensión primers

Consideraciones qPCR

� Cuando se procesan múltiples muestras en diferentes placas, la inclusión de una muestra calibradora o curva estándar en cada placa es un control importante para medir la variabilidad inter-ensayo.

� Duplicados técnicos son generalmente suficientes (Triplicados si Cts›35). Si las réplicas difieren ›0.5 Ct, las reacciones deberían repetirse. Son más importantes los duplicados biológicos.

� Incluir Controles negativo (NTC) y positivos. Cargar el NTC en el pocillo que esté más distanciado de aquel que contenga mayor concentración de cDNA para evitar contaminación cruzada.

� Preparar mezcla de reacción de pcr en laboratorio diferente de donde se manipule el cDNA.

� Es siempre mejor no esperar demasiado en correr un run de qPCR después de la preparación de la placa. Si necesitas comparar dos placas idénticas con diferente ciclo de temperaturas, es mejor prepararlas al mismo tiempo, y guardar una de ellas a 4ºCprotegido de la luz hasta 10 horas.

� Especial atención en el sellado de la placa para evitar evaporaciones y evitar marcas y huellas en la parte superior del cobertor/tapa.

NATURE PROTOCOLS. Vol1, Num3, 2006Real-Time PCR Aplications Guide from Bio-Rad

Programa del Seminario RTqPCR-2011

� Definición de la técnica

� Terminología asociada a qPCR

� Diseñando un experimento de qPCR

� Etapas en la realización de un experimento de qPCR

� Evaluación de un ensayo de qPCR

� Bibliografía muy recomendada

PreparaciónMuestra

Transcripción Reversa (RT)

PCR a tiempo Real (qPCR )

Extracción Ác. Nucléicos

RNA cDNA

Producto Amplificado

Muestra

DNA

Análisis de datos

Calidad del Ensayo

Estadística

Métodos de Cuantificación

Etapas Implicadas en la Realización de un ensayo de qPCR

Calidad del Ensayo

� Reproducibilidad (viene indicada por las réplicas)

� Controles qPCR

NEGATIVOS� NTC (Non Template Control) Detección de dímeros de primers y contaminación� NAC (Non Amplif. Control) Detección de degradación de sondas� No RT (No RT control) Detección de contaminación por DNA genómico

POSITIVOS� Control Endógeno Testado de la calidad de los reactivos. Usado también para normalizar.� Control Exógeno Testado de la calidad de los reactivos� Spiking Control Detecta presencia de inhibidores

� Curva de Disociación (SYBR Green)

� Curva Estándar� Linealidad de los datos� Distancia entre las curvas de amplificación� Eficiencia de amplificación

Pendiente

EficienciaAmplificación

(E= 10-1/slope)

Convertir E enPorcentaje

%E= (E-1)100%

-3,0 2,2 115

-3,1 2,1 110

-3,2 2,1 105

-3,3 2,0 101

-3,32 2,0 100

-3,4 2,0 97

-3,6 1,9 90

-3,7 1,9 86

-4 1,8 78

2n=Factor de dilución

FactorDilución n=LG(Factor Dil.)/LG(2)

2 1,00

5 2,32

10 3,32

Curva Estándard:

Slope= -3.73

OK

R2 ›0.98 o r › 0.99

Calidad del Ensayo

Cuantificación Absoluta Cuantificación Relativa

Cantidad de ácido nucléico (número de copias, µg) por cantidad de muestradada (por célula, por µg de RNA total)

Cantidad relativa de ácido nucléicode una muestra A respecto a una muestra B

Ejemplo: medida carga viral Ejemplo: Niveles de expresión génicaen Tumor vs Tejido normal.

104105 102103 10106

Ct

Log (Num de copias)

A.- Cuantificación Relativa con Curva Stándard:

Qty gen problemaQty gen EC

Muestra Problema =

Qty gen problemaQty gen EC

Calibradora =

B.- Método Pfaffl:

RQ =(Egen diana) dCT, gen diana (calibradora – muestra problema)

(Egen EC) dCT, gen EC (calibradora – muestra problema)

C.- Método (Livak) Doble Delta CT:

dCT = CT(gen diana) – CT(gen EC)

ddCT = dCT(muestra problema) – dCT (calibradora)

RQ= 2–ddCT

Métodos de Cuantificación

SlopeR2

∆Ct

= (C

tge

n T

arge

t–

Ctge

n En

dóge

no)

Log Diluciones

Y = 0.0471x + 3.0178R2 = 0.2315

Eficiencias del Gen Target vs Eficiencia gen EC

Routine lab method’s accuracy called intoquestionNATURE MEDICINE VOL 16,page 349 APRIL 2010Catherine Shaffer

1) Potential viral pathogenic mechanism for new variant inflammatory bowel diseaseV Uhlmann et al. Mol Pathol 2002;55:84–90

Estudio que causó una polémica en 1998 al sugerir un vínculo entre la vacuna triple vírica y el autismo.

RT-qPCR and molecular diagnostics: no evidence for measles virus in the GI tract of autisticchildren.S.A. Bustin. Eur Pharm Rev Dig 1 (2008) 11-16.

2) The mRNA of the Arabidopsis Gene FT Moves from Leaf to Shoot Apex and Induces flowering.Huang et al. Science 309 September 2005: 1694-1696“Breakthrough of the Year 2005”, the runners-up. Science 310:1880-1885

Retraction of Hung et al., Science 309 (5741) 1694-1696.H. Bohlenius et al. Sience 316 April 2007:367.

Ejemplos:

RTqPCR en tela de juicio

Diseño y Optimización de un experimento de RTqPCR

MIQE Guidelines

Programa del Seminario RTqPCR-2011

� Definición de la técnica

� Terminología asociada a qPCR

� Diseñando un experimento de qPCR

� Etapas en la realización de un experimento de qPCR

� Evaluación de un ensayo de qPCR

� Bibliografía muy recomendada

Direcciones de interés relacionadas con qPCR

http://qpcr.gene-quantification.info/

http://www.horizonpress.com/pcr/qPCR-machines.html

qPCR-Technical-Guide.pdf (Sigma Life Science)

http://www.eurogentec.com

http://www.dorak.info/genetics/glosrt.html

http://genex.gene-quantification.info/

Seminario RTqPCR18 de Octubre en VHIR

Prof. Michael KubistaEstá entre los pioneros que desarrollaron la RTqPCR

Gracias

5 de Octubre de 2011

Statistical analysis of gene expression data

Alex Sánchez

Unitat d'Estadística i Bioinformàtica (VHIR)

Statistics Department (UB)

Who, where, what?

Outline

� Basic principles of experimental design

� Analysis of RT-qPCR data

� The microarray data analysis process

Basic principles of Experimental Design

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.

Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA

Sir Ronald A. Fisher

And Fisher said…

The three basic principles of Experimental Design

� Apply the following principles to best attain the objectives of experimental design� Replication

� Local control or Blocking

� Randomization

1. Replication

� Each treatment must be applied independently to several experimental units.

� Provides the means to estimate the EE variance in the absence of systematic differences among EUs treated alike which is important because treatment differences are judged against the EE variance.

� Provides the capacity to increase the precision for estimates of treatment means.

� By itself, does not guarantee valid estimates of EE or treatment differences.

Biological vs Technical Replicates

@ Nature reviews & G. Churchill (2002)

2

2

2

Replication vs Pooling

� mRNA from different samples are often combined to form a ``pooled-sample’’ or pool. Why?

� If each sample doesn’t yield enough mRNA

� To compensate an excess of variability� ?

� Statisticians tend not to like it but pooling may be OK if properly done� Combine several samples in each pool

� Use several pools from different samples

� Do not use pools when individual information is important (e.g.paired designs)

Examples of “pooling”

� Study with 12 patients� 12 chips � Expensive� Optiob 1:

� Group A: 6 individuals� 1 pool of 6 � 1 chip� Group B: 6 individuals� 1 pool of 6 � 1 chip

� Option 2: � Group A: 12 individuals� 4 pools of 3 � 4 chip� Grupo B: 12 individuals� 4 pools of 3 � 4 chip

� Option 2 may be cheaper and, at the samae time have similar precisioHowever, without having information about variability within pools and between individuals it cannot be assured �

Local Control

� Group EUs so that the variability of units within thegroups is less than that among all unitsprior togrouping�� Differences among treatments are not confused with

differences among experimental units.

� EE is reduced by the variability associated withenvironmental differences among groups of units.

� Effects ofnuisancefactors which contributesystematicvariation to the differences among EUs can be eliminated.

� Analysis is more sensitive.

Confounding block with treatment effects

Sample Treatment Sex Batch Sample Treatment Sex Batch1 A Male 1 1 A Male 12 A Male 1 2 A Female 23 A Male 1 3 A Male 24 A Male 1 4 A Female 15 B Female 2 5 B Male 16 B Female 2 6 B Female 27 B Female 2 7 B Male 28 B Female 2 8 B Female 1

Awful design Balanced design

� Two alternative designs to investigate treatment effects� Left: Treatment effects confounded with Sex and Batch

effect� Right: Treatments are balanced between blocks

� Influence of blocks is automatically compensated� Statistical analysis may separate block from treatment efefect

3. Randomisation

� Randomly assigning samples to groups to eliminate unspecific disturbances� Randomly assign individuals to treatments.� Randomise order in which experiments are performed.

� Randomisation required to � ensure validity of statistical procedures.

� Lead to unbiased estimates of variances and unbiased estimates of treatment differences,

� Simulates the effects of independence among EUs that are otherwise controlled, selected, and monitored.

Allocating samples to treatments

� A key point in any experiment is the way thatexperimental units are allocated to treatments� It must be chosen so that random variability is as

small as possible

� It must be chosen so that the best local control isachieved.

� It implicitly defines the analysis model, so it mustbe chosen so that the analysis can be performedand validity conditions hold.

Efecto Batch en Microarrays

Diferencias/variaciones no biológicas observadas en experimentos de microarrays

Origen:

•Técnico que procesa las muestras

•Amplificación

•Lote del kit de tinción

•Reparto de muestras en las tandas de amplificación

•Kit de amplificación....

No suele invalidar el expeimentoaunque si añade una cantidad de ruído no cuantificable

Solemos conocer la fuentepero no siempre se podrácuantificar y/o eliminar!!!

Técnico que procesa las muestras

Técnico 1: procesa muestras control

Técnico 2: procesa muestrasproblema

Técnico 1: procesa muestras control y problema

Técnico 2: procesa muestras problema y control

SOLUCION

Técnico 1 y 2 no compartenproyecto

Reparto de muestras en las tandas de amplificación

12 muestras máximo por tanda de amplificación

Proyectos n>12 muestras se han de repartir en diferentes tandas de amplificación

Tanda 1: Controles

Tanda 2: muestras problema

Tanda 1: se procesan muestras control y problema

Tanda 2: se procesan muestras problema y control

SOLUCION

Lote del Kit de tinción

Sondas se marcan con ficoeritrina

Va perdiendo intensidad con el tiempo

Hibridar cada tanda de 12 muestras

Esperar a tener todas las muestras preparadas e hibridarlas todas a la vez

SOLUCION

Eliminación del efecto batch

• Con un diseño experimental apropiado el efecto batch se puede eliminar o atenuar

• de forma implícita balanceando las muestras entre distinos lotes

• de forma explícita estimando los efectos del batch y substrayéndolos de los valores originales.

• Si el diseño no es adecuado, (e.g. hay CONFUSIÓN entre lote y tratamientos) no se podrá hacer nada.

• Incluso con un buen diseño no se puede realizar la eliminación de muchos efectos batch de forma indefinida, porque cada vez se pierde más potencia estadística.

• Es fácil que al final tengamos que aceptar algún efecto batch.

EJEMPLOS-1 Efecto del kit de marcaje

EJEMPLOS-2

4

4

3

3

2

2

1

1

Camada

2

1

2

1

2

1

2

1

Grupo

E42pp14

E42pm24

E41pp13

E41pm23

E40pp22

E40pm12

E39pp21

E39pm11

ShortName

green

yellow

green

yellow

green

yellow

green

yellow

Colores

E42+_+.CEL

E42+_-.CEL

E41+_+.CEL

E41+_-.CEL

E40+_+.CEL

E40+_-.CEL

E39+_+.CEL

E39+_-.CEL

fileName

Efecto batch de nacimiento

SIN CORREGIR

CORREGIDO

In summary

� Good experimental design is essential to perform good experiments.

� Experimental design means planning ahead� Should be done before the experiment starts

� Should consider all the steps: from sampling to data analysis.

� Not a question of "statistical snobism" but of saving time and money and of doing good science

Basic aspects ofqPCR data analysis

Outline

� Common types of qPCR data analyses

� Biostatistical aspects of relative quantification

� Confirmatory and exploratory statisticalanalysis.

Real time qPCR data

� RT-qPCR data are CT or threshold cyclevalues.� CT= Cycle number at which detectable signal is achieved.� The Lower/higher the CT �Larger/Smaller amount of

starting material

Basic types of RT-qPCR analysis

� Two basic types of analysis� Absolute quantification

� Relative quantification

� Choice based on� Experimental goals

� Available resources

Absolute quantification

� Use absolute quantification…� To understand properties that are intrinsic to a

given sample.

� To answer the question "how many"?

� Examples of applications� Chromosome or gene copy number determination

� Viral load measurements

Standard curve

� Absolute quantification is achieved by comparing CT values of each sample to a standard curve, which is obtained by� Using different known amounts of sample

� For which CT is calculated

� And plotted vs the (log) (known) quantity

Standard Calibration Curve

Example: determining absolute copynumber from absolute quantification

� The standard curve is used only for interpolation butnot for extrapolation (relation may not be linear outside the limits tested).

Absolute vs Relativequantifications

� Absolute quantification answers the question"how many" but gives no information aboutchange.

� Relative quantification can be used to� Compare levels or changes in gene expression.

� Answer the question –What is the fold difference?

Relative quantificationmethods

� For absolute quantification one requires a standardtemplate with several known concentrations to buildthe curve.

� For relative quantification one needs to apply someform of normalization, thatis one has to transformthe data in order to� Remove possible experimental biases

� Make data from different samples/groups comparable so that the term "relative" keeps its meaning.

Normalization against a unit mass

Normalization against a reference gene

� Benefit: � Circumvents need for accurate quantification of

starting material

� Drawback: � Requires known reference genes with stable

expression levels

Required CT values

Most common approaches

� Livak or ∆∆CT method

� The∆CT method against a reference gene

� The Pfaffl method

Livak method (1)

Livak method (2)

Other methods

� Although Livak method is the most used

� The∆CT method yields equivalent results butis simpler to calculate.

� The Pfaffl method is preferable when reactionefficiencies of the target and reference are notsimilar.

Biostatistical aspects ofrelative quantification

Biostatistical analysis

� Two main types of analyses� Comparative analyses,

� Relatively rigorous

� Check a predefined hypotheses

� Relies on statistical testing

� Expression profiling: Search for trends and patterns in the data� Exploratory, hypothesis generating approach

� Less rigorous

� Cluster analysis or PCA

Relative quantification

Expression profiling

Three basic premises

� Statistical analyses of RT-qPCR data relies on three assumptions� One gene-at-a-time

� We are sampling from two different (unknown) independent populations

� There exist unknown mechanisms that contribute to variability.

From assumptions to strategies (1)

� Use random sampling and randomization to obtain independent and representative samples.

From assumptions to strategies (2)

� Apply experimental design principles to minimize confounding variability

From assumptions to strategies (3)

� Perform statistical testing� DO NOT FORGET about multiple testing adjustments

Statistical analysis

� Standard statistical approach: Confirmatory study-Reject or accept predefined hypothesis

Comparing two groups…

Comparing more than two groups

Exploratory statistical analysis

� If instead of confirming hypothesis we want to generate them (finding patterns in data)

Multivariate methods for exploratory data analysis

Software for the analysis

� ABI� DataAssist

� Biogazelle� REST

� Bio-Rad� GENEX (Gene expression macro)

� Multid� GenEx

� Bioconductor� HTqPCR

� Integromics� StatMiner

Introduction to microarray data analysis

Esquema de la presentación

�Introducción y objetivos�Análisis de datos de microarrays

� Tipos de datos y Tipos de estudios. Herramientas. � El proceso de análisis. Ejemplos

�Críticas, consensos, consejos y “estado del arte”� Críticas a los microarrays� Consensos y consejos (“dos and don’ts”)� MAQC-I, MAQC-II

�De los microarrays al diagnóstico� ¿Porque está siempre por llegar?

Para aprender más …

http://www.ub.es/stat/docencia/bioinformatica/microarrays/ADM/

Tipos de estudiosTipos de estudiosTipos de estudiosTipos de estudios

(1): Class comparison

(2): Class discovery

(3): Class prediction

Y muchos más …

�Time Course� Perfiles de expresión a lo largo del tiempo

�Pathway Analysis-(Systems Biology)� Reconstrucción de redes metabólicas a partir de

datos de expressión

�Whole Genome, CGH, Alternative Splicing

�Estudios con datos de distintos tipos� Fusión o Integración de datos

HerramientasHerramientasHerramientasHerramientas paraparaparapara el el el el ananananáááálisislisislisislisis

Programas de análisis de datos

�Multitud de herramientas� Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]

� Descargables / En-linea

[R, BRB, MeV…] / [Gepas,…]

� Aísladas / Parte de “suites” o de sitios

[BRB, dChip] / [MeV (TM4), OntoTools]

�A survey of free microarray data analysis tools:� http://chagall.med.cornell.edu/I2MT/MA-tools.pdf

Programas de análisis libresPrograma ☺☺☺☺ ����

R/Bioconductor

Potente, flexible, actualizado,

Unix/Windows/Mac

Consola, difícil de dominar

BRB tools Basado en Excel,

User-friendly

Si falla, falla.

Difícil de extender

dChip Expresión & SNP’s

User-frinedly

Solo Windows

Pocas opciones

Babelomics Web-based,

Multiples opciones,

Buen material

Web-based

Manejo algo rígido

Babelomics: Viaje al conocimiento

Programas de análisis comerciales

Programa ☺☺☺☺ ����

geneSpring Muy extendido

Gráficos potentes

Extensible (R)

ANOVA limitados

CARO

Partek ANOVA muy potente

Mult. tipos de datos

Visualización 3D

Sólo estadística “clásica”

No extensible. Caro

Ingenuity BD de anotacionesAnálisis de redes y de significación biológica

Centrada mayormente en datos de cáncer.

Caro.

El proceso de anEl proceso de anEl proceso de anEl proceso de anáááálisislisislisislisis

Análisis de un experimento con microarrays

(1) Imágenes(Datos crudos)

(2) C. de calidad(bajo nivel)

(3) Preprocesado

(4) Exploración de la Matriz de Expresión

(5) Análisis

(6) SignificaciónBiológica

(0) Diseño experimental

� Variabilidad� Sistemática

� Calibrar/Normalizar

� Aleatoria� Diseño Experimental

� Inferencia

� Decidir acerca de� Réplicas,

� Lotes (“Batch effect”)

� Pools …

Sample Treatment Sex Batch Sample Treatment Sex Batch1 A Male 1 1 A Male 12 A Male 1 2 A Female 23 A Male 1 3 A Male 24 A Male 1 4 A Female 15 B Female 2 5 B Male 26 B Female 2 6 B Female 17 B Female 2 7 B Male 18 B Female 2 8 B Female 2

Awful design :-( Balanced design :-)

(1) Obtención de la imagen�Entra: Microarrays

�Salen: � Imágenes (1/chip) � Ficheros de imagen

�Información para cada sonda individual

�Datos para el análisis de bajo nivel� Control de calidad� Preprocesado� Sumarización

1.cel, 1.chp 2.cel, 2.chp

(2) Control de calidad de bajo nivel

�Entra: � Imágenes (.CEL, ...)

�Proceso� Diagnósticos y

Control de calidad� Análisis basado en

modelos (PLM)

�Salen:� Gráficos� Estadísticos de

control de calidad

1.cel, 1.chp 2.cel, 2.chp

(3) Preprocesado

�Entra:� Fichero de Imágenes (datos

del escaner)

�Proceso� Eliminación de ruido

� Normalización

� Sumarización

� Filtrado

�Sale:� Matriz de expresión

1.cel, 1.chp 2.cel, 2.chp

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

(4) Exploración

�Entra� Matriz de expresión

�Proceso� PCA, Cluster, MDS� Representaciones en

2D/3D� Agrupaciones

�Sale� Detectado efectos

batch� Verificación calidad

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

(5) Análisis estadístico (i):Selección de genes diferencialmente

expresados�Entra:

� Matriz expresión

� Modelo de análisis

�Proceso� t-tests, ANOVA

� Ajustes de p-valores

�Sale� Listas de genes

� Fold change, p.values

� Gráficos

� Perfiles de expresión

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335

(5) Análisis estadístico (ii ):Construcción & validación de un

predictor

�Entra:� Matriz expresión

�Proceso� Selección variables

� Ajuste modelo

� Validación�Sale

� Modelos predictivos

� Medidas de fiabilidad /reproducibilidad

(6) Significación biologica

�Entra� Listas de genes

�Proceso� GEA, GSEA, …

�Sale:� Clases GO /

Grupos de GenesPathwaysespecialmente representados

ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4.9111457644_s_at Cxcl1 1457644_s_at 4.2861415904_at Lpl 1415904_at -4.1321449450_at Ptges 1449450_at 5.1641419209_at Cxcl1 1419209_at 5.0371416576_at Socs3 1416576_at 3.3721450330_at Il10 1450330_at 4.5191455899_x_at Socs3 1455899_x_at 3.6481419681_a_at Prok2 1419681_a_at 3.7091436555_at Slc7a2 1436555_at 3.724

EjemploEjemploEjemploEjemplo de de de de ananananáááálisislisislisislisis de de de de datosdatosdatosdatos

Comparación de perfilesde expresiónentre tumores BRCA1/BRCA2 y

Construcción de un predictor que permitadistinguir entre ambos.

Fuente del ejemplo

�Gene Expression Profiles in Hereditary Breast Cancer

�Hedenfalk, I, et. al., NEJM, Vol. 344, No. 8, pp 539-548.

�Objetivo: Encontrar un predictor basado en perfiles de expresión para diferenciar tumoresasociados a BRCA1 y BRCA2

Esquema del análisis

� Diseño experimental y datos para el análisis

� Preprocesado

� Exploración

� Selección de genes

� Construcción de varios predictores y selección del más apropiado

Diseño experimental

� RNA extraido de� 7 pacientess. BRCA1

� 8 pacients BRCA2

� 7 con cancer “esporádico”

� 6512 sondas� 5361 genes

� 3226 retenidos para el análisis

� Diseño de referencia� Cada muestra comparada contra

linea celular no tumorgénica(MCF-104)

1s106 BRCA21

4s1616

BRCA21

3s1816

BRCA16s1905

Sporadic2

1s1281

Sporadic1

9s1542

Sporadic1

8s1320

Sporadic1

5s1649

Sporadic1

7s1324

Sporadic1

6s1572

BRCA22

2s1486

BRCA28s1721

BRCA29s1787

BRCA21

0s1900

BRCA14s1510

BRCA12s1252

BRCA17s1224

BRCA13s1714

BRCA15s1822

BRCA11s1996

Sporadic2

0s1321

BRCA1 v BRCA2 vSporadic

PID

Patient

Array

Datos: log ratios

Preprocesado: Filtrado y Normalización

Exploración (1)

Exploración (2)

Análisis (1). Selección de genes (class comparison)

� BRCA1 vs noBRCA1

� Usamos un t-test y un cutoff de 0.0001 � es decir declaramos

diferencialmeneteexpresados los genes cuyo p-valor sea inferior a 0.0001

� No hacemos ajustes� Mínimo FC

� Multiple testing

Resultados (1): Lista de genes

OrderParametric

p-value FDR Fold-change Unique id Description1 1.66e-05 0.0198 2.24 HV34H7 ESTs2 2.17e-05 0.0198 2.03 UG5G3 minichromosome maintenance deficient (S. cerevisiae) 73 2.3e-05 0.0198 0.31 HV17G6 keratin 84 3.37e-05 0.0198 1.89 HV18E8 SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein5 3.63e-05 0.0198 2.21 HV32C7 ESTs6 4.32e-05 0.0198 1.57 UG1F1 very low density lipoprotein receptor7 4.5e-05 0.0198 1.67 HV24F5 chromobox homolog 3 (Drosophila HP1 gamma)8 4.92e-05 0.0198 2.02 LO3F1 butyrate response factor 1 (EGF-response factor 1)9 9.43e-05 0.0338 1.85 HV9E3 "tumor protein p53-binding protein, 2"

Análisis (2):Construcción de un predictor

� Construímos predictorespor 6 métodos distintos.

� Genes candidatos por class-comparison.

� Elegimos el que presente menor tasa de error de predicción(estimada por leave one out)

Resultados (2i)

Compound Diagonal Linear 1-Nearest 3-Nearest Nearest Sup port BayesianCovariate Discriminant Neighbor Neighbors Centroid Vector CompoundPredictor Analysis Machines Covariate

PredictorCorrect? Correct? Correct? Correct? Correct? Correct? Correct?

s1224 BRCA1 YES YES YES YES YES YES YESs1252 BRCA1 YES YES NO NO YES YES YESs1510 BRCA1 NO YES NO NO NO NO NOs1714 BRCA1 NO YES NO NO NO NO NOs1822 BRCA1 YES YES YES YES YES YES YESs1905 BRCA1 YES YES YES YES YES YES YESs1996 BRCA1 YES YES NO YES YES YES NAs1063 notBRCA1 YES YES YES YES YES YES YESs1281 notBRCA1 YES YES YES YES YES YES NAs1320 notBRCA1 NO YES YES YES YES YES YESs1321 notBRCA1 NO NO NO NO NO NO NOs1324 notBRCA1 YES YES YES YES YES YES YESs1486 notBRCA1 YES YES YES YES YES YES YESs1542 notBRCA1 YES YES YES YES YES YES YESs1572 notBRCA1 YES YES YES YES YES YES YESs1616 notBRCA1 YES YES YES YES YES YES YESs1649 notBRCA1 YES YES YES YES YES YES YESs1721 notBRCA1 YES YES YES YES YES YES YESs1787 notBRCA1 YES YES YES YES YES YES YESs1816 notBRCA1 YES YES YES YES YES YES YESs1900 notBRCA1 YES YES YES YES YES YES YESs1936 notBRCA1 YES YES YES YES YES YES YES

82% 95% 77% 82% 86% 86% 85%

Class labelArray id

Resultados (2ii)Performance of the Diagonal Linear Discriminant Ana lysis Classifier:

Class Sensitivity Specificity PPV NPVBRCA1 1 0.933 0.875 1notBRCA1 0.933 1 1 0.875

Final classifier: coeficients and criteria

A sample is classified to the class BRCA1 if the sum is greater than the thresholdThat is, ∑iwi xi > threshold.The threshold for the Diagonal Linear Discriminant predictor is 91.124

1 2 3 …. 51 52Genes HK1A11 HV10D8 HV11A6 …. HV28G8 HV2B1Coeficients 2,57 3,31 2,79 …. 3,01 5,52

Resumiendo…

�El análisis de microarrays puede visualizarse como un proceso.

�Es importante conocer � Los métodos apropiados para cada problrma,� los parámetros, el significado, las limitaciones de cada

paso.

�Una aplicación adecuada del proceso proporciona información relevante como...� una lista de genes diferencialmente expresados

(biomarcadores).� un modelo con capacidad de predecir (firma)

Limitaciones del método

Críticas, consejos, consensos y “estado del arte”

Limitaciones de los microarrays

An array of problems?

� Poca reproducibilidad entre estudios� Poca coincidencia entre las listas de genes

� No reproducción de las predicciones en nuevos conjuntos de test

� Falta de estándares

� Falta de consenso en los métodos

� El paso a la clínica siempre por llegar

� Mediados de la década: ¿Promesa o realidad?

Que no estamos tan mal...

Algunos consensos (Allison 2006)

� Diseño� Biological replication is essential� There is strength in numbers: power & sample size � Pooling biological samples can be useful

� Seleccion de genes diferencialmente expresados� Using FC alone as a differential expression test is not valid� 'Shrinkage' is a good thing� FDR is a good alternative to conventional multiple-testing approaches

� Clasificación y Predicción� Unsupervised classification is overused� Unsupervised classification should be validated using resampling-

� Supervised-classification requires independent cross-validation

No todos los estudios se hacen bien...

� Dupuy & Simon estudian 90 publicaciones. � Análisis detallado de los métodos usados en 42.

� Ecuentran algunos errores comunes� Objetivos pobremente definidos.

� No hay control de la multiplicidad 104 genes � 104 tests P(Falso+) muy alta

� Ni se informa bien de la fiabilidad de un predictor.

� No se utiliza un conjunto de test independiente.

� Se abusa por doquier del análisis de clusters.

Aunque es posible hacerlo bien si...

� Se procura... (do’s)� Definir bien objetivos.

� Combinar el p-valor y el FC al seleccionar genes.

� Usar la FDR para el control de multiplicidad.

� Validar un predictor con un conjunto de prueba independiente.

� Contar con un estadístico

� Se evita... (don’t)� Basar la selección tan sólo

en “Fold Change”

� Usar p-valores de 0.05

� Usar métodos de cluster si lo que se deseara es clasificar muestras.

� Violar el principio básico de la validación (no debe usarse el cjto de prueba antes de la validación).

... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).

Resumiendo

� Los microarrays tienen algunas limitaciones –razonables e intrínsecas-

� Un adecuado uso de los métodos de análisis puede generar información útil, fiable y reproducible.

� Aún asíel paso de la clínica al diagnóstico es más lento de lo que se esperaba.

¿Por qué?

De la investigación básica a los diagnóstico basados en microarrays

¿Para cuando?

La idea está clara...

Pero hay muy pocos kits de diagnóstico...

Algunas de las dificultades

� Se precisan estudios muy grandes para establecer la potencia de un (kit) diagnóstico y validarlo en una cohorte independiente y suficientemente amplio.

� Hacen falta estandarizaciones y sistemas de control de calidad validados según criterios de laboratorios clínicos.

� Los tests de perfiles de expresión han de cumplir las normas de la Agencia Médica Europea y/o la FDA.

� Para justificar su desarrollo hay que hacer estudios de coste efectividad que sugieran una clara mejora en el tratamiento al paciente y retorno de inversión y beneficios en el medio/largo plazo.

Estado de los diagnósticos basados en microarrays

Lleno: ☺, Vacío: �

Resumiendo

� Se espera que la creciente calidad y tamaño de los estudios genere nuevos perfiles de expresión transportables al diagnóstico.

� Aspectos como estandarización y automatización (robótica) para minimizar la intervención humana están cada vez mejor.

� Otros como la regulación por parte de las agencias y las políticas de reembolso a los inversores y los laboratorios deben de irse resolviendo.

� No es improbable un futuro en el que el “lab-on-a-chip” forme parte de las herramientas de los clínicos.