RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana...

69
RNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Transcript of RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana...

Page 1: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

RNA-seq y Anotación Funcional

Ana Conesa & Diego de Pannis 26-28 Noviembre 2013

FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Page 2: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Programa  

Dia  1    Mañana:  Introducción  a  RNA-­‐seq  Introducción  a  las  tecnologías  de  

ultrasecuenciacion,  aplicaciones  y  limitaciones.  

Conceptos  básicos  de  RNA-­‐seq.  Preparación  de  librerías,  diseño  experimental,  RNA-­‐seq  en  presencia  y  ausencia  de  un  genoma  de  referencia.  

Control  de  calidad  en  secuenciación  masiva.  

 Tarde:  RNA-­‐seq  con  genoma  de  

referencia  Mapeo  CuanEficación  Expresión  diferencial  Enriquecimiento  funcional  

Dia  2    Mañana:  RNA-­‐seq  sin  genoma  de  

referencia  Reconstrucción  de  tránscritos  Calidad  e  idenEficación  de  nuevos  

tránscritos              Tarde:  Anotación  Funcional  Conceptos  de  Anotación  Funcional  Herramienta  Blast2GO.      

Dia  3  Mañana:  Asignación  de  función  

Métodos  de  anotación  automáCca  

EstadísEcas  de  anotación  Estrategias  de  anotación.  Que  

hacer  en  sets  de  datos  diPciles?  

     Tarde:  Análisis  de  información  

Funcional  Visualización  Análisis  de  Enriquecimiento  

Page 3: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

NGS:  using  sequencing  to  study  mulEple  aspects  of  nucleic  acids  

Page 4: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Cost-effective Fast

Ultra throughput Cloning-free Short reads

Next  GeneraEon  Sequencing  

Page 5: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Comparison  of  NGS  technologies  

• Short fragments • 2x150

• Errors: Hexamer bias • High throughput • Cheap

• Resequencing: • ChipSeq • RNASeq • MethylSeq

• Short fragments • 2x75

• Color-space • High throughput • Cheap

• Resequencing: • ChipSeq • RNASeq • MethylSeq

• Long fragments • 800-20000  

• Errors: poly nts/Many • Low throughput • Expensive

• De novo sequencing • Amplicon sequencing • Closing genomes • Full-length transcripts

Roche  454   Solexa   SOLiD  PacBio  

Long  Reads  Low  throughput  

Short  Reads  High  throughput  

Page 6: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

ApplicaEons   De novo sequencing Resequencing Exome Sequencing RNA-seq Genome annotation Chip-seq Methyl-seq …….

Page 7: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

RNA-­‐seq:  transcript  idenEficaEon  

Haas  and  Zody,  2010  Mortazavi,  2008  

Page 8: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

RNA-­‐seq:  quanEficaEon  

16   18  

4   6  

Map  to  transcripts  Map  to  genomes  

Page 9: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

ApplicaEons  of  RNA-­‐seq  

• AlternaEve  splicing  • IdenEficaEon  of  transcripts  *  AnEsense  expression  *  Extragenic  expression  *  AlternaEve  5’  and  3’  usage  *  DetecEon  of  fusion  transcripts   ….

 

*  DifferenEal  expression  *  Dynamic  range  of  gene  expression  ….

 

Qualitative Quantitative

 

Page 10: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Advantages  of  RNA-­‐seq  

*  Non  targeted  transcript  detecEon  *  No  need  of  reference  genome  *  Strand  specificity  *  Find  novels  splicing  sites  *  Larger  dynamic  range  *  Detects  expression  and  SNVs  *  Detects  rare  transcripts   ….

 

*  Restricted  to  probes  on  array  *  Needs  genome  knowledge  *  Normally,  not  strand  specific  *  Exon  arrays  difficult  to  use  *  Smaller  dynamic  range  *  Does  not  provide  sequence  info  *  Rare  transcripts  difficult   ….

 

RNA-seq

 

microarrays

 

and…. are there any disadvantages?????

Page 11: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sequence  preprocessing  

Mapping  

QuanEficaEon  

DifferenEal  expression   Transcript  assembly   FuncEonal  annotaEon  

InterpretaEon  

Library  preparaEon  

RNA-­‐seq  pipeline  

Page 12: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sequence  preprocessing  

Mapping  

QuanEficaEon  

DifferenEal  expression   Transcript  assembly   FuncEonal  annotaEon  

InterpretaEon  

Library  preparaCon  

RNA-­‐seq  pipeline  

Page 13: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

RNA-­‐seq  protocol*  

total RNA purification

oligodT

RiboZ

mRNA preparation

2nd strand synthesis fragmentation 1st strand synthesis

RNA DNA *Solexa Pair-End

Page 14: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

RNA-­‐seq  protocol  (II)  

A

A

A

A

A

A

A

A

A

A

adenylation 3’ ends

ligate adapters

amplification

SEQUENCING!

library  

100b

p  lad  

400-200

400-200

Page 15: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Strand-­‐specific  RNA-­‐seq  

Page 16: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Strand-­‐specific  RNA-­‐seq  

Page 17: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

RNA-­‐seq  landscape  

Page 18: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Some  surprises  of  RNA-­‐seq  

RNAseq

 

In RNA-seq, there is a relationship between the chance that a gene is declared differentially expressed and its length

Page 19: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Some  surprises  of  RNA-­‐seq  

The relative distribution of transcript species depends on the sequencing depth

Page 20: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Some  surprises  of  RNA-­‐seq  

The relative distribution of transcript species depends on the sequencing depth

Positive correlation between expression level and transcript length. Also with RPKM!!!

Page 21: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sequence  preprocessing  

Mapping  

QuanEficaEon  

DifferenEal  expression   Transcript  assembly   FuncEonal  annotaEon  

InterpretaEon  

Library  preparaEon  

RNA-­‐seq  pipeline  

Page 22: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Fastq  Format  for  RNA-­‐seq  data  

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

n  1.  Header  (like  the  fasta  but  starEng  with  “@”)  

n  2.  Sequence  (string  of  nt)  

n  3.  “+”  and  sequence  ID  (opEonal)  

n  4.  Encoded  quality  of  the  sequence  

Page 23: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

23  

¨  Phred  scores  

Phred Quality Score

Probability of incorrect base

call

Base call accuracy

10 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10000 99.99% 50 1 in 100000 99.999%

Quality  codificaEon  

Page 24: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

FastQC:  Quality  Control  

Page 25: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Good  data  ¤  Consistent  ¤ High  quality  along  the  read  

         l  The central red line is the median value l  The yellow box represents the inter-quartile range (25-75%) l  The upper and lower whiskers represent the 10% and 90% points l  The blue line represents the mean quality  

Sequence  quality  per  base  posiEon  

Page 26: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Bad  data  ¤  High  variance  ¤  Quality  decrease  with  length  

SOLiD characteristic pattern

Sequence  quality  per  base  posiEon  

Page 27: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Good  data  ¤  Most  are  high-­‐quality  sequences  

Per  sequence  quality  distribuEon  

Page 28: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Bad  data  ¤  Non-­‐uniform  

distribuEon  

Low Quality Reads

Per  sequence  quality  distribuEon  

Page 29: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Per  base  sequence  content  

¨  Good  data  ¤  Smooth  over  length  ¤  Organism  dependent  

(GC)  

Per  base  sequence  content  

Page 30: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Bad  data  ¤  Sequence  posiEon  bias  

Per  base  sequence  content  

Page 31: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Good  data  ¤  Fits  with  expected  ¤  Organism  dependent  

¨  Bad  data  ¤  Does  not  fit  with  expected  ¤  Library  contaminaEon?  

Per  sequence  GC  content  

Page 32: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Good  data    

¨  Bad  data    

Not  good  if  there    are  N  bias  per  base    

posiCon  

Per  base  N  content  

Page 33: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  In  transcriptomics,  you  expect  higher  number  of  duplicated  sequences.  ¨  In  genomics  you  should  be  worried  if  this  happens  →  PCR  arEfact?  

 

Sequence  duplicaEon  levels  

Page 34: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Removing  bad  quality  data  will  improve  our  confidence  on  downstream  analysis  

Filtering  &  trimming  

Page 35: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

¨  Sequence  filtering  ¤  Mean  quality  ¤  Read  length  ¤  Read  length  aper  

trimming  ¤  Percentage  of  bases  

above  Q  ¤  Adapter  trimming  ¤  Adapter  reads  

minimum  quality  

threshold  

Filtering  &  trimming  

¨  Sequence  filtering  tools  ¤  Fastx-­‐toolkit  ¤  Galaxy  (hqps://main.g2.bx.psu.edu/)  ¤  SeqTK  (hqps://github.com/lh3/seqtk)  ¤  Cutadapt  (hqp://code.google.com/p/cutadapt/)  ¤  And  more....    

Page 36: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Exercise  1.  Quality  Control  

Page 37: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sequence  preprocessing  

Mapping  

QuanEficaEon  

DifferenEal  expression   Transcript  assembly   FuncEonal  annotaEon  

InterpretaEon  

Library  preparaEon  

RNA-­‐seq  pipeline  

Page 38: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Mapping    

Mapping (First step)

Mapping (Second step)

Small Length Reads

Long Length Reads

Page 39: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Considering  library-­‐type  

¨  Strand-­‐specific  (ssRNASeq)  data  

¨  and  not  strand-­‐specific  (nsRNASeq)  data  

Page 40: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

40  

Considering  Library  type  

¨  Single  Reads  (SR)  and  Paired-­‐end  Target  (PET)  

¨  Single  Reads  result  in  One  fastq  file,  Paired-­‐end  in  Two  

SR

PET

Insert  length  

Fragment  length  

Forward  Read   Reverse  

Read  

Page 41: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

IdenEfying  library-­‐type  for  mapping  

Page 42: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Mapping  with  TopHat  

Fast  splice  juncEon  mapper  for  RNA-­‐Seq  reads  

Free  and  open-­‐source  sopware  tool  

Page 43: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

TopHat  algorithm  

Tophat  mapea  con  BowCe    TopHat  ensambla  con  mac    TopHat2   usa   BowCe2,   un   mapeador  con  huecos,  apto  para  lecutras  de  50  a  100/1000  nts.  

Page 44: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Esquema  mapeo  TopHat  

Genoma  referencia  (fichero  fasta)  

Ficheros  índice  (6  files.ebwt)  

bow1e-­‐build  

RNA-­‐seq  data  (fichero  fastq)  

TopHat  

Ficheros  de  mapeo  (bam  and  bed  files)  

Page 45: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sintaxis  para  el  indexado  del  genoma  

1)  Indexado  del  genoma  de  referencia    Sintax:    bowCe-­‐build  [opCons]*  <reference_in>  <ebwt_base>    <reference_in>    Una  lista  de  ficheros  FASTA  separados  por  comas,  con  el  

           genoma  de  referencia.    <ebwt_base>                El  nombre  base  dado  a  los  ficheros  indexados    [opCons]*      Para  ajustar  parámetros  a  cada  análisis    

-­‐C/-­‐-­‐color    Indexado  en  color  space              

http://bowtie-bio.sourceforge.net/manual.html

Page 46: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sintaxis  para  el  indexado  del  genoma  

1)  Indexado  del  genoma  de  referencia    Sintax:    bowCe-­‐build  [opCons]*  <reference_in>  <ebwt_base>    Ejemplo:  >  bowCe-­‐build    NC_002127.fna    e_coli_O157_H7    Output  index  files:    e_coli_O157_H7.1.ebwt      e_coli_O157_H7.2.ebwt  e_coli_O157_H7.3.ebwt      e_coli_O157_H7.4.ebwt  e_coli_O157_H7.rev.1.ebwt    e_coli_O157_H7.rev.2.ebwt      

http://bowtie-bio.sourceforge.net/manual.html

Page 47: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sintaxis  para  el  mapeado  con  TopHat  

1)  Sopware  se  necesita:  TopHat2,  Botwie2  y  samtools    Sintax        >   tophat   [opCons]*   <index_base>   <reads1_1[,...,readsN_1]>  [reads1_2,...readsN_2]    <index_base>      Genoma  indexado,  obtenido  con  BowEe  <reads1_1[,...,readsN_1]>      Ficheros  lecturas  par  1  [reads1_2,...readsN_2]                Ficheros  lecturas  par  2  [opCons]*                            Para  ajustar  parámetros  a  cada  análisis                      -­‐I  or  -­‐i                                        Maximum  and  minimum  intron  length                    -­‐-­‐library_type                By  default  unstranded                    

http://bowtie-bio.sourceforge.net/manual.html

Page 48: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

OpEons  for  –library-­‐type  

Page 49: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Ejemplo  sintaxis  mapping    >   tophat   -­‐-­‐library_type   fr-­‐firtstrand     e_coli_O157_H7      raw_data_1,raw_data_2,raw_data_3  

 Output  tophat    files:    accepted_hits.bam    Resultado  del  mapeo  align_summary.txt      Info  sobre  lecturas  meadas  tdeleEons.bed      Posiciones  y  tamaño  de  delecciones  inserEons.bed      Posiciones  y  tamaño  de  insercciones  juncEons.bed      Posiciones  de  las  uniones  de  exones  Logs            Info  sobre  el  proceso  de  mapeo  prep_reads.info  unmapped.bam      Lecturas  no  mapeadas  

Page 50: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Visualización  de  los  datos  

Bash  Linux  commands      

>  ls  –l    lista  los  ficheros  del  directorio      

Page 51: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Visualización  de  los  datos  

Bash  Linux  commands  (para  ficheros  de  texto,  no  bam)  

>  cat  muestra  todo  el  contenido  del  fichero    >  more  muestra  el  principio  del  fichero  >  less  muestra  el  final  del  fichero  >  head    muestra  las  primeras  líneas  del  fichero  

Page 52: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Visualización  de  los  datos  Samtools:  programa  para  manejar  ficheros  de  secuenciacion  

accepted_hits.bam List of read alignments (binary file)

Openning  binary  file  using  samtools  view  

accepted_hits.sam List of read alignments (text file)

Transform  .bam  in  .sam  

Page 53: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Bam/Sam  format  Más  info  en  hqp://samtools.sourceforge.net/SAMv1.pdf  

1                                  2                  3                        4              5                      6                7                      8                9                          10  

Page 54: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

BED  format  >  head  deleCons.bed  

chr                start            end                              counts  

>  Head  insercCons.bed  

chr                start            end            nt                  couts  

>  head  juncCons.bed  

chr                start            end          junct.  Name      counts      strand      

Page 55: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Exercise  2:  Mapping  

Page 56: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sequence  preprocessing  

Mapping  

QuanEficaEon  

DifferenEal  expression   Transcript  assembly   FuncEonal  annotaEon  

InterpretaEon  

Library  preparaEon  

RNA-­‐seq  pipeline  

Page 57: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

CuanEficación  en  RNA-­‐seq    ¿Qué  es  cuanCficación  en  RNA-­‐seq?  •   El  número  de  lecturas  en  genes  o  tránscritos  es  una  medida  de  la  expresión  del  gen  •   Aproximación  más  simple:  contar  el  número  de  lecturas  

Objeto  de  la  cuanCficación:  •   Determinar  el  número  de  genes  expresados  en  una  muestra  •   Necesario  para  análisis  de  expresión  diferencial  

Problemas:  •   Diferentes  aproximaciones  à  diferentes  resultados  •   Lecturas  de  mulEmapeo  •   Lecturas  solapantes  •   Especificiad  de  hebra  •   No  uniformidad  de  distribución  de  lecturas  a  lo  largo  del  gen  

Page 58: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Mapeo  vs.  CuanEficación  

Page 59: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Mapeo  vs.  CuanEficación  

Page 60: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Programas  

hqp://www-­‐huber.embl.de/users/anders/HTSeq/doc/count.html  

hqp://cufflinks.cbcb.umd.edu/manual.html  

hqp://qualimap.bioinfo.cipf.es/  

Page 61: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Cufflinks  

Sintax:  >  cufflinks  [opCons]*  <aligned_reads.(sam/bam)>    

[opCons]*      -­‐  G    Se  uEliza  un  g{  proporcionado.  No  ensambla  transcritos      -­‐  g  Ensambla  pero  usando  el  gp  proporcionado  de  referencia  

                   -­‐  u  para  tratar  las  mulEreads                        -­‐-­‐library-­‐type          Igual  que  para  TopHat  

*  EsEma  Fragment  per  Kilobase  of  exon  Model  per  Million  fragments  mapped  (FPKM)  *  Usa  un  método  de  máxima  verosimilitud  to  asignar  reads  a  transcritos  solapantes.  *  Intenta  considerar  distribuciones  heterogéneas  de  lecturas  en  la  long.del  transcrito  *  No  Eene  por  que  ser  una  solucion  parsimoniosa.  

Page 62: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Cufflinks  output  

Page 63: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Htseq-­‐count  

Sintax:  >  htseq-­‐count  [opCons]*  <sam_file>  <gff_file>  

<sam_file>  Generado  con  un  programa  que  hace  gapped  alignment  (TopHat)                                                                            Si  se  uEliza  paired-­‐end  data,  fichero  Eene  que  estar  ordenado  (sort)      

<gq_file>    Indica  las  posiciones  de  las  features  del  genoma        Está  disponible  para  casi  todos  los  genomas                                                                              

[opCons]*      -­‐  m    modo  para  lecturas  solapantes  (see  next  slide)        -­‐  s  si  es  strand-­‐specific  [yes,  no,  reverse]  

                   -­‐  t  feature  type.  Tercera  columna  del  g{.  Defecto  es  exon                        -­‐i        Defecto  es  gene_id  

Page 64: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Modos  Htseq-­‐count  

Page 65: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Htseq-­‐count  output  

Fichero  de  texto  con  los  conteos  de  cada  feature.    Al  final  se  idica:    No_feature    lecturas  que  no  solapan  con  features  del  g{  Ambiguous    según  el  modo  y  el  esquema  anterior  Too_low_aQual  baja  calidad  (según  parámetro  –a)  Not_aligned    Lecturas  en  SAM  sin  alginment  Alignmnent  not  unique  lecturas  con  mulEmapping  

Page 66: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Qualimap  

*  Implementa  una  version  intersecEon-­‐reach  del  Htseq-­‐count  *  Mucho  más  rápido  *  Considera  las  lecturas  con  múliples  mapeos  *  Permite  QC  de  conteos  

Use  this  opEon  for  beqer  treatment  Of  mulEmapping  reads  

Use  the  right  sequencing  protocol  

Choose  gene  or  transcript  

Choose  exon  reads  

Page 67: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Htseq-­‐count/Qualimap  output  

Page 68: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Exercise  3:  Conteos  

Page 69: RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana Conesa & Diego de Pannis 26-28 Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Sequence  preprocessing  

Mapping  

QuanEficaEon  

DifferenEal  expression   Transcript  assembly   FuncEonal  annotaEon  

InterpretaEon  

Library  preparaEon  

RNA-­‐seq  pipeline