Desarrollo e implentación de una plataforma bioinformática para el análisis RNA-Seq

Post on 03-Jul-2015

38 views 3 download

description

Presentación sustentación trabajo de grado

Transcript of Desarrollo e implentación de una plataforma bioinformática para el análisis RNA-Seq

DESARROLLO E IMPLEMENTACIÓN DE UNA PLATAFORMA BIOINFORMÁTICA

PARA ANÁLISIS RNA-SEQ BASADA EN GALAXY

Autores: Cristian Alejandro Rojas Luis Miguel Gutierrez

Dirigido por: M.Sc Nelson Enrique Vera

Agenda❏ Introducción❏ Formulación del problema❏ Metodología❏ Resultados❏ Conclusiones❏ Trabajos futuros

INTRODUCCIÓN

Convenio IGUN-CECAD

Artículos GeneradosIGUN

❏ The Transcriptome of the Caribbean Reef-building Coral Diploria strigosa Reveals a Highly Complex Immune Repertoire.

❏ THE TRANSCRIPTOME OF Hydractinia symbiolongicarpus REVEALS A COMPLEX IMMUNE SYSTEM.

U. Distrital❏ Automatic BLAST for Massive Sequencing - ABMS, Proceedings of the

2nd Colombian Congress on Computational Biology and Bioinformatics (CCBCOL).

❏ MAFA: A web based software to automate functional annotation of genomes and transcriptomes. Tecnura.

Ponencias

❏ LACCEI 2013, Cancún-México, Automatic BLAST for Massive Sequencing - ABMS

❏ CCBCOL 2013, Manizales-Colombia, Presentation and Evaluation of ABMS (Automatic Blast for Massive Sequencing)

❏ IWBBIO 2014, Granada-España, Massive Automatic Functional Annotation MAFA

FORMULACIÓN DEL PROBLEMA

Evolución de la secuenciaciónMétodo de Sanger: Secuenciación por Dideoxinucleótidos

NGS - Next Generation Sequencing: High-throughput sequencing

Datos tomados de: http://www.the-scientist.com/?articles.view/articleNo/15939/title/DNA-Sequencing-Industry-Sets-its-Sights-on-the-Future/

U$2400 por1M bases

U$0.05 - U$0.15 Por 1M bases

Hasta 52.5 Kbases por corrida

Hasta 600 Gbases por corrida

RNA-Seq

Aplicaciones clínicas y biomédicas.Facilitar estudio de otros organismos.

Datos tomados de: http://www.rna-seqblog.com/rna-seq-library-prep-introduction/

El RNA-Seq es un poderoso método de descubrimiento, perfilamiento y cuantificación de transcritos de ARN.

Principales dificultades de un análisis RNA-Seq

Principales dificultades de un análisis RNA-Seq

❏ Se requiere de computación de alto desempeño para su ejecución.

❏ Herramientas no amigables para el usuario.❏ Formatos de entrada y salida confusos para un

usuario final.❏ El usuario debe saber e integrar etapas del

proceso.

Formulación del problema

¿Cómo diseñar y desarrollar una herramienta que integre, automatice y facilite el análisis de

de datos transcriptómicos?

Justificación

Nuevas áreas de investigaciónFortalece estudio de mecanismos de respuesta inmune en varios organismos.

Objetivo generalDesarrollar una plataforma bioinformática basada en Galaxy orientada al análisis de datos RNA-Seq de acuerdo a las necesidades del Grupo de Inmunología Evolutiva (GIE) del Instituto de Genética de la Universidad Nacional (IGUN), haciendo uso del Centro de Cómputo de Alto Desempeño de la Universidad Distrital (CECAD).

Objetivos específicos❏ Estudiar los procesos que hacen parte de un análisis RNA-

Seq.❏ Diseñar un pipeline que automatice los procesos

normalmente usados en un análisis RNA-Seq.❏ Integrar herramientas bioinformáticas requeridas para

realizar un análisis RNA-Seq.❏ Desplegar en producción la plataforma desarrollada en un

servidor del CECAD para el público en general y así fortalecer la imagen de investigación de la Universidad Distrital.

METODOLOGÍAEstudio de

requerimientos

Diseño de arquitectura y selección de herramientas

Implementación, configuración, personalización e integración de herramientas a la plataforma

Acondicionamiento de infraestructura

DocumentaciónEvaluación

Procesos necesarios para RNA-Seq y requerimientos de la plataforma

Listado de herramientas a integrar

Equipo con herramientas instaladas

Plataforma funcional

Documentación técnica y de usuario

Satisfacción de requerimientos y cuadro comparativo.

Análisis de requerimientos❏ Reuniones con los investigadores del IGUN.❏ Se evidenciaron las siguientes necesidades principales:

❏ Soporte de todos los procesos de análisis transcriptómico.

❏ Interfaz de usuario amigable.❏ Contar con gestión de usuarios.

Selección de herramientas❏ Búsqueda de herramientas bioinformáticas disponibles

para cada proceso. Revisión de bibliotecas digitales (Pubmed), journals y foros dedicados a bioinformática.

❏ Selección de herramientas por su aceptación en la comunidad científica.

❏ Búsqueda de plataforma base que permitiera la solución del problema formulado.

RESULTADOS

Flujo de trabajo

Arquitectura general

Módulo de preprocesamiento

Módulo de preprocesamiento

Módulo de mapeo

Módulo de Mapeo

Módulo de ensamblaje

Módulo de ensamblaje

Módulo de anotación

Módulo de anotación

Módulo de expresión diferencial

Módulo de expresión diferencial

Módulo de estimación de abundancia

Módulo de estimación de abundancia

Utilidades

● Samtools○ Organización, mezcla, indexación.

● CummeRbund○ Acceso, exploración, graficación.

● EMBOSS: Transeq○ Traduce secuencias a péptidos

Trabajos futuros

● Escalabilidad horizontal○ Sistema distribuido

● Herramientas ○ Aprendizaje de máquina

Conclusiones● Se logró diseñar un pipeline que automatiza los procesos que hacen parte

de un análisis RNA-Seq, a partir del estudio de dichos procesos.

● Se desarrolló y puso en producción un software que Integra herramientas bioinformáticas requeridas para realizar un análisis RNA-Seq.

● Se encontraron posibles trabajos futuros para mejorar la eficiencia de la plataforma y ampliar el área de trabajo en bioinformática.