Biología Computacional

38
1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos.

Transcript of Biología Computacional

Page 1: Biología Computacional

1

Biología Computacional / Bioinformática

LaboratorioIntroducción / Bases de Datos.

Page 2: Biología Computacional

1

¿Qué es la Bioinformática?

La bioinformática es el campo de la ciencia en donde la biología, la ciencia de la computación, y la tecnología de

información se funden en una disciplina.El objetivo principal es el descubrimiento

de nuevos indicios biológicos, como también crear una perspectiva global de

la cual poder unificar principios de la biología.

(NCBI Education)

Page 3: Biología Computacional

1

Subdisciplinas

■ Desarrollo de nuevos algoritmos que permitan determinar relaciones en muestras de gran tamaño.

■ Análisis e interpretación de varios tipos de datos, incluyendo secuencias de nucleótidos y aminoácidos, dominio de proteínas, y estructuras de proteínas.

■ Desarrollo e implementación de herramientas para permitir un acceso eficiente a la información.

Page 4: Biología Computacional

1

Herramientas.

Problema Biológico■ Secuenciación.■ Captura de genes.■ Localización

subcelular de proteínas.

■ Comparación de proteínas.

Solución Computacional■ Base de datos.■ Planillas de cálculo.■ Alineamiento.■ Reconocimiento de

patrones.■ Datamining.■ Especializadas.

Page 5: Biología Computacional

1

Bases de datos

Page 6: Biología Computacional

1

¿Qué es una base de datos?

Una Base de Datos es un conjunto de datos relacionados y almacenados para

un proposito particular con una estructura lógica.

Base de Datos = Estructura + Datos.

Page 7: Biología Computacional

1

Ejemplo: Un biblioteca.

Page 8: Biología Computacional

1

¿Cómo se organizan los datos?

La organización depende de las consultas que se piensan realizar

sobre la base de datos.De las consultas se concluye los

conjuntos, relaciones y lógicas que existen entre los datos.

Page 9: Biología Computacional

1

Ejemplo: Biblioteca II

AUTOR Lista de Autores

TÍTULO Lista de Títulos

TEMA Temas x Estantes

Consulta...

Page 10: Biología Computacional

1

¿Cómo mantener una base de datos?

El motor de base de datos es el software encargado de mantener consistencia en los datos y responder las consultas a realizar.

El software debe tener las siguientes herramientas para ser declarado como un motor de base de datos:

■ Lenguaje de Definición de Estructura.■ Lenguaje de Modificación de Datos.■ Lenguaje de Consultas.

Page 11: Biología Computacional

1

Ejemplo: Biblioteca III

El Bibliotecario...

Page 12: Biología Computacional

1

¿Cómo se crea una base de datos?

La creación de la base de datos excede los objetivos de la materia, pero se darán las pautas

más importantes para su creación.

■ Consultas y operaciones:– ¿Qué voy a consultar? ¿Qué necesito almacenar?

■ El diseño debe ser formal, no debe haber ambigüedades.– Existen lenguajes gráficos que ayudan al diseño.

■ ¡Un mal diseño puede complicar la consistencia de los datos! Aún siendo formal...

■ ¡Tiempo!

Page 13: Biología Computacional

1

Operaciones

■ Las operaciones básicas en una base de datos son la consulta, la inserción, modificación y eliminación de datos.

■ Quienes realizan estas operaciones son los usuarios. Los usuarios no solo son personas sino también procesos o sistemas externos.

■ Existen dos clases de bases de datos según sus operaciones más comunes: operacionales y analíticas.

Page 14: Biología Computacional

1

Base de Datos por Consulta

■ Base de datos operacionales.– Continua inserción de datos.– Los datos provienen de un proceso automático o

repetitivo, pueden traer error.– Los datos están actualizados.– Objetivo: Almacenar datos.

■ Bases de datos analíticas– Optimizada para consultas.– Los datos están confirmados.– Los datos no están actualizados.– Objetivo: Buscar información.

Page 15: Biología Computacional

1

Diseño formal

Los motores de base de datos necesitan formalidad para crear las estructuras físicas necesarias para mantener la

base de datos.Las herramientas que se usan para

simplificar el diseño son los lenguajes gráficos formales como UML y ER.

Page 16: Biología Computacional

1

Diagramas ER y UML

Page 17: Biología Computacional

1

¿Algo más?

El diseño esta relacionado al motor de base de datos. Las bases de datos fueron evolucionando durante los

últimos años dejando varios modelos que permiten representar la

organización de los datos, por supuesto, uno más restrictivo que otro.

Page 18: Biología Computacional

1

Modelos de Base de datos.

■ Planas: No se verifica la consistencia de los datos. (¡No es una base de datos!)

■ Jerárquicas: Fichas, Jerarquía.■ Red: Registro, Campo, Conjunto, ■ Relacionales: Tablas, Registros, Atributos y

Relaciones.■ Objetos: Clases, Objetos y Mensajes.

Page 19: Biología Computacional

1

Otras necesidades...

No solo de las operaciones depende el diseño. También de otros

requerimientos y funcionalidades.Muchas veces depende de los recursos

que se tienen.

Como consecuencia fue necesario clasificar las bases de datos según la

distribución de física de los datos.

Page 20: Biología Computacional

1

Organización Física

■ Centralizada.– Existe un único repositorio responsable de los

datos.– La consulta se realiza sobre el repositorio.

■ Distribuida.– Existen varios respositorios responsables de los

datos.– La consulta se realiza en cualquiera de los

repositorios.– El usuario ve un único repositorio.– Existe un proceso de sincronización de los

datos.

Page 21: Biología Computacional

1

Organización Física

■ Mixta.– Existen varios repositorios responsables de los

datos.– La consulta se realiza en el repositorio

adecuado.– La interconexión entre los repositorios pueden

ser visible o invisible.– Existen procesos independientes a los

repositorios que realizan la sincronización.– La forma de distribución y almacenamiento de

datos es eterogenea.

Page 22: Biología Computacional

1

¿Qué se puede almacenar?

La pregunta correcta es...¿Qué queremos almacenar?

Page 23: Biología Computacional

1

Datos Biológicos

■ Bibliografía.■ Nucleótidos.■ Proteínas.■ Genoma.■ Estructuras.■ Alineamientos.■ Organismos.■ Genes.

■ Resultados de Microarrays.

■ Mutaciones.■ Etc.

Page 24: Biología Computacional

1

Características

■ Alta complejidad.■ Gran cantidad y variabilidad de la información.■ Múltiples origenes de la información.■ Múltiples interpretaciones.■ Consultas impredecibles.

Page 25: Biología Computacional

1

Nueva Clasificación

Las bases de datos biológicas tienen características especiales que

promovieron una nueva clasificación para poder identificar la calidad de los

datos almacenados.

Page 26: Biología Computacional

1

Clases de Bases de Datos Biológicas

■ x Confianza en los datos.– Curadas: Los datos están confirmados biológicamente.

Aún así esto no significa que puedan variar.– No curadas: Los datos no fueron confirmados. Son

obtenidos de procesos automáticos o son resultados parciales.

■ x Redundancia en los datos.– Redundantes: No se puede confirmar que los datos

existentes no se encuentran repetidos varias veces.– No redundantes: Los datos no están repetidos bajo un

criterio... y las ¿secuencias repetidas?

Page 27: Biología Computacional

1

El problema

■ Nadie conoce cual es la mejor implementación.■ No existe un estándar (¿SQL?).■ La actualización de los recursos es lenta con

respecto a la cantidad de datos.■ No todos los laboratorios tienen la misma calidad

de recursos.■ La consulta a los datos varia según el objeto de

estudio.■ Problemas políticos.

Page 28: Biología Computacional

1

Solución actual

■ Especificar las bases de datos.■ Relacionar las bases de datos a través de

Internet: Enlaces!■ Centralizar en grandes centros de bioinformática

con recursos suficientes.■ Permitir acceso a los grandes centros vía Internet.■ Mantenimiento de los datos a través de sistemas

de versiones.

Page 29: Biología Computacional

1

Ejemplo: Bases de Datos Biológicas

Entrez+ ¡De todo!- Pero separado...¿Por donde empezar?

Entrez+ ¡De todo!- Pero separado...¿Por donde empezar?

ExPASy+ Confiable.- Todo separado.- Pocos datos.

ExPASy+ Confiable.- Todo separado.- Pocos datos.

AceDB+ ¡De todo!- Especializado a un genoma.

AceDB+ ¡De todo!- Especializado a un genoma.

GenBank+ Todas las secuencias.- No es confiable.

GenBank+ Todas las secuencias.- No es confiable.

Operacional

AnalíticaAnalíti

ca

y

Operacional

Analítica

Page 30: Biología Computacional

1

Nuevos problemas.

■ Una consulta seria implica 'navegar' por varias bases de datos diferentes.

■ Los resultados no siempre son satisfactorios.■ Las herramientas están especializadas a las

distintas bases de datos.■ Es muy fácil marearse...■ ¿Dónde empezar la consulta?■ ¿Qué tan confiable es lo encontrado?

Page 31: Biología Computacional

1

Se necesitan una solución

■ Las soluciones tienen que ser integradoras y accesibles, de bajo costo y políticamente aceptable.

■ Los grandes centros de bioinformática quieren imponer su solución integradora, siendo la mayoría gratuitas y multiplataformas. Esto limita la fusión de los datos acotando las consultas.

■ Es por ello que surgieron soluciones puntuales para integrar las herramientas existentes.

Page 32: Biología Computacional

1

Solución I: Scripts

Los lenguajes de scripts permiten simplificar tareas automatizables y tediosas. Existen extensiones para procesos comunes para la Bioinformática.

■ Ventajas– Sencillos y rápidos de implementar.– Permiten intercomunicar base de datos.

■ Desventajas– Saber programación.

■ Ejemplos– BioPerl, BioPython, etc.

Page 33: Biología Computacional

1

Solución II: XML

■ Lenguaje de representación y organización de datos.

■ Flexible.■ Fácil de interpretar y consultar.■ Cualquier sistema que entiende XML puede

interpretar los datos.■ Pensado para intercambiar datos por Internet.■ HTML es primo mayor de XML.

Page 34: Biología Computacional

1

¿El futuro?

La integración de los datos...

Page 35: Biología Computacional

1

BioGrid, posible solución?

■ Base de datos de objetos organizada jerárquicamente.

■ Información distribuida.■ Independencia en la administración.■ Lenguaje de consulta muy amplio.■ Tecnología de Directorios: 10 años de

experiencia.■ Automáticamente integrable con otras grillas

de información científica.

Page 36: Biología Computacional

1

Problemas del proyecto BioGrid

■ Concepto nuevo en Bioinformática.– Ignorancia.– En fase de prueba.– Necesita implementar consultas específica de la

bioinformática.■ Debe ser aceptado políticamente.

– La solución es integradora... nadie se puede imponer.– La organización de los datos es diferente.– Las herramientas deben cambiar de conceptos.

Lo más parecido... AceDB.

Page 37: Biología Computacional

1

¿Preguntas?

Page 38: Biología Computacional

1

Fin de la presentación...

Ir a los fierros...