Biología Computacional

1

Biología Computacional / Bioinformática

LaboratorioIntroducción / Bases de Datos.

1

¿Qué es la Bioinformática?

La bioinformática es el campo de la ciencia en donde la biología, la ciencia de la computación, y la tecnología de

información se funden en una disciplina.El objetivo principal es el descubrimiento

de nuevos indicios biológicos, como también crear una perspectiva global de

la cual poder unificar principios de la biología.

(NCBI Education)

1

Subdisciplinas

■ Desarrollo de nuevos algoritmos que permitan determinar relaciones en muestras de gran tamaño.

■ Análisis e interpretación de varios tipos de datos, incluyendo secuencias de nucleótidos y aminoácidos, dominio de proteínas, y estructuras de proteínas.

■ Desarrollo e implementación de herramientas para permitir un acceso eficiente a la información.

1

Herramientas.

Problema Biológico■ Secuenciación.■ Captura de genes.■ Localización

subcelular de proteínas.

■ Comparación de proteínas.

Solución Computacional■ Base de datos.■ Planillas de cálculo.■ Alineamiento.■ Reconocimiento de

patrones.■ Datamining.■ Especializadas.

1

Bases de datos

1

¿Qué es una base de datos?

Una Base de Datos es un conjunto de datos relacionados y almacenados para

un proposito particular con una estructura lógica.

Base de Datos = Estructura + Datos.

1

Ejemplo: Un biblioteca.

1

¿Cómo se organizan los datos?

La organización depende de las consultas que se piensan realizar

sobre la base de datos.De las consultas se concluye los

conjuntos, relaciones y lógicas que existen entre los datos.

1

Ejemplo: Biblioteca II

AUTOR Lista de Autores

TÍTULO Lista de Títulos

TEMA Temas x Estantes

Consulta...

1

¿Cómo mantener una base de datos?

El motor de base de datos es el software encargado de mantener consistencia en los datos y responder las consultas a realizar.

El software debe tener las siguientes herramientas para ser declarado como un motor de base de datos:

■ Lenguaje de Definición de Estructura.■ Lenguaje de Modificación de Datos.■ Lenguaje de Consultas.

1

Ejemplo: Biblioteca III

El Bibliotecario...

1

¿Cómo se crea una base de datos?

La creación de la base de datos excede los objetivos de la materia, pero se darán las pautas

más importantes para su creación.

■ Consultas y operaciones:– ¿Qué voy a consultar? ¿Qué necesito almacenar?

■ El diseño debe ser formal, no debe haber ambigüedades.– Existen lenguajes gráficos que ayudan al diseño.

■ ¡Un mal diseño puede complicar la consistencia de los datos! Aún siendo formal...

■ ¡Tiempo!

1

Operaciones

■ Las operaciones básicas en una base de datos son la consulta, la inserción, modificación y eliminación de datos.

■ Quienes realizan estas operaciones son los usuarios. Los usuarios no solo son personas sino también procesos o sistemas externos.

■ Existen dos clases de bases de datos según sus operaciones más comunes: operacionales y analíticas.

1

Base de Datos por Consulta

■ Base de datos operacionales.– Continua inserción de datos.– Los datos provienen de un proceso automático o

repetitivo, pueden traer error.– Los datos están actualizados.– Objetivo: Almacenar datos.

■ Bases de datos analíticas– Optimizada para consultas.– Los datos están confirmados.– Los datos no están actualizados.– Objetivo: Buscar información.

1

Diseño formal

Los motores de base de datos necesitan formalidad para crear las estructuras físicas necesarias para mantener la

base de datos.Las herramientas que se usan para

simplificar el diseño son los lenguajes gráficos formales como UML y ER.

1

Diagramas ER y UML

1

¿Algo más?

El diseño esta relacionado al motor de base de datos. Las bases de datos fueron evolucionando durante los

últimos años dejando varios modelos que permiten representar la

organización de los datos, por supuesto, uno más restrictivo que otro.

1

Modelos de Base de datos.

■ Planas: No se verifica la consistencia de los datos. (¡No es una base de datos!)

■ Jerárquicas: Fichas, Jerarquía.■ Red: Registro, Campo, Conjunto, ■ Relacionales: Tablas, Registros, Atributos y

Relaciones.■ Objetos: Clases, Objetos y Mensajes.

1

Otras necesidades...

No solo de las operaciones depende el diseño. También de otros

requerimientos y funcionalidades.Muchas veces depende de los recursos

que se tienen.

Como consecuencia fue necesario clasificar las bases de datos según la

distribución de física de los datos.

1

Organización Física

■ Centralizada.– Existe un único repositorio responsable de los

datos.– La consulta se realiza sobre el repositorio.

■ Distribuida.– Existen varios respositorios responsables de los

datos.– La consulta se realiza en cualquiera de los

repositorios.– El usuario ve un único repositorio.– Existe un proceso de sincronización de los

datos.

1

Organización Física

■ Mixta.– Existen varios repositorios responsables de los

datos.– La consulta se realiza en el repositorio

adecuado.– La interconexión entre los repositorios pueden

ser visible o invisible.– Existen procesos independientes a los

repositorios que realizan la sincronización.– La forma de distribución y almacenamiento de

datos es eterogenea.

1

¿Qué se puede almacenar?

La pregunta correcta es...¿Qué queremos almacenar?

1

Datos Biológicos

■ Bibliografía.■ Nucleótidos.■ Proteínas.■ Genoma.■ Estructuras.■ Alineamientos.■ Organismos.■ Genes.

■ Resultados de Microarrays.

■ Mutaciones.■ Etc.

1

Características

■ Alta complejidad.■ Gran cantidad y variabilidad de la información.■ Múltiples origenes de la información.■ Múltiples interpretaciones.■ Consultas impredecibles.

1

Nueva Clasificación

Las bases de datos biológicas tienen características especiales que

promovieron una nueva clasificación para poder identificar la calidad de los

datos almacenados.

1

Clases de Bases de Datos Biológicas

■ x Confianza en los datos.– Curadas: Los datos están confirmados biológicamente.

Aún así esto no significa que puedan variar.– No curadas: Los datos no fueron confirmados. Son

obtenidos de procesos automáticos o son resultados parciales.

■ x Redundancia en los datos.– Redundantes: No se puede confirmar que los datos

existentes no se encuentran repetidos varias veces.– No redundantes: Los datos no están repetidos bajo un

criterio... y las ¿secuencias repetidas?

1

El problema

■ Nadie conoce cual es la mejor implementación.■ No existe un estándar (¿SQL?).■ La actualización de los recursos es lenta con

respecto a la cantidad de datos.■ No todos los laboratorios tienen la misma calidad

de recursos.■ La consulta a los datos varia según el objeto de

estudio.■ Problemas políticos.

1

Solución actual

■ Especificar las bases de datos.■ Relacionar las bases de datos a través de

Internet: Enlaces!■ Centralizar en grandes centros de bioinformática

con recursos suficientes.■ Permitir acceso a los grandes centros vía Internet.■ Mantenimiento de los datos a través de sistemas

de versiones.

1

Ejemplo: Bases de Datos Biológicas

Entrez+ ¡De todo!- Pero separado...¿Por donde empezar?

Entrez+ ¡De todo!- Pero separado...¿Por donde empezar?

ExPASy+ Confiable.- Todo separado.- Pocos datos.

ExPASy+ Confiable.- Todo separado.- Pocos datos.

AceDB+ ¡De todo!- Especializado a un genoma.

AceDB+ ¡De todo!- Especializado a un genoma.

GenBank+ Todas las secuencias.- No es confiable.

GenBank+ Todas las secuencias.- No es confiable.

Operacional

AnalíticaAnalíti

ca

y

Operacional

Analítica

1

Nuevos problemas.

■ Una consulta seria implica 'navegar' por varias bases de datos diferentes.

■ Los resultados no siempre son satisfactorios.■ Las herramientas están especializadas a las

distintas bases de datos.■ Es muy fácil marearse...■ ¿Dónde empezar la consulta?■ ¿Qué tan confiable es lo encontrado?

1

Se necesitan una solución

■ Las soluciones tienen que ser integradoras y accesibles, de bajo costo y políticamente aceptable.

■ Los grandes centros de bioinformática quieren imponer su solución integradora, siendo la mayoría gratuitas y multiplataformas. Esto limita la fusión de los datos acotando las consultas.

■ Es por ello que surgieron soluciones puntuales para integrar las herramientas existentes.

1

Solución I: Scripts

Los lenguajes de scripts permiten simplificar tareas automatizables y tediosas. Existen extensiones para procesos comunes para la Bioinformática.

■ Ventajas– Sencillos y rápidos de implementar.– Permiten intercomunicar base de datos.

■ Desventajas– Saber programación.

■ Ejemplos– BioPerl, BioPython, etc.

1

Solución II: XML

■ Lenguaje de representación y organización de datos.

■ Flexible.■ Fácil de interpretar y consultar.■ Cualquier sistema que entiende XML puede

interpretar los datos.■ Pensado para intercambiar datos por Internet.■ HTML es primo mayor de XML.

1

¿El futuro?

La integración de los datos...

1

BioGrid, posible solución?

■ Base de datos de objetos organizada jerárquicamente.

■ Información distribuida.■ Independencia en la administración.■ Lenguaje de consulta muy amplio.■ Tecnología de Directorios: 10 años de

experiencia.■ Automáticamente integrable con otras grillas

de información científica.

1

Problemas del proyecto BioGrid

■ Concepto nuevo en Bioinformática.– Ignorancia.– En fase de prueba.– Necesita implementar consultas específica de la

bioinformática.■ Debe ser aceptado políticamente.

– La solución es integradora... nadie se puede imponer.– La organización de los datos es diferente.– Las herramientas deben cambiar de conceptos.

Lo más parecido... AceDB.

1

¿Preguntas?

1

Fin de la presentación...

Ir a los fierros...

Biología Computacional

Documents

Transcript of Biología Computacional