Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

30
TEMA: CAPITULO 29 Y 30 UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD CIENCIAS ECONÓMICAS CARRERA DE FINANZAS INTEGRANTES: SANGOQUIZA GUAYASAMIN DIEGO STALIN VACA RODRIGUEZ PAUL FERNANDO VELASCO VIRACOCHA BRYAN DAVID

Transcript of Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Page 1: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

TEMA: CAPITULO 29 Y 30

UNIVERSIDAD CENTRAL

DEL

ECUADORFACULTAD CIENCIAS ECONÓMICAS

CARRERA DE FINANZAS

INTEGRANTES:

• SANGOQUIZA GUAYASAMIN DIEGO STALIN

• VACA RODRIGUEZ PAUL FERNANDO

• VELASCO VIRACOCHA BRYAN DAVID

Page 2: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

VISIÓN GENERAL DEL ALMACENAMIENTO

DE DATOS Y OLAP

El aumento de la potencia de procesamiento y la sofisticación de las herramientas y técnicas

analíticas ha dado como resultado lo que se ha dado en llamar almacenes de datos (data

warehouses), los cuales proporcionan el almacenamiento, la funcionalidad y la respuesta

adecuada a las consultas que se escapan del ámbito de las bases de datos orientadas a las

transacciones.

En las organizaciones de hoy en día, los usuarios de los datos suelen encontrarse alejados de

las fuentes de los mismos. Muchas personas sólo precisan leer la información, pero

conservando una adecuada velocidad de acceso a grandes volúmenes de datos para ser

descargados al computador.

Page 3: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Los archivos de los datos no siempre están organizados de la forma ideal para las

necesidades específicas del usuario.

Para preparar los datos para analizarlos posteriormente puede transformar de

muchas maneras diferentes el archivo:

• ORDENAR DATOS: Puede ordenar los casos en función del valor de una o mas

variables.

• SELECCIONAR SUBCONJUNTOS DE CASOS: Puede restringir el análisis a

un subconjunto de casos o efectuar análisis simultáneamente de subconjuntos

diferentes.

Page 4: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

CONSTRUCCIÓN DE UN ALMACÉN DE

DATOS A la hora de preparar un almacén de datos, sus constructores deben disponer de

una visión general anticipada del uso que se le dará. Durante la fase de diseño, no

existe forma de prever todas las posibles consultas y análisis que se realizarán.

La adquisición de los datos desde el almacén implica dar los siguientes pasos:

• Los datos deben ser extraídos de fuentes múltiples y heterogéneas como, por

ejemplo, bases de datos o cualquier otro lugar en el que exista información relevante.

• Los datos deben estar formateados de forma que sean coherentes dentro del

almacén. Los nombres, contenidos y dominios de los datos que provengan de fuentes

inconexas deben ser reajustados.

• Los datos deben estar limpios para garantizar su validez.

Page 5: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

• Muchas veces resulta útil y en

ocasiones es incluso necesario,

ordenar los casos ordenar las

filas del archivo de datos), para

realizar determinados tipos de

análisis.

Page 6: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

• Para dividir el archivo de

datos en diferentes grupos:

En los menús seleccione:

Datos > Dividir archivo

Aparecerá el cuadro de diálogo

dividir archivo.

Page 7: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

El procedimiento Dividir archivo crea un nuevo subgrupo cada vez que se

encuentra un valor diferente para una de las variables de agrupación.

Es importante ordenar los casos de acuerdo con los valores de las variables de

agrupación antes de invocar el procesamiento de división del archivo.

El procedimiento dividir archivo ordena automáticamente el archivo de datos de

acuerdo con los valores de las variables de agrupación.

Page 8: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Mientras permanezca activado el

procesamiento de división del archivo

aparecerá el mensaje división en la

barra de estado situada en la parte

inferior de la ventana de la aplicación.

ANALIZAR TODOS LOS CASOS: esta opción desactiva el

procedimiento de división del archivo.

COMPARAR LOS GRUPOS Y ORGANIZAR LOS

RESULTADOS POR GRUPOS: esta opción activa el

procesamiento de división del archivo.

Tras invocar el procedimiento de

división del archivo, este permanecerá

en vigor durante el resto de la sesión, a

menos que lo desactive.

Page 9: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Puede limitar el análisis a un determinado

subconjunto de acuerdo con criterios que pueden

incluir variables y expresiones complejas

• Valores y rangos de las variables

• Rango de fechas y horas

• Numero de casos (filas)

• Expresiones aritméticas

• Expresiones lógicas

• Funciones

Page 10: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

ALMACENES DE DATOS FRENTE A

VISTAS Los almacenes de datos existen como un sistema de almacenamiento

permanente en lugar de materializarse bajo petición.

Los almacenes de datos no suelen ser relacionales, sino más bien

multidimensionales. Las vistas de una base de datos relacional son relacionales.

Los almacenes de datos pueden indexarse para mejorar su rendimiento. Las

vistas no pueden estarlo de forma independiente de las bases de datos

subyacentes.

Los almacenes de datos ofrecen soporte específico de funcionalidad; las vistas

no.

Los almacenes de datos proporcionan grandes cantidades de datos integrados y,

con frecuencia, temporales (generalmente más de los contenidos en una base de

datos), mientras que las vistas son un extracto de una base de datos.

Page 11: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Para seleccionar los casos basados en una

expresión condicional:

• Seleccione SI se satisface la condición y

pulse en Si en el cuadro de diálogo

Seleccionar casos.

• Se abrirá el cuadro de diálogo Seleccionar

casos: Si

Page 12: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Para obtener una muestra aleatoria:

• Seleccione Muestra aleatoria de

casos en el cuadro de diálogo

Seleccionar casos.

• Pulse en muestra.

• Se abrirá de dialogo Seleccionar

casos: Muestra aleatoria.

Page 13: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

• Para seleccionar un rango de casos basados en

fechas, horas o números de observación:

• Seleccione basándose en el rango del tiempo o

de los casos y pulse en Rango en el cuadro de

diálogo Seleccionar casos.

• Se abrirá el cuadro de diálogo Seleccionar casos:

Rango en el que podrá seleccionar un rango de

números de observación.

PRIMER CASO: Introduzca los valores de la fecha y

hora iniciales de rango. Si no se ha definido ninguna

variable de la fecha introduzca el numero de observación

inicial.

ULTIMO CASO: introduzca los valores de la fecha y hora

finales de rango. Si no se ha definido ninguna variable de

fecha introduzca el numero de observación final.

Page 14: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

DESCARTAR CASOS NO

SELECCIONADOS

Los casos no seleccionados no se incluyen en

el análisis, pero se conservan en el conjunto

de datos.

COPIAR CASOS SELECCIONADOS A UN NUEVO CONJUNTO DE

DATOS

Los casos seleccionados se copiarán a un nuevo conjunto de datos, lo

que mantendrá inalterado el conjunto de datos original.

Los casos no seleccionados no se incluirán en el nuevo conjunto de

datos y se mantendrán en su estado original en el conjunto de datos

original.

ELIMINAR CASOS NO SELECCIONADOS

Los casos no seleccionados se eliminarán

del conjunto de datos. Sólo se pueden

recuperar los casos eliminados saliendo del

archivo sin guardar ningún cambio y

abriéndolo de nuevo.

Page 15: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

PROBLEMAS ABIERTOS EN EL

ALMACENAMIENTO DE DATOS

El almacenamiento de datos es un área activa deinvestigación que, muy probablemente se veaincrementada en un futuro cercano a medida que losalmacenes y los mercados de datos proliferen.

.Los problemas antiguos sufrirán un nuevo enfoque; por ejemplo, la limpieza de los datos, la indexación, el particionado y las vistas recibirán una renovada atención.

En la actualidad ya pueden encontrarse en el mercadoprogramas de distintos fabricantes para almacenar datos,los cuales se centran principalmente en la administracióndel almacén y en las aplicaciones OLAP/DSS.

Page 16: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Tecnologías y aplicaciones

emergentes de bases de

datos

Page 17: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Bases de datos moviles Los recientes avances en la tecnología móvil e inalámbrica han conducido a la

computación móvil, una nueva dimensión en la comunicación y el procesamiento

de los datos. Los dispositivos computacionales móviles junto con las

comunicaciones inalámbricas, permiten a los clientes el acceso a los datos desde

prácticamente cualquier lugar y en cualquier momento. Esta funcionalidad resulta

especialmente útil a las empresas dispersas geográficamente. Entre los ejemplos

típicos podríamos incluir las agendas electrónicas, los servicios de información de

noticias y de valores de bolsa, y la gestión comercial automatizada. Sin embargo,

existen varios problemas en el hardware y en el software que deben ser resueltos

antes de que se puedan utilizar en su totalidad las posibilidades de la computación

móvil.

Arquitectura de la computación móvil

Plataforma móvil basada en infraestructura. Se trata de una arquitectura

distribuida en la que varios computadores, a los que se les denomina

generalmente Host fijo (FS) y Estación base (BS), se interconectan a través de

una red de cable de alta velocidad. Los hosts fijos son, por lo general,

computadores dedicados que no están equipados normalmente para la gestión de

unidades móviles pero que pueden ser configurados para ello. Las estaciones

base son pasarelas entre las Unidades móviles (MU) y la red fija. Están equipadas

con interfaces inalámbricas y ofrecen servicios de acceso a la red a las unidades

móviles clientes.

Page 18: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Plataforma móvil no basada en infraestructura. La arquitectura de comunicaciones

que acabamos de describir está diseñada para dar al cliente la impresión de que

se encuentra conectado a una red fija, emulando la arquitectura cliente/servidor

tradicional. Además de lo anterior, las comunicaciones inalámbricas posibilitan

otros tipos de arquitecturas. Una de ellas es una plataforma móvil sin

infraestructura, también llamada red móvil ad hoc (MANET).

Las principales características de las aplicaciones MANET son las siguientes:

• Desconexiones frecuentes.

• Particionado frecuente de la red.

• Control centralizado dificultoso.

• Heterogeneidad de los nodos.

Características de los entornos móviles

Entre algunas de las características de la computación en entornos móviles

podemos incluir la alta latencia de comunicaciones, la conectividad inalámbrica

intermitente, la duración limitada de las baterías y, por supuesto, el cambio en la

ubicación de los clientes.

Page 19: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Temas sobre gestión de datos

Desde el punto de vista de la gestión de los datos, la computación móvil puede ser considerada como una variante de la computación distribuida. Las bases de datos móviles pueden ser distribuidas bajo dos escenarios posibles:

1. Toda la base de datos se encuentra distribuida principalmente entre los componentes cableados, quizá con replicación total o parcial. Una estación base o un host fijo gestiona su propia base de datos mediante una funcionalidad de tipo DBMS, con funcionalidad adicional para la localización de unidades móviles y con funciones adicionales de consulta y tratamiento de transacciones que cumplan los requisitos de los entornos móviles.

2. La base de datos está distribuida entre los componentes cableados e inalámbricos. La responsabilidad de la gestión de los datos se reparte entre las estaciones base o entre los hosts fijos y las unidades móviles.

Aplicación. Bases de datos sincronizadas intermitentemente

El escenario de computación móvil se está haciendo. cada vez más popular a medida que las personas se llevan el trabajo lejos de sus oficinas y hogares y llevan a cabo una gran cantidad de actividades y funciones: todo tipo de ventas, particularmente en productos farmacéuticos, artículos de consumo y el sector industrial; defensa de la ley; consultoría y planificación financiera y de seguros; bienes inmuebles o actividades de gestión de la propiedad; servicios de mensajería y transportes; etc.

En su conjunto, las siguientes características de las ISDBs las diferencian de las bases de datos móviles que hemos explicado anteriormente: 1. Un cliente conecta con el servidor cuando quiere recibir actualizaciones del mismo, enviarle actualizaciones, o procesar transacciones que necesitan datos no locales. Esta comunicación puede ser de tipo unidifusión (comunicación de uno a uno entre el servidor y el cliente) o de tipo multidifusión (un emisor o un servidor puede comunicar periódicamente con un conjunto de receptores o actualizar un grupo de clientes).

2. Un servidor no puede conectar con un cliente a voluntad. 3. Los problemas de las conexiones cliente inalámbricas frente a las cableadas y la conservación de la energía son generalmente inmateriales. 4. Un cliente es libre de gestionar sus propios datos y transacciones mientras está desconectado. También puede efectuar su propia recuperación en cierta medida. 5. Un cliente tiene varias formas de conectar con un servidor, y en caso de muchos servidores, puede elegir el servidor en particular con el que quiere conectar en base a la proximidad, los nodos de comunicación disponibles, los recursos disponibles, etcétera.

Page 20: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Bases de datos multimedia En los próximos años se espera que los sistemas de información multimedia dominen nuestra actividad diaria. Nuestras casas estarán cableadas para permitir grandes anchos de banda que permitan interactuar con aplicaciones multimedia interactivas. Nuestras televisiones de alta definición o nuestras estaciones de trabajo tendrán acceso a un gran número de bases de datos, incluyendo librerías digitales, que distribuirán inmensas cantidades de contenido multimedia de diferentes fuentes.

La naturaleza de los datos y las aplicaciones multimedia

Los DBMSs se han ido incorporando constantemente a los tipos de datos que soportan. En la actualidad, la mayoría de sistemas admiten los siguientes tipos de datos multimedia:

Tecto, graficos, imágenes, animaciones,video, audio estructurado , audio, datos multimedia compuestos o mixtos.

Naturaleza de las aplicaciones multimedia. Los datos multimedia pueden ser almacenados, entregados y utilizados de muy diferentes formas. Las aplicaciones pueden categorizarse de la siguiente forma en función de sus características de administración de los datos:

Aplicaciones de almacén, aplicaciones de presentación, trabajo cooperativo usando información multimedia.

Cuestiones relativas a la administración de los datos

Las aplicaciones multimedia tratan con cientos de imágenes, documentos, segmentos de audio y vídeo y texto libre que dependen de una forma crucial del modelado apropiado de la estructura y del contenido de los datos para después diseñar los esquemas de base de datos adecuados para almacenar y recuperar información multimedia. Estos sistemas son complejos y abarcan un gran número de temas, entre los que se pueden citar los siguientes:

Modelado, diseño, almacenamiento, consultas y recuperación y rendimiento

Page 21: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Problemas de investigación abierta

Perspectiva de la recuperación de información en la consulta de bases de datos multimedia. El modelado del

contenido de datos no ha sido un tema en los modelos y sistemas de bases de datos porque los datos cuentan con

una estructura rígida y es posible inferir una de sus instancias a partir del esquema.

Requerimientos del modelado y la recuperación de datos multimedia/hipermedia. Para capturar toda la potencia

expresiva del modelado de datos multimedia, el sistema debe contar con una construcción general que pennita al

usuario especificar enlaces entre dos nodos arbitrarios. Los enlaces hipermedia, o hiperenlaces, tienen numerosas

características diferentes:

• Los enlaces pueden especificarse con o sin infonnación asociada, y pueden tener grandes descripciones

asociadas a ellos.

• Los enlaces pueden empezar desde un punto específico del nodo o desde todo él.

• Los enlaces pueden ser direccionales o sin dirección cuando pueden atravesarse en cualquier sentido.

Requerimientos del modelado y la recuperación de datos multimedia/hipermedia.

Para capturar toda la potencia expresiva del modelado de datos multimedia, el sistema debe contar con una

construcción general que pennita al usuario especificar enlaces entre dos nodos arbitrarios. Los enlaces

hipermedia, o hiperenlaces, tienen numerosas características diferentes:

• Los enlaces pueden especificarse con o sin infonnación asociada, y pueden tener grandes descripciones

asociadas a ellos.

• Los enlaces pueden empezar desde un punto específico del nodo o desde todo él.

• Los enlaces pueden ser direccionales o sin dirección cuando pueden atravesarse en cualquier sentido.

Indexación de imágenes. Existen dos métodos de indexación de imágenes: identificar los objetos

automáticamente mediante técnicas de procesamiento de imágenes, y asignar ténninos y frases índice mediante

indexa

La recuperación de información en la indexación de imágenes está basada en uno de estos tres esquemas:

1. Sistemas clasificatorios.

2. Sistemas basados en palabras clave.

3. Sistemas entidad-atributo-relación.

Page 22: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Problemas en la recuperación de texto. La recuperación de texto siempre ha sido la clave en las aplicaciones de negocio y sistemas de librería, y aunque se ha avanzado mucho en algunos de los problemas que veremos a continuación, aún quedan muchas mejoras por realizar, especialmente en las siguientes áreas:

• Indexación de frase.

• Uso de diccionarios de sinónimos (tesauros).

• Resolución de la ambigüedad.

Aplicaciones de bases de datos multimedia

Las aplicaciones de bases de datos multimedia a gran escala deben abarcar un gran número de disciplinas y mejorar el potencial ya existente. Algunas de las aplicaciones importantes implicadas serán:

• Administración de documentos y registros.

• Diseminación del conocimiento.

• Educación y aprendizaje.

• Marketing, publicidad, ventas, entretenimiento y viajes.

• Control en tiempo real y monitorización.

Sistemas comerciales para la administración de Información multimedia.

No existe ningún DBMS diseñado en exclusiva para controlar datos multimedia, por lo que no hay nada que tenga todas las funcionalidades necesarias para dar un soporte completo a todas estas aplicaciones. Sin embargo, algunos DBMSs soportan tipos de datos multimedia; podemos citar Informix Dynamic Server, UDB (Base de datos universal DB2, DB2 Universal Database) de IBM, Oracle 9 y 10, CA-JASMINE, SYBASE y ODB 11.

Page 23: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

GIS (Sistemas de información geográfica,

Geographic Information Systems)Los GIS suelen estar definidos como una integración sistemática de hardware y software para la captura, el

almacenamiento, la visualización, la actualización y el análisis de datos espaciales. Durante la década de

los 60 y 70, los GIS no eran más que una simple herramienta software integrada en un computador que

permitía resolver problemas espaciales con relativa facilidad.

Componentes de los sistemas GIS

Los sistemas GIS pueden considerarse como una integración de tres componentes: hardware y software,

datos y personas.

• Hardware y software.

• Datos.

• Personas.

Características de los datos en GIS

Existen características particulares de los datos geográficos que hacen que su modelado sea más

complicado que en las aplicaciones convencionales. Seconsideran varios aspectos geograficos:

Localizacion, temporalidad, rasgos espaciales complejos, valores tematicos, objetos ambiguos, entidad a

datos basados en campos, generalizacion, roles, ID de objeto, calidad de los datos.

Restricciones en GIS. Las restricciones son un aspecto muy importante de los objetos geográficos en GIS.

Las típicas restricciones de integridad de clave, de dominio, referencial y semánticas generales no pueden

capturar las características distintivas de la información geográfica.

Modelos de datos conceptuales para GIS

Esta sección describe brevemente los modelos conceptuales más comunes para el almacenamiento de

datos espaciales en GIS. Cada uno de estos modelos está implementado actualmente en los Sistemas

Geográficos,

Page 24: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Mejoras OBMS para GIS

Hasta mediados de la década de los 90, los sistemas de información geográfica estaban

basados principalmente en modelos de datos propietarios. Estos modelos estaban

basados en ficheros y optimizados para conseguir un acceso rápido y eficiente.

Estándares y operaciones GIS

Uno de los primeros pasos fundamentales del diseño de una base de datos es

comprender los requisitos del sistema. El diseño se basa en los bloques de construcción

del sistema, es decir, las entidades, los métodos y las restricciones que éste podría

soportar. Las necesidades de estándares y políticas dentro de la comunidad GIS que

definan los tipos de datos y los métodos han sido dirigidas por varias organizaciones.

Los estándares definen varios métodos para la verificación de las relaciones espaciales

entre los objetos geométricos:

Igualdad, disjunto, interseccion, contacto, cruce, dentro, contiene, superposicion,

relacion.

El análisis espacial de las geometrías en el sistema se consigue definiendo los

siguientes métodos:

Distancia, bufer, convexHull, Interseccion, union , diferencia, symDifference.

Page 25: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

La tabla de Sistemas de Referencia Espacial almacena información de cada uno de los Sistemas de Referencia individuales de la base de datos. El siguiente ejemplo muestra la creación de una tabla de estados:

CREATE TABLE ESTADOS (NombreEstado VARCHAR(50) NOT NULL, FormaEstado POLYGON NOT NULL, País VARCHAR(50), PRIMARY KEY (NombreEstado), FOREIGN KEY (País) REFERENCES PAíSES (NombrePaís), );

Esta sentencia define el nombre del estado, su geometría (polígono) y el país, además de indicar que la clave primaria es el nombre del estado (no puede ser nulo) y una clave externa contra la tabla de países. La siguiente es una sentencia que recupera los estados que tengan un área mayor que 50.000:

SELECT FROM WHERE

NombreEstado ESTADOS (AREA(FormaEstado) >50000);

Area es un método definido en los estándares OGC (OGC 1999) que devuelve el área de una superficie en las unidades del sistema de coordenadas. La sentencia siguiente recuperará todos los estados que comparten frontera con Texas. El método Touches devuelve 1 cuando las geometrías se tocan espacialmente.

SELECT FROM WHERE

S1.NombreEstado ESTADOS S1, ESTADOS S2 ( (TOUCHES( S1.FormaEstado, S2.FormaEstado) == 1) ANO (S2.NombreEstado = 'Texas') )

Aplicaciones y software GIS

Desde que GIS trata con el mundo que nos rodea, existen una gran cantidad de aplicaciones basadas en él. GIS empezó en los centros de investigación de las universidades y ha sido utilizado tradicionalmente por empresas Y disciplinas específicas como los militares y el gobierno. GIS se expandió a otros campos en la década pasada, como el mercado inmobiliario, y en la actualidad se utiliza en casi todos los aspectos de nuestra vida cotidiana.

Page 26: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Trabajo futuro en GIS

GIS se ha desarrollado rápidamente sobre todo durante los últimos diez

años. El auge de las tecnologías de bases de datos y el creciente

interés que muestran las nuevas disciplinas por GIS han dado lugar a

nuevas preguntas y problemas. Las nuevas aplicaciones continuarán

presentando nuevos desafíos como los siguientes:

-Fuentes de datos.

-Modelos de datos.

-Estándares.

-Nuevas arquitecturas.

-Estrategia del ciclo de vida del objeto y su versionado.

-GIS móvil.

-GIS temporal.

-Modelado de varios aspectos de GIS.

-Notación común.

-Generalización.

-DBMSs especializados para GIS.

Page 27: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Control de los datos del genomaBiología y genética

La biología engloba una enorme variedad de información. Las ciencias medioambientales nos ofrecen una visión del modo en que las especies viven e interactúan en un mundo repleto de fenómenos naturales.

La genética ha emergido como un campo ideal para la aplicación de la tecnología de la información. En un sentido amplio, puede considerarse como la construcción de modelos de datos basados en la información sobre los genes (considerados como las unidades fundamentales de la herencia) y la búsqueda de relaciones entre esa información.

Características de los datos biológicos

Los datos biológicos exhiben muchas características especiales que hacen que su control suponga un gran problema. Por ejemplo, las nuevas técnicas experimentales permiten la obtención de ingentes cantidades de datos biológicos a partir de un único experimento.

Característica 1. Los datos biológicos son altamente complejos en comparación con la mayoría de otros dominios o aplicaciones.

Característica 2. La cantidad y el rango de variación de los datos son grandes.

Característica 3. Los esquemas de las bases de datos biológicas cambian rápidamente.

Característica 4. Las representaciones del mismo dato realizadas por distintos biólogos podrían ser diferentes (incluso usando el mismo sistema).

Característica 5. La mayoría de los usuarios de los datos biológicos no necesitan acceso de escritura a la base de datos; un acceso de sólo lectura sería suficiente.

Page 28: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Característica 6. La mayoría de biólogos no tienen constancia de la estructura interna de la base de datos ni del diseño del esquema

Característica 7. El contexto de los datos añade significado sobre su uso en aplicaciones biológicas. o del esquema.

Característica 8. La definición y representación de consultas complejas es extremadamente importante para los biólogos.

Característica 9. Los usuarios de la información biológica necesitan acceder con frecuencia a los valores "antiguos" de los datos, particularmente cuando quieren verificar los resultados anteriores.

El proyecto del genoma humano y las bases de datos biológicas existentes

El término genoma está definido como la información genética total que puede obtenerse acerca de una entidad. El genoma humano, por ejemplo, suele hacer referencia al conjunto completo de genes necesarios para crear un ser humano (más de 25.000 diseminados por más de 23 pares de cromosomas y una cantidad estimada de 3 a 4 mil millones de nucleótidos).

Algunas de las bases de datos y sistemas existentes que soportan o se han desarrollado a partir del HGP.

GenBank. En la actualidad, la mejor base de datos sobre la secuencia del ADN es GenBank, mantenida por el NCBI (Centro nacional de información biotecnológica, National Center for Biotechnology Information) de la NLM (Librería nacional de medicina, National Library of Medicine).

GDB (Base de datos del genoma, Genome DataBase). Creada en 1989, la GDB es un catálogo de datos sobre el mapeo de los genes humanos, un proceso que asocia una porción de información con una localización particular en el genoma humano.

OMIM (herencia mendeliana en el hombre). La OMIM es un compendio electrónico de información de las bases genéticas de las enfermedades humanas.

Page 29: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

EcoCyc (Enciclopedia de los genes y el metabolismo de la Escherichia coli,

Encyclopedia of Escherichia coli Genes and Metabolism) es un reciente

experimento que combina información acerca del genoma y el metabolismo de la

E. coli K-12.

Page 30: Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)

Durante los últimos diez años, el interés por las aplicaciones de bases de datos que tratan la

biología y la medicina ha aumentado sensiblemente. GenBank, GDB y OMIM se han creado

como almacenes centrales para ciertos tipos de datos biológicos, pero, aunque

extremadamente útiles, aún no cubren el espectro completo de los datos del proyecto del

genoma humano. Sin embargo, en todo el mundo se están haciendo importantes esfuerzos

destinados al diseño de nuevas herramientas y técnicas que aliviarán del problema de la

administración de los datos a los biólogos y los investigadores médicos.

Ontología del gen. El Consorcio GO (Ontología del gen, Gene Ontology) fue creado en 1998

como una colaboración entre los tres modelos de bases de datos de organismos: la FlyBase, la

MGI (Informática del genoma del ratón, Mouse Genome Informatics) y la SGD (Base de datos

del genoma del Saccharomyces, Saccharomyces or yeast Genome Database). Su objetivo es

producir un vocabulario estructurado, definido de forma precisa, común y controlado para

describir los roles de los genes en cualquier organismo. Con la terminación de la secuencia del

genoma de muchas especies, se ha observado que una gran fracción de los genes de los

distintos organismos muestran similitudes en sus papeles biológicos, lo que ha llevado a los

biólogos a afirmar que es muy probable que exista un universo limitado de genes y proteínas

que se conservan en la mayoría, o en todas, las células vivas. En el otro extremo, los datos

sobre el genoma están creciendo exponencialmente y no existe un método unifonne de

interpretar y conceptuar los elementos biológicos compartidos. La GO hace posible la anotación

de los productos de genes usando un vocabulario común basado en sus atributos biológicos

compartidos y en la interoperabilidad entre las bases de datos genómicas.

Gene Expression Omnibus (GEO). Es un almacén público que almacena datos de

expresiones de genes de alto rendimiento enviados por la comunidad científica. Está mantenida

por el NCBI (Centro nacional para la información biotecnológica, National Center for

Biotechnology Information). GEO archiva datos de experimentos basados en microarrays que

miden los niveles relativos de mARN, ADN genómico y moléculas de proteínas. También

contiene datos de tecnologías que no están basadas en los arrays, como SAGE (Análisis en

serie de la expresión génica, Serial Analysis of Gene Express ion ) y la tecnología proteómica

de la espectrometría de masas. En enero de 2006 podían estudiarse más de 69.000 ejemplos

de los aproximadamente mil millones de medidas de expresiones de genes individuales, de más

de 100 organismos.