Las multiples caras de la bioinformatica
-
Upload
alberto-labarga -
Category
Technology
-
view
1.991 -
download
2
description
Transcript of Las multiples caras de la bioinformatica
las multiples caras de la bioinformá[email protected]
La bioinformática consiste en la creación y desarrollo de algoritmos, bases de datos, técnicas informáticas y estadísticas, y las bases teóricas para resolver problemas formales y prácticos en torno a la gestión y análisis de información biológica.
La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.
El ADN es la molécula portadora de esta información. El ADN es la molécula portadora de esta información.
Para entender la vida debemos identificar estas moléculas y descifrar el códigoPara entender la vida debemos identificar estas moléculas y descifrar el código
“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”
“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”
“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.
Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.
Este resultado le valió su primer Premio Nobel de química en 1958Este resultado le valió su primer Premio Nobel de química en 1958
Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.
Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.
El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.
El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.
El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas. El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas.
En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras
En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras
myoglobin hemoglobin
papain ribonuclease
lactate dehydrogenasecarboxypeptidase A
Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".
El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977
5,386 bases
11 genes
In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.
In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.
Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.". J Mol Biol. 147 (1): 195-7.Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.". J Mol Biol. 147 (1): 195-7.
S.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citationsS.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citations
J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680
J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680
En 1995 se crea el European Bioinformatics instituteEn 1995 se crea el European Bioinformatics institute
http://www.ensembl.org
23
http://www.uniprot.org
herramientas web
http://www.ebi.ac.uk/Tools/
SOAP: Simple Object Access Protocol
fetchData(uniprot,wap_rat,default,xml)
servicios web
http://www.ebi.ac.uk/Tools/websevices
http://taverna.sourceforge.net/
http://www.myexperiment.org/users/471
http://www.ebi.ac.uk/dasty/
15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano
3,000,830,137 bases
<2%
25,000 genes
Bioinformatics: Gone in 2012
http://conferences.oreillynet.com/cs/bio2003/view/e_sess/3452
98% ADN basura
¿basura?
ENCyclopedia Of DNA Elements
Fire A, Xu S, Montgomery M, Kostas S, Driver S, Mello C (1998). "Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans". Nature 391 (6669): 806–11. doi:10.1038/35888. PMID 9486653
Hamilton A, Baulcombe D (1999). "A species of small antisense RNA in posttranscriptional gene silencing in plants". Science 286 (5441): 950–2. PMID 10542148
Dr Alan Wolffe (1999)
• Epigenetics is heritable changes in gene expression that occur without a change in DNA sequence
• Such changes cannot be attributed to changes in DNA sequence (mutations)
• They are as Irreversible as mutations (or difficult to reverse)
99,99% idénticos
VARIACIÓN EN LA SECUENCIA HUMANA DE DNA
Tasa de mutación = 10-8 /sitio/generación
Nº generaciones ancestro común-humano actual: 104-105
10.000.000 SNPs
$10-million award for the first privately funded team
that can sequence 100 human genomes in 10 days
for less than 10.000$
Applied Biosystems ABI 3730XL
Illumina / Solexa Genetic Analyzer
Applied BiosystemsSOLiD
Roche / 454 Genome Sequencer
1 Mb/day 100 Mb/run 3000 Mb/run
Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008) Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008)
Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)
Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)
Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)
2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk
2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk
Comparative genomics
Comparative genomics
Sequence (DNA/RNA) & phylogeny
Sequence (DNA/RNA) & phylogeny
Regulation of gene expression; transcription
factors & micro RNAs
Regulation of gene expression; transcription
factors & micro RNAs
Protein sequence analysis &evolution
Protein sequence analysis &evolution
Protein families, motifs and domains
Protein families, motifs and domains
Protein structure & function: computational crystallography
Protein structure & function: computational crystallography
Protein interactions & complexes: modelling and predictionProtein interactions & complexes: modelling and prediction
Chemical biologyChemical biology
Pathway analysisPathway analysis
Systems modelling
Systems modelling
Image analysisImage analysis
Data integration & literature miningData integration & literature mining
AKJLSKDUCMMSLSIIEMMCSKLSKCSDCMSKLCCSDKCLSMCLKMCCLSKDCLSMCLSKCSCLSCLSMCLKSCDMCLMKMLWLKWLCMSKMCLSMCLSMCLSKCDJFIOIWELKMLXLWLWKMLWKCLWMCLWMCLWLWCLWKJCLWKCLKDWJCLWKDJCLK
http://www.ebi.ac.uk/intact
http://www.ebi.ac.uk/biomodels/
http://www.cytoscape.org
Bioinformatics: alive and kicking.
biologists are all bioinformaticians
now.
http://genomebiology.com/2008/9/12/114
una empresa de tecnología...
Análisis de datos, señales, imágenes
Análisis de datos, señales, imágenes
Modelado de sistemas, simulación
Modelado de sistemas, simulación
Bases de datos, data mining, IA
Bases de datos, data mining, IA
Tecnología, comunicación, computación
Tecnología, comunicación, computación
con soluciones para el sector biomédico
gestión de datos
análisis estadístico
anotación análisis de redes
selección
30.000 genes
1500 genes
150 genes
50 elementos
10 targets
queremos ser pieza fundamental
integrando procesos de I+D+i y tecnología en un mecanismo único que permita gestionar todo el proceso y donde la tecnología sea el eslabón más fuerte de la cadena
datosgestiónanálisis
visualización
data management
https://carmaweb.genome.tugraz.at/
http://base.thep.lu.se/
http://www.agml.org/
http://www.openmicroscopy.org
CONTENT: Minimal Information to be reported -> MIBBI (http://www.mibbi.org)
SEMANTIC: Terminology Used, Ontologies -> OBI (http://obi-ontology.org)
SYNTAX: Data Model, Data Exchange ->FUGE (http://fuge.sourceforge.net)
data analysis
Biological question
Testing
Biological verification and interpretation
experiment
Estimation
Experimental design
Image analysis
Normalization
Clustering Prediction
Expression quantification Pre-processing
Analysis
Bioconductor for Expression Analysis
• Quickly becoming the accepted approach
• Open source
• Flexible
• (fairly) simple to use - intuitive
• Wide applications – many packages
http://www.bioconductor.org
Trans-Proteomic Pipeline (TPP) is a collection of integrated tools for MS/MS proteomics
http://tools.proteomecenter.orghttp://proteowizard.sourceforge.nethttp://www.thegpm.org/TANDEM
BIG data
gestiónanálisis
visualización
literatura
enriquecimiento semántico
extracción de información
Antileukoproteinase, Secretory leukocyte protease inhibitor, P03973
uniprot: http://www.uniprot.org/uniprot/P03973genecards: http://www.genecards.org/cgi-bin/carddisp.pl?id=P03973dasty: http://www.ebi.ac.uk/dasty/client/ebi.php?q=P03973
>sp|P03973|SLPI_HUMAN Antileukoproteinase OS=Homo sapiens GN=SLPI MKSSGLFPFLVLLALGTLAPWAVEGSGKSFKAGVCPPKKSAQCLRYKKPECQSDWQCPGK KRCCPDTCGIKCLDPVDTPNPTRRKPGKCPVTYGQCLMLNPPNFCEMDGQCKRDLKCCMG MCGKSCVSPVKA
retos de la biología en los próximos 50 años
• Listado de todos los componentes moleculares que forman un organismo:– Genes, proteinas, y otros elementos funcionales
• Comprender la funcion de cada componente• Comprender como interaccionan • Estudiar como la función ha evolucionado• Encontrar defectos geneticos que causan
enfermedades• Diseñar medicamentos y terapias de manera
racional• Secuenciar el genoma de cada individuo y usarlo en
una medicina personalizada