UNIVERSIDAD COMPLUTENSE DE MADRID - eprints.ucm.es · Fdo. Prof. Dra. Da. María Molina Martín V....

UNIVERSIDAD COMPLUTENSE DE MADRID

FACULTAD DE FARMACIA Departamento de Microbiologa II

TESIS DOCTORAL

Desarrollo de herramientas bioinformticas para estudios de

protemica a gran escala de Candida albicans

MEMORIA PARA OPTAR AL GRADO DE DOCTOR

PRESENTADA POR

Vital Vials Fernndez

Directora

Concha Gil Garca

Madrid, 2016

Vital Vials Fernndez, 2016

Desarrollo de herramientas bioinformticaspara estudios de protemica a gran escala

de Candida albicans

TESIS DOCTORAL

Vital Vials Fernndez

Departamento de Microbiologa IIFacultad de Farmacia

Universidad Complutense de Madrid

2015

Desarrollo de herramientas bioinformticaspara estudios de protemica a gran escala

de Candida albicans

Memoria que presenta para optar al ttulo de DoctorVital Vials Fernndez

Dirigida por la DoctoraConcha Gil Garca

Departamento de Microbiologa IIFacultad de Farmacia

Universidad Complutense de Madrid

2015

Da MARA MOLINA MARTN, DIRECTORA DEL DEPARTAMENTO DE MI-

CROBIOLOGA II DE LA FACULTAD DE FARMACIA DE LA UNIVERSIDAD COM-

PLUTENSE DE MADRID,

CERTIFICA:

Que Don VITAL VIALS FERNNDEZ ha realizado en el Departamento de Mi-

crobiologa II de la Facultad de Farmacia de la Universidad Complutense de Madrid

bajo la direccin de la Doctora Concha Gil Garca, el trabajo que presenta para

optar al grado de doctor:

DESARROLLO DE HERRAMIENTAS BIOINFORMTICAS PARA ESTUDIOS

DE PROTEMICA A GRAN ESCALA DE Candida albicans

Y para que as conste, firmo la presente certificacin en Madrid, 2015

Fdo. Prof. Dra. Da. Mara Molina Martn

V

A mis padres

Agradecimientos

En este espacio toca dar las gracias a toda la gente que ha contribuido directa o

indirectamente, incluso inconscientemente, a que yo finalmente, han pasado unos

cuantos aos ya, pueda haber escrito esta tesis. Estos agradecimientos son una

especie da carta abierta para que la lea quien quiera y que cada cual que se sienta

aludido o aludida en su turno. Tambin habr quin est aqu mencionado pero no

lea esto. Aqu queda escrito para esos casos.

En primer lugar, Ana, gracias por compartir tu vida conmigo, y tu manera de

verla, tan optimista y alegre, sin t no habra podido. T sabes preocuparte de las

cosas importantes y no de detalles como la portada o de si llevo o no traje.

Alberto Pascual, gracias por animarme y empujarme en mis primeros pasos en

la bioinformtica en mi primera etapa en el CNB, gracias a t encontr mi sitio en

Farmacia donde he hecho todo este trabajo.

Concha, por supuesto, que gran jefa!, exigente pero comprensiva, gracias a

t he podido aprender un montn de cosas, muchas de Protemica, pero tambin

de la vida en general. A Luca y Gloria, gracias tambin. Tambin podrais haber

sido mis directoras. Me habis aportado muchas ideas de genuinas cientficas. Os

respeto y admiro.

Juan Pablo Albar, a su memoria tambin dedico una parte de esta tesis. l me

permiti una segunda etapa en el CNB donde aprend y disfrut y conoc mucha

buena gente.

Mis compis de la Unidad 1. Por aqu ha desfilado un montn de gente. Todos

me habis ayudado en cosas de trabajo, pero tambin, y esto es lo ms importante,

a hacer que todo el tiempo que he pasado aqu (que no es poco) sea mucho ms

agradable. Jose, Aida, Virginia, Claudia, Elvira, Ahinara, Catarina, Perce. Gracias a

todos, somos una pequea familia.

Por la unidad de protemica tambin ha pasado mucha gente, pero quiero agra-

decer a Mara Luisa, Lola y Felipe por la ayuda que me han prestado en innumera-

bles ocasiones.

Al resto de compaeros y profes/jefes del Depar, gracias tambin por contribuir a

crear un gran ambiente de trabajo. Sinceramente no creo que sea fcil encontrar un

ambiente tan bueno en otros sitios. No s donde continuar mi trayectoria laboral,

pero nunca olvidar estos aos aqu.

IX

En 2011 pas unos meses en el ISB, Seattle, de donde guardo un gran recuerdo

y quiero aprovechar para mostrar mi reconocimiento por lo bien que me trataron y lo

mucho que he aprendido gracias a esto desde entonces. Rob, Eric, Luis, Zhi, Ulrike,

thank you all.

Tambin he pasado por otros sitios. En un periodo entre UCM y CNB estn

Rubn Nogales y Dani Tabas, maestros jedis de la informtica, me habis ayudado

mucho en partes de esta tesis y os lo agradezco.

Quiero agradecer tambin a los amigos de Madrid con los que he salido tan-

tas veces por ah. Carmalio, Jacobo, Fernando, Arancha, Roco, Adolfo, Roberto,

Fermn, David, Xavi. Long Live QGT!

A los amigos de Badajoz porque cada vez que voy siento como si nunca me

hubiera marchado, gracias tambin.

Tambin me siento en deuda para con la comunidad informtica que trabaja

y ayuda desinteresadamente. Esto es lo bonito de la informtica. Linux, Ubuntu,

StackOverflow, LaTex, TeXis, github, y otros muchos proyectos y software que he

usado. Gracias amigos frikis desconocidos.

Y finalmente a mi familia, a mis hermanos y mis padres, a quienes dedico esta

tesis por su amor y su apoyo incondicional.

X

Resumen

Introduccin

El concepto de Protemica, acuado en analoga al de Genmica, fue usado por

primera vez por Marc Wilkins a mediados de los aos 90 para describir al conjunto

total de protenas que se expresan por los genes de una clula, tejido u organismo.

Anteriormente, a finales de los 80, el desarrollo de las tcnicas de ionizacin suave,

como la Ionizacin por Electrospray, ESI (Electrospray Ionization) o la Desorcin

Suave por Lser, SLD (Soft Laser Desorption), permiti ionizar grandes biomol-

culas como los pptidos y protenas mantenindolas relativamente intactas. Esto

sent las bases de la espectrometra de masas aplicada a la protemica.

En la protemica shotgun (el trmino ingls est muy asentado), el primer pa-

so del experimento generalmente consiste en la digestin de las protenas de la

muestra en pptidos por accin de una enzima proteoltica como la tripsina. Esto

incrementa notablmente el rendimiento en trminos de nmero de protenas que

pueden ser identificadas en un slo experimento comparado con los experimentos

basados en gel. Sin embargo, tiene el coste asociado de provocar una gran com-

plejidad de la mezcla de pptidos y el problema aadido de la inferencia de las

protenas originarias.

Los pptidos son separados por cromatografa lquida e ionizados para entrar

a continuacin en el espectrmetro de masas donde son separados en funcin de

la proporcin entre su masa y su carga (m/z) y los valores obtenidos son registra-

dos en un espectro MS1. En la espectrometra de masas en tndem (MS/MS), los

pptidos con mayor intensidad son seleccionados para ser fragmentados de modo

que se generan espectros MS/MS, colecciones de valores m/z y de intensidad para

cada precursor y sus fragmentos.

Una vez adquiridos los espectros empricos comienza el anlisis computacional.

El mtodo de identificacin de pptidos ms efectivo se basa en buscar o enfren-

tar los espectros adquiridos contra una base de datos de secuencias de protenas.

Esto es lo que hacen los llamados motores de bsqueda. En esencia, a cada par

espectro-pptido (PSM), se le otorga una puntuacin que mide el grado de similitud

entre el espectro emprico adquirido y espectros tericos generados (correspon-

dientes a secuencias conocidas).

XI

RESUMEN

Para evaluar la fiabilidad de la identificacin de los pptidos, se pueden propor-

cionar parmetros estadsticos como los p-valores y e-valores para cada PSM. Pero

en el contexto de un experimento en el que se generan miles de espectros MS/MS,

se pueden aplicar procedimientos estadsticos adicionales.

La estimacin de la Tasa de Falsos Descubrimientos, FDR (False Discovery

Rate) es un mtodo sencillo pero efectivo. Comparando los espectros adquiridos

con espectros tericos derivados de secuencias generadas artificialmente, llama-

das seuelos, se puede construir una poblacin errnea de referencia. La tasa FDR

se calcula asumiendo que esa poblacin es equivalente a la de asignaciones PSMs

a secuencias reales pero errneas.

Otros mtodos de post-procesamiento para evaluar la calidad de las asignacio-

nes PSM son los modelos mixtos de probabilidad, implementados en herramientas

como PeptideProphet. En primer lugar se crea una puntuacin discriminante, in-

dependiente del motor de bsqueda, y se genera la distribucin de los mejores

pptidos candidatos (aquellos con mejor puntuacin) para todos los espectros del

experimento. El modelo mixto de probabilidad asume que esta distribucin es una

mezcla de la poblacin de PSMs correcta y la poblacin de PSMs incorrecta. En-

tonces, usando un algoritmo de Esperanza-Maximizacin, se obtiene y se ajusta la

curva que define ambas poblaciones. Finalmente, usando probabilidad bayesiana,

se obtiene la probabilidad de ser correcto para cada PSM.

En cuanto al problema de la inferencia de las protenas hay dos aspectos fun-

damentales. Por una parte el agrupamiento no-aleatorio de pptidos en protenas

provoca que el error de asignaciones incorrectas se propague afectando a las ta-

sas FDR. Pero adems, tambin contribuye al problema el hecho de que existan

secuencias de pptidos comunes, conservados, en diferentes protenas. Las distin-

tas herramientas informticas tratan estos asuntos con diferentes aproximaciones.

ProteinProphet, usado para una gran parte de los resultados de esta tesis, recalcula

las probabilidades de cada PSM premiando aquellos que corresponden a pptidos

que tienen hermanos (pptidos identificados pertenecientes a una misma protena)

y viceversa. Adems se hace una ponderacin usando un factor de correccin para

tener en cuenta si el pptido es nico o presente en varias protenas. Finalmente se

obtiene una lista mnima de las protenas que pueden explicar todos los pptidos

identificados y un valor correspondiente de probabilidad para cada una.

Otro aspecto fundamental en la Protemica moderna es la diseminacin de

los resultados experimentales. Respositorios pblicos online como PRIDE (Protein

Identifications Database) o PeptideAtlas juegan un papel esencial en esto. A dife-

rencia de PRIDE, PeptideAtlas reprocesa todos los espectros mediante su conjunto

de herramientas informticas Trans Proteomics Pipeline para asegurar uniformidad

y calidad en los datos que almacena. Adems la Iniciativa de Estandarizacin en

Protemica, PSI (Proteomics Standards Initiative) ha desarrollado formatos estn-

dar para promocionar el intercambio y reanlisis de datos. Particularmente MzI-

dentML, el estndar para almacenar identificaciones de pptidos y protenas, es

XII

RESUMEN

usado como formato de entrada en Proteopathogen, una herramienta descrita en

esta tesis.

Objetivos

La presencia de resultados de experimentos de Protemica en repositorios p-

blicos para el hongo patgeno oportunista C. albicans eran hasta hace poco muy

escasos, originados en instrumentos de baja resolucin y por tanto, en ocasiones,

no muy fiables. As, el desarrollo de bases de datos y adopcin de formatos estn-

dar en Protemica juegan un papel esencial para analizar, comparar y presentar re-

sultados. Las herramientas informticas descritas en esta tesis contribuyen a esos

objetivos.

Resultados

La base de datos y herramienta web Proteopathogen es la primera aplicacin

online descrita que combinaba resultados de experimentos de Protemica con in-

formacin especfica relevante para el estudio de protenas de C. albicans como

trminos de la Ontologa Gnica, GO (Gene Ontology ) o las rutas de la Enciclo-

pedia de Genes y Genomas de Kyoto, KEGG (Kyoto Encyclopedia of Genes and

Genomes) en las que estan implicadas. El formato de identificaciones de pptidos

y protenas MzIdentML promovido por la iniciativa PSI an no haba sido creado

de modo que Proteopathogen recopilaba los resultados en formatos de texto plano

dependientes del programa utilizado para generar los resultados.

Tras una primera versin (Vials et al., 2009), la aplicacin ha sido totalmen-

te remodelada para adaptarse al formato estndar de identificaciones mzIdentML

(Vialas y Gil, 2015) como fuente de informacin independiente del procesamiento

experimental y computacional con el que los resultados son generados.

Proteopathogen es una til herramienta online que facilita la visualizacin y an-

lisis de los resultados de experimentos de Protemica tanto por los usuarios del

laboratorio como por parte de los revisores de las revistas donde los estudios son

publicados. Adems permite incorporar nuevos resultados con independencia del

procesamiento experimental y computacional que los ha generado.

Con el desarrollo del PeptideAtlas de C. albicans, por primera vez se incluy un

modelo de hongo patgeno en el proyecto global PeptideAtlas. En su primera ver-

sin (Vialas et al., 2013), este PeptideAtlas proporcion resultados de identificacin

para ms de 2500 protenas para un FDR de 1.2 %, lo que representa una cobertu-

ra del 41 % del proteoma predicho. Posteriormente, dos experimentos, consistentes

en un fraccionamiento subcelular exahustivo y en un fraccionamiento off-gel a nivel

de pptido procedente de distintas condiciones de crecimiento, fueron diseados

ad hoc para incrementar la cobertura del proteoma. stos, junto con resultados de

dos experimentos sobre el proteoma de la superficie y el proteoma secretado, fue-

ron reprocesados junto con los experimentos de la versin original, para obtener

XIII

RESUMEN

un nuevo PeptideAtlas. Este reprocesamiento, adems, incluye resultados de tres

motores de bsqueda diferentes y por primera vez en un proyecto a gran escala de

C. albicans, una base de datos con secuencias especficas de alelo.

El resultado (Vialas et al., 2015) es la caracterizacin ms completa del proteo-

ma de C. albicans existente hasta la fecha actual. Describe ms de 71000 pptidos

asignados a 4174 protenas, lo que representa el 66 % del proteoma predicho.

Adems, a travs de su interfaz web, el PeptideAtlas proporciona una herra-

mienta para ayudar en la seleccin de pptidos proteotpicos candidatos para ser

monitorizados, el primer paso, esencial, en el diseo de ensayos de protemica

dirigida.

Ambas herramientas descritas en esta tesis, Proteopathogen y PeptideAtlas,

ocupan nichos diferentes pero complementarios en el objetivo de ampliar y mejorar

el catlogo existente de pptidos y protenas detectadas en estudios de protemica

que utilizan el modelo de hongo patgeno C. albicans. PeptideAtlas proporciona un

flujo de anlisis y validacin estadstica adems de una base de datos e interfaz

web con la mayor cobertura disponible del proteoma de C. albicans. Y Proteopat-

hogen es una base de datos y herramienta web basada en el estndar mzIdentML ,

verstil y completamente independiente del post-procesamiento y anlisis estads-

tico utilizado.

Conclusiones

Se ha desarrollado una base de datos y aplicacin web denominada Proteo-

pathogen, una herramienta pblica online de gran utilidad para la visualizacin y

anlisis de resultados de protemica en estudios que utilizan C. albicans como

organismo modelo de hongos patgenos.

Con la adopcin del estndar mzIdentML como formato de origen para incor-

porar nuevos datos en Proteopathogen se asegura la estabilidad y futuro de este

proyecto ya que es posible obtener archivos con resultados de identificaciones en

este formato independientemente del procesamiento experimental y computacional.

Se ha creado un PeptideAtlas de C. albicans estableciendo por primera vez una

caracterizacin a gran escala del proteoma de un modelo de hongo patgeno en el

proyecto global PeptideAtlas.

El PeptideAtlas de C. albicans describe 71310 pptidos y 4174 protenas (pa-

ra un FDR de 0,10 % a nivel de PSM), supone la caracterizacin ms exahustiva

del proteoma de este organismo (66 %), proporciona informacin sobre los alelos

originales y es el recurso ms completo y fiable disponible pblicamente.

En el PeptideAtlas de C. albicans se describen 2860 protenas para las que sus

correspondientes ORFs se denominan uncharacterized por carecer de un producto

gnico conocido, lo que supone un 63 % de stos.

XIV

Summary

Introduction

The concept of Proteomics, a term coined in analogy to Genomics, was first

used by Marc Wilkins in the mid 90s to describe the total set of proteins being

expressed by the genes of a cell, tissue or organism. Earlier, in the late 80s, the

development of soft ionizations techniques, such as Electrospray Ionization (ESI)

and Soft Laser Desorption (SLD) enabled the ability to ionize large bio-molecules

such as peptides and proteins while keeping them relatively intact. This settled the

foundation upon which mass spectrometry was applied to what would later become

modern proteomics.

In shotgun proteomics, the first step of the experiment usually consists of a di-

gestion of the sample proteins into peptides by means of a proteolytic enzyme such

as trypsin. This greatly increases performance in terms of the number of proteins

that can be detected in a single LC-MS/MS run compared to gel-based approaches,

but comes at the cost of a great complexity at the peptide level and the protein

inference problem.

Peptides are then separated by liquid chromatography, then ionized and even-

tually enter the mass spectrometer where they are separated as a function of their

mass-to-charge (m/z ) ratio and then recorded in the MS1 spectrum. In tandem mass

spectrometry (MS/MS) peptides with higher intensities are selected to be fragmen-

ted so MS/MS spectra, a collection of m/z values and intensities of the precursor

and product ions, are produced.

Once the empirical spectra are acquired, the computational analysis starts. The

most efficient peptide identification method is based on searching the acquired

spectra against protein sequence databases. This is what search engines do. Ba-

sically, a score measuring the degree of similarity between the empirical spectrum

and a theoretically derived spectrum (corresponding to a known sequence) is given

to pairs of spectrum - peptide sequence named PSMs (Peptide to Spectrum Match)

To assess confidence in peptide identification, statistic measures such as p-

values and e-values are given to PSMs. But in the context of a large experiment

generating thousands of MS/MS spectra, further filtering or additional statistical pro-

cedures may be applied.

The estimation of the False Discovery Rate is a simple yet effective procedure.

XV

SUMMARY

By comparing the spectra to artificially generated sequences, called decoys, a refe-

rence populaton of incorrect matches is created and is assumed to be equivalent to

the populaton of incorrect matches to real sequences (false positives).

Other post-processing method to evaluate confidence in identifications of MS/MS

spectra is probability mixture modelling, implemented in tools such as PeptideProp-

het. It first creates a discriminant, search engine-independent score and then gene-

rates the distribution of all best matches to the total amount of MS/MS in the experi-

ment. This distribution is assumed to be a mixture of the correctly assigned and inco-

rrectly assigned PSMs. Then, using curve-fitting and the Expectation-Maximization

algorithm, the correct and incorrect distributions can be inferred. And finally, using

bayesian statistics a probability of being correct is computed for each PSM.

Then there is the protein inference problem which has two main aspects. On the

one hand there is the non-random grouping of peptides into proteins, which propa-

gates error affecting FDR levels. And on the other hand there is peptide degeneracy,

that is, conserved sequences in different proteins. Different software tools deal with

these issues in different approaches. ProteinProphet, used for a large parte of the

results in this thesis, recomputes PSM probabilities rewarding those corresponding

to sibling peptides, and giving weights depending on sequence uniqueness/dege-

neracy. In this way, a minimal list of proteins that explains all observed peptides is

provided along with the corresponding protein-level probability values.

Fundamental to modern proteomics is also data sharing and dissemination. Pu-

blic on-line repositories, like PRIDE and PeptideAtlas play a key role in this sen-

se. Unlike PRIDE, PeptideAtlas, reprocesses all MS/MS spectra through its specific

Trans Proteomic Pipeline to ensure data uniformity and quality. In addition, the Pro-

teomics Standard Initiative has developed standard data formats to promote sha-

ring and re-analysis of experimental data. In particular, MzIdentML, the standard for

peptide and protein identification, is used as input data format for Proteopathogen,

developed in this thesis.

Objectives

The presence of proteomic data related to the fungal opportunistic pathogen C.

albicans in online public repositories was until recently very sparse, sometimes origi-

nated from low resolution instruments and therefore seldom reliable. In this context,

the development of databases and the adoption of standard formats in proteomics

have an essential role in the analysis, sharing and dissemination of results. The

software tools presented here contribute to these objectives.

Results

The database and web tool Proteopathogen was, in its original version (Vials

et al., 2009), the first described software tool that combined proteomics experiments

results with specific information relevant to the study of C.albicans proteins such as

XVI

SUMMARY

GO (Gene Ontology) terms and KEGG (Kyoto Encyclopedia of Genes and Geno-

mes) pathways annotations, all available through a rich web interface. The Pro-

teomics Standard Initiative promoted format for peptide and protein identifications

MzIdentML had not been released yet, so Proteopathogen collected results in tab

separated text formats dependant on the software that was used to generate them.

Following the first version, the software was adapted to make use of mzIdentML,

as its source of data (Vialas y Gil, 2015) and the database was populated with

quality data from PeptideAtlas.

Proteopathogen has become a versatile online tool to allow visualization and

analysis of proteomics experiments results by the wet-lab users but also enabling

revision by reviewers of the journals of the field.

With the development of a C. albicans PeptideAtlas, for the first time a fungal

pathogen has been included in the global PeptideAtlas project. In its original build

(Vialas et al., 2013), the C. albicans PeptideAtlas provides identification results for

over 2500 proteins at 1.2 %FDR, which represent a coverage of 41 % of the pre-

dicted proteome. Then two experiments, consisting of an extensive subcellular frac-

tionation and an off-gel peptide-level fractionation from different growing conditions,

were specifically designed to increase proteome coverage. These, together with two

additional datasets on the surface, and the vesicles and secreted proteomes were

reprocessed along with the datasets in the previous build to generate a new version

of the PeptideAtlas. In addition, for the first time in a large-scale C.albicans project

a database with allele-specific sequences was used.

This reprocessing, combining results from three different search engines, effec-

tively means the most exhaustive C. albicans proteome characterization up to the

current date (Vialas et al., 2015). It describes over 71000 detected peptides assig-

ned to 4174 proteins, which represent 66 % of the predicted proteome.

Moreover, through its web interface, this PeptideAtlas enables a valuable resour-

ce to aid in the selection of candidate proteotypic peptides, the first, essential step

in targeted proteomics assays.

Both software tools described in this thesis, Proteopathogen and PeptideAtlas,

fit in different yet complementary niches in the objective of extending and improving

the existing catalogue of identified peptides and proteins using C. albicans as a

model for fungal pathogens. PeptideAtlas provides its own workflow for analysis and

statistical validation and is supported by a database and web interface providing the

most comprehensive coverage of the C. albicans proteome. And Proteopathogen,

a database and web application, based on the mzIdentML standard, is versatile

and totally independent of the post-processing and statistical validation used for

obtaining the identification results.

XVII

SUMMARY

Conclusions

The developed database and web application called Proteopathogen has been

proven to be a valuable, greatly useful tool to view and analyze proteomics experi-

ments results using C. albicans as a model for the study of fungal pathogens.

With the adoption of the mzIdentML standard as input data format for new ex-

periments in Proteopathogen, a solid foundation is established to ensure continuity

and easing the incoroporation of new results using this format which is indepen-

dent of the experimental and computational procedures that may have generated

the results

The created C. albicans PeptideAtlas has established for the first time a large-

scale characterization of the proteome for a model of fungal pathogen in the Pepti-

deAtlas global project.

This C. albicans PeptideAtlas describes 71310 peptides and 4174 proteins (for

a 0.10 % FDR at PSM level), means the most exhaustive proteome characteriza-

tion for this organism (66 %), provides information about the original alleles and it

currently is the most complete and reliable resource available.

Furthermore, the C. albicans PeptideAtlas describes 2860 proteins for which

their corresponding ORFs are termed uncharacterized because they lack a known

protein product, that is 63 % of them.

XVIII

ndice

Agradecimientos IX

Resumen XI

Summary XV

I INTRODUCCIN 1

1. Introduccin 3

1.1. Protemica. Conceptos generales . . . . . . . . . . . . . . . . . . . . 3

1.2. Espectrometra de masas . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.1. Consideraciones sobre unidades empleadas en espectrome-

tra de masas . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.2. Espectrmetro de masas . . . . . . . . . . . . . . . . . . . . . 5

1.2.3. Espectrometra de masas en tndem. MS/MS . . . . . . . . . 10

1.3. Digestin de protenas en pptidos . . . . . . . . . . . . . . . . . . . 13

1.4. Protemica en gel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4.1. Huella de masas peptdicas . . . . . . . . . . . . . . . . . . . 14

1.5. Protemica shotgun . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5.1. Separacin de pptidos y protenas sin gel . . . . . . . . . . . 15

1.6. Asignacin pptido-espectro . . . . . . . . . . . . . . . . . . . . . . . 17

1.6.1. Bsqueda en bases de datos de secuencias . . . . . . . . . . 18

1.6.2. Otras estrategias de asignacin pptido-espectro . . . . . . . 22

1.7. Evaluacin estadstica de resultados de identificaciones de pptidos

y protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.7.1. Conceptos estadsticos bsicos . . . . . . . . . . . . . . . . . 23

1.7.2. Puntuaciones basadas en distribuciones de espectro indivi-

dual y promedio . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.7.3. Bases de datos seuelo y Tasa de Falsos Descubrimientos

(FDR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.7.4. Modelos mixtos de probabilidad. Probabilidad posterior . . . . 30

1.8. Inferencia de protenas a partir de pptidos . . . . . . . . . . . . . . . 32

XIX

NDICE NDICE

1.9. Herramientas adicionales de post-procesamiento y validacin a nivel

de pptido y protena . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.10.Protemica dirigida. SRM . . . . . . . . . . . . . . . . . . . . . . . . 36

1.11.Repositorios pblicos de protemica online . . . . . . . . . . . . . . . 38

1.11.1. PRIDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.11.2. PeptideAtlas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.11.3. GPMDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.12.Formatos de archivos usados en espectrometra de masas y prote-

mica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.13.Candida albicans como organismo modelo . . . . . . . . . . . . . . . 42

1.13.1. Candida Genome Database, CGD. Base de datos del genoma

de Candida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

OBJETIVOS 45

Objetivos 47

II DESARROLLO DE UNA APLICACIN WEB PARA RECOGER, VISUALI-ZAR Y ANALIZAR RESULTADOS DE ESTUDIOS DE PROTEMICA DE Candida albicans

49

Proteopathogen, a protein database for studying Candida albicans - hostinteraction 51

Proteopathogen2: A database and web tool to store and display proteo-mics identification results in the mzIdentML standard 61

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Materials and methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Results and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

XX

NDICE NDICE

III CREACIN DE UN PEPTIDEATLAS DE Candida albicans 73

A Candida albicans PeptideAtlas 75

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78



Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

A comprehensive Candida albicans PeptideAtlas build enables deep pro-teome coverage 91

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94



Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

IV DISCUSIN 113

Discusin 115

Desarrollo de una aplicacin web para recoger, visualizar y analizar resul-

tados de estudios de protemica de C. albicans . . . . . . . . . . . . 116

Creacin de un PeptideAtlas de C. albicans . . . . . . . . . . . . . . . . . 119

V CONCLUSIONES 125

Conclusiones 127

Bibliografa 129

Lista de acrnimos 144

XXI

ndice de figuras

Introduccin 3

1.1. Aumento de complejidad desde el genoma hacia el proteoma . . . . 4

1.2. Esquema de un espectrmetro de masas . . . . . . . . . . . . . . . . 6

1.3. Ionizacin MALDI y ESI . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4. Analizadores de masas . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.5. Espectrometra de masas en tndem. MS/MS . . . . . . . . . . . . . 11

1.6. Nomenclatura de Roepstorff para los fragmentos en MS/MS . . . . . 12

1.7. Etapas en un experimento de protemica shotgun . . . . . . . . . . . 16

1.8. Interpretacin automtica de espectros MS/MS . . . . . . . . . . . . 18

1.9. Estrategia bsica de identificacin . . . . . . . . . . . . . . . . . . . . 21

1.10.Tabla de contingencia. Contraste de hiptesis . . . . . . . . . . . . . 24

1.11.Estimacin del e-valor . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.12.Distribuciones de espectro individual y promedio . . . . . . . . . . . . 27

1.13.Construccin de una base de datos seuelo . . . . . . . . . . . . . . 28

1.14.Modelo mixto de probabilidad. PeptideProphet . . . . . . . . . . . . . 31

1.15.Agrupamiento no aleatorio de pptidos en protenas . . . . . . . . . . 33

1.16.Adquisicin y reconstruccin de la seal en un experimento SRM. . . 37

1.17.Formatos de archivos en protemica . . . . . . . . . . . . . . . . . . 40

1.18.Equilibrio entre Candida albicans y clulas del sistema inmune . . . . 43


Figure 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

XXIII

NDICE DE FIGURAS NDICE DE FIGURAS


Figure 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Figure 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68


Figure 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

Figure 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

Figure 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85


Figure 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

Figure 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Figure 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Figure 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Figure 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Discusin 115

2.1. Pgina de inicio de Proteopathogen2 . . . . . . . . . . . . . . . . . . 118

2.2. Informacin bsica para Mp65p

y pptidos observados en PeptideAtlas . . . . . . . . . . . . . . . . . 121

XXIV

ndice de Tablas


Table 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55


Table 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65


Table 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79


Table 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

Table 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

XXV

INTRODUCCIN

Introduccin

1.1. Protemica. Conceptos generales

El concepto de proteoma fue acuado originalmente por Marc Wilkins en los

aos 90 en analoga al concepto de genoma (Wasinger et al., 1995). Si el genoma

es la dotacin gnica de una clula u organismo, el proteoma es entendido como

el conjunto total de protenas expresadas por los genes de una clula, tejido u or-

ganismo. Sin embargo, mientras que el genoma es el mismo en todas las clulas

del organismo, el proteoma es un concepto ms variable. Los genes se expresan

en funcin de las condiciones en que se encuentra la clula, segn el orgnulo,

el tejido, y estado del desarrollo entre otros factores. Adems existen niveles de

complejidad adicional en el curso de informacin desde el gen a la protena como

el procesamiento alternativo de intrones y las modificaciones post-traduccionales

PTM (Post-Translational Modification, Modificacin Post-Traduccional). Por eso el

trmino proteoma es ms flexible y puede ajustarse a definiciones mas especficas.

As, podemos hablar del proteoma (o fosfo-proteoma, por ejemplo) de un orgnulo

celular, como la mitocondria, en un tejido concreto, en unas condiciones ambienta-

les definidas por los nutrientes disponibles, posiblemente sometida a condiciones

de estrs, etc.

Protemica es, por tanto, el estudio del proteoma, independientemente del con-

junto o subconjunto de protenas objeto de estudio. Pero adems, el trmino pro-

temica se refiere a las tecnologas utilizadas para ello.

El establecimiento de la espectrometra de masas aplicada a molculas biolgi-

cas a finales de los aos 80 y el desarrollo de tcnicas de separacin de protenas

y pptidos como la electroforesis PAGE (Poliacrylamide Gel Electrophoresis, Elec-

troforesis en Gel de Poliacrilamida) y la cromatografa HPLC (High Performance

Liquid Chromatography, Cromatografa Lquida de Alta Eficacia) permitieron que la

protemica se consolidara y extendiera como disciplina cientfica.

La figura 1.1 ilustra como el grado de complejidad biolgica desde la unidad

de informacin, es decir, el gen, hasta la unidad funcional, la protena, aumenta

exponencialmente.

3

INTRODUCCIN

Figura 1.1: Aumento de complejidad desde el genoma hacia el proteoma

1.2. Espectrometra de masas

El desarrollo, a finales de los aos 70 del siglo pasado, de las tcnicas de ioni-

zacin suave como la desorcin tipo FD (Field Desorption, Desorcin por Campo

Elctrico), la desorcin PD (Plasma Desorption, Desorcin por Plasma) y la ioniza-

cin FAB (Fast Atom Bombardment, Bombardeo con tomos Rpidos) (Roepstorff

y Richter, 1992) permiti por primera vez que las grandes y lbiles molculas biol-

gicas como pptidos y protenas pudieran ser ionizadas y volatilizadas relativamen-

te intactas para ser a continuacin introducidas en los espectrmetros de masas.

Posteriormente, a finales de los 80, el desarrollo de la ionizacin ESI (Electrospray

Ionization, Ionizacin por Electrospray) (Fenn et al., 1989) y SLD (Soft Laser Desor-

ption, Desorcin Suave por Lser) (Tanaka et al., 1988), adems de valer el premio

Nobel a los qumicos John Fenn y Koichi Tanaka, permiti sentar definitivamente

las bases de la espectrometra de masas aplicada a la protemica.

Como ocurre en muchas otras ocasiones en la ciencia, de forma paralela e inde-

pendientemente haban surgido en distintas partes del mundo ideas muy similares.

As, el desarrollo de SLD que vali el Nobel a K. Tanaka, tuvo un precedente unos

aos antes. Franz Hillenkamp y Michael Karas en Frankfurt, Alemania (stos discu-

tiblemente no galardonados) haban ideado una tcnica similar que, en este caso,

denominaron MALDI (Matrix Assisted Laser Desorption Ionization, Ionizacin me-

diante Desorcin por Lser Asistida por Matriz) (Karas y Hillenkamp, 1988). Aunque

la ionizacin MALDI no fue aplicada a protenas hasta la publicacin del trabajo de

Tanaka, actualmente ste es el acrnimo que se ha impuesto para referirse a la tc-

nica y es, de hecho, una tcnica muy extendida en laboratorios de espectrometra

de masas.

4

1.2. Espectrometra de masas INTRODUCCIN

1.2.1. Consideraciones sobre unidades empleadas en espectrome-tra de masas

La unidad fundamental de masa usada en fsica y qumica, empleada en la

medida de masas atmicas y moleculares, es la llamada Unidad de Masa Atmica,

u, o uma tambin denominada Dalton, Da. La escala de unidades de masa atmica

es una escala relativa donde la referencia es el tomo de carbono. El valor de una

u o un Dalton se define como la doceava parte de la masa de un tomo neutro de12C, el istopo ms frecuente de carbono. As, la masa de un tomo de 12C es de 12

u. Y una u es aproximadamente equivalente a la masa de un tomo de hidrgeno

o la masa de un protn.

1Da = 1u = 1/12 (

12g 12C

mol 12C

)

1Da = 1u = 1/12 (

6,0221 1023atomos12Cmol 12C

)

1Da = 1u = 1,66054 1024g/atomo 12C = 1,66054 1027kg/atomo 12C

(1.1)

Sin embargo los analizadores de masas no miden la masa de los analitos ioni-

zados sino la relacin entre masa y carga m/z , donde m es la masa molecular del

analito y z un mltiplo entero del nmero de cargas del ion. La unidad empleada

para medir esta relacin es el Thomson, Th. Un thomson equivale a 1 Da / e, donde

e es la carga elemental. En general, para iones monocargados y solo en ese caso,

la masa en Da es equivalente a su valor en thomsons.

Adems, en espectrometra de masas es interesante medir la masa exacta de

los istopos de los elementos que componen las molculas. En este sentido es

importante diferenciar entre las masas mono-isotpica y masa promedio.

La masa promedio es equivalente a una media de las masas atmicas de todos

los tomos de los elementos que componen el ion ponderados por abundancia

isotpica. Mientras que la masa mono-isotpica es aquella en la que se considera

que todos los tomos de C se encuentran en su forma 12C.

1.2.2. Espectrmetro de masas

Un espectrmetro de masas es, en esencia, una balanza de precisin molecular

capaz de medir, hasta un determinado lmite de sensiblidad, la masa (en relacin a

la carga) de molculas (ionizadas). Consta bsicamente de cuatro partes o seccio-

nes:

1. Sistema de entrada. Generalmente los espectrmetros de masas se en-

cuentran acoplados con sistemas cromatogrficos de alta resolucin que

5

INTRODUCCIN

Analizador de Masas

Fuente de Ionizacin

sistema de vaco

Procesamientode la seal

Detector

Figura 1.2: Esquema de un espectrmetro de masas. En ocasiones el caso de ESI,el sistema de entrada y la fuente de ionizacin forman parte de un nico compo-nente. Todos los componentes se encuentran en el interior de un sistema de vaco

permiten que los analitos de una muestra inicialmente muy compleja sean

separados e introducidos gradualmente. Este acoplamiento requiere una in-

terfaz, una conexin fsica y funcional entre el sistema de cromatografa y el

espectrmetro, que consiste generalmente en una columna capilar de caudal

controlado. En ocasiones, como es en el caso de ESI, el sistema de entrada

y la fuente de iones forman parte de un nico componente.

2. Fuente de iones. Las macromolculas biolgicas, como protenas y ppti-

dos, no son fcilmente volatilizadas. El desarrollo de las tcnicas de ioniza-

cin suave permiti que pptidos y protenas ionizados y relativamente in-

tactos pudieran ser introducidos, en fase gaseosa, en un sistema de vaco en

los espectrmetros de masas para ser analizados. La ionizacin ESI y MALDI

son las ms comunes en protemica aunque existen tambin otros mtodos

un poco menos utilizados.

MALDI (Figura 1.3 a) consiste en embeber la muestra en una matriz

lquida, que posteriormente se seca, con alta capacidad de absorber

luz UV sobre la que inciden pulsos de luz lser UV. Al absorber la ener-

ga del lser las molculas que conforman la matriz son ionizadas por

adicin de protones que son luego transferidos al analito.

En ESI (Figura 1.3 b) el analito se encuentra en fase lquida en un sol-

vente orgnico voltil como metanol o acetonitrilo. Esta solucin es con-

ducida a travs de un capilar sometido a un campo elctrico de forma

que las micro-gotas en el pice del capilar, una vez que la carga supera

un lmite, forman un aerosol. Las micro-gotas del aerosol disminuyen

su tamao por evaporacin del solvente, reagrupndose en gotas ms

estables y pequeas en un proceso reiterativo, hasta el punto en que

las molculas de analito se repelen con la fuerza suficiente para supe-

6


Figura 1.3: Ionizacin MALDI y ESI

rar la tensin superficial y liberarse (explosin de Coulomb) quedando

en suspensin y siendo as introducidos en un sistema vaco hacia el

espectrmetro.

Otros tipos de ionizacin menos empleados en protemica son los conocidos

por los acrnimos FAB, FD y PD.

3. Analizador de masas. El analizador de masas es la parte del instrumento en

la que los iones se separan en base su relacin entre la masa y carga (m/z ).

Es el elemento que se usa generalmente para definir el tipo de instrumento.

Existen varios tipos, y adems pueden combinarse en los llamados espec-

trmetros hbridos. As, un analizador de tipo cuadrupolo puede encontrarse

acoplado con un analizador de tiempo de vuelo o una trampa inica para for-

mar un QTOF (Quadrupole-Time Of Flight, Cuadrupolo-Tiempo de Vuelo ) o

QTrap (Quadrupole-Ion Trap, Cuadrupolo-Trampa Inica ) respectivamente.

Algunos de los analizadores de masas ms empleados en protemica son

los siguientes:

Analizadores de tipo TOF (Time Of Flight, Tiempo de Vuelo). Estos

analizadores usan un campo elctrico para acelerar los iones de ana-

lito. La separacin se produce por la diferencia en el tiempo que stos

invierten en recorrer una distancia en el vaco en el interior del analiza-

dor, el llamado Tiempo de Vuelo. La aceleracin y por tanto el Tiempo

de Vuelo es una funcin de la relacin m/z de los iones que impactan

7

INTRODUCCIN

en el detector a diferentes tiempos. Los analizadores TOF separan todo

el paquete de iones ionizados en una escala dependiente del tiempo y

por tanto se usan generalmente en combinacin con ionizacin MALDI,

que introduce iones en el analizador en pulsos de lser en un rgimen

discontinuo controlado.

Cuadrupolos. Los analizadores de tipo cuadrupolo (Figura 1.4 a) reci-

ben su nombre porque constan de cuatro varillas metlicas de seccin

hiperblica en su cara interna enfrentadas en pares llamados polos con

cargas opuestas. Sobre estos pares, adems del potencial elctrico de

corriente continua, se aplica tambin una corriente alterna de radiofre-

cuencia. Esta conformacin permite crear un campo elctrico oscilante

controlado que desva selectivamente los iones que pasan a travs y de

esta forma solo los iones en un estrecho margen de valores m/z podrn

llegar a impactar en el detector mientras que el resto son desviados y

filtrados.

Las trampas inicas funcionan bajo el mismo principio fsico que los

cuadrupolos, pero la conformacin en forma de cmara de las trampas

inicas permite confinar y acumular los iones que luego son liberados

selectivamente.

Las trampa inica QIT (Quadrupole Ion Trap, Trampa Inica Cua-

drupolar), descrita por el Nobel Wolfgang Paul en 1960, (Figura 1.4 c)

consta de dos electrodos metlicos de seccin hiperblica enfrentados

y un electrodo toroidal que conforman una cmara donde se acumu-

lan los iones de analito. En el interior los iones orbitan en el vaco. El

ajuste de la radiofrecuencia permite filtrar selectivamente los iones, es-

tabilizando aquellos con determinados valores m/z y desestabilizando

el resto, que colisionan con el electrodo y no llegan al detector (Louris

et al., 1987).

Las trampas inicas LTQ (Linear Trap Quadrupole, Cuadrupolo de

confinamiento lineal) o LIT (Linear Ion Trap, Trampa Inica Lineal) con-

sisten en un sistema de cuadrupolo, que sita los iones en un eje radial,

y dos electrodos terminales, uno en cada extremo, que confina los io-

nes longitudinalmente. Con respecto a las trampas inicas tipo QIT, las

trampas inicas LTQ tienen una mayor capacidad de acumulacin de

iones y de barrido. Adems pueden funcionar como un cuadrupolo con-

vencional.

Orbitrap (Figura 1.4 b) es un tipo de trampa inica, relativamen-

te reciente, desarrollado a finales de los aos 90 del s.XX (Makarov,

2000). Consiste en un electrodo en un eje interno rodeado por un elec-

trodo externo cilndrico. Los iones son introducidos tangencialmente

desde la fuente de ionizacin y, al ajustar la diferencia de potencial, son

8


Figura 1.4: Algunos de los analizadores de masas ms comunes son los de tipocuadrupolo (a), Orbitrap (b) y trampa inica cuadrupolar (c)

atrapados en rbitas elpticas longitudinales, en las que la atraccin ha-

cia el eje interno es compensada por la fuerza centrfuga. La relacin

m/z se determina a partir de la frecuencia angular de la oscilacin de

los iones en torno al electrodo longitudinal interno.

Los analizadores de tipo FTICR (Fourier Transform Ion Cyclotron

Resonance, Resonancia Inica Ciclotrnica - Transformada de Fourier)

se basan en confinar los iones en una celda ICR donde un campo mag-

ntico homogneo somete los iones a seguir una trayectoria circular con

una frecuencia de rotacin caracterstica de cada relacin m/z y del va-

lor del campo. Al aplicar un campo elctrico de igual frecuencia a la

frecuencia de rotacin, la partcula es excitada para seguir una trayec-

toria ms larga aumentando el radio de giro provocando que los iones

alcancen las placas de deteccin. La seal formada por la mezcla de

las frecuencias de todos los iones es entonces deconvolucionada me-

diante la transfomada de Fourier que permite la deteccin simultnea

de todas las frecuencias.

4. Detector El detector es elemento final de un espectrmetro de masas. Re-

gistra la corriente producida por el haz de iones que incide sobre l con-

virtindola en una seal elctrica medible. Los detectores ms utilizados en

espectrometra de masas son los multiplicadores de electrones. Este tipo de

detector utiliza la energa cintica de los iones que inciden sobre una placa

sobre la que se provoca una segunda descarga de electrones que inciden

en otra placa y as sucesivamente de forma que se produce una reaccin en

9

INTRODUCCIN

cadena para conseguir la amplificacin de la seal.

La sensibilidad, resolucin, precisin y exactitud son parmetros importantes

en espectrometra de masas ya que determinan notablemente la cantidad y calidad

de informacin del espectro generado, lo que a su vez, es esencial para identificar

el pptido que origina el espectro.

La sensibilidad de un espectrmetro de masas es la capacidad para detectar

masas muy pequeas. Puede llegar a ser de hasta unas pocas partes por milln

(ppm) en el caso de instrumentos de alta precisin como el LTQ-Orbitrap, pero re-

quiere un ajuste ptimo de mltiples parmetros como la calibracin del instrumento

o la temperatura entre otros.

La resolucin es la capacidad para discernir seales que realmente correspon-

den a diferentes iones dentro de una ventana o margen de valores m/z . Esto es

esencial para evitar la co-fragmentacin, es decir, obtener fragmentos de iones pre-

cursores diferentes con valores m/z similares, o cuando se requiere conocer la

distribucin isotpica de un ion. La resolucin, R, se define como la diferencia entre

las masas de dos picos adyacentes que estn resueltos

R =M

M(1.2)

donde M es el valor entero ms prximo de masa del primer pico y M es el incre-

mento de m/z a una determinada altura del pico. Frecuentemente se usa un 50 %

de altura del pico, en ese caso el parmetro es el denominado FWHM (Full Width

at Half Mass, Ancho de Pico a Media Altura).

La exactitud de la medida de la masa molecular es la diferencia entre el va-

lor m/z obtenido para un ion y su valor real. Se expresa generalmente en partes

por milln (ppm) y representa el error del valor m/z obtenido con respecto al valor

verdadero.

La precisin es una medida de la dispersin de una serie de mediciones obteni-

das para un analito determinado (en condiciones experimentales equiparables) con

respecto a un valor promedio de referencia. El parmetro que se emplea general-

mente como medida de precisin es la desviacin estndar , equivalente a la raz

cuadrada de la varianza.

1.2.3. Espectrometra de masas en tndem. MS/MS

Los pptidos, separados en el espectrmetro de masas en base a su relacin

m/z , generan seales cuyas intensidades son registradas en el detector e interpre-

tadas como un espectro. El objetivo bsico en protemica consiste en la eleccin

del mejor pptido de una lista de posibles candidatos que ha generado el espectro,

y por extensin la inferencia de la protena originaria. Tras la adquisicin de los es-

pectros, el anlisis informtico consiste, en esencia, en estimar el grado de similitud

entre el espectro emprico obtenido y espectros tericos derivados de secuencias

en una base de datos de referencia.

10


Figura 1.5: En la espectrometra de masas en tndem se seleccionan pptidosprecursores, generalmente los de mayor intensidad en el espectro MS1, para serfragmentados y generar el espectro MS/MS o MS2

En ocasiones, cuando la protena original se encuentra relativamente aislada, el

espectro que generan los pptidos que se detectan en el instrumento es suficiente-

mente informativo y especfico de la protena original y sta puede ser identificada.

Este es el principio de la tcnica conocida como huella de masas peptdicas, des-

crita en la seccin 1.4.1. Sin embargo, esta tcnica requiere que la protena se

encuentre aislada y el rendimiento que ofrece es, por tanto, limitado.

En la espectrometra de masas MS/MS (Tandem Mass Spectrometry, Espectro-

metra de masas en tndem) o MS2, los pptidos, una vez ionizados y en el interior

del analizador, son sometidos a una fragmentacin adicional. (Figura 1.5). Los pp-

tidos se fragmentan, generando iones ms pequeos lo que hace que el patrn

de fragmentacin sea ms especfico de la secuencia original. Esto aumenta el

poder de resolucin del anlisis, ya que permite distinguir pptidos que, intactos,

tienen masas muy similares, pero cuyos patrones de fragmentacin MS/MS son di-

ferentes. Esto posibilita, adems, partir de muestras con mezclas de protenas ms

complejas incrementando as el rendimiento del experimento.

El proceso que conduce a la adquisicin de espectros conlleva varias etapas. En

primer lugar el instrumento escanea todos los pptidos ionizados introducidos en el

espectrmetro y registra los llamados espectros MS1, valores m/z y sus correspon-

dientes intensidades para cada ion. A continuacin, en funcin de la intensidad re-

gistrada en MS1, se seleccionan y aislan algunos de estos iones, precursores, para

ser fragmentados en pptidos ms pequeos, fragmentos, en el interior del anali-

zador. El espectro MS2 adquirido o espectro de fragmentacin, registra los valores

m/z e intensidades de los fragmentos de cada uno de los pptidos precursores

aislados y fragmentados. El patrn de fragmentacin codificado en los espectros

MS2 contiene la informacin necesaria para deducir la secuencia aminoacdica del

pptido que lo origina.

11

INTRODUCCIN

Figura 1.6: Nomenclatura de Roepstorff para los fragmentos en MS/MS

En algunos anlisis puede ser necesario realizar fragmentaciones adicionales

que permitan un poder de resolucin mayor an. Estos anlisis se conocen como

MSn, donde n es el nmero de fragmentaciones y etapas de anlisis de masas

consiguientes.

A este mtodo de adquisicin de espectros de fragmentacin, en el que los pp-

tidos precursores son seleccionados para ser fragmentados en base las intensida-

des en el espectro MS1 se le denomina tambin mediante el acrnimo DDA (Data

Dependent Acquisition, Adquisicin Dependiente de Datos )

Los fragmentos originados a partir del pptido, segn la nomenclatura de Roeps-

torff (Roepstorff y Fohlman, 1984), se clasifican, en funcin del punto donde se pro-

duce la ruptura, en las denominadas series x, y y z si la carga del ion permanece

en el extremo carboxilo-terminal y las series a, b y c si la carga permanece en el

extremo amino-terminal. Adems se aade un sub-ndice que indica el nmero de

residuos en el fragmento (Figura 1.6). Generalmente, los iones ms abundantes e

informativos son los b- e y-, generados por la fragmentacin en el enlace peptdico

entre aminocidos, el punto de menor energa de la estructura. En analizadores tipo

cuadrupolo o QTOF predominan los iones y-, mientras que en las trampas inicas

se generan igualmente b- e y- (Steen y Mann, 2004).

Tcnicas de fragmentacin

La fragmentacin CID (Collision Induced Dissociation, Disociacin Inducida por

Colisin) es uno de los mtodos de fragmentacin ms frecuentemente utilizados

en espectrometra de masas para protemica. Consiste en hacer colisionar a las

molculas de analito con tomos o molculas de gases nobles, qumicamente iner-

tes. Argn o Xenn son generalmente usados en triples cuadrupolos y Helio en

las trampas inicas (Burlingame et al., 1996). La colisin provoca que parte de la

energa cintica del ion sea transformada en energa vibracional lo que provoca

la ruptura del esqueleto peptdico. La fragmentacin tipo CID genera una elevada

proporcin de iones de las series b- e y-.

Otros tipos de fragmentacin son ETD (Electron Transfer Dissociation, Disocia-

cin por Transferencia de Electrones) (Syka et al., 2004) en la que los iones de

12

1.3. Digestin de protenas en pptidos INTRODUCCIN

analito con carga positiva interaccionan con aniones que les transfieren un elec-

trn produciendo una fragmentacin con presencia de iones c- y z-; la disociacin

ECD (Electron Capture Dissociation, Disociacin por Captura de Electrones) (Zuba-

rev et al., 1998), consistente la interaccin del analito con electrones suministrados

directamente; y, por ltimo, la disociacin HCD (Higher Energy Collision Dissocia-

tion, Disociacin por Colisin de Alta Energa) usada en analizadores tipo Orbitrap

(Olsen et al., 2007), y que al igual que CID genera iones b- e y-, si bien, debido

a la mayor energa de activacin, los iones b- sufren fragmentaciones adicionales

generando iones a- y otras especies de menor tamao.

1.3. Digestin de protenas en pptidos

Tras la obtencin de una muestra de protenas, ya sea una mezcla compleja o

una protena ms o menos aislada y purificada, el primer paso en un experimen-

to de protemica consiste en someter a las protenas a la accin de una enzima

proteoltica que corta en puntos especficos de la secuencia y que las digiere en un

conjunto de pptidos. Sin embargo, sabiendo que ciertos espectrmetros de masas

tienen la capacidad de medir masas de protenas intactas, podemos preguntarnos:

por qu hacer una digestin que aumenta el grado de complejidad de la mues-

tra y que supone el problema aadido de la inferencia de la protena originaria a

partir de sus pptidos constituyentes? o dicho de otra manera es necesario el pa-

so intermedio de digestin en pptidos para luego inferir las protenas originales?

La respuesta a estas preguntas, revisada en (Steen y Mann, 2004), tiene que

ver, sobre todo, con limitaciones tcnicas. El principal motivo es que la sensibilidad

de los espectrmetros es menor para protenas intactas que para pptidos. Pero

adems, las protenas intactas pueden ser difciles de manipular, algunas, como

las protenas de membrana son insolubles en condiciones en que otras s lo son.

Muchos detergentes comnmente usados interfieren en MS ya que son fcilmente

ionizables y se encuentran en gran cantidad en proporcin a las protenas (Hatt

et al., 1997).

La digestin consiste en la rotura de protenas en pptidos por accin de una

enzima proteoltica. Tradicionalmente se ha utilizado para esto tripsina, que rompe

la secuencia aminoacdica a continuacin, en el lado carboxilo-, de Arginina (R) o

Lisina (K) a menos que exista una Prolina (P) adyacente. Los pptidos generados

por accin de la tripsina, llamados pptidos trpticos, tienen un tamao adecuado,

dada la frecuencia media de R y K, para el anlisis por espectrometra de masas lo

que explica la popularidad de esta proteasa.

Tambin es posible la utilizacin de otras proteasas siempre que se conozca su

patrn de corte. Es de hecho una aproximacin inevitable para aquellos casos en

que la tripsina no sea til, por ejemplo, debido a una baja frecuencia de R y K que

no generen pptidos del tamao adecuado.

13

INTRODUCCIN

1.4. Protemica en gel

La separacin de protenas por electroforesis PAGE es una tcnica, o serie de

tcnicas con variantes, que consiste en separar protenas presentes en una mues-

tra inicial en base a propiedades fisico-qumicas diferenciadoras como su carga,

tamao y/o su punto isoelctrico. En funcin del nmero de estas propiedades que

se aprovechan para separar, en mayor o menor grado, las protenas de una muestra

se distinguen bsicamente dos tipos de PAGE:

En la electroforesis 1D-PAGE (Monodimensional PoliAcrylamide Gel Electrop-

horesis, Electroforesis en Gel de Poliacrilamida Monodimiensional), las protenas

se separan en funcin de su peso molecular, las ms pequeas avanzan ms en el

gel. En la electroforesis 2D-PAGE (Bidimensional PoliAcrylamide Gel Electrophore-

sis, Electroforesis en Gel de Poliacrilamida Bidimiensional), (Klose, 1975; OFarrell,

1975), las protenas se separan en una primera dimensin (sobre una tira con un

gradiente de pH inmovilizado) en funcin de su punto isoelctrico para posterior-

mente, aplicar la segunda dimensin, equivalente a 1DPAGE.

Otra clasificacin posible de las tcnicas PAGE puede establecerse en funcin

de si se usan condiciones desnaturalizantes o no. Entre las tcnicas que usan ge-

les desnaturalizantes probablemente la ms empleada sea la electroforesis SDS-

PAGE (Sodium Dodecyl Sulfate PoliAcrylamide Gel Electrophoresis, Electroforesis

en Gel de Poliacrilamida con Dodecilsulfato Sdico). Y entre las que usan condicio-

nes nativas o no desnaturalizantes, la llamada Blue Native, empleada para estudiar

protenas agrupadas en complejos.

La protemica en gel ha sido (y contina siendo) una tcnica muy empleada en

laboratorios de todo el mundo. Tiene algunas limitaciones, como el hecho de que

protenas de bajo peso molecular o muy hidrofbicas no son fcilmente observables

(Gygi et al., 2000), o una limitacin en el nmero de protenas identificables a partir

de un gel que dificilmente puede superar el millar (Klose y Kobalz, 1995).

Sin embargo, este tipo de estudios sigue teniendo un nicho en la protemica

actual (Rogowska-Wrzesinska et al., 2013). Una ventaja notable es que permite

la visualizacin, identificacin y cuantificacin de protenas intactas. La particular

capacidad de la protemica en gel para separar protenas con pequeos cambios

en sus puntos isoelctricos, pI, permite discernir entre isoformas de protenas, o

versiones de la misma protena con PTM, lo es difcil de conseguir con otro tipo de

aproximaciones.

1.4.1. Huella de masas peptdicas

La huella de masas peptdicas de una protena se refiere al hecho de que el pa-

trn de fragmentacin de una protena en los pptidos que la constituyen utilizando

una enzima proteoltica determinada, es muy especfico de la protena originaria

(siempre y cuando se conozca el patrn de corte de la enzima, como es el caso de

la tripsina) de forma que el espectro que generan puede ser utilizado para identifi-

14

1.5. Protemica shotgun INTRODUCCIN

carla. Sin embargo, a pesar de esta especificidad, la enorme variedad de protenas

implica una mayor an variedad de posibles pptidos generados a partir de ellas

que pueden tener masas muy similares. Por ese motivo, para obtener una huella

peptdica se requiere que la protena se encuentre previamente aislada, general-

mente a partir de una mancha o spot proteico de 2D-PAGE

La tcnica de la huella peptdica, PMF (Peptide Mass Fingerprint, Huella de Ma-

sas Peptdicas), desarrollada a principios de los aos 90 por varios grupos indepen-

dientemente (Pappin et al., 1993; Henzel et al., 1993; Mann et al., 1993) se lleva a

cabo generalmente por espectrometra de masas MALDI-TOF(TOF). Esto significa

que, una vez obtenidos los pptidos correspondientes a la protena del spot, stos

se sitan en una matriz MALDI, donde son ionizados e introducidos en un anali-

zador TOF. Una vez obtenido el espectro patrn de masas peptdicas, el proceso

de anlisis consiguiente es similar al que se hace en la protemica shotgun. Como

se describe en las secciones siguientes, la identificacin del pptido responsable

del espectro se realiza utilizando un motor de bsqueda, que compara los valores

de m/z del espectro obtenidos empricamente con los valores de m/z calculados a

partir de las secuencias de pptidos trpticos tericos.

1.5. Protemica shotgun

La protemica shotgun (el trmino ingls se encuentra muy establecido) es la

tcnica de eleccin para la mayora de estudios protemicos enfocados a obtener

un alto rendimiento. El nombre shotgun proviene de una analoga con las tcni-

cas clsicas de secuenciacin genmica donde el ADN es fragmentado en puntos

no focalizados, indiscriminadamente, en secuencias ms pequeas que posterior-

mente son ensambladas. En la protemica shotgun las protenas son fragmentadas

en pptidos a partir de los cuales se infiere finalmente la protena original. Implica

varios pasos descritos en las siguientes secciones.

1.5.1. Separacin de pptidos y protenas sin gel

A diferencia de la tcnica de la huella de masaas peptdicas donde cada pro-

tena se encuentra relativamente aislada, en la protemica de alto rendimiento o

shotgun, puesto que el objetivo es identificar el mximo nmero de protenas en

un solo experimento, se parte de una muestra ms compleja. Esto es importan-

te porque, sabiendo que a partir de cada protena se generan mltiples pptidos

(trpticos), el grado de complejidad de la muestra aumenta enormemente tras la

digestin. Por este motivo, para evitar que la mezcla de pptidos sea demasiado

compleja para la resolucin en el anlisis MS, previamente a la introduccin de los

pptidos en el espectrmetro, se realiza una cromatografa que permite separar los

pptidos para que sean ionizados y lleguen al analizador de masas gradualmente.

Opcionalmente esta separacin puede comenzar a nivel de protena por elec-

troforesis en un gel 1D-PAGE , o incluso a un nivel estructural superior, por ejemplo,

15

INTRODUCCIN

Figura 1.7: Etapas en un experimento de protemica shotgun. En primer lugar lamuestra de protenas es digerida en pptidos. A continuacin stos son separadosmediante algn tipo cromatografa, frecuentemente HPLC. A medida que eluyen,los pptidos separados, son introducidos en el espectrmetro de masas que generaun espectro de fragmentacin MS/MS. Por ltimo el motor de bsqueda comparalos espectros empricos con espectros tericos asignando una puntuacin.

por fraccionamientos subcelulares correspondientes a distintos orgnulos.

Cromatografa Lquida de Alto Rendimiento. HPLC

Pero el fraccionamiento ms importante se hace a nivel de pptido, tras la diges-

tin de las protenas, por HPLC. El funcionamiento bsico general en HPLC con-

siste en hacer pasar la muestra a travs de una fase estacionaria en el interior de

una columna mediante el bombeo a alta presin de una fase mvil. De esta forma

los componentes de la muestra se retrasan diferencialmente en funcin de sus in-

teracciones qumicas con la fase estacionaria a medida que atraviesan la columna.

La fase mvil suele ser una combinacin, en proporciones variables, de un com-

ponente acuoso al que se aade un cido (trifluoroactico o frmico) y un solvente

orgnico (comnmente acetonitrilo o metanol). Esta proporcin en la composicin

de la fase mvil puede ser constante (cromatografa isocrtica) o variable, en gra-

diente de elucin. En un gradiente tpico, al aumentar la proporcin del solvente

orgnico, los analitos de la muestra irn progresivamente teniendo mayor afinidad

por la fase mvil y se separan de la fase estacionaria. El tiempo de retencin o

tiempo de elucin es el tiempo que necesita un analito para atravesar la columna.

Siempre que las condiciones cromatogrficas permanezcan invariables el tiempo

de retencin de un analito es una caracterstica identificativa.

16

1.6. Asignacin pptido-espectro INTRODUCCIN

El tipo ms comn de cromatografa usada en experimentos de protemica es

la que se conoce como RP-HPLC (Reverse Phase High Performance Liquid Chro-

matography, Cromatografa Lquida de Alta Eficacia en Fase Reversa). En ella los

analitos de la muestra se separan en base a su carcter hidrofbico. La fase es-

tacionaria, apolar, est compuesta por unas micro-esferas de slice cubiertas de

cadenas alquilo con 18 tomos de C (C18). Un gradiente en que el solvente org-

nico aumente gradualmente y en proporcin inversa al componente acuoso, pro-

voca que los analitos ms polares eluyan primero integrados en la fraccin acuo-

sa cuando hay una mayor proporcin de sta, mientras que los ms hidrofbicos

son retenidos durante ms tiempo. Adems, la cromatografa, usando una termi-

nologa similar a la usada para la separacin de protenas en gel, tambin puede

ser multi-dimensional. La tecnologa denominada MudPIT (Multidimensional Protein

Identification Technology, Tecnologa Multidimensional de Identificacin de Prote-

nas) (Wolters et al., 2001) integra una primera dimensin de separacin usando

una columna SCX (Strong Cation Exchange, Intercambio Catinico Fuerte) y una

segunda dimensin consistente en una cromatografa en fase reversa.

A continuacin, una vez producida la separacin cromatogrfica, los pptidos

son ionizados e introducidos en el espectrmetro de masas. En ocasiones, como el

caso de la ionizacin ESI, el sistema de entrada y la fuente de iones forman parte

de un nico componente que se encuentra acoplado (on-line) al espectrmetro de

masas.

Tras la adquisicin experimental de los espectros, el paso siguiente en un expe-

rimento de protemica shotgun implica el anlisis computacional de esos espectros

cuyo objetivo final es la obtencin de una lista de protenas que presumiblemente

se encuentran en la muestra. Este anlisis computacional, a su vez, consta de va-

rios procesos secuenciales, principalmente la asignacin de secuencias peptdicas

a cada espectro (seccin 1.6), la inferencia de las protenas a partir de esos ppti-

dos (seccin 1.8) y una evaluacin estadstica que aporta medidas de fiablidad a la

identificacin (seccin 1.7).

1.6. Asignacin pptido-espectro

En un experimento tpico de protemica shotgun pueden generarse miles de

espectros por hora. La interpretacin manual, por lo tanto no es una opcin prc-

tica. Diversas aproximaciones computacionales y herramientas de software se han

desarrollado para facilitar esta tarea de asignacin de secuencias peptdicas a los

espectros MS/MS. A cada una de estas parejas pptido-espectro se les denomina

generalmente PSM (Peptide-Spectrum Match, Asignacin Pptido-Espectro).

Las estrategias utilizadas para la obtencin de una lista de PSM bsicamen-

te pueden clasificarse en tres tipos. La ms extendida es la bsqueda utilizando

bases de datos de secuencias, consistente en establecer una correlacin entre el

espectro MS/MS obtenido empricamente y espectros tericos predichos a partir

17

INTRODUCCIN

Figura 1.8: Interpretacin automtica de espectros MS/MS. En primer lugar se ela-bora una lista de pptidos candidatos que presumiblemente han generado el espec-tro. Para ello el espacio de bsqueda en la base de datos de secuencias se puedeacotar conociendo el tipo de enzima proteoltica utilizada o la tolerancia (diferenciaentre masa experimental y terica) permitida entre otros parmetros suministradosal motor de bsqueda. Conociendo adems una probabilidad estimada de que cadatipo de in se encuentre en un espectro MS/MS se puede crear un espectro tericopara cada uno de los pptidos candidatos de la lista elaborada. Y cada uno de losespectros tericos es comparado con el espectro emprico, se obtienen todos los io-nes coincidentes y se asigna una puntuacin. Finalmente, en base a la puntuacin,se obtiene una lista de los mejores pptidos candidatos para cada espectro.

de secuencias. Otra estrategia, usada en casos en que el genoma del organismo

objeto de estudio no est (o slo parcialmente) secuenciado, es la secuenciacin

de novo en la que la secuencia se infiere directamente del espectro sin ayuda de

una base de datos de referencia. El tercer tipo de aproximacin, la bsqueda basa-

da en bibliotecas de espectros, requiere una recopilacin, lo ms extensa posible,

de espectros MS/MS adquiridos previamente y ya asignados a pptidos, que son

comparados directamente con los espectros empricos adquiridos.

1.6.1. Bsqueda en bases de datos de secuencias

La bsqueda utilizando bases de datos de secuencias es el principal y ms

extendido mtodo de asignacin de una secuencia peptdica a un espectro MS/MS

(figura 1.8). Existen una gran variedad de herramientas computacionales llamadas

motores de bsqueda diseadas para realizar esta tarea.

18


Los motores de bsqueda son un tipo de programas informticos a los que

se les suministra como entrada datos correspondientes a una lista de espectros

MS/MS empricos y una serie de parmetros que tener en cuenta para restringir la

bsqueda. El programa compara estos espectros reales registrados con espectros

tericos que es posible obtener gracias a diversas fuentes de informacin disponi-

ble como el patrn de corte de la enzima proteoltica utilizada, los valores m/z de los

fragmentos que se produciran a partir de los pptidos, la frecuencia estimada de

cada tipo de fragmento y las secuencias de las protenas en una base de datos de

referencia. En el proceso, el espacio de bsqueda se acota mediante la seleccin

de una lista de pptidos posibles, (candidatos que cumplen unos criterios determi-

nados), que posiblemente han generado el espectro MS/MS y a continuacin se

ordenan utilizando una puntuacin funcin del grado de similitud entre el espectro

emprico y el terico.

Elaboracin de una lista de pptidos candidatos

Para reducir el espacio de bsqueda entre todos los posibles pptidos candida-

tos que explican el espectro MS/MS y as reducir el coste computacional, el motor

de bsqueda requiere, como estrategia heurstica, una serie de parmetros propor-

cionados por el usuario. stos, bsicamente, reflejan conocimiento previo sobre el

experimento y pueden ser entendidos como informacin auxiliar para facilitar la dis-

tincin entre identificaciones autnticas o reales e identificaciones falsas. Los ms

importantes de estos parmetros son la enzima utilizada y el rango de masas en el

que debe encontrarse el ion precursor.

La seleccin de la enzima proteoltica utilizada limita la digestin predicha

computacionalmente a aquellos pptidos que cumplan el patrn de corte co-

nocido, filtrando el resto de posibles pptidos. Con esto se reduce enorme-

mente el nmero de comparaciones que el motor de bsqueda debe realizar

y, por tanto, el tiempo empleado para ello. Sin embargo, al restringir el tipo

de enzima, se imposibilita la identificacin de pptidos con rupturas ines-

pecficas (por ejemplo el procesamiento post- traduccional que provoca la

liberacin del pptido seal o por proteasas contaminantes presentes en la

muestra).

El establecimiento de un rango o ventana de tolerancia de masas, tanto a

nivel de pptido precursor como a nivel de fragmentos, permite excluir aque-

llos pptidos y fragmentos que se encuentren fuera de dicho rango. Slo

los espectros tericos de aquellos pptidos que cumplen este requisito son

comparados con el espectro emprico y puntuados en base a su similitud.

La eleccin de esta tolerancia depende del tipo de espectrmetro utilizado,

as, para equipos de alta resolucin tipo Orbitrap o FTICR se puede ajustar a

valores inferiores a 1 Da.

19

INTRODUCCIN

Otros parmetros que se proporcionan al software y que afectan notablemente

a la creacin de la lista de candidatos y por tanto tambin al coste computacional

son, la seleccin de masa mono-isotpica o masa promedio (es decir, considerar

que todos los tomos de C se encuentran en su forma 12C o bien que exista una

proporcin variable de istopos 13C); el nmero de puntos de corte no efectuados

permitidos dentro de la secuencia del precursor; la existencia de modificaciones

post-traduccionales y otras modificaciones permitidas (variables o fijas) que ocurren

en el proceso experimental; y la seleccin del tipo de iones fragmento a buscar.

El establecimiento de estos valores tiene consecuencias muy notables en los re-

sultados de identificacin de pptidos y en consecuencia de protenas. Por ejemplo,

restingir a un rango de tolerancia muy pequeo el valor posible de masa del precur-

sor, aunque puede ser til para obtener espectros de gran calidad en instrumentos

muy sensibles, puede dejar fuera secuencias vlidas.

Una aproximacin sensata puede consistir en (disponiendo de recursos compu-

tacionales suficientes) realizar una bsqueda muy abierta y posteriormente refi-

narla. En ocasiones se puede hacer una bsqueda con una ventana de tolerancia

amplia para la masa del precursor y posteriormente emplear ese parmetro en el

post-procesamiento (PeptideProphet, seccin 1.7.4) de forma que se puede obte-

ner un mayor rendimiento (en trminos de identificaciones para una cierta tasa de

error) comparado con una bsqueda para el mismo conjunto de espectros con una

ventana ms restrictiva (Ding et al., 2008; Nesvizhskii, 2010).

Motores de bsqueda. Funciones de puntuacin

Los motores de bsqueda se encargan de asignar a cada espectro emprico ob-

tenido un pptido, el mejor candidato de una lista de los posibles pptidos que han

generado ese espectro, con una cierta medida de puntuacin funcin del grado de

similitud entre espectro emprico y terico. La estrategia general consiste en rea-

lizar una digestin terica de las secuencias de protenas de referencia, teniendo

en cuenta los parmetros especificados. As, para cada espectro observado, el mo-

tor de bsqueda recorre las secuencias en una base de datos (un archivo FASTA)

seleccionando aquellos pptidos con valores m/z similares al del ion precursor en

el espectro emprico y que se encuentran dentro del rango de tolerancia permitido

obteniendo un espectro terico para cada uno. A continuacin se establece el grado

de similitud de cada espectro adquirido con los espectros tericos de cada uno de

los pptidos candidatos, es decir, se evala la calidad de cada PSM.

Los motores de bsqueda realizan esta comparacin de diferentes maneras,

usando distintas funciones de puntuacin. Algunos incluso calculan ms de un tipo

de puntuacin. Existen una gran variedad de estrategias de puntuacin descritas

profusamente en la bibliografa, basadas en funciones de correlacin entre espec-

tros, basadas en contar el nmero de fragmentos compartidos, en alineamiento de

espectros o en el uso de reglas derivadas ms complejas.

SEQUEST (Eng et al., 1994) fue la primera herramienta descrita para correla-

20


EIPPFLQDLDIAK

LTILDQPFILK

AILFMFDLTR

BASE D

E D

ATO

S D

E S

ECU

EN

CIA

S

comparar

Espectro adquirido

Espectros tericos

MS/MSPara cada espectro emprico:

{c P : |Mterica - Memprica| < Tol }c:pptido candidato P: pptidos (trpticos) en BD

>orf19.6109 TUP1 CGDID:CAL0005939 Verified ORFMYPQRTQHQQR...K EIPPFLQDLDIAK...R WKWTKK*

>DECOY_orf19.802 Decoy sequenceMSSKSPEPSYVR ...R LTILDQPFILK...KLGYS*

>orf19.3001 TEM1 CGDID:CAL0001322 Verified ORFMEEDNQQDQNNQVALK...K AILFMFDLTR...K LNLDEIVGEPILIYK*

>

>

>

>

Tol: tolerancia

Figura 1.9: Estrategia bsica de identificacin. Para el conjunto seleccionado depptidos candidatos se establece una correlacin entre el espectro MS/MS empricoy el espectro generado tericamente por cada uno de los candidatos.

cionar espectros MS/MS con secuencias de aminocidos y actualmente sigue sien-

do uno de los programas ms utilizados. Para cada espectro adquirido, SEQUEST

calcula de manera independiente la puntuacin de correlacin (cross-correlation

Score, Xcorr ) para todos los candidatos con los que es comparado. En primer lugar

se crea un espectro emprico procesado (espectro X) en el que los picos de baja

intensidad son eliminados y el resto de valores m/z son redondeados al valor entero

ms prximo. Para cada candidato se crea un espectro terico (espectro Y) usando

unas reglas de fragmentacin simplificadas. Entonces el valor Xcorr es calculado

usando la funcin de correlacin Corr(t) (el producto entre los vectores X e Y, con

Y desplazado t unidades de masa respecto a X a lo largo del eje m/z ) (a)

a) Corr(t) =i

xi yi+t

b) Xcorr = Corr(0) < Corr(t) >t(1.3)

donde xi e yi representan los picos del espectro procesado y el espectro terico res-

pectivamente. Bsicamente, Xcorr contabiliza el nmero de fragmentos coinciden-

tes entre el espectro emprico (procesado) y el espectro terico permitiendo peque-

os desplazamientos. Adems la puntuacin se corrige sustrayendo el valor medio

de Corr(t) en torno a t = 0, que representa una estimacin de las coincidencias

aleatorias entre picos (b). SEQUEST tambin proporciona un valor de puntuacin

adicional, Cn, que indica la diferencia entre el valor Xcorr del mejor candidato y el

del segundo mejor candidato. Ambos valores son por tanto indicativos de la calidad

de cada PSM que ser mejor cuanto ms altas sean ambas puntuaciones.

Una adaptacin no comercial, de cdigo abierto, del algoritmo original de SEQUEST

es el motor de bsqueda Comet (Eng et al., 2013), que introduce la novedad de peri-

mitir paralelizar el proceso de bsqueda para poder ser ejecutado en procesadores

multi-ncleo.

21

INTRODUCCIN

Otro motor de bsqueda frecuentemente utilizado es X!Tandem (Feny y Bea-

vis, 2003), que calcula una puntuacin llamada hyperscore. sta tambin se basa

en contar el nmero de picos compartidos entre los espectros terico y emprico,

pero en este caso, en la versin original del software, se tiene en cuenta si los iones

coincidentes pertenecen a las series b- e y-.

by Score =

Intensidad picos coincidentes b ey

hyperscore = (by Score) Ny! Nb!(1.4)

Opcionalmente, X! Tandem puede ser modificado con la puntuacin-k (MacLean

et al., 2006), un producto escalar similar al implementado en Comet con una mani-

pulacin previa de las intensidades de los iones de los espectros tericos candida-

tos.

El motor de bsqueda OMSSA (Open Mass Spectrometry Search Algorithm,

Algoritmo Abierto de Bsqueda de Espectrometra de Masas ) (Geer et al., 2004),

al igual que X!Tandem, es de cdigo abierto. En OMSSA, la puntuacin es un reflejo

del nmero de coincidencias entre iones del espectro experimental y el terico sin

tener en cuenta si los iones son de tipo b- o y-.

Tanto X!Tandem como OMSSA proporcionan una medida adicional adems de

su propio mtodo de puntuacin, el e-valor, que da idea de la calidad de la asigna-

cin ya que puede interpretarse como el nmero esperado de pptidos con puntua-

cin igual o superior a la del mejor pptido candidato.

Por ltimo, Mascot es quizs el ms popular de los motores de bsqueda a

pesar de ser comercial y de que el algoritmo de correlacin que usa nunca fue pu-

blicado. El programa calcula una puntuacin expresada en trminos probabilsticos

llamada ion score que indica la probabilidad de que un nmero de coincidencias de

picos hayan ocurrido aleatoriamente dado el nmero total de picos en el espectro y

dada una distribucin calculada de los valores m/z predichos para los candidatos

1.6.2. Otras estrategias de asignacin pptido-espectro

Bsqueda basada en bibliotecas de espectros

Una alternativa posible a la bsqueda de espectros MS/MS usando espectros

tericos predichos computacionalmente a partir de bases de datos de secuencias

consiste en buscar mediante comparacin directa con otros espectros ya almace-

nados en una biblioteca de espectros. Estas bibliotecas se crean mediante la reco-

pilacin de espectros MS/MS observados e identificados en experimentos previos.

Un nuevo espectro adquirido puede ser comparado directamente con los espec-

tros de la biblioteca (que se encuentren dentro de un rango de tolerancia de masa

permitida) y determinar as cual es la mejor coincidencia.

Al igual que en el caso de los motores de bsqueda basados en secuencia,

existe un tipo especfico de software que permite crear bibliotecas de espectros y

22

1.7. Evaluacin estadstica de resultados de identificaciones de pptidos yprotenas INTRODUCCIN

realizar bsquedas usndolas como SpectraST (Lam et al., 2007).

Este tipo de aproximacin supera a la bsqueda basada en secuencia en trmi-

nos de velocidad, tasa de error y sensibilidad en la identificacin de pptidos (Lam

et al., 2007) Adems, a los resultados obtenidos tambin se les puede aplicar los

modelos de validacin estadstica desarrollados para las bsquedas basadas en

secuencia.

Sin embargo, en contrapartida, slo es posible detectar aquellos pptidos que

hayan sido previamente identificados y que se encuentren en la biblioteca de es-

pectros.

Identificacin por secuenciacin de novo

La secuenciacin de novo a diferencia de las otras aproximaciones para inter-

pretar espectros MS/MS, no requiere informacin adicional como las secuencias de

las protenas o espectros recopilados en experimentos previos. Por este motivo, las

interpretacin de espectros de novo es til para detectar protenas de orga

UNIVERSIDAD COMPLUTENSE DE MADRID - eprints.ucm.es · Fdo. Prof. Dra. Da. María Molina Martín V....

Documents

Transcript of UNIVERSIDAD COMPLUTENSE DE MADRID - eprints.ucm.es · Fdo. Prof. Dra. Da. María Molina Martín V....