ANALIZA DE SIMILARITATE. §3.1. S C (DEFINI IE & M...
Transcript of ANALIZA DE SIMILARITATE. §3.1. S C (DEFINI IE & M...
BIOLOGIE COMPUTAŢIONALĂANALIZA DE SIMILARITATE.
§3.1. SIMILARITATE CALITATIVĂ
(DEFINIŢIE & MĂSURI DE SIMILARITATE)
Sorana D. BOLBOACĂ
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
2Despre …
SIMILARITATE: DEFINIŢIE
SIMILARITATE SAU OMOLOGIE
METODE DE CALCUL A SIMILARITĂŢII
MATRICEA DE SIMILARITATE
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
SIMILARITATE: DEFINIŢIE
Similar = analog, apropiat, asemănător, asemenea, corespondent, înrudit, (înv.) asemănat, podobnic, semănător= de aceeaşi natură, de acelaşi fel; asemănător, analog
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
SIMILARITATE: DE CE?
Punct de plecare pentru determinarea şi înţelegerea funcţiei proteinei (similaritate structurală şi topologică a proteinelor)Punct de plecare pentru identifiarea de noicompuşi biologic activi (ex. compuşi chimici cu acţiune bactericidă, erbicidă, terapeutică, etc.)
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
SIMILARITATE SAU OMOLOGIE
Similaritate ≠ Omologie25% similaritate = ≥ 100 AA – o evidenţă puternică a omologieiOmologia = descendent al unui strămoş comun
Structură 3D comunăFrecvent aceeaşi funcţieOmologia e “totul sau nimic”
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
RICHARD OWEN (1804-1892)
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE
Caracter omolog = caracteristică a organismelor derivate dintr-un strămoş comun.Owen (1847): corespondenţă structurală (similaritate a caracteristicilor datorită înrudirii)Un caracter omolog poate fi:
Homoplazic: a evoluat independent dar din aceeaşi sursă ancestrală.Plesiomorfic: prezent la nivelul unei surse ancestrale comune dar care s-a pierdut la nivelul unor descendenţi (urmaşi).(sin)apomorfic: prezent la nivelul unei surse ancestrale comune şi respectiv la nivelul tuturor descendenţilor (urmaşilor).
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: EXEMPLU
Frunzele au diferite forme şi funcţii dar au structură omoloagă, derivată dintr-o sursă ancestrală comună
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: EXEMPLUOmologie anatomică:
Aceeaşi structură de bazăAceeaşi relaţie cu alte părţi ale corpuluiDezvoltare similară la nivelul embrionului
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: EXEMPLU
Globine umane
Sursa:http://books.google.ro/books?id=Emr0ZABQUAIC&pg=PA50&lpg=PA50&dq=hemoglobin+homology+comparison&source=bl&ots=wM0DKEBJro&sig=o9LhrlfxCKleWliiWkmBPV3u1A0&hl=ro&ei=5jwoTa3jB4is8gOItdClAg&sa=X&oi=book_result&ct=result&resnum=8&ved=0CFAQ6AEwBzgK#v=onepage&q=hemoglobin%20homology%20comparison&f=false
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: EXEMPLU
Lanţul beta al hemoglobinei umane diferă cu numărul specificat de aminoacizi pentru speciile:
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: EXEMPLU
Zuckerkandl E., L. Pauling. Evolutionary Divergence and Convergence in Proteins, in Evolving Genes and Proteins, eds. V. Bryson and H. Vogel (New York: Academic Press, 1965). pp. 97-166.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: SECVENŢE GENETICE
Secvenţele omoloage se mai numesc şi secvenţe conservate.Omologia în structura secvenţelor de aminoacizi sau baze purinice şi piridimidinice se face pe baza similarităţii secvenţelor. Similaritatea secvenţelor poate însă să apară şi în absenţa unui strămoş comun: similaritatea secvenţelor scurte poate să apară datorită şansei, secvenţele pot fi similare deoarece au fost selectate pentru a se lega de o anumită proteină (ex. factor de transcripţie). Aceste secvenţe sunt similare dar nu şi omoloage.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: SECVENŢE GENETICE
Exprimarea de tipul „procentul omologiei” este incorectă. Pentru a cuantifica similaritatea între secvenţe se utilizează expresii de tipul „procentul de identitate” sau „procentul de similaritate”.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: DEFINIŢIE
Omologie: o genă în relaţie cu altă gene, ambele provenind de la o secvenţă ADN ancestrală comună.Speciaţia: originea unei noi specii capabile să trăiască într-o modalitate nouă în comparaţie cu specia din care a luat naştere.Paralogie: gene relaţionate prin duplicaţie într-un genom. În cazul paralogiei funcţia genei evoluează chiar dacă este relaţionată cu funcţia iniţială.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: DEFINIŢIE
Ortologie: gene ale speciilor diferite care evoluează dintr-o genă ancestrală comună prin speciaţie. În mod normal, în cazul ortologieifuncţia se menţine pe parcursul evoluţiei . Identificarea ortologiei este importantă pentru predicţia unei funcţii a unei gene într-o nouă secvenţă.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: SECVENŢE GENETICETeoria Darwin-istă reinterpretează omologia ca strămoş comun
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: SECVENŢE GENETICE
Ortologia apare prin speciaţie
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
OMOLOGIE: SECVENŢE GENETICEParalogia apare prin duplicaţie
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
EVOLUŢIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
EVOLUŢIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220
Gena drojdiei este în relaţie de tip ortogonal pentru toate genele umane şi ale viermilor; toate aceste gene sunt co-ortogonale cu gena drojdiei
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
EVOLUŢIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220
Toate genele din clasa HA* sunt co-ortogonale cu toate genele de tipul WA*
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
EVOLUŢIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220
Genele HA* sunt ‘inparalogs’ una faţă de alta când comparăm omul cu viermele
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
EVOLUŢIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220
Genele HB şi HA* are ‘outparalogs’ când comparăm omul cu viermele
Duplicaţie
Speciaţie
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
SIMILARITATE vs OMOLOGIE
Proteinele umane şi ale cimpanzeului sunt identice în procent de 99%. Diferenţele între secvenţele AND non-repetitive sunt însă mai mari.Lanţul alfa al hemoglobinei diferă la om faţă de cal cu aproximativ 17 aminoaciziLHRH (luteinizing hormone-releasing hormone) este identic la amfibieni şi mamifere dar diferit faţă de cel al păsărilor, reptilelor şi anumitor peşti. Citocromul C este foarte similar la om şi cimpanzeu (diferenţă de doar un aminoacid)
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
MATRICEA DE SIMILARITATE
Se utilizează pentru alinierea secvenţelorScor mare pozitiv: caractere similareScor mic sau negativ: caractere nesimilare
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
MATRICEA DE SIMILARITATE
Alinierea secvenţelor de amino-acizi: Pentru baze identice se atribuie un scor de +1În caz contrar se atribuie un scor de -1
Alinierea secvenţelor de proteine: Matricea de similaritate este mai complicată datorită existenţei a 20 aminoaciziMatricea conţine 400 de intrări
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
MATRICEA DE SIMILARITATEMatrice împărţită de diagonală (Swindell, BMC Genomics, 2007 ):
Dreapta: culorile închise indică similaritate mare între rând şi coloanăStânga: nivelul se semnificaţie a similarităţii
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
MATRICEA DE SIMILARITATEMatricea de similaritate (Williams et al., 2001):
Calculată prin aplicarea coeficientului de corelaţieCulorile identifică semnificaţia coeficientului de corelaţie
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Jaccard:Coeficient de similaritate JaccardStatistică utilizată pentru similarităţii şi diversităţii a mai multor eşantioane
Formula de calcul:
Distanţa Jaccard: 1- J(X,Y)
|YX||YX|)Y,X(J
∪∩
=
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Jaccard: exempluFie două eşantioane X şi Y. Tabelul conţine frecvenţa absolută a caracterelor pentru eşantioanele X, respectiv Y:
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Jaccard: exempluAplicarea legii „Totul sau nimic” (ex. prezent = 1 / absent = 0)Aplicarea formulei de calcul a Indicelui Jaccard:
J = 4/5 = 0,80Calcularea distanţei Jaccard:
Jd = 1-0.80 = 0,20
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul Dice:Formula de calcul: D = 2J/(1 + J)D ia valori în intervalul [0, 1]Pentru exemplul precedent: J = 0,80
D = 2*0,80/(1+0,80) = 0,89
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul Tanimoto:Similaritatea cosinIdentificarea unghiului dintre 2 vectori de dimensiune nFrecvent utilizat în compararea documentelor în text minningFormula de calcul
YX||Y||||X||YX)Y,X(T 22 ⋅−+⋅
=
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Tversky (abreviat cu S):Măsură asimetrică a similarităţiiUtilizat pentru compararea unei variate cu un prototipPoate fi văzut ca o generalizare a coeficientului Dice sau TanimotoS ia valori în intervalul [0, 1]Datorită asimetriei, indicele Tversky nu îndeplineşte condiţiile unei metrici de similaritate
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Tversky (abreviat cu S):Formula de calcul:
unde α, β ≥ 0 sunt parametrii indicelui Tversky.α = β = 1 → coeficientul Tanimonoα = β = 0.5 → coeficientul Dice
|XY||YX||YX||YX|)Y,X(S
−β+−α+∩∩
=
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Sørensen (coeficientul de similaritate Sørensen):
Abreviere: QSCompară similaritatea a două eşantioane.Se aplică pentru variabile de tip calitativ.Formula:
QS = 2C/(A+B)unde A şi B sunt numărul de specii în eşantionul A, respectiv B; C = numărul de specii comune celor două eşantioane
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Indicele Sørensen (coeficientul de similaritate Sørensen):
Ia valori identice cu coeficientul DiceCunoscut şi sub denumire de indicele CzekanowskiTransformat în distanţă: 1-QS
Identic cu distanţa HellingerIdentic cu disimilaritatea Bray CurtisÎn comparaţie cu distanţa Euclidiană, distanţa Sørensen îşi păstrează sensibilitatea în seturi de date heterogene şi dă greutate mai mică outlier-ilor
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢIICondiţii de aplicare:
Acelaşi număr de specii & Acelaşi tip de specii
6 specii36 indivizi
6 specii36 indivizi
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Indicele SimpsonSimbol: DDefiniţie: probabilitatea ca doi indivizi extraşi la întâmplare din populaţie să aparţină aceleaşi speciiFormula de calcul:
D = ∑(ni/N)2 sau
unde ni = numărul de indivizi al speciei i, N = numărul de indivizi ai tuturor speciilor
)1()1(
−−
= ∑NNnn
D ii
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Indicele SimpsonD ia valori în intervalul [0, 1]Interpretare:
0 = diversitate1 = lipsa diversităţii (cu cât valorare lui D este mai mare cu atât diversitatea este mai mică)
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Mărimi derivate: Indicele de diversitate SimpsonFormula de calcul: 1-DIa valori în intervalul [0, 1]Cu cât valoarea este mai mare cu atât diversitatea în eşantion este mai mareReprezintă probabilitatea ca 2 indivizi extraşi la întâmplare să aparţină unor specii diferite
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Mărimi derivate: Reciproca Indicelui SimpsonSimbol: dsFormula de calcul:
ds = 1 → eşantionul conţine o singură specieInterpretare:
cu cât valoarea este mai mare cu atât diversitatea estemai marevaloarea maximă pe care o poate lua este egală cu numărul maxim de specii
)1()1(−−
=∑ ii
s nnNNd
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Indicele de diversitate al lui Shanon (H):Formula de calcul:
H = –Σpiln(pi)unde pi = probabilitatea de apariţie a speciei iInterpretare: cu cât valoarea indicatorului e mai mare cu atât diversitatea e mai mare.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Indicele Simpson dă o greutate mai mare speciilor mai abundente din eşantion. Existenţa Adăugarea speciilor rare în eşantion determină doar modificări mici în valoarea lui D.Exemplu
Compara similaritatea prin utilizarea indicelui Simpson şi derivaţilor (paşi):
Identificarea eşantioanelor de comparat (ariilor)Identificarea şi cuantificarea speciilor pentru fiecare eşantionAplicarea formulelor de calcul pentru identificarea valorilor indexului Simpson şi a derivaţilorInterpretarea rezultatelor
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢII
Indicele SørensenScop: Analiza similarităţii primilor 40 aa al concavalineiBr în comparaţie cu concavalia MaMaterial:
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢIIIndicele Sørensen
Metodă: Realizarea tabelului de frecvenţă pentru fiecare şir de aminoacizi (Microsoft Excel [Data – PivotTable andPivotChart Report...])
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
COMPARAREA SIMILARITĂŢIIIndicele Sørensen
Rezultat: Calcularea parametrilor A, B şi C:
A (Co-Br) = 16B (Co-Ma) = 17C = 16
Indicele Sørensen: QS = 2C/(A+B) = 2*16/(16+17) = 0.9697Distanţa Sørensen = 1-QS = 1-0.9697 = 0.0303
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATEIndice de similaritate Kulczyński
Permite compararea a două grupuri pentru determinarea omogenităţii acestoraSimbol: KFormula de calcul:
unde Kp,q = similaritatea între eşantioanele p şi q, Bip este acoperirea speciei i în eşantionul p; T = numărul total de specii.Ia valori în intervalul [0, 1]. Valoarea 1 indică similaritate totală (identitate); valoare 0 indică disimilaritate.
( )
∑∑
∑=
=
=
=
=
=
+= Ti
iq
Ti
iip
Ti
iiqip
qp
BB
BBK
11
1,
,inf2
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Măsuri de corelaţie ca indicatori de similaritate:Coeficientul de corelaţie PearsonCoeficientul de corelaţie SpearmanCoeficientul de corelaţie semni-cantitativCoeficienţii de corelaţie Kendall tauCoeficientul de corelaţie Gamma
Iau valori în intervalul [-1, 1]
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Măsuri de corelaţie ca indicatori de similaritateInterpretarea valorii coeficientului (regulile lui Colton):
[-0.25; 0.25] nu există asociere;(0.25; 0.50] / (- 0.25; - 0.50] = asociere slabă(0.50; 0.75] / (- 0.50; - 0.75] = asocieremoderată/bună;> 0.75 / < - 0.75 = nivel foarte bun de asociere
Interpretarea valorii p asociate:Pentru un prag de semnificaţie de 5%: p < 0.05 →corelaţie semnificativă statistic
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul de corelaţie Pearson:variabile cantitative, scala interval sau raţiecuantifică puterea şi direcţia legăturii liniare dintre două variabile prin descrierea direcţiei şi a gradului în care o variabilă este în relaţie de liniaritate cu cealaltă variabilă de interesEste corect aplicat şi interpretat dacă:
Ambele variabile urmează o distribuţie normală şi distribuţia lor comună este bivariată normalăExistă asumpţia unei relaţii de liniaritate între cele două variabile
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul de corelaţie Spearman (Spearman, 1904):
variabile cantitative care nu urmează o distribuţie normală / variabile calitativemăsură non-parametrică de cuantificare a relaţiei dintre două caractere (evaluează cât de bine o funcţie monotonă poate descrie relaţia dintre cele două caractere)
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul de corelaţie Semi-Cantitativ (Bolboacăşi Jäntschi, 2006):
calcularea coeficientului de corelaţie pe baza formulei lui Pearson şi, respectiv, a lui Spearman
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul de corelaţie Kendall tau (Kendall, 1938; 1942):
coeficienţi de corelaţie non-parametrici utilizaţi pentru evaluarea şi testarea corelaţiei dintre date non-interval ordinaleInterpretare:
Dacă există concordanţă între cele două caractere măsurate, valoarea coeficientului e apropiată de 1.Dacă există o discordanţă între cele două caractere şi un caracter este reversul celuilalt, coeficientul de corelaţie se apropie ca valoare de -1.Dacă cele două caractere sunt independente unul faţă de celălalt, coeficientul de corelaţie se apropie de 0.
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Coeficientul de corelaţie Gamma (Goodman şi Kruskal, 1963):
Metodă de determinare a coeficientului de corelaţie care în comparaţie cu Kendall e mai rezistent la existenţa perechilor de date cu ranguri egale. Este utilizat când datele de analizat conţin multe date perechi cu ranguri egale (Siegel şi Castellan, 1999)
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
INDICATORI DE SIMILARITATE
Distanţa Bray-Curtis:(suma diferenţelorabsolute)/(abundenţa totală)= 13/(38+31)= 0.1885
E1 E2 |E1-E2|A 12 10 2B 8 10 2C 4 0 4D 10 6 4E 4 5 1Total 38 31 13
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
MATRICEA DE SIMILARITATE
http://l.academicdirect.org/Agriculture/Colagen/StringAnalysis
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
MATRICEA DE SIMILARITATE
BBIOLOGIE IOLOGIE CCOMPUTAOMPUTAŢŢIONALIONALĂ Ă –– BBIODIVERSITATE &IODIVERSITATE & BBIOCONSERVARE IOCONSERVARE –– CCURS URS 88
ALTE MARIMI DE SIMILARITATE
Coeficientul de potrivireCoeficientul de suprapunereMedia armonicăDivergenţa simetrieiAlgoritmul UkkonenDistanţa Monge ElkanDistanţa MinkowskiDistanţa JaroDistanţa SoundExDistanţa Hellinger
Distanţa LevenshteinDistanţa HammingDistanţa Needleman-Wunch(Algoritmul Sellers)Distanţa Smith-WatermanDistanţa Gotoh Distance(distanţa Smith-Waterman-Gotoh)Distanţa bloc (distanţa L1)Distanţa euclidianăDistanţa Soergel