際際滷

際際滷Share a Scribd company logo
Pana邸i迭 s ek 迭 paie邸kos algoritmai
Algoritm迭 taikymo sritis Taikomi biologini迭 duomen迭 沿温庄艶邸一温i: Apribota abcl: Baltym迭 sekos sudarytos i邸 20 amino r笛g邸i迭 Nukleotid迭 sekos turi 4 (5) nukleotidus
Sekos paie邸kos rezultatas gali b笛ti: Tikslus sutapimas: ABCTUV ABUV ABCTUV AB----UV Netikslus sutapimas: GARUIPPRST GARVVBUIEEYST GAR------UIPPRST GARVVBUIEEYST
Global笛s ir lokal笛s palyginiai ABQRTASGGBV ABRRRASGVBB ABQRTASGGBV ABQ------SGGBV
Amino r笛gi迭 pakeitimo matricos Amino r笛g邸tys pasi転ymi tam tikromis, savitomis fizikinmis ir cheminmis savybmis. Ortologiniuose baltymuose amino r笛g邸tys keiiamos viena 眺 kit skirtingais da転numais. Pakeitimo lengvum (da転num) leid転ia 眺vertinti A.A. pakeitimo matricos.
Amino r笛g邸i迭 pakeitimo matricos pavyzdys
Amino r笛gi迭 pakeitimo matricos BLOSUM ir PAM matricos. PAM Point accepted mutation.  Gautos lyginant 1572 mutacijas i邸 71 baltym迭 邸eim迭. PAM1  PAM30  PAM70  PAM250 Netinka evoliuci邸kai nutolusiems baltymams
BLOSUM BLOSUM - BLOcks of Amino Acid SUbstitution Matrix Sudaromas daugybinis palyginys i邸 ma転ai pakitusi迭 baltym迭 sek迭 region迭 Tinka evoliuci邸kai labiau nutolusiems baltymams BLOSUM40-BLOSUM62-BLOSUM80
Sek迭 sulyginimo algoritmai Ta邸kins matricos (dot matrix) Dinaminis programavimas FASTA BLAST
Dinaminis programavimas DP yra vienas i邸 algoritm迭, taikom迭 optimizavimo problemoms sprsti DP veikia skaidant didel u転duot眺 眺 ma転esnes sub-u転duotis.
Dinaminis programavimas Kiekviena subu転duotis vykdoma tik vien kart, o jos rezultatas i邸saugomas DP pasirenka sprendin眺 su did転iausiu (ma転iausiu) 眺veriu
Dinaminis programavimas Gali b笛ti taikomas globali迭 ir lokali迭 palygini迭 沿温庄艶邸一温i. Palygini迭 眺vertinimui gali b笛ti naudojamos pakeitimo matricos Reikia 眺vesti tarpo buvimo palyginyje baud
Dinaminis programavimas Tikslas  surasti optimal迭 global迭 palygin眺 tarp dviej迭 sek迭 leid転iant atsirasti tarpams. Sudaroma matrica F, kurios elementai F(i,j) turi geriausio palyginio 眺verio reik邸m kai naudojamos i ir j ilgio subsekos
Dinaminis programavimas F(i,j) = max { F(i-1, j-1) + s(xi , yj ); F(i-1,j)  d; F(i, j-1)  d } s(a,b) yra pana邸umo 眺vertis, gaunamas i邸 pana邸umo matricos. d yra tarpo 眺vedimo bauda
Dinaminis programavimas Sukonstravus matric galima nesunkiai surasti palygin眺.
Did転iausios bendros sekos 沿温庄艶邸一温
Did転iausios bendros sekos 沿温庄艶邸一温
Did転iausios bendros sekos 沿温庄艶邸一温
Did転iausios bendros sekos 沿温庄艶邸一温
Did転iausios bendros sekos 沿温庄艶邸一温
Needleman-Wunsch algorit mas S1'  =  GCCCTAGCG   S2'  =  GCGC-AATG   Query:  1   gccctagcg 9   ||   | |  | Target: 1 gcgc-aatg 8
Lokali迭 palygini迭 沿温庄艶邸一温 Neigiamos reik邸ms paveriamos 眺 0 Surandama did転iausia 眺verio reik邸m visoje matricoje ir nuo jos atsekamas palyginys
Dinaminis programavimas Garantuoja optimalaus palyginio radim (naudojant tam tikr 眺veri迭 schem) Ltas  - sudtingumas O(n 2 ) Kompiuterio atminties reikalavimai auga kvadrati邸kai nuo sekos ilgio Netinka ilg迭 sek迭 palyginimui
Smith-Waterman algorit mas Geriausias lokalus palyginys: gcg
FASTA algoritmas DP algoritmas atlieka daug skaiiavim迭 bereik邸mje srityje FASTA sutelkia paie邸k 眺 眺stri転aini迭 srit眺 6 5 5 5 5 4 3 3 3 2 1 A 5 5 5 5 4 4 3 3 2 2 1 G 4 4 4 4 4 4 3 3 2 2 1 C 3 3 3 3 3 3 3 3 2 2 1 T 2 2 2 2 2 2 2 2 2 2 1 A 2 2 2 2 1 1 1 1 1 1 1 G 1 1 1 1 1 1 1 1 1 1 1 G A T T G A C T T A A G
FASTA Naudojami artiniai (heuristika): geras lokalus palyginys turi tam tikr visi邸kos sutapimo subsek.
FASTA algoritmas Surasti visus kar邸tus ta邸kus (ilgio k sekos, kuirios idealiai sutampa) Galima naudoti hash arba look-up lenteles Atrinkti N geriausi迭 sek迭
FASTA algoritmas Apjungti sub-palyginius atsi転velgiant 眺 tarpus Vienas i邸 lokali迭 palygini迭 Tarpai
FASTA algoritmas Konstruojamas svorinis kryptinis grafas Mazgai yra sub-palyginiai Kra邸tin (u,v) egzistuoja, jei u yra prie邸 v Kiekviena kra邸tin turi tarpo baud (neigiamas svoris) Ie邸koma maksimalaus svorio kelio Sub-se ka Kra邸tin
FASTA algoritmas Apribotoje  srityje naudojamas dinaminio programavimo algoritmas Juostos plotis parametrizuotas
BLAST algoritmas Kitas heuristinis algoritmas Rezultatai 眺vertinami statisti邸kai Remiasi prielaida, kad homologins sekos turi trump迭 sek迭 por迭 su dideliais 眺veriais. iuos trumpus segmentus algoritmas prapleia 眺 abi puses kad b笛t迭 gautas optimalus palyginys
BLAST algoritmas Paruo邸iamieji darbai: 1 転ingsnis  paruo邸ti daugiausiai ta邸k迭 turinius 転od転ius i邸 u転klausos sekos
BLAST Algorit mas
BLAST algoritmas Query Word Neighborhood words
BLAST algoritmas 2 転ingsnis  沿温庄艶邸一温 sek迭 duomen迭 bazje. Kiekvienam 転od転iui i邸 sra邸o randami tiksl笛s radiniai DB U転klausos 転odis Pana邸笛s 転od転iai DB  sekos 1 転ingsnis 2 転ingsnis 1  seka 2  seka
BLAST algoritmas Galima naudotis hash-lentelmis 転od転iai Hash  lentel
Pradinio  High Scoring Segment Pair (HSP)  prapltimas Neighborhood Score Threshold Minimum Score   Significance Decay
BLAST algoritmas 3 転ingsnis  optimalaus palyginio 沿温庄艶邸一温. Kiekviena rasta seka prapleiama 眺 abi puses 4 転ingsnis  palyginio statistinio reik邸mingumo 眺vertinimas. Palyginio pltimas stabdomas, kai E-reik邸m b笛na didesn nei ribin. Toks rastas segmentas vadinamas didelio 眺verio segmentu ( High Scoring Segment Pair , HSSP, HSP)
BLAST algoritmas E- reik邸ms apibr転imas: Tiktinas HSP, kuri迭 眺vertis didesnis nei S,  skaiius E = K*n*m*e - 了S   K,  了  nuo modelio priklausanios  konstantos n, m  u転klausos ir sekos ilgiai
BLAST algoritmas Sek迭 眺veriai pasiskirst pagal ekstremali迭 veri迭 dsn眺.
Algoritm迭 palyginimas U転klausos ilgis  153 DB dydis  5997 sekos 0.118  [s] BLAST 0.618  [s] FASTA 16.989 [s] D.P Trukm Algori tmas
Algoritm迭 palyginimas Dinaminis programavimas: Jautriausias algoritmas Panaudojama visa informacija Algoritmas ltas Naudojamos ir bereik邸ms sritys
Algoritm迭 palyginimas FASTA Ma転iau jautrus nei DP ir BLAST Naudojama dalin informacija pagreitinant skaiiavimus Rezultatai nevertinami statisti邸kai 貼ymiai greitesnis nei DP
Algoritm迭 palyginimas BLAST Jautresnis nei  FASTA Rezultatai 眺vertinami statisti邸kai Greitesnis nei FASTA. Atsi転velgiant 眺 rezultat迭 patikimum atmetamas triuk邸mas ir tokiu b笛du sutrumpja skaiiavimo laikas

More Related Content

2011 04 (seku panasumu paieskos algoritmai)

  • 1. Pana邸i迭 s ek 迭 paie邸kos algoritmai
  • 2. Algoritm迭 taikymo sritis Taikomi biologini迭 duomen迭 沿温庄艶邸一温i: Apribota abcl: Baltym迭 sekos sudarytos i邸 20 amino r笛g邸i迭 Nukleotid迭 sekos turi 4 (5) nukleotidus
  • 3. Sekos paie邸kos rezultatas gali b笛ti: Tikslus sutapimas: ABCTUV ABUV ABCTUV AB----UV Netikslus sutapimas: GARUIPPRST GARVVBUIEEYST GAR------UIPPRST GARVVBUIEEYST
  • 4. Global笛s ir lokal笛s palyginiai ABQRTASGGBV ABRRRASGVBB ABQRTASGGBV ABQ------SGGBV
  • 5. Amino r笛gi迭 pakeitimo matricos Amino r笛g邸tys pasi転ymi tam tikromis, savitomis fizikinmis ir cheminmis savybmis. Ortologiniuose baltymuose amino r笛g邸tys keiiamos viena 眺 kit skirtingais da転numais. Pakeitimo lengvum (da転num) leid転ia 眺vertinti A.A. pakeitimo matricos.
  • 6. Amino r笛g邸i迭 pakeitimo matricos pavyzdys
  • 7. Amino r笛gi迭 pakeitimo matricos BLOSUM ir PAM matricos. PAM Point accepted mutation. Gautos lyginant 1572 mutacijas i邸 71 baltym迭 邸eim迭. PAM1 PAM30 PAM70 PAM250 Netinka evoliuci邸kai nutolusiems baltymams
  • 8. BLOSUM BLOSUM - BLOcks of Amino Acid SUbstitution Matrix Sudaromas daugybinis palyginys i邸 ma転ai pakitusi迭 baltym迭 sek迭 region迭 Tinka evoliuci邸kai labiau nutolusiems baltymams BLOSUM40-BLOSUM62-BLOSUM80
  • 9. Sek迭 sulyginimo algoritmai Ta邸kins matricos (dot matrix) Dinaminis programavimas FASTA BLAST
  • 10. Dinaminis programavimas DP yra vienas i邸 algoritm迭, taikom迭 optimizavimo problemoms sprsti DP veikia skaidant didel u転duot眺 眺 ma転esnes sub-u転duotis.
  • 11. Dinaminis programavimas Kiekviena subu転duotis vykdoma tik vien kart, o jos rezultatas i邸saugomas DP pasirenka sprendin眺 su did転iausiu (ma転iausiu) 眺veriu
  • 12. Dinaminis programavimas Gali b笛ti taikomas globali迭 ir lokali迭 palygini迭 沿温庄艶邸一温i. Palygini迭 眺vertinimui gali b笛ti naudojamos pakeitimo matricos Reikia 眺vesti tarpo buvimo palyginyje baud
  • 13. Dinaminis programavimas Tikslas surasti optimal迭 global迭 palygin眺 tarp dviej迭 sek迭 leid転iant atsirasti tarpams. Sudaroma matrica F, kurios elementai F(i,j) turi geriausio palyginio 眺verio reik邸m kai naudojamos i ir j ilgio subsekos
  • 14. Dinaminis programavimas F(i,j) = max { F(i-1, j-1) + s(xi , yj ); F(i-1,j) d; F(i, j-1) d } s(a,b) yra pana邸umo 眺vertis, gaunamas i邸 pana邸umo matricos. d yra tarpo 眺vedimo bauda
  • 15. Dinaminis programavimas Sukonstravus matric galima nesunkiai surasti palygin眺.
  • 16. Did転iausios bendros sekos 沿温庄艶邸一温
  • 17. Did転iausios bendros sekos 沿温庄艶邸一温
  • 18. Did転iausios bendros sekos 沿温庄艶邸一温
  • 19. Did転iausios bendros sekos 沿温庄艶邸一温
  • 20. Did転iausios bendros sekos 沿温庄艶邸一温
  • 21. Needleman-Wunsch algorit mas S1' = GCCCTAGCG S2' = GCGC-AATG Query: 1 gccctagcg 9 || | | | Target: 1 gcgc-aatg 8
  • 22. Lokali迭 palygini迭 沿温庄艶邸一温 Neigiamos reik邸ms paveriamos 眺 0 Surandama did転iausia 眺verio reik邸m visoje matricoje ir nuo jos atsekamas palyginys
  • 23. Dinaminis programavimas Garantuoja optimalaus palyginio radim (naudojant tam tikr 眺veri迭 schem) Ltas - sudtingumas O(n 2 ) Kompiuterio atminties reikalavimai auga kvadrati邸kai nuo sekos ilgio Netinka ilg迭 sek迭 palyginimui
  • 24. Smith-Waterman algorit mas Geriausias lokalus palyginys: gcg
  • 25. FASTA algoritmas DP algoritmas atlieka daug skaiiavim迭 bereik邸mje srityje FASTA sutelkia paie邸k 眺 眺stri転aini迭 srit眺 6 5 5 5 5 4 3 3 3 2 1 A 5 5 5 5 4 4 3 3 2 2 1 G 4 4 4 4 4 4 3 3 2 2 1 C 3 3 3 3 3 3 3 3 2 2 1 T 2 2 2 2 2 2 2 2 2 2 1 A 2 2 2 2 1 1 1 1 1 1 1 G 1 1 1 1 1 1 1 1 1 1 1 G A T T G A C T T A A G
  • 26. FASTA Naudojami artiniai (heuristika): geras lokalus palyginys turi tam tikr visi邸kos sutapimo subsek.
  • 27. FASTA algoritmas Surasti visus kar邸tus ta邸kus (ilgio k sekos, kuirios idealiai sutampa) Galima naudoti hash arba look-up lenteles Atrinkti N geriausi迭 sek迭
  • 28. FASTA algoritmas Apjungti sub-palyginius atsi転velgiant 眺 tarpus Vienas i邸 lokali迭 palygini迭 Tarpai
  • 29. FASTA algoritmas Konstruojamas svorinis kryptinis grafas Mazgai yra sub-palyginiai Kra邸tin (u,v) egzistuoja, jei u yra prie邸 v Kiekviena kra邸tin turi tarpo baud (neigiamas svoris) Ie邸koma maksimalaus svorio kelio Sub-se ka Kra邸tin
  • 30. FASTA algoritmas Apribotoje srityje naudojamas dinaminio programavimo algoritmas Juostos plotis parametrizuotas
  • 31. BLAST algoritmas Kitas heuristinis algoritmas Rezultatai 眺vertinami statisti邸kai Remiasi prielaida, kad homologins sekos turi trump迭 sek迭 por迭 su dideliais 眺veriais. iuos trumpus segmentus algoritmas prapleia 眺 abi puses kad b笛t迭 gautas optimalus palyginys
  • 32. BLAST algoritmas Paruo邸iamieji darbai: 1 転ingsnis paruo邸ti daugiausiai ta邸k迭 turinius 転od転ius i邸 u転klausos sekos
  • 34. BLAST algoritmas Query Word Neighborhood words
  • 35. BLAST algoritmas 2 転ingsnis 沿温庄艶邸一温 sek迭 duomen迭 bazje. Kiekvienam 転od転iui i邸 sra邸o randami tiksl笛s radiniai DB U転klausos 転odis Pana邸笛s 転od転iai DB sekos 1 転ingsnis 2 転ingsnis 1 seka 2 seka
  • 36. BLAST algoritmas Galima naudotis hash-lentelmis 転od転iai Hash lentel
  • 37. Pradinio High Scoring Segment Pair (HSP) prapltimas Neighborhood Score Threshold Minimum Score Significance Decay
  • 38. BLAST algoritmas 3 転ingsnis optimalaus palyginio 沿温庄艶邸一温. Kiekviena rasta seka prapleiama 眺 abi puses 4 転ingsnis palyginio statistinio reik邸mingumo 眺vertinimas. Palyginio pltimas stabdomas, kai E-reik邸m b笛na didesn nei ribin. Toks rastas segmentas vadinamas didelio 眺verio segmentu ( High Scoring Segment Pair , HSSP, HSP)
  • 39. BLAST algoritmas E- reik邸ms apibr転imas: Tiktinas HSP, kuri迭 眺vertis didesnis nei S, skaiius E = K*n*m*e - 了S K, 了 nuo modelio priklausanios konstantos n, m u転klausos ir sekos ilgiai
  • 40. BLAST algoritmas Sek迭 眺veriai pasiskirst pagal ekstremali迭 veri迭 dsn眺.
  • 41. Algoritm迭 palyginimas U転klausos ilgis 153 DB dydis 5997 sekos 0.118 [s] BLAST 0.618 [s] FASTA 16.989 [s] D.P Trukm Algori tmas
  • 42. Algoritm迭 palyginimas Dinaminis programavimas: Jautriausias algoritmas Panaudojama visa informacija Algoritmas ltas Naudojamos ir bereik邸ms sritys
  • 43. Algoritm迭 palyginimas FASTA Ma転iau jautrus nei DP ir BLAST Naudojama dalin informacija pagreitinant skaiiavimus Rezultatai nevertinami statisti邸kai 貼ymiai greitesnis nei DP
  • 44. Algoritm迭 palyginimas BLAST Jautresnis nei FASTA Rezultatai 眺vertinami statisti邸kai Greitesnis nei FASTA. Atsi転velgiant 眺 rezultat迭 patikimum atmetamas triuk邸mas ir tokiu b笛du sutrumpja skaiiavimo laikas

Editor's Notes

  • #34: Word above threshold deemed to be similar RDQ matched with REQ Next the BLAST algorithm now attempts to extend this alignment in both directions Cumulative score kept, results from tallying the matches, mismatches, and gaps Keeps going until optimal local alignment found
  • #38: How does the algorithm know when an optimal local alignment has been found. Initial seed hit is extended All starts initially if the original word match is above the cutoff (T>11 RDQ REQ in our earlier example) The algorithm keeps a cumulative score (left axis) addition for matches Once the mininum score S is reached a result will be returned this result makes it to the BLAST output Algorithm keeps extending the alignment addition for matches, negative for mismatches, gaps (dip in graph) Keeps extending alignment At some point, mismatches and gaps will outweigh matches and the cumulative score will drops off Another cutoff comes into play here to detect the lack of good alignment. (X) HSP trimmed back Resulting alignment is called the HSP high scoring segment pair more than one HSP per sequence possible Show the length of the HSP on the graph