עימוד רצפים

בביואינפורמטיקה, עימוד רצפים היא שיטה לסידור המידע על אודות רצפי DNA ,RNA או חלבונים, בצורה כזו שיהיה ניתן לזהות אזורים דומים, אשר ייתכן כי הם תוצאה של קשרים פונקציונלים, מבניים או אבולוציוניים.

עימוד רצפי של נוקלאוטידים או שיירי חומצות אמינו מיוצגים לרוב על ידי שורות במטריצה. רווחים מוכנסים בין הרצפים כך שרצפים דומים מעומדים בעמודות. ההשוואה בין הרצפים המעומדים מקבלת ציון הומולוגיה אשר עשוי להעיד על פעילות ביולוגית דומה של הרצפים. לרישום הרצפים פותח פורמט FASTA.

עימוד רצפים שנוצר על ידי ClustalW של שני חלבוני zinc finger אשר פוענחו.
מפתח: אותיות בודדות: חומצות אמינו. אדום: קטנות, הידרופוביות, ארומטיות, לא Y. כחול: חומציות. סגול: בסיסיות. ירוק: הידרוקסיל, אמין, אמיד, בסיסיות. אפור: אחרות.
"*" : זהות .":": שינויים שמורים (אותה קבוצת צבעים). ".": שינויים שמורים-למחצה (מבנה דומה).
דוגמה לתוצאות של Multiple sequence alignment

אלגוריתמים נפוצים לעימוד רצפים המבוססים על תכנון דינמי הם אלגוריתם נידלמן וונש (Needleman-Wunsch), המיועד לעימוד רצפים גלובלי, ואלגוריתם סמית-ווטרמן (Smith-Waterman) המיועד לעימוד רצפים לוקלי (מציאת אזורים דומים במחרוזות של דנ"א או חומצות אמינו).

עימוד רצפים באמצעות תכנון דינמיעריכה

עימוד רצפים גלובליעריכה

כאשר נתונה מטריצת החלפות (כדוגמת BLOSUM62 או PAM250), המגדירה את ציון לכל החלפה של אותיות וכאשר ניתן ציון חוסר באות, הציון לעימוד של שני רצפים מוגדר כסכום הציונים לכל העמדות. בעיית עימוד רצפים גלובלי היא בעיה שבה מתאימים בין כל אות ברצף אחד לאות ברצף השני כאשר שני הרצפים דומים, במטרה למצוא את העימוד הטוב ביותר, במובן שציון העימוד יהיה מקסימלי.

לדוגמה כאשר הציון של אות חסרה הוא -5 ונעשה שימוש במטריצת החלפות הבאה:

A G C T
A 10 -1 -3 -4
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8

ניתן לחשב ציון עבור עימוד של שני רצפים:

רצף א' A G A C T A G T T A C
רצף ב' C G A - - - G A C G T
ציון -3 7 10 -5 -5 -5 7 -4 0 -1 0

הציון הכולל המתקבל מסכימת הציונים על כל העמדות בדוגמה לעיל 1.

 
אלגוריתם נידלמן-וונש

אלגוריתם נידלמן וונש (Needleman-Wunsch)‏[1] מיועד לפתור בעיה זו ביעילות (סיבוכיות זמן ומקום של   - עבור רצפים באורך n) תוך שימוש בתכנון דינמי, באמצעות מילוי מטריצת  , המגדירה את ציון העימוד המיטבי עבור תת-המחרוזת מ-A המתחילה מהאות האפס (מחרוזת ריקה) ונגמרת באות ה-  ותת המחרוזת ב-B המתחילה באפס ונגמרת באות ה- . הטבלה מוגדרת על פי הבסיס (שורה אפס ועמודה אפס):

 
 

והרקורסיה (יתר המטריצה) מאותחלת על פי ערך העימוד המיטבי:

 

כאשר:   מגדיר את הציון להחלפה ו-d מציין ציון לרווח.

ציון העימוד המיטבי עבור הרצף A והרצף B מוגדר על פי  , כאשר את העימוד המתאים לציון זה (העימוד המיטבי) ניתן למצוא באמצעות מילוי טבלה נוספת המגדירה מצביעים בהתאם לבחירה ובסיום לפעול בעקיבה לאחור (Backtracking) החל מהתא המתאים - .

עימוד רצפים מקומיעריכה

בבעיית עימוד רצפים מקומי המטרה היא למצוא אזור (תת רצף) המתאים ביותר בין שני רצפים (אך לא נדרש עימוד לרצף המלא). אלגוריתם סמית-וטרמן (Smith-Waterman) ‏[2] פותר בעיה זו בסיבוכיות זמן ומקום של   (עבור רצפים באורך n). באלגוריתם זה ממלאים טבלה   המגדירה את העימוד המיטבי לסיפא של הרצף A מ-0 (מחרוזת ריקה) ועד האות i, ולסיפא של הרצף B מ-0 ועד האות j. הטבלה מוגדרת על פי הבסיס:

 

 

  then     then  

 

כאשר:

  •  
  •  
  •   - ציון להחלפה, כאשר '–' הוא מציין רווח

אלגוריתם זה דומה לאלגוריתם נידלמן וונש, אך ציון שלילי מוחלף ב-0 (כלומר מוטב להתחיל עימוד חדש מהמקום מאשר להמשיך את העימוד הקודם), והעימוד הטוב ביותר נבחר כמקסימום במטריצת הציונים (ולא המיקום האחרון).

ראו גםעריכה

לקריאה נוספתעריכה

  • Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison (1999). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. ISBN 0-521-62971-3.

קישורים חיצונייםעריכה

  מדיה וקבצים בנושא עימוד רצפים בוויקישיתוף

הערות שולייםעריכה

  1. ^ Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.{{cite journal}}: תחזוקה - ציטוט: multiple names: authors list (link)
  2. ^ Smith, Temple F.; and Waterman, Michael S. (1981). "Identification of Common Molecular Subsequences" (PDF). Journal of Molecular Biology. 147: 195–197. doi:10.1016/0022-2836(81)90087-5. PMID 7265238. אורכב מ-המקור (PDF) ב-2012-07-17. נבדק ב-2014-01-31.{{cite journal}}: תחזוקה - ציטוט: multiple names: authors list (link)