Shotgun sequencing

בגנטיקה, shotgun sequencing או shotgun cloning (בתרגום מילולי: ריצוף בשיטת רובה הציד) היא שיטה המשמשת לריצוף גדילי DNA ארוכים. שיטה זו נקראת כך כאנלוגיה לדפוס הירי האקראי למחצה והמתפשט במהירות של רובה הציד.

מאחר ששיטת ה-chain termination ("סיום השרשרת", מכונה גם שיטת סנגר) לריצוף DNA יכולה לשמש רק עבור גדילים קצרים יחסית (100 עד 1,000 בסיסים), יש לחלק את הרצפים הארוכים יותר לחתיכות קטנות יותר, ולאחר מכן לחבר אותן מחדש על מנת לקבל את הרצף הכולל. שתי שיטות עיקריות משמשות לצורך כך:

  1. chromosome walking ("טיול על הכרומוזום") – שיטה בה מתקדמים לאורך כל הגדיל, חתיכה אחר חתיכה.
  2. ריצוף בשיטת shotgun sequencing – תהליך מהיר יותר אך מורכב יותר, המשתמש ברצפים אקראיים.

בשיטת ה-shotgun sequencing, שוברים את ה-DNA באופן אקראי למקטעים קטנים רבים והם מרוצפים בשיטת ה-chain termination על מנת לקבל את הקריאות (reads). לאחר ביצוע חזרות רבות של פרגמנטציה וריצוף מתקבלות חפיפות רבות של הקריאות עבור ה-DNA הנחקר. בשלב הבא, תוכנות מחשב משתמשות בקצוות החופפים של קריאות שונות על מנת להרכיב אותן לרצף יחיד.

שיטת ה-shotgun sequencing היא אחת הטכנולוגיות הראשונות שאיפשרו ריצוף מלא של הגנום.

דוגמהעריכה

בתור דוגמה, נסתכל על שתי החזרות הבאות של קריאות מריצוף ה-shotgun sequencing:

גדיל רצף
מקורי AGCATGCTGCAGTCATGCTTAGGCTA
הרצף הראשון שהתקבל AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
הרצף השני שהתקבל AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
שחזור של הרצף המקורי AGCATGCTGCAGTCATGCTTAGGCTA

זוהי דוגמה פשוטה ביותר, שבה אף אחת מהקריאות לא מכסה את האורך המלא של הרצף המקורי, אבל ניתן להשתמש בארבע הקריאות כדי להרכיב את הרצף המקורי תוך שימוש בחפיפות של הקצוות שלהם על מנת ליישר ולסדר אותם. במציאות, תהליך זה משתמש בכמויות עצומות של מידע, המלאות בחוסר ודאות ובשגיאות ריצוף. הרכבה של גנומים מורכבים מסובכת אף יותר בשל המספר הרב של רצפים שחוזרים על עצמם (repetitive sequence), מה שאומר שקריאות קצרות זהות יכולות להגיע מחלקים שונים לחלוטין של הגנום.

על מנת להתגבר על קשיים אלה ועל מנת להרכיב את הרצף השלם בצורה מדויקת נדרשות קריאות חופפות רבות עבור כל רצף מה-DNA המקורי. לדוגמה, על מנת להשלים את פרויקט הגנום האנושי, רוב הגנום האנושי רוצף בכיסוי (coverage) של 12X ואף יותר; כלומר, כל בסיס ברצף הסופי הופיע בממוצע ב-12 קריאות. ואף על פי כן, השיטות הנוכחיות נכשלו בניסיון לבודד או להרכיב רצף אמין של כ-1% מגנום האדם (האאוכרומטי), נכון ל-2004.

ריצוף גנום שלם בשיטת ה-shotgun sequencingעריכה

ריצוף גנום שלם על ידי שימוש בשיטת ה-shotgun sequencing עבור גנומים קטנים (4,000 עד 7,000 זוגות בסיסים) היה בשימוש כבר ב-1979. שיטת ה-pairwise end sequencing (ריצוף מבוסס קצוות), הידועה יותר בשם double-barrel shotgun sequencing (ריצוף בשיטת רובה הציד כפול הקנה) תרמה ליישום נרחב יותר של השיטה. ככל שפרויקטי הריצוף התחילו להתמודד עם רצפי DNA ארוכים ומורכבים יותר, קבוצות רבות הבינו שניתן לקבל מידע מועיל על ידי ריצוף של שני הקצוות של מקטע DNA. אף על פי שריצוף שני הקצוות של אותו מקטע ומעקב אחר הנתונים היה מסורבל יותר מאשר ריצוף של קצה יחיד של שני רצפים שונים, הידע ששני הרצפים היו בכיוונים הפוכים והיו בערך במרחק של אורך מקטע אחד זה מזה (כלומר המרחק ביניהם היה ידוע באופן מקורב), היה בעל ערך לצורך שחזור הרצף של מקטע המטרה המקורי. התיאור הראשון שפורסם על שימוש בזיווג קצוות (paired ends) היה ב-1990, כחלק מריצוף הלוקוס ההומני HGPRT, אם כי השימוש בזיווג קצוות היה מוגבל לסגירת הפערים שנותרו לאחר יישום שיטת ה-shotgun sequencing המסורתית. התיאור הראשון של שימוש באסטרטגיית pairwise end טהורה, המניחה שהמקטעים הם באורך קבוע, פורסם בשנת 1991. באותו תקופה היה קונצנזוס בקהילה שאורך המקטע האופטימלי עבור ריצוף בשיטת pairwise end אמור להיות פי 3 מאורך רצף הקריאה. ב-1995 חוקרים ממעבדתו של Roach הציגו את החידוש שבשימוש במקטעים ממגוון גדלים, והדגימו שריצוף באסטרטגיית pairwise end-sequencing טהורה הוא אפשרי עבור רצפים גדולים. בעקבות זאת, אסטרטגיה זו אומצה על ידי המכון למחקר גנומי (The Institute for Genomic Research ,TIGR) על מנת לרצף את הגנום של החיידק Haemophilus influenzae בשנת 1995, ולאחר מכן על ידי חברת Celera Genomics כדי לרצף את הגנום של Drosophila melanogaster (זבוב הפירות) בשנת 2000, ולבסוף לריצוף הגנום האנושי.

כדי ליישם את השיטה, DNA בעל משקל מולקולרי גבוה מחולק למקטעים רנדומליים, נבחר על סמך גודל (בדרך כלל 2, 10, 50, ו-150 אלפי בסיסים), ומוחדר לתוך וקטור (פלסמיד) מתאים. לאחר מכן המקטעים מרוצפים משני קצותיהם בשיטת ה-chain termination, מה שמניב שני רצפים קצרים. כל רצף נקרא קריאת קצה (end-read) או קריאה (read) ולשתי קריאות מאותו מקטע קוראים mate pairs (זוגות משלימים). מאחר ששיטת ה-chain termination יכולה בדרך כלל להפיק קריאות באורך של בין 100 ל-500 בסיסים, זוגות משלימים יהיו חופפים ברצפם לעיתים רחוקות למעט המקרים של ריצוף מקטעים קצרים ביותר.

הרצף המקורי משוחזר מהקריאות באמצעות שימוש בתוכנה להרכבת רצפים. תחילה, קריאות חופפות נאספות לרצפים ארוכים ומורכבים יותר המכונים contigs. רצפים אלו יכולים להיות מקושרים יחדיו להרכבת "פיגומים" (scaffolds) על ידי מעקב אחר הקשרים בין זוגות משלימים. ניתן להסיק לגבי המרחק בין contigs על סמך המיקום של זוגות משלימים, אם ידוע האורך הממוצע של מקטע בספרייה ויש לו טווח סטייה צר. בהתאם לגודל הפער בין ה-contigs, טכניקות שונות יכולות למצוא את הרצפים שבפערים. אם הפער הוא קטן (5 עד 20 אלפי בסיסים) אז נדרש שימוש ב-PCR על מנת להגביר את האזור הרצוי, ולאחר מכן מבוצע הריצוף. אם הפער גדול (יותר מ-20 אלף בסיסים) אז המקטע הגדול משובט לווקטורים מיוחדים כדוגמת כרומוזומים בקטריאליים מלאכותיים (BAC) ולאחר מכן מבוצע ריצוף של הווקטור.

חסידי הגישה הזו טוענים כי ניתן לרצף את כל הגנום בפעם אחת באמצעות שימוש במערכים גדולים של מכונות ריצוף (sequencers), מה שהופך את כל התהליך להרבה יותר יעיל לעומת הגישות המסורתיות יותר. המתנגדים לשיטה טוענים כי אף על פי שהשיטה מרצפת בצורה מהירה אזורים גדולים של DNA, היכולת שלה לקשור רצפים אלו בצורה נכונה נתונה בספק, במיוחד עבור גנומים עם אזורים שחוזרים על עצמם. ככל שתוכנות להרכבת רצפים הופכות למתוחכמות יותר וכוח המחשוב הופך לזול יותר, ייתכן וניתן יהיה להתגבר על מגבלה זו.

כיסוי (coverage)עריכה

כיסוי ("עומק הקריאה" או פשוט ה"עומק"), הוא המספר הממוצע של קריאות המייצגות נוקליאוטיד מסוים ברצף שהורכב מחדש. את הערך ניתן לחשב על סמך האורך של הגנום המקורי (G), מספר הקריאות (N) ואורך קריאה ממוצעת (L) לפי הנוסחה הבאה: N*L/G. לדוגמה, לגנום היפותטי בעל 2,000 זוגות בסיסים שמורכב מחדש מ-8 קריאות עם אורך ממוצע של 500 נוקלאוטידים, יהיה עומק של X2 ‏(2x redundancy). פרמטר זה מאפשר גם להעריך כמויות אחרות, כדוגמת אחוז הגנום המכוסה על ידי הקריאות (גם הוא לעיתים מכונה באנגלית coverage). כיסוי גבוה בריצוף shotgun sequencing רצוי משום שהוא יכול להתגבר על שגיאות בקריאת בסיסים והרכבתם. הנושא של תאוריית ריצוף DNA מטפל ביחסים שבין כמויות כאלה.

לעיתים נעשית הבחנה בין כיסוי רצפים לבין כיסוי פיזי. כיסוי רצפים הוא המספר הממוצע של פעמים שבהם בסיס נקרא (כפי שתואר קודם). כיסוי פיזי הוא מספר הפעמים הממוצע שבסיס נקרא או שנמצאו עבורו קריאות משלימות מתאימות.

ריצוף היררכי בשיטת shotgun sequencingעריכה

אף על פי שבאופן תאורטי ניתן ליישם את שיטת ה-shotgun sequencing על גנום בכל גודל, יישומה בריצוף גנומים גדולים (לדוגמה, גנום האדם) היה מוגבל עד שנות ה-90 המאוחרות, כאשר ההתקדמות הטכנולוגית הפכה את העבודה עם כמויות נרחבות של מידע מורכב המעורב בתהליכים שונים למעשית יותר. מבחינה היסטורית, האמינו שריצוף מלא של הגנום בשיטת ה-shotgun sequencing מוגבל גם על ידי הגודל של גנומים גדולים וגם על ידי המורכבות שנוספת כתוצאה מהאחוז הגבוה של חזרות DNA (הגדול מ-50% בגנום האנושי) המופיע בגנומים גדולים. לא הייתה הסכמה רחבה שריצוף של גנום גדול בשיטה זו יספק מידע אמין. מסיבות אלה, שיטות אחרות היו צריכות להתבצע לפני ה-shotgun sequencing על מנת להקטין את העומס החישובי של הרכבת רצפים. בריצוף היררכי, המכונה גם ריצוף מלמעלה-למטה, יוצרים מפה פיזית של הגנום ברזולוציה נמוכה לפני הריצוף עצמו. מהמפה הזו בוחרים עבור הריצוף מספר מינימלי של מקטעים שמכסים את כל הכרומוזום. בדרך זו קטן הצורך בשימוש בריצוף מרובה תפוקה והרכבה.

הגנום המוגבר נחתך תחילה לחתיכות גדולות (50–200 אלף בסיסים) ומוכנס לתוך מאכסן חיידקי בעזרת BACs או PACs‏ (P1-derived artificial chromosome), כרומוזום מלאכותי המבוסס על גנום הבקטריופאג'. מכיוון שעותקים רבים של הגנום נחתכו בצורה רנדומאלית, המקטעים שנמצאים בעותקים הללו הם בעלי קצוות שונים, ועם כיסוי מספיק גבוה, ניתן תיאורטית למצוא "פיגום" של BAC contigs שמכסה את כל הגנום. ה"פיגום" נקרא נתיב ריצוף (tiling path). ברגע שנמצא נתיב ריצוף, ה-BACs שנכללים בנתיב נחתכים למקטעים בצורה רנדומלית וניתן לרצף אותם בשיטת shotgun sequencing בקנה מידה קטן יותר.

אף על פי שהרצפים השלמים של ה-BAC contigs לא ידועים, הכיוון שלהם אחד ביחס לשני כן ידוע. יש מספר שיטות למציאת הסדר הזה ולבחירת ה-BACs שמהווים את נתיב הריצוף. האסטרטגיה הכללית היא לזהות את המיקום של העותקים זה ביחס לזה ולאחר מכן לבחור את המספר הקטן ביותר של עותקים שנדרשים ליצירת "פיגום" רציף שמכסה את כל האזור שאנו מעוניינים בו. סדר העותקים נקבע על פי הדרך בה הם חופפים. ניתן לזהות עותקים חופפים במספר דרכים:

  1. פרובים שמסומנים בצורה רדיואקטיבית או כימית המכילים אתרי רצפים מתויגים (sequence-tagged site – STS) שעוברים השלמת בסיסים עם העותקים המודפסים שמצויים על microarray. בדרך זו, ניתן לזהות את כל העותקים שמכילים רצף מסוים בגנום. ניתן לרצף את הקצה של אותם עותקים על מנת ליצור פרוב חדש והתהליך חוזר על עצמו בשיטה שנקראת "chromosome walking".
  2. ניתן להרכיב מחדש את ספריית ה-BAC. שני עותקים שיש להם במשותף כמה גדלים של מקטעים, מניחים שהם חופפים משום שהם מכילים אתרי רסטריקציה מרובים משותפים דומים. שיטה זו של מיפוי גנומי נקראת "restriction fingerprinting" משום שהיא מזהה סט של אתרי רסטריקציה המוכלים בכל עותק. לאחר שהחפיפה בין הרצפים נמצאה והסדר היחסי שלהם בגנום נמצא, "פיגום" של קבוצת משנה מינימלית של ה-contigs שמכסים את כל הגנום מרוצפים בשיטת ה-shotgun sequencing.

ריצוף היררכי בשיטת shotgun sequencing איטי יותר מאשר ריצוף של כל הגנום בשיטת shotgun sequencing משום שהוא כרוך ביצירת מפה עם רזולוציה נמוכה של הגנום, אך יחד עם זאת הריצוף ההיררכי מסתמך פחות בכבדות על אלגוריתם חישובי להרכבת הגנום מאשר ריצוף של כל הגנום. בנוסף, תהליך יצירת ספריית ה-BAC ובחירת ה-tiling path הופך את הריצוף ההיררכי לאיטי יותר ודורש עבודה אינטנסיבית יותר. כעת, כאשר הטכנולוגיה זמינה והאמינות של המידע הוכחה, מהירות ויעילות הריצוף של כל הגנום בשיטת ה־shotgun sequencing הפכו אותה לשיטה העיקרית לריצוף הגנום.

ריצוף בשיטת shotgun ובשיטות ריצוף מהדור החדשעריכה

הריצוף הקלאסי בשיטת shotgun sequencing מבוסס על ריצוף בשיטת סנגר (sanger sequencing), הטכניקה המתקדמת ביותר לקביעת רצף הגנום מאז 1995–2005. כיום עדיין נעשה שימוש ב-shotgun sequencing, זאת תוך כדי שימוש בטכנולוגיות אחרות הנקראות Next-generation sequencing (הדור החדש של הריצוף). טכנולוגיות אלה מייצרות קריאות קצרות יותר (25–500 בסיסים) אך יחד עם זאת, הן מייצרות מאות אלפים או מיליוני קריאות בזמן קצר. דבר זה מאפשר כיסוי גבוה, אבל תהליך ההרכבה הרבה יותר יקר מבחינה חישובית. טכנולוגיות אלה עדיפות על פני ריצוף בשיטת סנגר משום הנפח הגדול של הנתונים והזמן הקצר שנדרש על מנת לרצף את כל הגנום. החיסרון העיקרי הוא שהדיוק נמוך יותר (אף על פי שהכיסוי הגבוה מפצה על כך).

קישורים חיצונייםעריכה

  מדיה וקבצים בנושא Shotgun sequencing בוויקישיתוף