HISAT (מאנגלית: hierarchical indexing for spliced alignment of transcripts - אינדקס היררכי להתאמת תעתיקים שעברו שחבור) היא מערכת יעילה להתאמת קריאות מניסוי RNA-seq. ה-HISAT משתמש בסכימת אינדקס המבוססת על הטרנספורמציה של התמרת בורווס-וילר ואינדקס פראג'ינה-מנזיני (Ferragina-Manzini - FM), תוך שימוש בשני סוגים של אינדקסים להתאמה: אינדקס FM גלובלי של גנום לעיגון כל ההתאמות ואינדקסי FM מקומיים להרחבות מהירות של התאמות אלה[1].

האינדקס ההיררכי של HISAT עבור הגנום האנושי מכיל 48,000 אינדקסים מקומיים של FM, כל אחד מייצג אזור גנומי של כ-64,000 זוגות בסיסים. בדיקות על מערכי נתונים אמיתיים ומדומים הראו כי HISAT היא המערכת המהירה ביותר שקיימת כיום[2], עם רמת דיוק זהה ואף טובה יותר ביחס לשיטות אחרות[3]. למרות מספר האינדקסים הרב שלו, HISAT דורש רק 4.3 גיגהבייט של זיכרון מחשב HISAT תומך בגנומים בכל גודל גם כאלו הגדולים מ-4 מיליארד בסיסים[4].

רקע עריכה

משנת 2008, RNA-seq הפך לכלי הנמצא בשימוש בחקר ביטוי גנים[3], מבנה התעתיק וזיהוי של RNAs ארוכים שאינם מקודדים (lncRNA) וחיבור תעתיקים (transcripts fusion). עם התפתחות RNA-seq תפוקת הרצף ואורכי הקריאה גדלו עד ל-100–500 מיליון קריאות בכל ריצה באורך של 100 זוגות בסיסים או יותר. נפחי נתונים הולכים וגדלים מחייבים מערכות ניתוח חישוביות מהירות וניתנות להרחבה[4].

יתרונות HISAT עריכה

ניתוח RNA-seq מתחיל בהתאמת קריאות אל מול רצף הגנום הרצוי כדי לקבוע את המיקום המקורי של הקריאות. שלב שהפך לצוואר בקבוק שלוקח זמן רב. לדוגמה, תוכניות התאמת רצפים הנמצאות בשימוש נרחב כגון TopHat2 ו-GSNAP10 יכולות לקחת מספר ימים לעיבוד RNA-seq יחיד. תוכנית STAR11 משתמשת במערכי סיומת כדי לספק עיבוד מהיר יותר מרוב השיטות האחרות, כולל TopHat2. עם זאת, לשיטת suffix-array דרישות זיכרון גדולות מאוד (28 גיגהבייט לגנום האנושי) בהשוואה לשיטות המשתמשות בטרנספורמציה של התמרת בורווס-וילר.

כדי ליצור התאמת רצפים מהירה המשתמשת בכמות ממודרת של זיכרון גישה אקראית, HISAT תוכנן עם אסטרטגיית אינדקס חדשנית המבוססת על טרנספורמציה של התמרת בורווס-וילר ואינדקס FM[4][3].

כתוצאה מדרישות הזיכרון המעטות מאוד של HISAT שהן פחותות בצורה משמעותית בהשוואה לשיטות אחרות, משתמשים יכולים להעביר את החישובים הללו משרתים ייעודיים למחשב יחיד, שבו ניתן להריץ מספר דוגמאות בו זמנית.

HISAT2 עריכה

HISAT2 הוא הדור הבא של HISAT וTopHat2. זוהי תוכנית להתאמה מהירה ורגישה בשביל מיפוי קריאות NGS (next generation sequencing) של DNA ו-RNA לגנום רצוי. ב-HISAT2 יש שימוש באינדקס GFM גלובלי אחד המייצג אוכלוסייה של גנומים אנושיים, וגם שימוש במערך גדול של אינדקס GFM קטנים המכסים ביחד את הגנום כולו. אינדקסים קטנים אלו (הנקראים אינדקסים לוקליים), בשילוב עם מספר אסטרטגיות של התאמות רצפים, מאפשרים התאמה מהירה ומדויקת של קריאות רצף. ערכת אינדקס חדשה זו נקראת אינדקס גרף FM היררכי (HGFM)[5].

HISAT-3N עריכה

HISAT-3N מיועד לטכנולוגיות ריצוף הממירות נוקלאוטידים ומיושם על בסיס HISAT2. ישנן שתי אסטרטגיות עבור HISAT-3N להתאמת קריאות ריצוף לאחר המרת נוקלאוטידים: מצב רגיל ומצב חוזר. המצב הרגיל' עושה התאמה של הקריאות עם אינדקס סטנדרטי-3N בלבד, כך שהוא מהיר ודורש זיכרון קטן יותר. מצב החוזר עושה התאמה של הקריאות גם עם אינדקס 3N סטנדרטי וגם עם אינדקס חוזר-3N, ואז פלט תוצאת ההתאמה הוא של 1,000. מצב חוזר יכול לעשות התאמת הקריאות של המרת נוקלאוטידים בצורה מדויקת יותר, והוא מעט איטי וצורך יותר זיכרון מהמצב הרגיל.

HISAT-3N פותח על בסיס HISAT2, אשר מותאם במיוחד עבור טכנולוגיית רצף RNA. ניתן להשתמש ב-HISAT-3N עבור כל קריאות ריצוף שכללו המרת נוקלאוטידים כולל: BS-seq, SLAM-seq, TAB-seq, oxBS-seq, TAPS, scBS-seq ו-scSLAM-seq[6].

ראו גם עריכה

קישורים חיצוניים עריכה

  • HISAT, academic.microsoft.com (באנגלית).
  • HISAT2 (באנגלית).
  • HISAT-3N (באנגלית).

הערות שוליים עריכה

  1. ^ Hisat on Biowulf, hpc.nih.gov
  2. ^ HISAT, www.ccb.jhu.edu
  3. ^ 1 2 3 Daehwan Kim, Ben Langmead, Steven L. Salzberg, HISAT: a fast spliced aligner with low memory requirements, Nature Methods 12, 2015-04, עמ' 357–360 doi: 10.1038/nmeth.3317
  4. ^ 1 2 3 Microsoft Academic, academic.microsoft.com
  5. ^ HISAT2, HISAT2 (באנגלית)
  6. ^ HISAT-3N, HISAT2 (באנגלית)