רשת ביטוי משותף של גנים

רשת ביטוי משותף של גנים (GCN) היא גרף לא מכוון, שבו כל צומת מסמן גן, וזוג צמתים מחובר בקשת אם יש ביניהם קשר משמעותי של ביטוי משותף.[1] לאחר יצירת פרופילי ביטוי גנים של מספר גנים עבור מספר דגימות, ניתן לבנות רשת ביטוי משותף של גנים על ידי חיפוש אחר זוגות של גנים המראים דפוס ביטוי דומה. רשתות ביטוי משותף של גנים הן בעלות עניין ביולוגי מכיוון שגנים המבוטאים יחד יכולים להצביע על בקרה משותפת, קשר ברמה התפקודית או שותפות באותו מסלול או קומפלקס חלבוני.[2]

רשת ביטוי משותף של גנים שנבנתה מריצוף מערך DNA המכיל פרופילי ביטוי גנים של 7221 גנים עבור 18 חולי סרטן קיבה

הרשת לא מכילה מידע על כיווניות הקשר בין הגנים, והקשתות מייצגות רק קשר מתאם או תלות בין הגנים השונים, זאת בהשוואה לרשת ויסות גנים (GRN) בה הקשתות מכוונות ומייצגות תהליך ביוכימי כגון תגובה, טרנספורמציה, אינטראקציה, הפעלה או עיכוב. על כן, ב-GCN קיימת התעסקות רבה בזיהוי מודולים או תת-גרפים מקושרים חזק שיתאימו לאשכולות של גנים בעלי תפקיד דומה או מעורבות משותפת בתהליך ביולוגי הגורם לאינטראקציות רבות בינם לבין עצמם.[3]

כיוון הקשתות הוא לא מכוון ברשתות ביטוי משותף של גנים. בעוד ששלושה גנים X, Y ו-Z מתגלים כמתבטאים יחד, לא נקבע אם X מפעיל את Y ו-Y מפעיל את Z, או Y מפעיל את X ו-Z, או שגן אחר מפעיל שלושה מהם.

רשתות ביטוי משותף של גנים נבנות בדרך כלל באמצעות מערכי נתונים שנוצרים על ידי טכנולוגיות כגון מערך DNA או RNA-Seq.

היסטוריה עריכה

הרעיון של רשתות ביטוי משותף של גנים הוצג לראשונה על ידי Butte ו-Kohane בשנת 1999 כרשתות רלוונטיות.[4] הם אספו את נתוני המדידה של בדיקות מעבדה רפואיות (למשל רמת המוגלובין) עבור מספר חולים וחישבו את מקדם המתאם של פירסון בין התוצאות עבור כל זוג בדיקות, כאשר זוגות בדיקות שהראו מתאם גבוה הוכנסו לרשת. Butte ו-Kohane השתמשו בגישה זו מאוחר יותר עם מידע על ביטוי גנים שונים, ומידע הדדי כמדד הביטוי המשותף לבניית ה-GCN הראשונה.[5]

בניית רשתות ביטוי משותף של גנים עריכה

פותחו מספר רב של שיטות לבניית רשתות ביטוי משותף של גנים. באופן עקרוני, כולן פועלות בגישה של שני שלבים: חישוב מדד ביטוי משותף, ובחירת סף מובהקות. בשלב הראשון, נבחר מדד הביטוי המשותף ומחושב ציון דמיון עבור כל זוג גנים באמצעות מדד זה. לאחר מכן, נקבע סף מובהקות ורק זוגות גנים בעלי ציון דמיון גבוה מהסף שנבחר מחוברים ברשת באמצעות קשת.

 
שני השלבים הכלליים לבניית רשת ביטוי משותף של גנים: חישוב ציון ביטוי משותף (למשל הערך המוחלט של מקדם מתאם פירסון) עבור כל זוג גנים, ובחירת סף מובהקות (למשל מתאם > 0.8).

נתוני הקלט לבניית רשת ביטוי משותף של גנים מיוצגים לעיתים קרובות כמטריצה. אם יש לנו את ערכי ביטוי הגנים של m גנים עבור n דגימות (תנאים), נתוני הקלט יהיו מטריצת m×n, הנקראת מטריצת ביטוי. לדוגמה, בניסוי מערך DNA נמדדים ערכי הביטוי של אלפי גנים עבור מספר דגימות. בשלב הראשון, ניקוד דמיון (מדד ביטוי משותף) מחושב בין כל זוג שורות במטריצת הביטוי. המטריצה המתקבלת היא מטריצת m×m הנקראת מטריצת הדמיון. כל אלמנט במטריצה זו מראה כיצד רמות הביטוי של שני גנים משתנות יחדיו באופן דומה. בשלב השני, האלמנטים במטריצת הדמיון שנמצאים מעל סף מסוים (כלומר מצביעים על ביטוי משותף משמעותי) מוחלפים ב-1 ושאר האלמנטים מוחלפים ב-0. המטריצה המתקבלת, הנקראת מטריצת הסמיכויות, מייצגת את הגרף של רשת הביטוי המשותף של הגנים. במטריצה זו, כל תא מראה אם שני גנים מחוברים ברשת (ערך התא שווה 1) או לא (ערך התא שווה 0).

מדד ביטוי משותף עריכה

ניתן לייצג את ערכי הביטוי של גן עבור דגימות שונות כוקטור, ולכן חישוב מדד הביטוי המשותף בין זוג גנים זהה לחישוב המדד שנבחר עבור שני וקטורים של מספרים.

מקדם המתאם של פירסון, מידע הדדי, מקדם המתאם של ספירמן והמרחק האוקלידי הם ארבעת מדדי הביטוי המשותפים המשמשים לרוב לבניית רשתות ביטוי משותף של גנים. המרחק האוקלידי מודד את המרחק הגאומטרי בין שני וקטורים, ולכן לוקח בחשבון הן את הכיוון והן את גודל הווקטורים של ערכי ביטוי גנים. מידע הדדי מודד עד כמה ידיעת רמות הביטוי של גן אחד יכולה לספק מידע לגבי רמות הביטוי של גן אחר. מקדם המתאם של פירסון מודד את הנטייה של שני וקטורים לגדול או לקטון יחד. מתאם הדרגה של ספירמן הוא המתאם של פירסון כאשר המשתנים נמדדים על ידי סולם סדר, רווח או מנה. לעיתים נעשה שימוש גם במספר מדדים אחרים כגון מתאם חלקי,[6] רגרסיה,[7] ושילוב של מתאם חלקי ומידע הדדי.[8]

על אף שקיים שימוש נרחב במדידת הביטוי המשותף באמצעות מקדם פירסון, הוא מכיל שתי חסרונות עיקריים: הוא יכול לזהות רק קשרים ליניאריים והוא רגיש לערכים חריגים. יתר על כן, מתאם פירסון מניח שנתוני ביטוי הגנים מתפלגים באופן נורמלי. במחקר מ-2012[9] הוצע מדד נוסף בשם biweight midcorrelation (bicor) כחלופה טובה למתאם של פירסון. "Bicor הוא מדד מתאם חציוני, והוא חזק יותר מהמתאם של פירסון ולעיתים אף חזק יותר מהמתאם של ספירמן".

בחירת סף מובהקות עריכה

נעשה שימוש במספר שיטות לבחירת סף בבניית רשתות ביטוי משותף של גנים. שיטת סף פשוטה היא לבחור טווח ערכים ולהכניס קשת רק כאשר ציון המדד נמצא בטווח זה. גישה נוספת היא להשתמש ב-Z-transformation של פישר אשר מחשבת ציון z עבור כל מתאם על סמך מספר הדגימות. ציון z זה מומר לאחר מכן לערך-p עבור כל מתאם ונקבע סף מובהקות עבור ערך-p. שיטות מסוימות מייצרות התמרה של הנתונים ומשוות בין ציוני מדד של הערכים המקוריים ואלו שעברו התמרה כדי לוודא שהמדד שהתקבל אינו אקראי. נעשה שימוש גם בגישות אחרות, כגון בחירת סף המבוססת על מקדם אשכולות [10] או תיאורית מטריצה אקראית.[11]

הבעיה עם שיטות מבוססות ערך p היא שהחתך הסופי של ערך p נבחר על סמך שיטות סטטיסטיות ולא על סמך תובנה ביולוגית.

ראו גם עריכה

הערות שוליים עריכה

  1. ^ Stuart, Joshua M; Segal, Eran; Koller, Daphne; Kim, Stuart K (2003). "A gene-coexpression network for global discovery of conserved genetic modules". Science. 302 (5643): 249–55. Bibcode:2003Sci...302..249S. CiteSeerX 10.1.1.119.6331. doi:10.1126/science.1087447. PMID 12934013.
  2. ^ Weirauch, Matthew T (2011). "Gene coexpression networks for the analysis of DNA microarray data". Applied Statistics for Network Biology: Methods in Systems Biology. pp. 215–250. doi:10.1002/9783527638079.ch11.
  3. ^ Roy, Swarup; Bhattacharyya, Dhruba K; Kalita, Jugal K (2014). "Reconstruction of gene co-expression network from microarray data using local expression patterns". BMC Bioinformatics. 15: S10. doi:10.1186/1471-2105-15-s7-s10. PMC 4110735. PMID 25079873.
  4. ^ Butte, Atul J; Kohane, Isaac S (1999). "Unsupervised knowledge discovery in medical databases using relevance networks". Proceedings of the AMIA Symposium.
  5. ^ Butte, Atul J; Kohane, Isaac S (2000). "Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements". Pac Symp Biocomput. 5.
  6. ^ Villa-Vialaneix, Nathalie; Liaubet, Laurence; Laurent, Thibault; Cherel, Pierre; Gamot, Adrien; SanCristobal, Magali (2013). "The structure of a gene co-expression network reveals biological functions underlying eQTLs". PLOS ONE. 8 (4): 60045. Bibcode:2013PLoSO...860045V. doi:10.1371/journal.pone.0060045. PMC 3618335. PMID 23577081.
  7. ^ Persson, Staffan; Wei, Hairong; Milne, Jennifer; Page, Grier P; Somerville, Christopher R (2005). "Identification of genes required for cellulose synthesis by regression analysis of public microarray data sets". Proceedings of the National Academy of Sciences of the United States of America. 102 (24): 8633–8. Bibcode:2005PNAS..102.8633P. doi:10.1073/pnas.0503392102. PMC 1142401. PMID 15932943.
  8. ^ Reverter, Antonio; Chan, Eva KF (2008). "Combining partial correlation and an information theory approach to the reversed engineering of gene co-expression networks". Bioinformatics. 24 (21): 2491–2497. doi:10.1093/bioinformatics/btn482. PMID 18784117.
  9. ^ Song, Lin; Langfelder, Peter; Horvath, Steve (2012). "Comparison of co-expression measures: mutual information, correlation, and model based indices". BMC Bioinformatics. 13 (1): 328. doi:10.1186/1471-2105-13-328. PMC 3586947. PMID 23217028.
  10. ^ Elo, Laura L; Järvenpää, Henna; Orešič, Matej; Lahesmaa, Riitta; Aittokallio, Tero (2007). "Systematic construction of gene coexpression networks with applications to human T helper cell differentiation process". Bioinformatics. 23 (16): 2096–2103. doi:10.1093/bioinformatics/btm309. PMID 17553854.
  11. ^ Luo, Feng; Yang, Yunfeng; Zhong, Jianxin; Gao, Haichun; Khan, Latifur; Thompson, Dorothea K; Zhou, Jizhong (2007). "Constructing gene co-expression networks and predicting functions of unknown genes by random matrix theory". BMC Bioinformatics. 8 (1): 299. doi:10.1186/1471-2105-8-299. PMC 2212665. PMID 17697349.