בעיית ההשוואות המרובות

בסטטיסטיקה, בעיית ההשוואות המרובות (באנגלית: Multiple comparisons problem, בראשי תיבות: MCP) מתרחשת כאשר מבצעים מספר הסקות סטטיסטיות במקביל, או כשאומדים במקביל קבוצה של פרמטרים על בסיס נתונים שנצפו.

כשמבצעים מספר רב של בדיקות, הסיכוי להגיע למסקנה שגויה באחת מהן לפחות גדל באופן משמעותי (לעומת הסיכוי לטעות באחת מסוימת מהן). למשל, אמידה של רווחי סמך רבים מגדילה את הסיכוי שאחד מהם לא יכיל את הפרמטר שהוא נועד להכיל. דוגמה נוספת היא ביצוע בדיקות השערות מרובות, דבר הגורם לכך שהסיכוי לכך שלפחות באחת מהן השערת האפס תידחה למרות היותה נכונה (מה שידוע כטעות מסוג I), גדל באופן משמעותי.

לאורך השנים פותחו מספר טכניקות המאפשרות להתמודד עם בעיה זו, ומאפשרות להגיע גם במקרים של השוואות מרובות לאותה רמת מובהקות (הסיכוי לטעות מסוג I) כמו של השוואה יחידה (שבה מקובלת לרוב רמת מובהקות של 5% או של 1%). שיטות אלו בדרך כלל דורשות רמת מובהקות גבוהה יותר עבור בדיקה יחידה, על מנת לפצות על ריבוי הבדיקות שגורמות לירידה ברמת המובהקות.

היסטוריה

העניין בבעיית ההשוואות המרובות החל בשנות ה-50 של המאה ה-20 עם עבודותיהם של ג'ון טוקי ושל הנרי שֶפֶה (אנ') בתחום. במהלך השנים פותחו שיטות וטכניקות חדשות להתמודדות עם הבעיה: טכניקה הקרויה "Closed testing procedure" (אנ') פורסמה בשנת 1976, שיטת הולם-בונפרוני (אנ') בשנת 1979, ובמהלך שנות ה-80 מספר שיטות נוספות. בשנת 1995 פורסם לראשונה מאמר המציג את שיטת שיעור התגליות השגויות, יחד עם רעיונות חדשים נוספים בתחום.

הכנס הראשון העוסק בבעיית ההשוואות המרובות (MCP Conference) התקיים בישראל בשנת 1996. הכנסים הבאים התקיימו בברלין, גרמניה (2000), בת'סדה, מרילנד (2002), שאנגחאי, סין (2005), וינה, אוסטריה (2007), טוקיו, יפן (2009), וושינגטון די. סי. (2011), סאות'המפטון, אנגליה (2013), היידראבאד, הודו (2015) וריברסייד, קליפורניה (2017).

דוגמאות

דוגמה להמחשה

נניח שאנו רוצים לבדוק אם מטבע הוא הוגן (השערת האפס היא שהוא הוגן), כלומר אם הסיכוי לקבלת "עץ" שווה לסיכוי לקבלת "פלי" (סיכוי של 0.5 לכל אחד). ניתן להחליט שאם ב-10 הטלות המטבע מקבל 9 פעמים "עץ" ופעם אחת "פלי" (או להפך - 9 "פלי" ו-1 "עץ") אז נסיק שהמטבע אינו הוגן, כיוון שההסתברות שדבר כזה יקרה אם מדובר במטבע הוגן היא: (10 + 1) ‏× ^‏10‏ (1/2)‏ x‏ 2 = 0.0215, כלומר סיכוי של כ-2% בלבד. סיכוי של כ-2% הוא נמוך למדי, ואם הקריטריון שלנו לדחיית השערת האפס הוא p-value < 0.05, אז במצב זה נדחה את השערת האפס ונסיק שהמטבע לא הוגן.

בעיית ההשוואות המרובות מתעוררת כאשר אנו רוצים לבדוק לא את ההוגנות של מטבע בודד, אלא את ההוגנות של מטבעות רבים. נניח למשל שהיינו בוחנים 100 מטבעות שהם באמת הוגנים, לפי שיטה זו; אמנם הסיכוי של מטבע בודד להימצא לא-הוגן הוא עדיין כ-2% בלבד, אבל הסיכוי שלפחות אחד מהם יימצא לא-הוגן (על אף שכאמור כולם הוגנים) הוא כמעט 90%! (ליתר דיוק הסיכוי במקרה זה הוא: ^‏100‏‏(0.0215 ‏− ‏1 )‏ − ‏ 1 ≈ 88.6% ). במילים אחרות, כלל ההחלטה שלנו (להחליט שהמטבע לא הוגן אם יצאו 9 או 10 פעמים אותה תוצאה מתוך 10 הטלות) שהיה מוצלח עבור ניסוי בודד, מתברר כבעייתי עבור 100 ניסויים שכן במצב זה דווקא רוב הגדול של הסיכויים שנבצע טעות ונקבע שמטבע הוא לא-הוגן למרות היותו הוגן.

דוגמאות מהמציאות

במציאות, לרוב משתמשים בבדיקת השערות על מנת להשוות בין המצב ה"רגיל" לבין מצב מלאכותי שאותו רוצים לבדוק בניסוי. נתונים נאספים מהמצב אותו רוצים לבדוק, והנתונים מהמצב ה"רגיל" מהווים קבוצת בקרה עבור הניסוי. למשל:

נניח שהניסוי רוצה לבדוק שיטה חדשה ללימוד כתיבה: קבוצה אחת של תלמידים תלמד בשיטה החדשה, וקבוצת הבקרה תלמד בשיטה המסורתית ללימוד כתיבה. ניתן להשוות בין שתי הקבוצות במגוון פרמטרים: דקדוק, איות, סדר, תוכן, אוצר מילים ועוד. אם הסיכוי לכך שנסיק שהשיטה החדשה טובה יותר על אף שבאמת אין הבדל ביניהן לגבי פרמטר מסוים הוא רק 5%, אז בהינתן למשל 5 פרמטרים שנבדקים הסיכוי שנגיע למסקנה שגויה שהשיטה החדשה טובה יותר בפרמטר אחד לפחות מגיעה כבר ל-22.6% - סיכוי לא מבוטל בכלל. בהינתן 10 פרמטרים שנבדקים ומושווים בין הקבוצות, הסיכוי מגיע כבר ל-40.1%.
נניח שהניסוי רוצה לבדוק את היעילות של תרופה חדשה (ביחס לתרופות קיימות או ביחס להיעדר מתן תרופה), והבדיקה נעשית על ידי בדיקת שיפור באחד מתוך כמה תסמינים של המחלה. ככל שיותר תסמינים נבדקים, כך הסיכוי שבאחד מהם לפחות תתקבל המסקנה שהתרופה טובה יותר גדל, אפילו אם התרופה כלל אינה מועילה.
נניח שהניסוי רוצה לבדוק את מידת הבטיחות של תרופה חדשה (ביחס לתרופות קיימות או ביחס להיעדר מתן תרופה), על ידי בדיקת מספר תופעות לוואי. ככל שנבדקות יותר תופעות לוואי, כך הסיכוי שהתרופה החדשה תימצא פחות בטוחה גבוה יותר, שכן הסיכוי שהיא תימצא כגורמת לשיעור גבוה יותר של תופעות לוואי בתופעת לוואי אחת לפחות גבוה יותר.

שיטות להתמודדות עם הבעיה

במהלך השנים פותחו שיטות רבות שנועדו להתמודד עם הבעיה, כשלכל אחת מהן יתרונות וחסרונות. בין השיטות הידועות ניתן למנות את:

תיקון בונפרוני - בשיטה זו מקטינים את ה- $\alpha$ של בדיקת השערה בודדת פי מספר הבדיקות. זאת על מנת להבטיח שהסיכוי לטעות אחת או יותר מסוג I לא יהיה גדול מ- $\alpha$ . שיטה זו מגדילה את הסיכוי לטעות מסוג II, ונחשבת שמרנית.
תיקון סידאק (אנ') - דומה מאוד לתיקון בונפרוני, רק מעט פחות שמרני (מאפשר סיכוי מעט יותר גבוה לטעות מסוג I על מנת להקטין את הסיכוי לטעות מסוג II).
שיטת הולם-בונפרוני (אנ') - דומה לשניים הקודמים, אך היא מתוחכמת יותר ומאפשרת להקטין את הסיכוי לטעות מסוג II באופן משמעותי.
שיעור התגליות השגויות - שיטה זו מקלה על החוקר בכך שהיא אינה מחייבת שהסיכוי לטעות יחידה מסוג I תהיה קטנה מ- $\alpha$ , אלא היא מסתפקת בדרישה שהתוחלת של היחס בין מספר התגליות השגויות לבין סך מספר התגליות, תהיה קטנה מ- $\alpha$ . הנחה מקלה זו מאפשרת השגת עוצמה גבוהה יותר במידה משמעותית.
Closed testing procedure (אנ') - בשיטה זו דוחים השערה רק אם ניתן לדחות כל חיתוך אפשרי שלה עם ההשערות האחרות שנבדקות. ניתן להסתכל על שיטת הולם-בונפרוני כעל מקרה פרטי של שיטה זו.
מבחן דאנט (אנ') - מבחן המיועד להשוואה של קבוצה של טיפולים (treatments) לאותה קבוצת בסיס. למשל, להשוואה של כל אחת מ-5 תרופות שונות לתרופת דמה.
שיטת דאנקן (Duncan Method)
מבחן טוקי (אנ')
שיטת שֶפֶה (אנ')
שיטת Neuman Keuls (אנ')

קישורים חיצוניים

יחזקאל קלינג, בעיית המרובות בבקרת תהליכים סטטיסטיים, יוני 2005
אתר כנס בעיית ההשוואות המרובות (MCP Conference) (באנגלית)