גודל אפקט

בסטטיסטיקה, גודל אפקט הוא ערך המודד את הקשר בין שני משתנים באוכלוסייה, או אומדן מבוסס מדגם לקשר זה. דוגמאות לגודלי אפקט כוללות את המתאם בין שני משתנים, מקדם הרגרסיה ברגרסיה, ההבדל בין ממוצעים, או ההבדל בסיכון לאירוע מסוים (כגון התקף לב). גודלי אפקט הם כלי מרכזי בבדיקת השערות סטטיסטיות, והם ממלאים תפקיד חשוב בניתוחי עוצמה המעריכים את גודל המדגם הנדרש למחקרים חדשים. גודל האפקט הוא מדד בסיסי במטא-אנליזות שנועדו לתאר את גודל האפקט המשולב בהתבסס על נתונים ממספר מחקרים.

ניתן למדוד את גודל האפקט במונחים מוחלטים או יחסיים. בגודל אפקט מוחלט, ערך מוחלט גבוה יותר מצביע על אפקט חזק יותר, כמו ב־d של כהן או מתאם פירסון. בגודל אפקט יחסי, שתי קבוצות מושוות ישירות זו לזו, כמו ביחס הסיכויים.

דיווח על גודל האפקט נחשב לפרקטיקה טובה בעת הצגת ממצאי מחקר בתחומים רבים,^[1]^[2] במיוחד במדעי החברה ובמחקר רפואי. לראייה, צוות משימה של האגודה האמריקנית לפסיכולוגיה הגיש את ההמלצה הבאה^[3] שאומצה בהמשך למדריך הפרסום של APA^[4]

הציגו תמיד את גודל האפקט עבור הממצאים העיקריים. אם ליחידות המדידה יש משמעות פרקטית (למשל, מספר הסיגריות שאדם מעשן ביום), נעדיף בדרך־כלל מדד לא מתוקנן (מקדם רגרסיה או הבדל בין ממוצעים) על פני מדד מתוקנן (r או d). כדאי להוסיף הסבר קצר הממקם את גדלי האפקט בתוך הקשר תיאורטי ומעשי.

ג'ייקוב כהן^[5] הדגיש את חשיבותם של גודלי אפקט באמירה ”רגע של מחשבה יבהיר ש[גדלי אפקט] הם, אחרי הכל, מה שהמדע עוסק בו.” (עמ' 532)

סקירה כללית

גודל אפקט באוכלוסייה ובמדגם

כמו באומדן סטטיסטי, גודל האפקט האמיתי באוכלוסייה מובחן מגודל האפקט הנצפה במדגם. כדי להעריך את גודל האפקט באוכלוסייה, למשל את הסיכון למחלה באוכלוסייה, מודדים את גודל האפקט במדגם, כלומר את הסיכון למחלה במדגם המייצג את האוכלוסייה. מקובל להשתמש באותיות יווניות כמו ρ [rho] לציון פרמטרים באוכלוסייה ואותיות לטיניות כמו r לציון הנתון המקביל במדגם. לחלופין, ניתן לשים "כובע" מעל פרמטר האוכלוסייה לציון הנתון, למשל עם ${\hat {\rho }}$ בהיותו אומדן לפרמטר $\rho$ .

קשר לבדיקת השערות

גודל אפקט מבוסס מדגם שונה מסטטיסטים המשמשים בתהליך של בדיקת השערות. גודל האפקט מעריך את העוצמה, החוזק או הגודל של הקשר בין שני המשתנים. בבדיקת השערות, לעומת זאת, מוערך הסיכוי שקשר כזה יתקבל באופן מקרי. למרות שבדיקת ההשערות מושפעת מגודל האפקט, היא מושפעת גם מגודל המדגם. אם המדגם מספיק גדול, גם גודל אפקט קטן מאוד (כל עוד אינו שווה לאפס), יוביל לבדיקת השערות חיובית, כלומר למובהקות סטטיסטית. לדוגמה, בדיקת השערות של מתאם פירסון של 0.01 תהיה מובהקת סטטיסטית אם גודל המדגם הוא 1000, למרות שמדובר באפקט קטן מאוד. במקרה כזה, ובהרבה מקרים נוספים, דיווח רק על רמת המובהקות עלול להיות מטעה, שכן התקבל אפקט מובהק, אך ייתכן שאין לו משמעות יישומית.

גודלי אפקט מתוקננים ולא מתוקננים

ניתן למדוד את גודל האפקט במונחים מוחלטים או יחסיים. בגודל אפקט מוחלט, ערך מוחלט גבוה יותר מצביע על אפקט חזק יותר, כמו ב־d של כהן או מתאם פירסון. בגודל אפקט יחסי, שתי קבוצות מושוות ישירות זו לזו, כמו ביחס הסיכויים. מדדי גודל אפקט מתוקננים נפוצים במיוחד בבמטא-אנליזות, גודלי אפקט סטנדרטיים משמשים כמדד נפוץ שניתן לחשב עבור מחקרים שונים ולאחר מכן לשלב אותם לסיכום כולל.

פירוש

על מנת להחליט אם גודל אפקט הוא קטן, בינוני או גדול, יש להתחשב בהקשר ובהגדרה האופרטיבית של המשתנים. מקובל להשתמש בקריטריונים של כהן,^[5]. אם כי הוא הזהיר:

"המונחים 'קטן', 'בינוני' ו'גדול' הם יחסיים, לא רק זה לזה, אלא גם לתחום במדעי ההתנהגות, ובמיוחד לשיטת המחקר הספציפית המופעלת בכל מחקר. ...בשל היחסיות הזו, קיים סיכון מסוים בהצעה של הגדרות אופרטיביות קונבנציונליות למונחים אלו, לשימוש בניתוח עוצמה בתחום מחקר מגוון כמו מדעי ההתנהגות. הסיכון הזה מקובל בכל זאת מתוך אמונה שהרווח גדול מההפסד, כאשר מוצעת מסגרת התייחסות קונבנציונלית משותפת, המומלצת לשימוש רק כאשר אין בסיס טוב יותר להערכת גודל האפקט. (עמ' 25)

הנורמות הקובעות מהו אפקט קטן, בינוני או גדול עברו שינויים היסטוריים. בשנת 1962, כהן התייחס למתאם פירסון של 0.2, 0.4, 0.6 כאל קטן, בינוני וגדול, בהתאמה. אך בשנת 1988 שינה זאת ל-0.1, 0.3, 0.5.^[6] הועלו טענות שהנורמות הללו הן מחמירות מדי, כלומר שהן צריכות להיות נמוכות יותר. כהן אמר שחוקר שחושב ש”מה שמוגדר כאן כ'גדול' הוא קטן מדי (או גדול מדי) ביחס למה שמתאים לתחום המחקר שלו במדעי ההתנהגות, צריך לקבוע הגדרות אופרציונליות מתאימות יותר.” (עמ' 79)

סוגים

ידועים כ-50 עד 100 מדדים שונים של גודל אפקט. ניתן להמיר גודלי אפקט רבים מסוג אחד לסוג אחר, מכיוון שרבים מהם מעריכים את המרחק בין שתי התפלגויות בדרכים שונות. לדוגמה, ניתן להמיר את מתאם פירסון ל-d של כהן ולהפך. אפשר לחלק את גודלי האפקט לשתי משפחות עיקריות: משפחת המתאם ומשפחת ההבדל בין ממוצעים.^[7] הבחנה נוספת עוסקת בשאלה אם המדד מבצע תיקון עבור הטיה. למשל, משפחה של הבדל בין ממוצעים, Hedge's g הוא המדד המתוקן של d של כהן. במשפחת המתאם אומגה בריבוע (ω²) היא המדד המתוקן של אטא בריבוע (η²).^[7]

מתאם

גודלי אפקט אלו מעריכים את מידת השונות המוסברת על־ידי מודל המחקר.

מתאם פירסון

מתאם פירסון, מסומן באות r הוא מדד נפוץ לגודל אפקט, כאשר מודדים את הקשר בין שני משתנים בסולם רווח או מנה. למשל הקשר בין משקל לידה לתוחלת חיים. מתאם פירסון נע בין 1 ל-1, כאשר - 1 מציין יחס ליניארי שלילי מושלם, 1 מציין יחס ליניארי חיובי מושלם ו-0 מציין שאין קשר ליניארי בין שני המשתנים. במדעי החברה, לפי כהן:^[5]^[8]

גודל אפקט	r
קָטָן	0.10
בֵּינוֹנִי	0.30
גָדוֹל	0.50

אחוז השונות המוסברת (מקדם ההסבר) (r² או R²)

כאשר מעלים בריבוע את מתאם פירסון, מתקבל מדד בשם מקדם ההסבר (אנ'). לדוגמה, עבור r של 0.21 מקדם ההסבר הוא 0.0441. כלומר 4.4% מהשונות של כל אחד מהמשתנים משותף עם השונות של המשתנה השני. ה-r ² תמיד חיובי, ולכן אינו מעביר את כיוון המתאם בין שני המשתנים. אחוז זה נקרא גם אחוז השונות המוסברת, שכן הוא מתייחס לכמה אחוזים במשתנה אחד מוסברים על-ידי המשתנה השני. עם זאת, אין הכוונה להסבר סיבתי אלא רק לתיאור מידת הקשר בין השניים.

אטא בריבוע (η²)

אטא בריבוע מתאר את אחוז השונות המוסברת במשתנה המנובא על־ידי משתנה מנבא, תוך שליטה על מנבאים אחרים. אטא בריבוע מתייחס לגודל האפקט במדגם, ולא באוכלוסייה. $\eta ^{2}={\frac {SS_{\text{Treatment}}}{SS_{\text{Total}}}}$

אומגה בריבוע (ω²)

אומדן פחות מוטה של השונות המוסברת באוכלוסייה הוא ω ² $\omega ^{2}={\frac {{\text{SS}}_{\text{treatment}}-df_{\text{treatment}}\cdot {\text{MS}}_{\text{error}}}{{\text{SS}}_{\text{total}}+{\text{MS}}_{\text{error}}}}$

f ² של כהן

f ² של כהן הוא אחד מכמה מדדים לגודל אפקט המשמשים בהקשר של מבחן F עבור ANOVA או רגרסיה מרובה.

f ² עבור רגרסיה מרובה מוגדר כ: $f^{2}={R^{2} \over 1-R^{2}}$

הבדל בין ממוצעים

ניתן לחשב את גודל האפקט בין שתי קבוצות על־ידי בדיקת ההפרש בין הממוצעים שלהם. עם זאת, כדי להקל על הפרשנות מקובל לתקנן את ההפרש הזה.

הצגה ויזואלית של d של כהן. הגרף הסגול והצהוב מייצגים שתי קבוצות שונות. גודל האפקט מיוצג בפער בין הממוצעים של שתי הקבוצות האלה ביחידות של סטיית התקן.

d של כהן (Cohen's d)

d של כהן (נקרא גם בשמות Cohen's d_s, Cohen's g) הוא ההבדל בין הממוצעים של שתי קבוצות במדגם, חלקי סטיית תקן,^[5] כלומר הוא מדד המייצג את ההבדל המתוקנן בין הממוצעים של שתי קבוצות. מכיוון שהוא מתוקנן, אפשר להשתמש בו על מנת להשוות אפקטים במחקרים שונים, גם כאשר המשתנה התלוי נמדד באופנים שונים.^[7]

$d={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s}}$

d של כהן נע בין 0 לבין אין סוף. כאשר הקבוצות הן בלתי תלויות, סטיית התקן המאוחדת מחושבת:^[7]

$s={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}$

הטבלה שלהלן מכילה את התיאור המקובל לגודלי אפקט שונים המחושבים בעזרת d של כהן. נורמות אלה הוגדרו על־ידי כהן:^[8]

גודל אפקט	d
קָטָן	0.20
בֵּינוֹנִי	0.50
גָדוֹל	0.80

d של כהן הוא מדד שכיח לחישוב גודל אפקט במצב בו יש שתי קבוצות, אך הוא מהווה אומדן מוטה לגודל האפקט באוכלוסייה, במיוחד במדגמים קטנים.^[7]

g של Hedges

g של Hedges, שהוצע על ידי לארי הדג'ס ב-1981,^[9] מייצג את גודל האפקט המתוקן. הפער בין d של כהן לבין g של Hedges הוא קטן מאוד, בעיקר במדגמים גדולים (n > 20), אך מכיוון שהוא מדויק יותר, עדיף להשתמש בו.^[7]

$g={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s^{*}}}$

במדד זה, סטיית התקן המאוחדת $s^{*}$ מחושבת כך:

$s^{*}={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}$

משתנים קטגוריאליים

פי (φ)	V של קראמר (φ _c)
$\varphi ={\sqrt {\frac {\chi ^{2}}{N}}}$	$\varphi _{c}={\sqrt {\frac {\chi ^{2}}{N(k-1)}}}$

שני מדדים שכיחים לחישוב גודל אפקט במשתנים קטגורייאליים הם מתאם פי ומתאם קרמר. מתאם פי משמש במצבים בהם יש שני משתנים בינאריים, ואילו מתאם קרמר משמש במצבים בהם יש שני משתנים קטגוריאליים בעלי שתי רמות או יותר. מדדים אלה משולבים בחישוב מבחן כי בריבוע.

יחס הסיכויים

יחס הסיכויים (OR) הוא גודל אפקט שימושי נוסף. המדד מתאים כאשר הוחנים את הקשר בין שני משתנים בינאריים. לדוגמה, במחקר על שיטות הוראה בקריאה יש שתי קבוצות: ביקורת וניסוי. בקבוצת הביקורת משתמשים בשיטת ההוראה המסורתית ומוצאים שעל כל תלמיד אחד שנכשל, שני תלמידים עוברים. כלומר, הסיכויים לעבור הם שניים לאחד (או 2/1 = 2). בקבוצת הניסוי משתמשים בשיטת הוראה חדשנית ומוצאים שעל כל תלמיד שנכשל, עוברים שישה תלמידים. כלומר, הסיכויים לעבור הם שישה לאחד (או 6/1 = 6). ניתן לחשב את גודל האפקט על ידי היחס בין הסיכוי לעבור בקבוצת הניסוי, לזה שבקבוצת הביקורת. הסיכוי לעבור בקבוצת הניסוי גבוה פי 3 מזה של קבוצת הביקורת, (מכיוון ש-6 חלקי 2 הם 3), לכן, יחס הסיכויים הוא 3. מכיוון שיחס הסיכויים מחושב על סמך עקרון השונה מזה של d של כהן, לא ניתן להשוות בין שני המדדים במצבם הגולמי.

סיכון יחסי

הסיכון היחסי (RR), הוא הסיכון (ההסתברות) של אירוע מסוים, ביחס למשתנה בלתי תלוי כלשהו. מדד זה של גודל אפקט שונה מיחס הסיכויים בכך שהוא משווה הסתברויות במקום סיכויים, אבל כשההסתברויות נמוכות מאוד, המדדים קרובים מאוד. בהמשך לדוגמה של שיטות ההוראה, ההסתברות של אלו בקבוצת הביקורת לעבור היא היא 2/3 (או 0.67) ובקבוצת הניסוי 6/7 (או 0.86). גם כאן מחשבים את גודל האפקט בתור היחס בין ההסתברות לעבור בקבוצת הניסוי, להסתברות לעבור בקבוצת הביקורת. כלומר, 0.86 חלקי 0.67, או 1.28.

הפחתת סיכון מוחלטת

הפחתת סיכון מוחלטת (Risk Difference; RD או Absolute Risk Reduction), היא ההבדל בסיכון (הסתברות) לאירוע בין שתי קבוצות. זהו מדד שימושי בניסויים, שכן RD אומר עד כמה התערבות ניסויית משנה את ההסתברות לאירוע או תוצאה. בהמשך לדוגמה של שיטות ההוראה, ההסתברות של אלו בקבוצת הביקורת לעבור היא היא 2/3 (או 0.67) ובקבוצת הניסוי 6/7 (או 0.86). לכן RD הוא 0.86 − 0.67 = 0.19 (או 19%). RD הוא המדד העדיף להערכת יעילותן של התערבויות.^[10]

ראו גם

הערות שוליים

^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Effect size, confidence interval and statistical significance: a practical guide for biologists". Biological Reviews of the Cambridge Philosophical Society. 82 (4): 591–605. doi:10.1111/j.1469-185X.2007.00027.x. PMID 17944619.
^ Leland Wilkinson and the Task Force on Statistical Inference, Statistical methods in psychology journals: Guidelines and explanations., American Psychologist 54, 1999-08, עמ' 594-604 doi: 10.1037/0003-066x.54.8.594
^ Leland Wilkinson and the Task Force on Statistical Inference, Statistical methods in psychology journals: Guidelines and explanations., American Psychologist 54, 1999-08, עמ' 599 doi: 10.1037/0003-066x.54.8.594
^ Publication manual of the American psychological association, Seventh edition, Washington, DC: American Psychological Association, 2020, עמ' 81, ISBN 978-1-4338-3215-4
^ ¹ ² ³ ⁴ Jacob Cohen, Statistical power analysis for the behavioral sciences, 2nd ed., New York, NY: Lawrence Erlbaum Associates, 1988, ISBN 978-0805802832
^ Frank A. Bosco, et al., Correlational effect size benchmarks., Journal of Applied Psychology 100, 2015-03, עמ' 431–449 doi: 10.1037/a0038047
^ ¹ ² ³ ⁴ ⁵ ⁶ Daniël Lakens, Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs, Frontiers in Psychology 4, 2013 doi: 10.3389/fpsyg.2013.00863
^ ¹ ² Jacob Cohen, A Power Primer, Psychological Bulletin 112, 1992, עמ' 155-159
^ Larry V. Hedges (1981). "Distribution theory for Glass' estimator of effect size and related estimators". Journal of Educational Statistics. 6 (2): 107–128. doi:10.3102/10769986006002107.
^ Stegenga, J. (2015). "Measuring Effectiveness". Studies in History and Philosophy of Biological and Biomedical Sciences. 54: 62–71. doi:10.1016/j.shpsc.2015.06.003. PMID 26199055.

[Nakagawa2007-1] Nakagawa, Shinichi; Cuthill, Innes C (2007). "Effect size, confidence interval and statistical significance: a practical guide for biologists". Biological Reviews of the Cambridge Philosophical Society. 82 (4): 591–605. doi:10.1111/j.1469-185X.2007.00027.x. PMID 17944619.

[2] Leland Wilkinson and the Task Force on Statistical Inference, Statistical methods in psychology journals: Guidelines and explanations., American Psychologist 54, 1999-08, עמ' 594-604 doi: 10.1037/0003-066x.54.8.594

[3] Leland Wilkinson and the Task Force on Statistical Inference, Statistical methods in psychology journals: Guidelines and explanations., American Psychologist 54, 1999-08, עמ' 599 doi: 10.1037/0003-066x.54.8.594

[4] Publication manual of the American psychological association, Seventh edition, Washington, DC: American Psychological Association, 2020, עמ' 81, ISBN 978-1-4338-3215-4

[:0-5] ¹ ² ³ ⁴ Jacob Cohen, Statistical power analysis for the behavioral sciences, 2nd ed., New York, NY: Lawrence Erlbaum Associates, 1988, ISBN 978-0805802832

[6] Frank A. Bosco, et al., Correlational effect size benchmarks., Journal of Applied Psychology 100, 2015-03, עמ' 431–449 doi: 10.1037/a0038047

[:2-7] ¹ ² ³ ⁴ ⁵ ⁶ Daniël Lakens, Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs, Frontiers in Psychology 4, 2013 doi: 10.3389/fpsyg.2013.00863

[:1-8] ¹ ² Jacob Cohen, A Power Primer, Psychological Bulletin 112, 1992, עמ' 155-159

[9] Larry V. Hedges (1981). "Distribution theory for Glass' estimator of effect size and related estimators". Journal of Educational Statistics. 6 (2): 107–128. doi:10.3102/10769986006002107.

[Stegenga2015-10] Stegenga, J. (2015). "Measuring Effectiveness". Studies in History and Philosophy of Biological and Biomedical Sciences. 54: 62–71. doi:10.1016/j.shpsc.2015.06.003. PMID 26199055.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]