תוקף (מחקר)

תוקף הוא מונח בשיטות מחקר, המסמל את המידה שבה כלי מדידה פורמלי מודד את מה שהוא נועד למדוד במסגרת המחקר, וכן המידה שבה המסקנות והפעולות הננקטות על סמך ההערכה אכן מתאימות ומדויקות. בהתאם לכך, התקפות היא השיקול החשוב ביותר בפיתוח ובשימוש של כלי מדידה או הערכה. זאת במיוחד עבור מקרים שבהם היא משמשת לצורך קבלת החלטות חשובות^[1].

התוקף נמדד לאחר המהימנות של המחקר, כאשר המהימנות מהווה חסם עליון לתוקף ותנאי מקדים לו. אופן אמידת תוקפו של מבחן הוא מצטבר, כלומר הוא מבטא איסוף מדדים שונים לגבי המבחן אשר יוצרים תמונה כוללת לגבי המידה שבה המדד מודד את הדבר אשר הוא נועד למדוד^[2].

תהליך התיקוף עריכה

התיקוף הוא תהליך של בניית טיעון מדעי מבוסס, התומך בפרשנות הנתונים המופקים באמצעות כלי המדידה ובפעולות המוצעות בהתבסס עליהם. בנוסף, תהליך התיקוף שולל את כל ההסברים החלופיים והמשתנים המתערבים שיכולים להתקבל על הדעת^[1]. משום שתהליך התיקוף נעשה עבור ההיסקים והפעולות המבוססות על הנתונים ולא על כלי המדידה עצמם, יש לתקף כל סוג של שימוש אשר רוצים לעשות בכלי הערכה נתון^[1]. כלומר, גם אם נמצא שכלי מסוים תקף עבור מטרה מסוימת אין זה מבטיח שהוא יהיה תקף למטרות אחרות שעבורן ניתן לעשות בו שימוש.

לצורך יצירת התיקוף יש לקבוע באופן ברור את ההיסקים שמעוניינים בהם והפעולות שמבקשים לבצע על סמך הנתונים שיופקו מהכלי. בנוסף, יש לבנות מסגרת תאורטית ברורה שתשמש לקביעת הנחות היסוד או לניסוח השערות^[1].

סוגי תוקף ממצאי מחקר עריכה

בפרק בספר על פסיכולוגיה ארגונית-תעשייתית משנת 1979 פרסו החוקרים דונלד ט' קמפבל ותומס ד' קוק^[3], ארבעה קריטריונים לשיפוט תוקף מחקרים סיבתיים: התוקף הסטטיסטי, התוקף הפנימי, תוקף המבנה והתוקף החיצוני. מונחים אלו הפכו לאבן דרך לבחינה של תוקף מחקרים במדעי החברה בכלל, ובפרט בפסיכולוגיה.

התוקף הסטטיסטי מספק את הבחינה המדוקדקת של קיום הקשר בין המשתנה התלוי למשתנה הבלתי תלוי, אשר מהווה את התופעה הנצפית. תוקף זה נבחן באמצעות בחינת המתודולוגיה הסטטיסטית שבה השתמשו החוקרים כדי לתמוך את טענותיהם. בהקשר זה ראוי לציין שימוש רחב במונח p value (מילולית: ערך ה-p) אשר מבטא את ההסתברות לקבלת הממצאים תחת השערה שבה לא מתקיים הקשר אותו רוצים החוקרים להראות. השערה זו נהוג לכנות בעגה מקצועית השערת האפס, ולסמנה $H_{0}$ , כאשר את השערת החוקרים נהוג לסמן ב- $H_{1}$ . נהוג לומר שקשר קיים או במילים אחרות מובהק או תקף, אם הסתברות זו קטנה מ-5%, כלומר ערך ה-p קטן מ-0.05. נוהג זה מקיים שמרנות מחקרית בכך שהוא מעדיף את השערת האפס כל עוד לא התקבלו נתונים המראים שהנתונים שנאספו מאוד לא סבירים אם היא נכונה. מונח נוסף אשר עם התפתחות כוח המחשוב נהיה יותר ויותר פופולרי במחר הוא גורם בייס (BAYES FACTOR). גורם זה, המבוסס על סטטיסטיקה בייסיאנית מחשב את ההסתברות לקבלת הנתונים $H_{1}$ חלקי הסתברות קבלת הנתונים תחת $H_{0}$ .

התוקף הפנימי דן במידה שבה קיימים הסברים אחרים לתופעה הנצפית, השונים מזה שמנסים החוקרים להראות. לדוגמה בוחנים האם קיימים משתנים נוספים המשפיעים על התופעה בניסוי, אשר החוקר לא חשב עליהם בתכנון הניסוי.

תוקף המבנה דן במידת ההכללה של התופעה מעבר למימוש של המונחים התיאורטיים שהשתמשו בו החוקרים. בהקשר זה נפוץ השימוש במושג תוקף מבנה מתכנס (Convergent) – מושג המתאר מצב בו קיימים מתאמים גבוהים בין ההגדרות התצפיתיות המודדות את אותו המושג. באופן דומה, נפוץ השימוש במושג תוקף מבנה מבחין (Discriminant) מתאר מצב שבו הגדרות תצפיתיות שונות מההגדרות תצפיתיות אחרות המודדות מושג תאורטי אחר. כלומר התוקף המבחין בוחן את השאלה האם ההגדרה התפעולית גולשת לתופעות נוספות שאינן קשורות. על מנת לתקף את הניסוי מצופה מן החוקרים להראות כי המתאם בין המשתנים הרלוונטים להשערה לבין משתנים המודדים משתנה אחר (אך דומה) יהיה נמוך^[4].

התוקף החיצוני דן במידת ההכללה לאנשים השונים מן האנשים שנבחנו במחקר. בהקשר זה נהוג לבחון עד כמה אוכלוסיית המחקר שונה מהאוכלוסייה לגביה רוצים להסיק את מסקנות המחקר. לדוגמה מחקר על אוכלוסייה מאוד ייחודית, כמו חולים לאחר התקף לב, יהיה בעל תוקף חיצוני נמוך לגבי השערה הנוגעת לכלל אוכלוסיית העולם.

מעבר לארבעת המושגים שטבעו קמפבל וקוק, נפוץ השימוש במונח תוקף תוכן. תוקף זה מתאר את המידה שבה התוכן של המבחן משקף ומייצג את ההיבטים השונים של תחום ההערכה. ככל שתחום ההערכה מיוצג יותר בניסוי, כך תוקף התוכן גבוהה יותר. לרוב תוקף זה נבחן באמצעות פרוטוקול פיתוח קפדני, ובאמצעות שיפוטי מומחה.

מטריצה רב-מתודית-רב-משתנית עריכה

מטריצה רב-מתודית-רב-משתנית (Multitrait-multimethod matrix) או בקיצור MMTM היא גישה לבחינת תוקף המבנה אשר פותחה על ידי קמפבל ופיסק ופורסמה בשנת 1959^[2]. מטריצה זו מסדרת את ציוני המהימנות, התוקף המבחין והתוקף המתכנס בצורה המאפשרת בחינה נוחה של תוקף המבנה הכללי של המדד אותו מעוניינים לתקף.

ב-MMTM נמדדים לפחות שני מושגים פסיכולוגים, לפחות בשתי שיטות. המטריצה מסודרת בצורה סימטרית כלפי האלכסון, כך שהעמודות או השורות מסודרות כפי המוצג בטבלה הבאה:

Test	מושג 1 שיטה 1	מושג 1 שיטה 2	מושג 2 שיטה 1	מושג 2 שיטה 2
מושג 1 שיטה 1	מהימנות (מצפים שיהיה קרוב ל-1)
מושג 1 שיטה 2	מתאם בין אופרציונליזציות שונות של אותו מושג [מצפים שיהיה הכי גבוה בטבלה למעט מהימנות]	מהימנות (מצפים שיהיה קרוב ל-1)
מושג 2 שיטה 1	מתאם בין מושגים שונים הנמדדים באותה שיטה [מצפים שיהיה נמוך יותר ממדידה של אותו מושג בשיטות שונות]	מתאם בין מושגים שונים הנמדדים בשיטות שונות [מצפים שיהיה הנמוך ביותר בטבלה]	מהימנות (מצפים שיהיה קרוב ל-1)
מושג 2 שיטה 2	מתאם בין מושגים שונים הנמדדים בשיטות שונות [מצפים שיהיה הנמוך ביותר בטבלה]	מתאם בין מושגים שונים הנמדדים באותה שיטה [מצפים שיהיה נמוך יותר ממדידה של אותו מושג בשיטות שונות]	מתאם בין אופרציונליזציות שונות של אותו מושג [מצפים שיהיה הכי גבוה בטבלה למעט מהימנות]	מהימנות (מצפים שיהיה קרוב ל-1)

הקשר בין תוקף למהימנות עריכה

המשמעות של כלי מחקר אשר אינו מהימן, היא שהוא אינו מודד תכונה יציבה. על מנת שכלי ימדוד את מה שהוא אמור למדוד, עליו למדוד תכונה יציבה. מכאן נובע כי מהימנות מהווה תנאי הכרחי לתוקף. עם זאת, אם מבחן הוא מהימן תוצאותיו לא בהכרח גם תקפות. ייתכן למשל כי כלי ימדוד תכונה יציבה אך היא אינה התכונה המבוקשת.

תוקף של תחום מקוצץ עריכה

במקרים רבים בחינת תוקפו של כלי באמצעות קריטריון נעשית על מדגם משתתפים אשר נופו על סמך ציונם באותו הכלי. במקרה זה נאמר כי מבחן התוקף הוא מבוסס מדגם בעל קיצוץ תחום (range restriction). דוגמה לכך היא תיקוף ציון הפסיכומטרי כמנבא לסיום תואר ראשון. במקרה זה, סיפי הקבלה לתואר הראשון עלולים להיות מבוססים על ציון הפסיכומטרי, בין היתר. בכך, מדגם של בעלי ציון פסיכומטרי שהחלו את התואר הראשון יכיל טווח מצומצם או שונה של ציון הפסיכומטרי בהשוואה למדגם הבוחן את טווח הציונים של כל האוכלוסיה. בחינת תוקף על מדגם מקוצץ תחום ללא התייחסות לקיצוץ התחום, עלולה להביא למסקנות שגויות לגבי גודלו של תוקף הכלי^[5]. לשם התמודדות עם בעיה זו, הוצעו בספרות מספר פתרונות אשר שונים בין היתר בהנחותיהם לגבי האופן בו קוצץ התחום, כמו גם לגבי המידע הזמין לחוקר אשר מבצע את מבחן התוקף. ביצועי התיקונים תלויים ביחס הברירה, כלומר ביחס בין כמות הדגימות שיש לחוקר לאחר הקיצוץ לבין כמות הדגימות לפני הקיצוץ. ככל שיחס הברירה גבוה יותר, כך ביצועי התיקונים טובים יותר, זאת משום שיש לחוקר יותר מידע ככל שיחס הבירה גבוה יותר.

לדוגמה עבור משתנה רציף X המנבא מתנה רציף Y המשמש כקריטריון, ניתן להגדיר את התוקף באמצעות עוצמת הקשר הנמדדת על ידי מתאם פירסון.

אם קיצוץ התחום מתבצע על בסיס ציוני X בלבד, נאמר כי תחום זה מקוצץ באופן ישיר (Direct). קיצוץ מסוג זה תואר בספרו של אדוארד לי ת'ורדנדייק "Personnel selection: Test and measurement techniques" כמקרה מספר 2, ומאז נהוג בעגה המקצועית להתייחס למקרה זה גם בשם 'מקרה ת'ורנדייק 2'.

דוגמה לקיצוץ תחום ישיר כאשר

x>0.25

. איור זה נבנה באמצעות דגימה אקראית של 1000 צמדי ערכים (X, Y) כאשר

x\backsim U(-1,1)

,

y_{i}=x_{i}+\varepsilon

ו-

\varepsilon \sim N(\mu =0,\sigma =0.5)

לתיקון קיצוץ תחום זה ניתן להשתמש בנוסחה אותה הציע ת'ורנדייק:

${\tilde {R}}_{XY}={\frac {r_{xy}\times {\biggr (}{\frac {S_{x}}{s_{x}}}{\biggl )}}{\sqrt {1-r_{xy}^{2}+{\biggr (}{\frac {S_{x}}{s_{x}}}{\biggl )}\times r_{xy}^{2}}}}$ ^[6]

כאשר ${\frac {S_{x}}{s_{x}}}$ מבטא את היחס בין שונות המשתנה המנבא $x$ לפני הקיצוץ לבין שונות אותו המשתנה אחרי הקיצוץ, ו- $r_{xy}$ זה תוקף המשתנה על המתחם המקוצץ.

דוגמה גרפית לסוג קיצוץ זה ניתן לראות בתמונה משמאל. בתמונה זו המתאם באוכלוסייה שווה ל - 0.76, המתאם $r_{xy}$ בקטע המקוצץ הוא 0.28, היחס בין השונויות 2.73= ${\frac {S_{x}}{s_{x}}}$ , ולפיכך לפי התיקון ${\tilde {R}}_{XY}$ שווה ל-0.63.

אם קיצוץ התחום מתבצע על בסיס ציוני z, אשר מתואם עם x, y או עם שניהם אזי נאמר כי תחום זה מקוצץ באופן עקיף. מקרה זה ידוע בשם 'מקרה ת'ורנדייק 3'. נוסחת התיקון שהציע ת'ורנדייק למקרה זה היא:

${\tilde {R}}_{XY}={\frac {r_{xy}+r_{zx}\cdot r_{zy}{\biggr (}{\frac {S_{z}^{2}}{s_{z}^{2}}}-1{\biggl )}}{\sqrt {1+r_{zx}^{2}{\biggr (}{\frac {S_{z}^{2}}{s_{z}^{2}}}-1{\biggl )}{\sqrt {1+r_{zy}^{2}{\biggr (}{\frac {S_{z}^{2}}{s_{z}^{2}}}-1{\biggl )}}}}}}$ ^[7]

עם התפתחות יכולת החישוב כיום משמשות גם טכניקות מבוססות השלמה של ערכים חסרים (אימפיואיטציה - Imputation). בפרט, כאלה המסכמות סימולציות ממוחשבות רבות של הנתונים החסרים על מנת להתמודד עם קיצוץ התחום^[7], תוך התחשבות במידת אי-הוודאות שיש לחוקר לגבי ההשלמה^[8]. לדוגמה שימוש באלגוריתם MICE - multiple imputation by chained equations^[7]^[8]. שימוש בשיטות אלו מאפשרות להתמודד עם מצבים בהם הנחות היסוד הסטטיסטיות עליהן מבוססות השיטות הפרמטריות הקלאסיות אינן מתקיימות^[9] כמו גם עם ניבוי מידע שאינו רציף^[7].

ראו גם עריכה

לקריאה נוספת עריכה

ר' בייט-מרום (2005), "שיטות מחקר במדעי החברה עקרונות המחקר וסגנונותיו", תל אביב : האוניברסיטה הפתוחה.

Sackett, P. R., & Yang, H. (2000). Correction for range restriction: an expanded typology. Journal of Applied Psychology, 85(1), 112.

הערות שוליים עריכה

^ ¹ ² ³ ⁴ מנוחה בירנבוים (1997). חלופות בהערכת הישגים. רעננה: רמות.
^ ¹ ² Campbell, D.T., & FiskeD.W. (1959) Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105 "
^ Cook, T.D., & Campbell, D.T. (1979). The design and conduct of quasiexperiments and true experiments in field settings. In M. Dunnette (Ed.), Handbook of Industrial and Organizational Psychology. Skokie, IL: Rand–McNally.
^ Campbell, D. T. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. (56). Psychological Bulletin. pp. 81–105
^ ד. נבון, י. כהן וש. ברונר (2008), הגורמים המשפיעים על אומדן מקדם תקפות החזאי המשמש לבררת מועמדים להשכלה גבוהה, דוח 347, המרכז הארצי לבחינות והערכה.
^ Held, J. D., & Foley, P. P. (1994). Explanations for accuracy of the general multivariate formulas in correcting for range restriction. Applied Psychological Measurement, 18(4), 355-367. בהתאם ל- Case 1 from Guilford, 1965, p. 343 ול- Case A from Thorndike, 1982, p. 210
^ ¹ ² ³ ⁴ Pfaffel, A., Kollmayer, M., Schober, B., & Spiel, C. (2016). A missing data approach to correct for direct and indirect range restrictions with a dichotomous criterion: A simulation study. PloS one, 11(3), e0152330.
^ ¹ ² Van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate imputation by chained equations in R. Journal of statistical software, 45, 1-67.
^ Zimmermann, S., Klusmann, D., & Hampe, W. (2017). Correcting the predictive validity of a selection test for the effect of indirect range restriction. BMC Medical Education, 17(1), 1-10.

[חלופות-1] ¹ ² ³ ⁴ מנוחה בירנבוים (1997). חלופות בהערכת הישגים. רעננה: רמות.

[קמבפלפיסק1959-2] ¹ ² Campbell, D.T., & FiskeD.W. (1959) Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105 "

[3] Cook, T.D., & Campbell, D.T. (1979). The design and conduct of quasiexperiments and true experiments in field settings. In M. Dunnette (Ed.), Handbook of Industrial and Organizational Psychology. Skokie, IL: Rand–McNally.

[LTR-Campbell-4] Campbell, D. T. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. (56). Psychological Bulletin. pp. 81–105

[5] ד. נבון, י. כהן וש. ברונר (2008), הגורמים המשפיעים על אומדן מקדם תקפות החזאי המשמש לבררת מועמדים להשכלה גבוהה, דוח 347, המרכז הארצי לבחינות והערכה.

[6] Held, J. D., & Foley, P. P. (1994). Explanations for accuracy of the general multivariate formulas in correcting for range restriction. Applied Psychological Measurement, 18(4), 355-367. בהתאם ל- Case 1 from Guilford, 1965, p. 343 ול- Case A from Thorndike, 1982, p. 210

[פפפל2016-7] ¹ ² ³ ⁴ Pfaffel, A., Kollmayer, M., Schober, B., & Spiel, C. (2016). A missing data approach to correct for direct and indirect range restrictions with a dichotomous criterion: A simulation study. PloS one, 11(3), e0152330.

[וואן-בורן2011-8] ¹ ² Van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate imputation by chained equations in R. Journal of statistical software, 45, 1-67.

[9] Zimmermann, S., Klusmann, D., & Hampe, W. (2017). Correcting the predictive validity of a selection test for the effect of indirect range restriction. BMC Medical Education, 17(1), 1-10.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]