תורת המבחנים הקלאסית

ערך זה עוסק בתאוריה פסיכומטרית העוסקת בניבוי תוצאות של מבחנים. אם התכוונתם למחקר אודות שימוש במבחנים בתחומים שונים, ראו תורת המבחנים.

תורת המבחנים הקלאסית (באנגלית, Classical test theory - CTT) היא תאוריה פסיכומטרית, העוסקת בניבוי תוצאות של מבחנים פסיכולוגים כגון קושי של פריטים או יכולת של נבחנים. התאוריה מבוססת על הרעיון שציון של אדם בין אם הוא ציון נצפה או שהושג במבחן הוא סכום של ציון אמיתי (המבטא את היכולת האמיתית של הנבחן) ושגיאה (המבטא טעויות הנובעות מבעיות במדידה). תורת המבחנים הקלאסית מציעה סט של עקרונות המסייעות להבחין עד כמה ההערכה שלנו בנוגע לציון האמיתי מדויקת, או במילים אחרות לקבוע את מהימנותם של מבחנים.

ניתן להתייחס לתורת המבחנים הקלאסית כשם נרדף לתורת הציונים האמיתית. המושג "קלאסי" בהקשר של תורת המבחנים מתייחס לא רק להתפתחות הכרונולוגית של המודלים השונים, אלא גם כניגוד לתיאוריות הפסיכומטריות מאוחרות יותר, המכונות באופן קולקטיבי תורת התגובה לפריט.

תורת המבחנים הקלאסית כפי שאנו מכירים אותה היום פותחה על ידי נוביק (1966) ותוארה בטקסטים קלאסיים כגון זה של לורד ונוביק (1968) ואלן וין (1979/2002). התיאור של תורת המבחנים הקלאסית להלן מתבסס על כתבים אלו.

היסטוריה עריכה

תורת המבחנים הקלאסית מתבססת על שלושת הרעיונות הבאים והתפתחותה התאפשרה תודות להמשגה שלהם:

הכרה בקיום של שגיאות מדידה
הכרה בכך ששגיאות מדידה הן אקראיות ובלתי תלויות אחת בשנייה
הגדרת המתאם סטטיסטי ופיתוח היכולת לבנות לו אינדקס.

בשנת 1904, צ'ארלס ספרמן פיתח את הכלים הסטטיסטים לתיקון של שגיאת מדידה במתאם ולהשיג את מדד המהימנות הנדרשת לביצוע התיקון.^[1] כלים אלו נחשבים כתחילתה של תורת המבחנים הקלאסית. חוקרים נוספים כדוגמת ג'ורג' אודני יול, טרומן לי קלי, פריץ קודר ומריון ריצ'רדסון שפיתחו את נוסחאות קודר – ריצ'רדסון, לואי גוטמן, ולאחרונה, מלווין נוביק המשיכו את דרכו של ספירמן ומהווים האבות המייסדים של תורת המבחנים הקלאסית.

הגדרות עריכה

תורת המבחנים הקלאסית מניחה שלכל אדם יש "ציון אמיתי", "T", שהיה מתקבל אם לא היו טעויות במדידה. הציון האמיתי של האדם מוגדר כציון הממוצע של אינסוף העברות בלתי תלויות של המבחן. לא ניתן לצפות בציון האמיתי של האדם, אלא רק ב"ציון הנצפה", "X".

שגיאות מדידה במבחן, E, הן טעויות אקראיות ובלתי תלויות המשפיעות על הציון הנצפה. כיוון שכך ניתן לקבוע כי במספר אין סופי של העברות בלתי תלויות ממוצע השגיאות יהיה אפס. הכוונה היא שכיוון שהשגיאות הן אקראיות הן מבטלות אחת את השנייה ובעלות השפעה קטנה על הממוצע של הציון.^[2]

ניתן להגדיר את הציון הנצפה, X, כציון האמיתי בתוספת שגיאת המדידה.

$T+E=X$ או במילים ציון אמיתי+שגיאה=ציון נצפה

תורת המבחנים הקלאסית עוסקת ביחסים בין שלושת המשתנים $X$ , $T$ , ו $E$ . ניתן להשתמש ביחסים אלה כדי לבחון את איכות המבחן והציון. בהקשר זה, הרעיון החשוב ביותר הוא מושג המהימנות. מהימנות הציון הנצפה $X$ , שמסומן כ- ${\rho _{XT}^{2}}$ , מוגדר כיחס בין שונות הציונים האמיתית ${\sigma _{T}^{2}}$ לשונות הציון הנצפה ${\sigma _{X}^{2}}$ :

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}

מכיוון שניתן להראות כי השונות של הציון הנצפה שווה לסכום השונות של הציון האמיתי ולשונות של ציון השגיאה, ניתן לפתח את המשוואה כך:

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}={\frac {\sigma _{T}^{2}}{\sigma _{T}^{2}+\sigma _{E}^{2}}}

משוואה זו, המנסחת את היחס בין אות לרעש, מאפשרת הבנה אינטואטיבית של הקשר בין מהימנות המבחן לציון האמיתי ולטעות: המהימנות של המבחן גבוהה יותר ככל ששיעור שגיאות המדידה נמוך יותר ולהפך. המהימנות שווה לשיעור השונות בציוני המבחן שהיינו יכולים להסביר לו היינו יודעים את הציון האמיתי. השורש הריבועי של המהימנות שווה לערך המוחלט של המתאם בין הציון האמיתי לציון נצפה.

הערכת מבחנים וציונים: מהימנות עריכה

מכיוון שלא ניתן לדעת את הציון האמיתי לא ניתן להעריך מהימנות המבחן ישירות. עם זאת, ניתן לקבל אומדני מהימנות באמצעים אחרים. אחת הדרכים להעריך מהימנות היא באמצעות בניית "נוסח מקביל", או "נוסח חלופי". נוסח מקביל מוגדר כנוסח המניב את אותו ציון אמיתי כמו הנוסח המקורי של המבחן ובהתאם גם את אותה שונות של הציון נצפה.^[3] בהינתן שני מבחנים מקבלים x ו-x',

\varepsilon (X_{i})=\varepsilon (X'_{i})

ו-

\sigma _{E_{i}}^{2}=\sigma _{E'_{i}}^{2}

לפי הנחות אלו, ניתן להוכיח כי המתאם בין ציוני הנוסחים המקבילים שווה למהימנות.^[4]

\rho _{XX'}={\frac {\sigma _{XX'}}{\sigma _{X}\sigma _{X'}}}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=\rho _{XT}^{2}

השימוש בנוסחים מקבילים להערכת מהימנות הוא מסורבל מכיוון שקשה מאוד ליצור נוסחים מקבילים אמיתיים. בפועל משתמשים בשיטה זאת לעיתים נדירות. המדד המקובל על החוקרים כיום למדידת המהימנות מודדת מכונה מדד אלפה של קרונבך. בהכללה ניתן לומר ששיטה מודדת מהימנות על ידי בדיקת עקיבות פנימית של נוסח המבחן.

בהינתן מבחן המורכב מ $k$ פריטים $u_{j}$ , $j=1,\ldots ,k$ . ציון המבחן הכולל מוגדר כסכום של ציוני הפריטים הבודדים, כך שציונו של נבחן $i$ מוגדר כך:

X_{i}=\sum _{j=1}^{k}U_{ij}

מדד האלפא של קרונבאך מוגדר כך:

\alpha ={\frac {k}{k-1}}\left(1-{\frac {\sum _{j=1}^{k}\sigma _{U_{j}}^{2}}{\sigma _{X}^{2}}}\right)

כאשר ${\sum _{j=1}^{k}\sigma _{U_{j}}^{2}}$ הוא סכום השונויות של כל הפריטים^[3].

ניתן להראות כי מדד אלפה קרונבך מספק גבול תחתון למהימנות בהנחות סבירות ולפיכך מהימנות ציוני המבחן תהיה גבוהה תמיד מערכו של מדד אלפא קרונבאך.^[3] מכיוון שהשיטה מאפשרת לחשב את מהימנויות המבחן בקלות יחסית היא פופולרית מאוד בקרב חוקרים וניתן למצוא כלים לחישוב של אלפא קרונבאך בתוכנות סטטיסטיות רבות כגון SPSS, R ו-SAS.^[5]

כאמור תורת המבחנים הקלאסיים נוצרה על מנת ליצור הגדרה הולמת למהימנות. מהימנות אמורה להצביע על האיכות הכללית של ציוני המבחן. ככלל ניתן לקבוע כי ככל שהמהימנות גבוהה יותר, כך המבחן טוב יותר. תורת המבחנים הקלאסית אינה קובעת עד כמה גבוהה אמורה מהימנות להיות. ערך ${\alpha }$ גבוה מדי עבור, לדוגמה מעל 0.9, יכול להצביע על כך שמספר גדול של פריטים מודדים את אותו הדבר. ככלל אצבע, מומלץ להסתפק באלפה בערך הגבוה מ-0.8 לכלי מחקר.^[6] 'קריטריונים' מעין אלו אינם מבוססים על טיעונים פורמליים, אלא הם תוצאה של מוסכמות ופרקטיקה מקצועית. המידה בה ניתן למפות אותם לעקרונות פורמליים של הסקה סטטיסטית אינה חד משמעית.

הערכת פריטים עריכה

מהימנות מספקת ערך יחיד המודד את איכות המבחן - מהימנות. עם זאת, היא לא מספקת מידע אודות פריטים בודדים. ניתוח פריטים בגישה הקלאסית מסתמך לעיתים קרובות על שני נתונים סטטיסטיים: ערך ה-P (פרופורציה) והמתאם הכולל של הפריט ( מקדם מתאם נקודה-ביסרי ). ערך ה-P מייצג את שיעור הנבחנים המשיבים נכונה, ובדרך כלל מכונה "קושי פריט". המתאם הכולל של הפריט מספקת ערך המבטא את "יכולת ההבחנה" של הפריט. נתונים סטטיסטיים אלו מחושבים עבור כל פריט בחירה המרובה ומשמשים להערכת פריטים ולאבחון בעיות אפשריות, כגון מסיח מבלבל.

חלופות עריכה

תורת המבחנים הקלאסית היא תאוריה משפיעה על ציוני המבחנים במדעי החברה. בפסיכומטריקה התיאוריה מתחרה עם מודלים מורכבים יותר כגון תורת התגובה לפריט (IRT) ותורת ההכללה.

חסרונות עריכה

אחד החסרונות החשובים או הידועים ביותר של תורת המבחנים הקלאסית היא שלא ניתן להפריד בין מאפייני הנבחנים ומאפייני המבחן: כל אחד מהם יכול להתפרש רק בהקשר של השני.

חסרון נוסף טמון בהגדרת המהימנות העומדת בבסיס תורת המבחנים הקלאסית, הקובעת כי מהימנות היא "המתאם בין ציוני נוסחים מקבילים".^[7] ישנו קושי רב בבנייה של נוסחים מקבילים ותהייה האם הדבר בכלל אפשרי. מקדמי מהימנות שונים מספקים הערכות מהימנות נמוכות יותר או אומדני מהימנות עם הטיות לא ידועות.

חסרון שלישי נוגע לשגיאת מדידה סטנדרטית. בבסיס תורת המבחנים הקלאסית, עומדת ההנחה כי שגיאת המדידה הסטנדרטית זהה לכל הנבחנים. עם זאת, ציונים בכל מבחן הם מדדים לא מדויקים באופן שווה עבור נבחנים בעלי יכולות שונות, ולכן ההנחה של שגיאת מדידה שווה לכל הנבחנים בעייתית.^[6]^[7]

חסרון רביעי בתורת המבחנים הקלאסיים נובע מכך שהיא מכוונת למבחן בכללותו ולא לפריטים. תורת המבחנים הקלאסית אינה יכולה לעזור לנו לנבא הצלחה של נבחן או קבוצת נבחנים על פריטים בודדים.

ראו גם עריכה

הערות שוליים עריכה

^ Ross E. Traub, Classical Test Theory in Historical Perspective, Educational Measurement: Issues and Practice 16, 1997, עמ' 8–14 doi: 10.1111/j.1745-3992.1997.tb00603.x
^ Robert F. DeVellis, Classical Test Theory, Medical Care 44, 2006, עמ' S50–S59
^ ¹ ² ³ לואיס ה' ג'אנדה, רות בייט-מרום; גילי לויתן (ע), תרגום: עדנה כהן, מבחנים פסיכולוגיים: תיאוריה ומעשה, רעננה: האוניברסיטה הפתוחה, 2009, מסת"ב 978-965-06-1042-5. (בעברית)
^ Lord, Frederic M., 1912-2000., Statistical theories of mental test scores, [Charlotte, N.C.]: Information Age Pub, 2008, ISBN 978-1-60752-961-3
^ Pui-Wa Lei, Qiong Wu, CTTITEM: SAS macro and SPSS syntax for classical item analysis, Behavior Research Methods 39, 2007-08, עמ' 527–530 doi: 10.3758/BF03193021
^ ¹ ² David L. Streiner, Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency, Journal of Personality Assessment 80, 2003-02, עמ' 99–103 doi: 10.1207/S15327752JPA8001_18
^ ¹ ² Hambleton, R., Swaminathan, H., Rogers, H. (1991). Fundamentals of Item Response Theory. Newbury Park, California: Sage Publications, Inc.

[1] Ross E. Traub, Classical Test Theory in Historical Perspective, Educational Measurement: Issues and Practice 16, 1997, עמ' 8–14 doi: 10.1111/j.1745-3992.1997.tb00603.x

[2] Robert F. DeVellis, Classical Test Theory, Medical Care 44, 2006, עמ' S50–S59

[:0-3] ¹ ² ³ לואיס ה' ג'אנדה, רות בייט-מרום; גילי לויתן (ע), תרגום: עדנה כהן, מבחנים פסיכולוגיים: תיאוריה ומעשה, רעננה: האוניברסיטה הפתוחה, 2009, מסת"ב 978-965-06-1042-5. (בעברית)

[4] Lord, Frederic M., 1912-2000., Statistical theories of mental test scores, [Charlotte, N.C.]: Information Age Pub, 2008, ISBN 978-1-60752-961-3

[5] Pui-Wa Lei, Qiong Wu, CTTITEM: SAS macro and SPSS syntax for classical item analysis, Behavior Research Methods 39, 2007-08, עמ' 527–530 doi: 10.3758/BF03193021

[אלפא-6] ¹ ² David L. Streiner, Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency, Journal of Personality Assessment 80, 2003-02, עמ' 99–103 doi: 10.1207/S15327752JPA8001_18

[Hambleton,_R._1991-7] ¹ ² Hambleton, R., Swaminathan, H., Rogers, H. (1991). Fundamentals of Item Response Theory. Newbury Park, California: Sage Publications, Inc.

[1]

[2]

[3]

[4]

[5]

[6]

[7]