מתאם – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
AThinker (שיחה | תרומות)
מ תוספת קישור שימושי
מחיקת רוב הפירוט על מקדם המתאם של פירסון. הפירוט הועבר לערך המורחב על מקדם המתאם של פירסון
שורה 8:
{{ערך מורחב| מתאם פירסון}}
 
המדד המוכר ביותר למדידת התלותהקשר בין שתי כמויות הוא [[מתאם פירסון]], או ״מקדם המתאם של פירסון״ (לעיתים קרובות נקרא בפשטות ״מקדם המתאם״). הוא מתקבל כתוצאה של חילוק ה[[שונות משותפת]] של שני המשתנים במכפלת [[סטיית תקן|סטיית התקן]] שלהם. [[קרל פירסון]] פיתח את המקדם מתוך רעיון דומה אך מעט שונה של [[פרנסיס גולטון]].מקדם המתאם ρ<sub>X,Y</sub> בין שני משתנים אקראיים X ו-Y עם [[תוחלת]] μ<sub>X</sub> ו-μ<sub>Y</sub> ועם סטיות תקן σ<sub>X</sub> ו-σ<sub>Y</sub> מוגדר כך:
הוא מתקבל כתוצאה של חילוק ה[[שונות משותפת]] של שני המשתנים במכפלת [[סטיית תקן|סטיית התקן]] שלהם.
[[קרל פירסון]] פיתח את המקדם מתוך רעיון דומה אך מעט שונה של [[פרנסיס גולטון]].
מקדם המתאם ρ<sub>X,Y</sub> בין שני משתנים אקראיים X ו-Y עם [[תוחלת]] μ<sub>X</sub> ו-μ<sub>Y</sub> ועם סטיות תקן σ<sub>X</sub> ו-σ<sub>Y</sub> מוגדר כך:
 
: <math>
שורה 20 ⟵ 17:
 
E מסמל את אופרטור התוחלת, cov מסמל שונות משותפת, ו־corr הוא סימון מקובל למקדם המתאם.
 
מתאם פירסון מוגדר אך ורק אם שתי סטיות התקן הן סופיות ולא אפסיות. זוהי תוצאה ישירה מ[[אי-שוויון קושי-שוורץ]], שמוכיח כי המתאם חסום בין 1 ל־{{D}}-1.
מקדם המתאם הוא סימטרי, כלומר corr(X,Y) = corr(Y,X).
 
מתאם פירסון שווה 1+ במקרה של קורלציה – קשר ליניארי ישיר (גדל) שלם. הוא שווה ל־{{D}}-1 במקרה של אנטי-קורלציה – קשר ליניארי הפוך (קטן) שלם. הוא שווה לערכים אחרים בין 1- ל-1+ בכל המקרים האחרים. הערך מצביע על מידת ה[[תלות הליניארית]] בין המשתנים. כאשר הוא שואף לאפס, יש פחות קשר (קרוב יותר לחוסר-קורלציה). ככל שהמקדם מתקרב ל-1+ או ל־{{D}}-1, כך הקורלציה בין המשתנים גדלה.
 
אם המשתנים הם בלתי תלויים, מתאם פירסון שווה ל-0. ההפך אינו נכון, מכיוון שהמתאם מזהה תלותיות ליניאריות בין שני משתנים בלבד.
לדוגמה, נניח שהמשתנה האקראי X מפולג באופן סימטרי סביב 0, וY = X<sup>2</sup>. במקרה כזה Y נקבע לחלוטין לפי X, כך ש-X ו-Y תלויים זה בזה, אבל הקורלציה ביניהם היא 0; הם אינם מקושרים. עם זאת, במקרה הספציפי שבו X ו-Y הם בעלי [[התפלגות רב-נורמלית]], חוסר קורלציה היא שוות ערך לחוסר תלות.
 
כאשר יש סדרה בת n מדדים ל־X ול־Y (מסומנים: x<sub>i</sub> ו-y<sub>i</sub>, {{כ}}i יכול להיות כל ערך בין 1 ל־n), אז מקדם המתאם של המדגם מאפשר לשער את r, מתאם פירסון בין X לבין Y, לכלל האוכלוסייה. ערכו של מקדם המתאם של המדגם מחושב בנוסחה:
: <math>r_{xy}=\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}
 
= \frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}
 
{\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x})^2 \sum\limits_{i=1}^n (y_i-\bar{y})^2}},</math>
<math>\bar{x}</math> ו־<math>\bar{y}</math> הם ממוצעי המדגם של X ושל Y, בהתאמה; s<sub>x</sub> ו־s<sub>y</sub> הן סטיות תקן נדגמות של X ושל Y, בהתאמה.
אפשר לכתוב את הביטוי גם כך:
 
: <math>r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}
 
=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
 
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.</math>
 
אם x ו-y הם תוצאות של המדדים שמכילים שגיאת מדידה, הגבולות הריאליסטיים של מקדם המתאם אינם בין 1- ל-1+ אלא בתחום קטן יותר.
במקרה של מודל ליניארי עם משתנה יחיד לא תלותי, מקדם הקביעה הוא הריבוע של r, מקדם המתאם של פירסון.
 
== מקדמי דירוג המתאם ==