מתאם פירסון – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
הפרדה בין הגדרה לתכונות, מחיקת התפלפלות מתמטית מיותרת
שורה 4:
הרעיון הבסיסי למקדם המתאם הוצע על ידי [[פרנסיס גולטון|פרנסיס גאלטון]] בשנות השמונים של המאה ה-19, שניסה למדוד קשרים בין משתנים תצפיתיים. קרל פירסון גיבש את רעיונותיו של גאלטון והציג את הנוסחה המקובלת כיום בראשית המאה העשרים. [[רונלד פישר]] חישב את התפלגותו של מקדם המתאם כאשר מקור התצפיות בהתפלגות נורמלית, ואיפשר בכך [[הסקה סטטיסטית]] על ערכו התאורטי של המקדם.
 
== הגדרה ותכונותמתמטית ==
מבחינה מתמטית, המתאם הליניארי בין שני [[משתנה מקרי|משתנים מקריים]] ''X'' ו-''Y'' עם [[תוחלת|תוחלות]] &mu;<sub>''X''</sub> ו-&mu;<sub>''Y''</sub> ו[[סטיית תקן|סטיות תקן]] &sigma;<sub>''X''</sub> ו-&sigma;<sub>''Y''</sub> מוגדר על פי הנוסחה הבאה:
 
שורה 12:
כאשר ''E'' מציין [[תוחלת]] ו-cov מציין [[שונות משותפת]]. מההגדרה ניתן לראות כי מקדם המתאם הוא סימטרי, כלומר מקדם המתאם בין ''X'' ל-''Y'' שווה בערכו למקדם המתאם בין ''Y'' ל-''X''. כמו כן, מכיוון שלפי ההגדרה במכנה הנוסחה מופיעות סטיות התקן של המשתנים ''X'' ו-''Y עולה כי המקדם'' מוגדר אך ורק אם שתי סטיות התקן הן סופיות ולא אפסיות.
 
== תכונות ==
מאחר ש-<math>\ \mu_X = E(X) </math> ו-<math>\ \sigma_X = \sqrt{E(X^2)-E^2(X)}</math>, ובאופן דומה גם ל-''Y'', אפשר לרשום את מקדם המתאם בצורה:
 
:<math>\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}</math>
 
בעזרת [[אי-שוויון קושי-שוורץ]], ניתן להוכיח כי ערכו של מקדם המתאם חסום בין 1 ל־‎-1.
 
שורה 27 ⟵ 24:
יש לשים לב כי ייתכן מצב בו ''X'' ו-''Y'' אינם בלתי תלויים במובן ההסתברותי, אך מקדם המתאם ביניהם בכל זאת שווה לאפס. עם זאת כאשר ל-''X'' ול-''Y'' יש [[התפלגות דו-נורמלית|התפלגות משותפת דו-נורמלית]] אזי אם מקדם המתאם ביניהם שווה לאפס נובע מכך כי משתנים אלה הינם בלתי תלויים.
 
== הגדרה סטטיסטית ==
== יישומים ==
ניתוחים סטטיסטיים מסתמכים בדרך כלל על מדגם של נתונים מתוך אוכלוסייה. במקרה כזה בו קיימים נתוני המדגם ניתן [[אמידה|לאמוד]] את מקדם המתאם של פירסון באופן הבא:
 
שורה 34 ⟵ 31:
כאשר <math>\bar{x}</math> הוא ממוצע ערכי <math>x</math> ו-<math>\bar{y}</math> ממוצע ערכי <math>y</math>, והסכימה היא על כל ערכי הנתונים מהמדגם.
 
יש להדגיש כי למרות שהחישוב על פי הנוסחא מתאפשר כאשר X ו-Y מקבלים ערכים מספריים כלשהם, בדרך כלל אין משמעות לערכו של מקדם המתאם אם הםX ו-Y לאאינם משתנים כמותיים, כלומר נמדדים בסולם מנה או סולם רווח (ראו: [[סולמות מדידה]]).
 
באופן דומה להוכחה לגבי הערך התאורטי של מקדם המתאם, ניתן להוכיח כי ערכו של האמד ''R'' נע בין 1- ל-1, וכי הערך 1 יתקבל כאשר יש קשר ליניארי חיובי מלא בין המשתנים, והערך 1- יתקבל כאשר יש קשר ליניארי שלילי מלא בין המשתנים. עם זאת, במקרים רבים יימצאו קשרים בערכי ביניים בין שני ערכי הקיצון, וערכים אלה נתונים לפרשנות. לדוגמה: אם ערכו של ''R'' שווה ל-0.8, הפרשנות המקובלת היא כי בין שני המשתנים קיים קשר ליניארי חיובי בעוצמה גבוהה. מקובל לפרש את ערכי מקדם המתאם באופן הבא: