מתאם פירסון – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
הפרדה בין הגדרה לתכונות, מחיקת התפלפלות מתמטית מיותרת
אין תקציר עריכה
שורה 1:
'''מִתְאָם פירסון''', או בשמו המלא '''מְקַדֵּם הַמִּתְאָם של פירסון''' (Pearson), על שם [[קרל פירסון]], הוא [[מדד]] [[קשר ליניארי|לקשר ליניארי]] בין שני משתנים מקריים. כאשר מדובר בעיבוד נתונים [[סטטיסטיקה|סטטיסטי]], ההתייחסות היא בדרך כלל לקשר בין שני [[משתנה|משתנים]]כמותיים שערכיהם מתקבלים [[מדגם|במדגם]]. ערכי המקדם נעים בין (1-) לבין (1+). מקובל לסמן את ערך מקדם המתאם באות R כאשר הוא מחושב מתוך נתונים שהתקבלו במדגם, ובאות היוונית <math>\rho</math>כאשר דנים בערכו התאורטי של המקדם.
 
== היסטוריה ==
הרעיון הבסיסי למקדם המתאם הוצע על ידי [[פרנסיס גולטון|פרנסיס גאלטון]] בשנות השמונים של המאה ה-19, שניסה למדוד קשרים בין משתנים תצפיתיים. החישוב של גאלטון היה ויזואלי, והסתמך על שרטוט הנתונים במערכת צירים ומדידה פיזית של שיפוע קו הרגרסיה. קרל פירסון גיבש את רעיונותיו של גאלטון והציג את הנוסחה המקובלת כיום בראשית המאה העשרים. [[רונלד פישר]] חישב את התפלגותו של מקדם המתאם כאשר מקור התצפיות בהתפלגות נורמלית, ואיפשר בכך [[הסקה סטטיסטית]] על ערכו התאורטי של המקדם.
 
== הגדרה מתמטית ==
מבחינה מתמטית, המתאם הליניארי בין שני [[משתנה מקרי|משתנים מקריים]] ''X'' ו-''Y'' עם [[תוחלת|תוחלות]] &mu;<sub>''X''</sub> ו-&mu;<sub>''Y''</sub> ו[[סטיית תקן|סטיות תקן]] &sigma;<sub>''X''</sub> ו-&sigma;<sub>''Y''</sub> מוגדר על פי הנוסחה הבאה:
 
יהיו <math>(x_1,\ y_1),...(x_n, \ y_n)</math> נתונים על שני משתנים <math>X</math> ו-<math>Y</math> שהתקבלו במדגם. מקדם המתאם של פירסון, '''R'' מוגדר כ-:
:<math>
\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}</math>
 
כאשר ''E'' מציין [[תוחלת]] ו-cov מציין [[שונות משותפת]]. מההגדרה ניתן לראות כי מקדם המתאם הוא סימטרי, כלומר מקדם המתאם בין ''X'' ל-''Y'' שווה בערכו למקדם המתאם בין ''Y'' ל-''X''. כמו כן, מכיוון שלפי ההגדרה במכנה הנוסחה מופיעות סטיות התקן של המשתנים ''X'' ו-''Y עולה כי המקדם'' מוגדר אך ורק אם שתי סטיות התקן הן סופיות ולא אפסיות.
 
== תכונות ==
בעזרת [[אי-שוויון קושי-שוורץ]], ניתן להוכיח כי ערכו של מקדם המתאם חסום בין 1 ל־‎-1.
 
כן ניתן להוכיח כי:
 
# כאשר מתקיים קשר ליניארי חיובי מלא בין שני המשתנים ערכו של מקדם המתאם שווה ל-1.
# כאשר מתקיים קשר ליניארי שלילי מלא בין שני המשתנים ערכו של מקדם המתאם שווה ל-1-.
# כאשר המשתנים המקריים מתאם ''X'' ו-''Y'' [[בלתי מתואמים]] ערכו של מקדם המתאם שווה ל-0.
# כאשר המשתנים המקריים מתאם ''X'' ו-''Y'' [[בלתי תלויים]] ערכו של מקדם המתאם שווה ל-0.
 
יש לשים לב כי ייתכן מצב בו ''X'' ו-''Y'' אינם בלתי תלויים במובן ההסתברותי, אך מקדם המתאם ביניהם בכל זאת שווה לאפס. עם זאת כאשר ל-''X'' ול-''Y'' יש [[התפלגות דו-נורמלית|התפלגות משותפת דו-נורמלית]] אזי אם מקדם המתאם ביניהם שווה לאפס נובע מכך כי משתנים אלה הינם בלתי תלויים.
 
== הגדרה סטטיסטית ==
ניתוחים סטטיסטיים מסתמכים בדרך כלל על מדגם של נתונים מתוך אוכלוסייה. במקרה כזה בו קיימים נתוני המדגם ניתן [[אמידה|לאמוד]] את מקדם המתאם של פירסון באופן הבא:
 
:<math>R = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i (x_i-\bar{x})^2 \sum_i(y_i-\bar{y})^2}}</math>
 
כאשר <math>\bar{x}</math> הוא ממוצע ערכי <math>x</math> ו-<math>\bar{y}</math> ממוצע ערכי <math>y</math>, והסכימה היא על כל ערכי הנתונים מהמדגם.
 
מההגדרה ניתן לראות כי מקדם המתאם הוא סימטרי, כלומר מקדם המתאם בין ''X'' ל-''Y'' שווה בערכו למקדם המתאם בין ''Y'' ל-''X''
 
יש להדגיש כי למרות שהחישוב על פי הנוסחא מתאפשר כאשר X ו-Y מקבלים ערכים מספריים כלשהם, אין משמעות לערכו של מקדם המתאם אם X ו-Y אינם משתנים כמותיים, כלומר נמדדים בסולם מנה או סולם רווח (ראו: [[סולמות מדידה]]).
 
כן ניתן להוכיח כי:
באופן דומה להוכחה לגבי הערך התאורטי של מקדם המתאם, ניתן להוכיח כי ערכו של האמד ''R'' נע בין 1- ל-1, וכי הערך 1 יתקבל כאשר יש קשר ליניארי חיובי מלא בין המשתנים, והערך 1- יתקבל כאשר יש קשר ליניארי שלילי מלא בין המשתנים. עם זאת, במקרים רבים יימצאו קשרים בערכי ביניים בין שני ערכי הקיצון, וערכים אלה נתונים לפרשנות. לדוגמה: אם ערכו של ''R'' שווה ל-0.8, הפרשנות המקובלת היא כי בין שני המשתנים קיים קשר ליניארי חיובי בעוצמה גבוהה. מקובל לפרש את ערכי מקדם המתאם באופן הבא:
* ערכו של האמד ''R'' נע בין 1- ל-1 (בעזרת אי שוויון קושי-שוורץ).
#* הערך 1 יתקבל כאשר מתקייםיש קשר ליניארי חיובי מלא בין שני המשתנים ערכו של מקדם המתאם שווה ל-1.
#* הערך 1- יתקבל כאשר מתקייםיש קשר ליניארי שלילי מלא בין שני המשתנים. ערכו של מקדם המתאם שווה ל-1-.
 
באופןעם דומה להוכחה לגבי הערך התאורטי של מקדם המתאםזאת, ניתןברוב להוכיח כי ערכו של האמדהמקרים ''R'' נע בין 1- ל-1, וכי הערך 1 יתקבל כאשר יש קשר ליניארי חיובי מלא בין המשתנים, והערך 1- יתקבל כאשר יש קשר ליניארי שלילי מלא בין המשתנים. עם זאת, במקרים רבים יימצאו קשריםיקבל בערכיערכי ביניים בין שני ערכי הקיצון, וערכים אלה נתונים לפרשנות. לדוגמה: אם ערכו של ''R'' שווה ל-0.8, הפרשנות המקובלת היא כי בין שני המשתנים קיים קשר ליניארי חיובי בעוצמה גבוהה. מקובל לפרש את ערכי מקדם המתאם באופן הבא:
 
# עוצמת הקשר הליניארי בין המשתנים: ככל שהערך קרוב יותר ל־1+ או ל־1- אזי עוצמת הקשר חזקה יותר.
שורה 39 ⟵ 27:
# כאשר ערכו של מקדם המתאם קרוב לאפס הקשר הליניארי בין שני המקדמים חלש.
 
יש להדגיש כי גם כאשר ערכו ששל מקדם המתאם קרוב לאפס או אפילו שווה לאפס, אין להסיק מכך כי אין קשר בין שני המשתנים, כיוון שייתכן כי בין המשתנים קיים קשר אחר שאינו ליניארי. לדוגמה: אם ערכי X שווים לערכים השלמים שבין 10- ל-10 (כלומר ערכי X הן 10-, 9-, 8-, וכן הלאה עד 8, 9, 10) ואילו Y שווה ל-X<supmath>X^2</supmath>, ערכו של מקדם המתאם יהיה שווה ל-0 למרות שברור כי יש קשר בין שני המשתנים. כמו כן, אין להסיק מערכים הקרובים ל-1 או 1- כי קיים [[קשר סיבתי עובדתי|קשר סיבתי]] בין שני המשתנים X ו-Y.
 
== אנלוגיה מתמטית הסתברותית ==
מבחינה מתמטית, המתאם הליניאריההסתברותי בין שני [[משתנה מקרי|משתנים מקריים]] ''X'' ו-''Y'' עם [[תוחלת|תוחלות]] &mu;<sub>''X''</sub> ו-&mu;<sub>''Y''</sub> ו[[סטיית תקן|סטיות תקן]] &sigma;<sub>''X''</sub> ו-&sigma;<sub>''Y''</sub> מוגדר על פי הנוסחה הבאה:
 
:<math>
\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}</math>
 
כאשר ''E'' מציין [[תוחלת]] ו-cov מציין [[שונות משותפת]]. מההגדרה ניתן לראות כי מקדם המתאם הוא סימטרי, כלומר מקדם המתאם בין ''X'' ל-''Y'' שווה בערכו למקדם המתאם בין ''Y'' ל-''X''. כמו כן, מכיוון שלפי ההגדרה במכנה הנוסחה מופיעות סטיות התקן של המשתנים ''X'' ו-''Y עולה כי המקדם'' מוגדר אך ורק אם שתילכל סטיותאחד התקןמהמשתנים הן<math>X</math> סופיותו-<math>Y</math> ולאקיימת אפסיות.שונות סופית וחיובית.
 
אם מקדם המתאם ההסתברותי שןןה ל-0 נאמר כי המשתנים <math>X</math> ו-<math>Y</math> הינם "בלתי מתואמים".
 
התכונות של מקדם המתאם ההסתברותי דומות שלאה של מקדם המתאם של פירסון. בנוסף, קל להוכיח כי אם המשתנים <math>X</math> ו-<math>Y</math> הינם בלתי תלויים, הרי שהם בלתי מתואמים. הטענה ההפוכה אינה נכונה: קיימים משתנים מקריים בלתי מתואמים שאינם בלתי תלויים. דומה טריוויאלית היא אשר <math>X</math> הוא משתנה מקרי בעל תוחלת 0, ו-<math>Y=X^2</math>.
 
== הרחבות ==
קיימות מספר הרחבות למקדם המתאם של פירסון. הידועה שבהם היא [[מקדם ספירמן|מקדם המתאם של ספירמן]], בו מקדם המתאם מחושב על פי הדרגות של המשתנים, כלומר הערך הנמוך ביותר של X מקבל דרגה השווה ל-1, הערך השני הנמוך ביותר מקבל דרגה 2 וכן הלאה. מקדם זה מתאים לאמידת עוצמת הקשר בין שני משתנים הנמדדים בסולם סודר. הפרשנות של ערכי מקדם המתאם של ספירמן דומה לזו של מקדם פירסון. עם זאת, אין להסיק כי כאשר ערך מקדם המתאם של ספירמן שווה ל-1 אזי קיים קשר ליניארי מלא בין המשתנים, אך ניתן להסיק כי קיים ביניהם [[קשר מונוטוני]].
 
כן קיימות הרחבות למתאם חלקי, מתאם מתוקן, מתאם ממושקל, מתאם כאשר המשתנים אינם סימטריים סביב הממוצע שלהם ועוד.