מתאם פירסון – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
תיקון אי דיוקים מתמטיים וסטטיסטיים, ארגון מחדש של הערך. שמירת ביניים.
ארגון מחדש של הערך לפי פיסקאות, הבהרה של משפטים לא מדוייקים מתמטית או סטטיסטית, הפרדה בין ההגדרה המתמטית וההדגרה הסטטיסטית
שורה 1:
'''מתאם פירסון''', או בשמו המלא '''מקדם המתאם של פירסון''' (Pearson), על שם [[קרל פירסון]], הוא [[מדד]] ל[[מתאם]] [[פונקציה ליניארית|ליניארי]] בין שתישני [[קבוצהמשתנים (מתמטיקה)|קבוצות]] של [[מספר]]יםמקריים. כאשר מדובר בעיבוד נתונים [[סטטיסטיקה|סטטיסטי]], ההתייחסות היא בדרך כלל לקשר סימטרי בין שני [[משתנה|משתנים]] שערכיהם מתקבלים [[מדגם|במדגם]]. ערכי המדדהמקדם נעים בין (1-) לבין (1+). מקובל לסמן את ערך מקדם המתאם באות R כאשר הוא מחושב מתוך נתונים שהתקבלו במדגם, ובאות היוונית <math>\rho</math>כאשר דנים בערכו התיאורטי של המקדם.
 
== היסטוריה ==
הרעיון הבסיסי למקדם המתאם הוצע על ידי [[פרנסיס גולטון|פרנסיס גאלטון]] בשנות השמונים של המאה ה-19, שניסה למדוד קשרים בין משתנים תצפיתיים. קרל פירסון גיבש את רעיונותיו של גאלטון והציג את הנוסחה המקובלת כיום ברשאית המאה העשרים. [[רונלד פישר]] חישב את התפלגותו של מקדם המתאם כאשר מקור התצפיות בהתפלגות נורמלית, ואיפשר בכך [[הסקה סטטיסטית]] על ערכו התיאורטי של המקדם.
 
== הגדרה ותכונות ==
שורה 23 ⟵ 26:
כן ניתן להוכיח כי:
 
*# כאשר מתקיים קשר לינארי חיובי מלא בין שני המשתנים ערכו של מקדם המתאם שווה ל-1.
*# כאשר מתקיים קשר לינארי שלילי מלא בין שני המשתנים ערכו של מקדם המתאם שווה ל-1-.
*# כאשר המשתנים המקריים מתאם ''X'' ו-''Y'' [[בלתי מתואמים]] ערכו של מקדם המתאם שווה ל-0.
# כאשר המשתנים המקריים מתאם ''X'' ו-''Y'' [[בלתי תלויים]] ערכו של מקדם המתאם שווה ל-0.
 
יש לשים לב כי כי ייתכן מצב בו ''X'' ו-''Y'' אינם בלתי תלויים במובן ההסתברותי, אך מקדם המתאם בינהם בכל זאת שווה לאפס. עם זאת כאשר ל-''X'' ול-''Y'' יש [[התפלגות דו-נורמלית|התפלגות משותפת דו-נורמלית]] אזי אם מקדם המתאם בינהם שווה לאפס נובע מכך כי משתנים אלה הינם בלתי תלויים.
במקרים רבים יימצאו קשרים בערכי ביניים, לדוגמה: מתאם של 0.8+ פירושו שקיים קשר לינארי חיובי בעוצמה גבוהה.
 
== יישומים ==
מקדם המתאם של פירסון מספק מידע בשני מישורים:
כאשרניתוחים קיימיםסטטיסטיים נתונימסתמכים בדרך כלל על מדגם של נתונים מתוך אוכלוסיה. האוכלוסייהבמקרה כולה,כזה בו קיימים נתוני המדגם ניתן [[אמידה|לאמוד]] את מקדם המתאם של פירסון גם באופן הבא:
# עוצמת הקשר הלינארי בין המשתנים: ככל שהערך קרוב יותר ל־1+ או ל־1- הוא עוצמת הקשר חזקה יותר.
 
:<math>\rhoR = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i (x_i-\bar{x})^2 \sum_i(y_i-\bar{y})^2}}</math>
 
כאשר <math>\bar{x}</math> הוא ממוצע ערכי <math>x</math> ו-<math>\bar{y}</math> ממוצע ערכי <math>y</math>, והסכימה היא על כל ערכי הנתונים מהמדגם.
 
יש להדגיש כי למרות שהחישוב על פי הנוסחא מתאפשר כשר X ו-Y מקבלים ערכים מספריים כלשהם, בדרך כלל אין משמעות לערכו של מקדם המתאם אם הם לא משתנים כמותיים, כלומר נמדדים בסולם מנה או סולם רווח (ראו: [[סולמות מדידה]]).
 
באופן דומה להוכחה לגבי הערך התיאורטי של מקדם המתאם, ניתן להוכיח כי ערכו של האמד ''R'' נע בין 1- ל-1, וכי הערך 1 יתקבל כאשר יש קשר לינארי חיובי מלא בין המשתנים, והערך 1- יתקבל כאשר יש קשר לינארי שלילי מלא בין המשתנים. עם זאת, במקרים רבים יימצאו קשרים בערכי ביניים בין שני ערכי הקיצון, וערכים אלה נתונים לפרשנות. לדוגמה: אם ערכו של ''R'' שווה ל-0.8, הפרשנות המקובלת היא כי בין שני המשתנים קיים קשר לינארי חיובי בעוצמה גבוהה. מקובל לפרש את ערכי מקדם המתאם באופן הבא:
 
# עוצמת הקשר הלינארי בין המשתנים: ככל שהערך קרוב יותר ל־1+ או ל־1- הואאזי עוצמת הקשר חזקה יותר.
# כיוון הקשר הלינארי בין המשתנים: ערך חיובי פירושו קשר לינארי חיובי. ערך שלילי פירושו קשר לינארי שלילי (הפוך).
# כאשר ערכו של מקדם המתאם קרוב לאפס הקשר הלינארי בין שני המקדמים חלש.
 
יש להדגיש כי גם כאשר ערכו ששל מקדם המתאם קרוב לאפס או אפילו שווה לאפס, אין להסיק מכך כי אין קשר בין שני המשתנים, כיוון שייתכן כי בין המשתנים קיים קשר אחר שאינו לינארי. לדוגמה: אם ערכי X שווים לערכים השלמים שבין 10- ל-10 (כלומר ערכי X הן 10-, 9-, 8-, וכן הלאה עד 8, 9, 10) ואילו Y שווה ל-X<sup>2</sup> ערכו של מקדם המתאם יהיה שווה ל-0 למרות שברור כי יש קשר בין שני המשתנים. כמו כן, אין להסיק מערכים הקרובים ל-1 או 1- כי קיים [[קשר סיבתי עובדתי|קשר סיבתי]] בין שני המשתנים X ו-Y.
מבחינה מתמטית, המתאם בין שני [[משתנה מקרי|משתנים מקריים]] ''X'' ו-''Y'' עם [[תוחלת|תוחלות]] &mu;<sub>''X''</sub> ו-&mu;<sub>''Y''</sub> ו[[סטיית תקן|סטיות תקן]] &sigma;<sub>''X''</sub> ו-&sigma;<sub>''Y''</sub> מוגדרת על פי הנוסחה הבאה:
 
== הרחבות ==
:<math>
קיימות מספר הרחבות למקדם המתאם של פירסון. הידועה שבהם היא [[מקדם ספירמן|מקדם המתאם של ספירמן]], בו מקדם המתאם מחושב על פי הדרגות של המשתנים, כלומר הערך הנמוך ביותר של X מקבל דרגה השווה ל-1, הערך השני הנמוך ביותר מקבל דרגה 2 וכן הלאה. מקדם זה מתאים לאמידת עוצמת הקשר בין שני משתנים הנמדדים בסולם סודר.הפרשנות של ערכי מקדם המתאם של ספירמן דומה לזו של מקדם פירסון. עם זאת, אין להסיק כי כאשר ערך מקדם המתאם של ספירמן שווה ל-1 אזי קיים קשר לינארי מלא בין המשתנים, אך ניתן להסיק כי קיים בינהם [[קשר מונוטוני]].
\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}</math>
 
כן קיימות הרחבות למתאם חלקי, מתאם מתוקן, מתאם ממושקל, מתאם כאשר המשתנים אינם סימטריים סביב הממוצע שלהם ועוד.
כאשר ''E'' פירושה [[תוחלת]] ו-cov היא [[שונות משותפת]]. מההגדרה ניתן לראות כי מקדם המתאם הוא סימטרי, כלומר מקדם המצתאם בין ''X'' ל-''Y'' שווה בערכו למקדם המתאם בין ''Y'' ל-''X''. כמו כן, מכיוון שלפי ההגדרה במכנה הנוסחה מופיעות סטיות התקן של המשתנים ''X'' ו-''Y עולה כיה מקדם'' מוגדר אך ורק אם שתי סטיות התקן הן סופיות ולא אפסיות.
 
פירסון עצמו ניסה להרחיב את מקדם המתאם כך שיוכל למדוד את הקשר בין שני משתנים קטגוריים (כלומר משתנים המקבלים מספר סופי של ערכים) הנמדדים בסולם סדר. הוא פיתח שני מדדים: מקדם המתאם הטטרכורי ומקדם המתאם הפוליכורי. השימוש במדדים אילו מצומצם, אם כי יש תוכנות מחשב המאפשרות את חישוב המדדים האלה.
בערת [[אי-שוויון קושי-שוורץ]], ניתן להוכיח כי ערכו של מקדם המתאם חסום בין 1 ל־‎-1.
 
== ראו גם ==
מאחר ש-<math>\ \mu_X = E(X) </math> ו-<math>\ \sigma_X = \sqrt{E(X^2)-E^2(X)}</math>, ובאופן דומה גם ל-''Y'', אפשר לרשום את מקדם המתאם בצורה:
 
*[[שונות משותפת]]
:<math>\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}</math>
*[[מתאם אקראי]]
*[[סטטיסטיקה#מדדי קשר|מדדי קשר]]
*[[מתאם ספירמן]]
 
== קישורים חיצוניים ==
כאשר קיימים נתוני מדגם מתוך אוכלוסיה האוכלוסייה כולה, ניתן [[אמידה|לאמוד]] את מקדם המתאם של פירסון גם באופן הבא:
 
* [http://www.sci-princess.info/archives/tag/correlation אוסף פוסטים בנושא מתאם] - ד"ר יוסי לוי - [http://www.sci-princess.info/ נסיכת המדעים]
:<math>\rho = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i (x_i-\bar{x})^2 \sum_i(y_i-\bar{y})^2}}</math>
 
כאשר <math>\bar{x}</math> הוא ממוצע ערכי <math>x</math> ו-<math>\bar{y}</math> ממוצע ערכי <math>y</math>.
 
[[קטגוריה:סטטיסטיקה]]