רגרסיה ליניארית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
שורה 8:
בבסיס השיטה עומדת ההנחה כי ה[[מודל]] המסביר את הקשר בין המשתנים הוא '''מודל לינארי''', כלומר, שמשוואה מסוג <math>\ Y = aX+b+error</math> תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות <math>\ (X_1,Y_1),\dots,(X_n,Y_n)</math>, מתקיים הקשר <math>\ Y_i = a X_i + b + \epsilon_i</math>, כאשר a ו-b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה <math>\ \epsilon_1,\dots,\epsilon_n</math> הם [[משתנים בלתי תלויים]] בעלי [[התפלגות נורמלית]], שהתוחלת שלה 0, והשונות שלה, <math>\ \sigma^2</math>, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).
 
המטרה הראשונה של הרגרסיה הלינארית היא לסייע ב[[אמידה|אמידת]] Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים קשר לינארי בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר <math>\ Y=2X+4</math>, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.
[[קובץ:LinearRegression.svg|שמאל|ממוזער|300px|הקו <math>\ y=\hat{a}x+\hat{b}</math> תמיד עובר דרך נקודת הממוצעים]]
את ערכי הפרמטרים a ו-b אומדים, מתוך המדגם, באמצעות [[שיטת הריבועים הפחותים]]: מחפשים את המספרים <math>\ \hat{a},\hat{b}</math> שעבורם סכום הריבועים <math>\ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2</math> הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים [[אומד נראות מקסימלית]] של a ו-b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים <math>\ (\bar{X},\bar{Y})</math>, כלומר, <math>\ \hat{a}\bar{X}+\hat{b}=\bar{Y}</math>.