רגרסיה ליניארית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
Dexbot (שיחה | תרומות)
מ Removing Link GA template (handled by wikidata)
שורה 5:
המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: [[שיטות מחקר - מונחים|משתנה מסביר]], X, ו[[שיטות מחקר - מונחים|משתנה מוסבר]], Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על-פי משקלו של הזרע ממנו הוא צומח (X, בגרמים).
 
בבסיס השיטה עומדת ההנחה כי ה[[מודל]] המסביר את הקשר בין המשתנים הוא '''מודל לינארי''', כלומר, שמשוואה מסוג <math>\ Y = aX+b+error</math> תתאר נכונהנכון את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות <math>\ (X_1,Y_1),\dots,(X_n,Y_n)</math>, מתקיים הקשר <math>\ Y_i = a X_i + b + \epsilon_i</math>, כאשר a ו- b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה <math>\ \epsilon_1,\dots,\epsilon_n</math> הם [[משתנים בלתי תלויים]] בעלי [[התפלגות נורמלית]], שהתוחלת שלה 0, והשונות שלה, <math>\ \sigma^2</math>, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).
 
המטרה הראשונה של הרגרסיה הלינארית היא לסייע ב[[אמידה|אמידת]] Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים קשר בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר <math>\ Y=2X+4</math>, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.
[[תמונה:LinearRegression.svg|שמאל|ממוזער|300px|הקו <math>\ y=\hat{a}x+\hat{b}</math> תמיד עובר דרך נקודת הממוצעים]]
את ערכי הפרמטרים a ו- b אומדים, מתוך המדגם, באמצעות [[שיטת הריבועים הפחותים]]: מחפשים את המספרים <math>\ \hat{a},\hat{b}</math> שעבורם סכום הריבועים <math>\ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2</math> הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים [[אומד נראות מקסימלית]] של a ו- b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים <math>\ (\bar{X},\bar{Y})</math>, כלומר, <math>\ \hat{a}\bar{X}+\hat{b}=\bar{Y}</math>.