רגרסיה ליניארית – הבדלי גרסאות
תוכן שנמחק תוכן שנוסף
מ Removing Link GA template (handled by wikidata) |
|||
שורה 5:
המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: [[שיטות מחקר - מונחים|משתנה מסביר]], X, ו[[שיטות מחקר - מונחים|משתנה מוסבר]], Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על-פי משקלו של הזרע ממנו הוא צומח (X, בגרמים).
בבסיס השיטה עומדת ההנחה כי ה[[מודל]] המסביר את הקשר בין המשתנים הוא '''מודל לינארי''', כלומר, שמשוואה מסוג <math>\ Y = aX+b+error</math> תתאר
המטרה הראשונה של הרגרסיה הלינארית היא לסייע ב[[אמידה|אמידת]] Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים קשר בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר <math>\ Y=2X+4</math>, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.
[[תמונה:LinearRegression.svg|שמאל|ממוזער|300px|הקו <math>\ y=\hat{a}x+\hat{b}</math> תמיד עובר דרך נקודת הממוצעים]]
את ערכי הפרמטרים a ו- b אומדים, מתוך המדגם, באמצעות [[שיטת הריבועים הפחותים]]: מחפשים את המספרים <math>\ \hat{a},\hat{b}</math> שעבורם סכום הריבועים <math>\ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2</math> הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים [[אומד נראות מקסימלית]] של a ו- b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים <math>\ (\bar{X},\bar{Y})</math>, כלומר, <math>\ \hat{a}\bar{X}+\hat{b}=\bar{Y}</math>.
|