רגרסיה ליניארית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
?
שורה 6:
המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: משתנה בלתי תלוי X שהוא [[שיטות מחקר - מונחים|המשתנה המסביר]], ומשתנה תלוי Y שהוא המשתנה המוסבר. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על פי משקלו של הזרע שממנו הוא צומח (X, בגרמים).
 
בבסיס השיטה עומדת ההנחה כי ה[[מודל מתמטי|מודל]] המסביר את הקשר בין המשתנים הוא '''מודל ליניארי''', כלומר, שמשוואה מסוג <math>\ Y = aX+b+error</math> תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות <math>\ (X_1,Y_1),\dots,(X_n,Y_n)</math>, מתקיים הקשר <math>\ Y_i = a X_i + b + \epsilon_i</math>, כאשר a ו-b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה <math>\ \epsilon_1,\dots,\epsilon_n</math> הם [[משתנים בלתי תלויים]] שווי [[התפלגות הסתברות|התפלגות]], שהתוחלת שלה 0, והשונות שלה, <math>\sigma^2</math>, קבועה (אבל אולי בלתי ידועה). לעיתים רבות מניחים גם כי ההתפלגות של גורמי השגיאה היא [[התפלגות נורמלית|נורמלית]].
 
המטרה הראשונה של הרגרסיה הליניארית היא לסייע ב[[אמידה|אמידת]] Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים קשר ליניארי בין משקל הזרע לבין גובה העץ, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר <math>\ Y=2X+4</math>, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.