רגרסיה ליניארית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
←‏הגדרה: המטריצה היא n*k
טיפונת הסבר מה זה בכלל רגרסיה, זה לא דבר קשה להבנה גם ללא מתימטיקאים; הורדת הפרק הפורמלי מטה.
שורה 1:
{{לערוך|סיבה=כתוב באופן מבולבל, ניקוד ופיסוק באיכות נמוכה|נושא=מדעי הטבע}}
 
'''רגרסיה לינארית''' היא שיטת מתימטית למציאת הקשר בין משתנה בלתי תלוי X למשתנה תלוי Y. השיטה מניחה שבין שבין X ל-Y יש קשר ישיר, כלומר כאשר X גדל או קטן באחוז מסוים Y גדל משתנה באותו אחוז. נוסחת הרגרסיה הלינארית מחשבת את הקו הישר שעובר דרך הנקודות שבמדגם. במצב של קשר ישיר מדויק כל הנקודות במדגם יימצאו על הקו עצמו. במציאות גורמים נוספים משפיעים על המדגם והנקודות לרוב מפוזרות מסביב לקו. הקו מחושב בצורה כזאת שסכום ריבועי המרחקים של הנקודות מהקו הוא הקטן ביותר. רגרסיה לינארית מרובה מחשבת קשר בין מספר משתנים בלתי תלויים יחד, למשתנה תלוי אחד.
'''רגרסיה לינארית''' היא שיטת אמידה [[סטטיסטיקה|סטטיסטית]], לכימות הקשר בין ערכי משתנה תלוי, לערכי משתנים בלתי תלויים. המטרה של אמידה זו היא להסביר את השינוי בערכי המשתנה התלוי, באמצעות השינוי בערכי המשתנים הבלתי תלויים.
 
=== רגרסיה לינארית עם משתנה מסביר יחיד ===
== הגדרה ==
המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: משתנה בלתי תלוי X שהוא [[שיטות מחקר - מונחים|משתנההמשתנה מסבירהמסביר]], X,ומשתנה תלוי Y שהוא ו[[שיטות מחקר - מונחים|משתנההמשתנה מוסברהמוסבר]], Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על פי משקלו של הזרע שממנו הוא צומח (X, בגרמים).
 
בבסיס השיטה עומדת ההנחה כי ה[[מודל]] המסביר את הקשר בין המשתנים הוא '''מודל לינארי''', כלומר, שמשוואה מסוג <math>\ Y = aX+b+error</math> תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות <math>\ (X_1,Y_1),\dots,(X_n,Y_n)</math>, מתקיים הקשר <math>\ Y_i = a X_i + b + \epsilon_i</math>, כאשר a ו-b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה <math>\ \epsilon_1,\dots,\epsilon_n</math> הם [[משתנים בלתי תלויים]] בעלי [[התפלגות נורמלית]], שהתוחלת שלה 0, והשונות שלה, <math>\ \sigma^2</math>, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).
 
המטרה הראשונה של הרגרסיה הלינארית היא לסייע ב[[אמידה|אמידת]] Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר <math>\ Y=2X+4</math>, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.
[[קובץ:LinearRegression.svg|שמאל|ממוזער|300px|הקו <math>\ y=\hat{a}x+\hat{b}</math> תמיד עובר דרך נקודת הממוצעים]]
את ערכי הפרמטרים a ו-b אומדים, מתוך המדגם, באמצעות [[שיטת הריבועים הפחותים]]: מחפשים את המספרים <math>\ \hat{a},\hat{b}</math> שעבורם סכום הריבועים <math>\ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2</math> הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים [[אומד נראות מקסימלית]] של a ו-b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים <math>\ (\bar{X},\bar{Y})</math>, כלומר, <math>\ \hat{a}\bar{X}+\hat{b}=\bar{Y}</math>.
 
חישוב הפרמטרים היסודיים של המדגם (לרבות סטיות התקן של X ושל Y) מאפשר גם [[בדיקת השערות|לבדוק השערות]] סטטיסטיות על a ו-b. לדוגמה, אפשר לבדוק את ההשערה <math>\ a=0</math>, שממנה נובע כי Y אינו תלוי (לינארית) ב-X. למרות שבכל מדגם מעשי יופיע קשר מסוים בין X ל-Y, התורה של בדיקת השערות מאפשרת לזהות מתי קשר זה הוא מקרי בלבד, ומתי הוא מובהק ואינו מקרי.
 
=== רגרסיה מרובה ===
במקרים רבים מבקשים להסביר משתנה יחיד, Y, באמצעות מספר משתנים מסבירים, <math>\ X(1),\dots,X(m)</math>. לדוגמה, ייתכן שכדי להסביר את גובהו של עץ תפוח, יש להתחשב לא רק במשקל הזרע, אלא גם בכמות המשקעים השנתית במקום שבו הוא גדל, בגובהו של העץ שממנו הגיע הזרע, ובמליחות הקרקע. אם ההשפעה של משתנים אלה על Y היא לינארית, מודל הרגרסיה יוכל למצוא (כמקודם), את הפרמטרים המגדירים את הקשר הלינארי, ובכך יסייע לשפר את ההערכה של Y עוד יותר.
 
המודל הבסיסי של הרגרסיה הלינארית גמיש מספיק כדי לאפשר תלות בין המשתנים המסבירים, וניתן לכלול בו גם גורמים שאינם לינאריים (כמו במודל <math>\ Y = aX(1)+bX(1)^2+cX(2)+dX(1)X(2)+error</math>). אחד השימושים העיקריים של המודל הוא במדידת הרלוונטיות של משתנה מסביר, באמצעות השוואת המודל הכולל אותו, למודל המסביר את אותה תופעה בלעדיו. הוספת משתנים משפרת את יכולת ההערכה כמעט ללא יוצא מן הכלל, אבל במקרים רבים השיפור הוא אקראי, ואינו נובע מקשר אמיתי בין המשתנים. גורם עיקרי במענה על שאלות מסוג זה מהווה '''מקדם המתאם המרובה''', המסומן <math>\ R^2</math>, ומתפלג (לאחר תיקון) [[התפלגות F]].
== הגדרה פורמלית ==
תהי <math>Y:=\{y_i\}^{n}_{i=1}</math> [[סדרה]] בת <math>n</math> איברים של ערכי משתנה <math>Y</math>, ו <math>\bigcup_{j=1}^k\{X_j\}</math> משפחה של קבוצות שאיבריהן הסדרות: <math>X_j:=\{x_{j_i}\}^{n}_{i=1} , \forall{j=1,2,...,k}</math>. לכל [[אינדקס (מתמטיקה)|אינדקס]] <math>i</math> נגדיר את [[וקטור שורה|הווקטור]]: <math>(y_i,x_{1_i},x_{2_i},...,x_{k_i})</math>.
 
שורה 69 ⟵ 84:
* '''אמידה של סדרות בהן המשתנה המוסבר מקבל ערכים בדידים-''' במקרים אלו המשתנה המוסבר שלנו איכותני, ולא כמותי, ועל כן התפלגותו תהיה [[התפלגות בינומית|בינומית]], [[התפלגות ברנולי|ברנולי]], או [[התפלגות פואסון|פואסונית]]. השיטה הנפוצה ביותר להתמודד עם משתנים מסוג זה היא שימוש ברגרסיה ממשפחת LOGIT, בה פתרונות המערכת הלינארית תמיד יקבלו ערכים המתיישבים עם ההסתברות לקבל את ערכי המשתנה המוסבר, בהתפלגויות בדידות.
* '''אמידה בייזיאנית-''' נועדה להתמודד עם משתנים מסבירים מקריים. במקרים אלו, האומדים שנקבל לא ינבעו מווקטור פתרונות יחיד, אלא משפחה של התפלגויות פוסטריוריות, המחילות את אי-הודאות סביב קבלת ערכי המסבירים האפשריים.
 
== דוגמאות ==
 
=== רגרסיה לינארית עם משתנה מסביר יחיד ===
המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: [[שיטות מחקר - מונחים|משתנה מסביר]], X, ו[[שיטות מחקר - מונחים|משתנה מוסבר]], Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על פי משקלו של הזרע שממנו הוא צומח (X, בגרמים).
 
בבסיס השיטה עומדת ההנחה כי ה[[מודל]] המסביר את הקשר בין המשתנים הוא '''מודל לינארי''', כלומר, שמשוואה מסוג <math>\ Y = aX+b+error</math> תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות <math>\ (X_1,Y_1),\dots,(X_n,Y_n)</math>, מתקיים הקשר <math>\ Y_i = a X_i + b + \epsilon_i</math>, כאשר a ו-b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה <math>\ \epsilon_1,\dots,\epsilon_n</math> הם [[משתנים בלתי תלויים]] בעלי [[התפלגות נורמלית]], שהתוחלת שלה 0, והשונות שלה, <math>\ \sigma^2</math>, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).
 
המטרה הראשונה של הרגרסיה הלינארית היא לסייע ב[[אמידה|אמידת]] Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר <math>\ Y=2X+4</math>, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.
[[קובץ:LinearRegression.svg|שמאל|ממוזער|300px|הקו <math>\ y=\hat{a}x+\hat{b}</math> תמיד עובר דרך נקודת הממוצעים]]
את ערכי הפרמטרים a ו-b אומדים, מתוך המדגם, באמצעות [[שיטת הריבועים הפחותים]]: מחפשים את המספרים <math>\ \hat{a},\hat{b}</math> שעבורם סכום הריבועים <math>\ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2</math> הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים [[אומד נראות מקסימלית]] של a ו-b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים <math>\ (\bar{X},\bar{Y})</math>, כלומר, <math>\ \hat{a}\bar{X}+\hat{b}=\bar{Y}</math>.
 
חישוב הפרמטרים היסודיים של המדגם (לרבות סטיות התקן של X ושל Y) מאפשר גם [[בדיקת השערות|לבדוק השערות]] סטטיסטיות על a ו-b. לדוגמה, אפשר לבדוק את ההשערה <math>\ a=0</math>, שממנה נובע כי Y אינו תלוי (לינארית) ב-X. למרות שבכל מדגם מעשי יופיע קשר מסוים בין X ל-Y, התורה של בדיקת השערות מאפשרת לזהות מתי קשר זה הוא מקרי בלבד, ומתי הוא מובהק ואינו מקרי.
 
=== רגרסיה מרובה ===
 
במקרים רבים מבקשים להסביר משתנה יחיד, Y, באמצעות מספר משתנים מסבירים, <math>\ X(1),\dots,X(m)</math>. לדוגמה, ייתכן שכדי להסביר את גובהו של עץ תפוח, יש להתחשב לא רק במשקל הזרע, אלא גם בכמות המשקעים השנתית במקום שבו הוא גדל, בגובהו של העץ שממנו הגיע הזרע, ובמליחות הקרקע. אם ההשפעה של משתנים אלה על Y היא לינארית, מודל הרגרסיה יוכל למצוא (כמקודם), את הפרמטרים המגדירים את הקשר הלינארי, ובכך יסייע לשפר את ההערכה של Y עוד יותר.
 
המודל הבסיסי של הרגרסיה הלינארית גמיש מספיק כדי לאפשר תלות בין המשתנים המסבירים, וניתן לכלול בו גם גורמים שאינם לינאריים (כמו במודל <math>\ Y = aX(1)+bX(1)^2+cX(2)+dX(1)X(2)+error</math>). אחד השימושים העיקריים של המודל הוא במדידת הרלוונטיות של משתנה מסביר, באמצעות השוואת המודל הכולל אותו, למודל המסביר את אותה תופעה בלעדיו. הוספת משתנים משפרת את יכולת ההערכה כמעט ללא יוצא מן הכלל, אבל במקרים רבים השיפור הוא אקראי, ואינו נובע מקשר אמיתי בין המשתנים. גורם עיקרי במענה על שאלות מסוג זה מהווה '''מקדם המתאם המרובה''', המסומן <math>\ R^2</math>, ומתפלג (לאחר תיקון) [[התפלגות F]].
 
==שימושים של רגרסיה לינארית==
לרגרסיה לינארית שימוש נרחב ב[[מדעי החיים]], [[מדעי החברה]] ו[[לימודי מדעי ההתנהגות|מדעי ההתנהגות]] לתיאור קשרים אפשריים בין משתנים. היא נחשבת כאחד מהכלים החשובים שנעשה בהם שימוש בדיסציפלינות הללו.