רגרסיה ליניארית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
אין תקציר עריכה
הגהה, ניסוח, קישורים פנימיים, עוד דברים קטנים
שורה 2:
 
== הגדרה ==
תהי <math>Y:=\{y_i\}^{n}_{i=1}</math> [[סדרה]] בת <math>n</math> איברים של ערכי משתנה <math>Y</math>, ו <math>\bigcup_{j=1}^k\{X_j\}</math> משפחה של קבוצות שאיבריהן הסדרות: <math>X_j:=\{x_{j_i}\}^{n}_{i=1} , \forall{j=1,2,...,n}</math>. לכל [[אינדקס (מתמטיקה)|אינדקס]] <math>i</math> נגדיר את [[וקטור שורה|הווקטור]]: <math>(y_i,x_{1_i},x_{2_i},...,x_{k_i})</math>.
 
תחת הנחת הלינאריות נאמר כי רכיבי הווקטור מקיימים את הקשר הלינארי הבא:
שורה 11:
* <math>\varepsilon_i</math> הוא [[משתנה מקרי]] שערכו הנקודתי נגזר מהפער בין הקשר הלינארי בין ערכי הסדרות <math>X_j</math> באינדקס ה-<math>i</math>י, ובין ערך הסדרה <math>Y</math> בנקודה זו. משתנה זה נקרא ''ההפרעה המקרית'', או ''השונות המקרית'' של המודל ומבטא את השינוי בערכי <math>Y</math>, שאינם מוסברים על ידי שינוי בערכי <math>\bold{X}_1,\dots,\bold{X}_k</math>.
* <math>\beta_i</math> הוא המקדם של <math>x_{j_i}</math> במשוואה.
המודל הלינארי המלא הינוהוא [[מערכת משוואות לינאריות|מערכת]] של <math>n</math> משוואות ב-<math>k</math> נעלמים, המסומן:
 
<math>\bold{y=X}\bold{\beta+\varepsilon}</math>
שורה 34:
 
==== משוואת הניבוי של המודל הלינארי ====
המודל המוצג לעיל הינוהוא תאורטי בלבד, ומניח למעשה כי דגמנו מאוכלוסייה בת <math>n</math> פרטים, את כלל הפרטים. במציאות, דגימה של כלל האוכלוסייה לרבלרוב אינה אפשרית, ועל כן אנונהוג בוניםלבנות את משוואת הניבוי באמצעות אומדים למודל הלינארי של האוכלוסייה. במקרה זה, נחפש וקטור פתרונות <math>\bold{b}</math>, עבור המשוואה: <math>\bold{y=X}\bold{b+\varepsilon}</math>.
 
===== אומדים חסרי הטיה =====
מכיוון שהווקטור <math>\bold{b}</math> מקיים את השוויון: <math>\bold{y=X}\bold{b+\varepsilon}</math> ולא את השוויון: <math>\bold{y=X}\bold{b}</math>, בכל מקרה בו <math>\varepsilon_i\neq0</math> נקבל: <math>P(x_{1_i},\dots,x_{k_i})=y\neq y_i</math>, ועל כן נשאף למצוא וקטור <math>\bold{b}</math> כך ש: <math>argmin_\bold{b} P(|y_i-y|)</math>.
 
מכיוון שדגמנו <math>n</math> ערכים של המשתנה <math>Y</math>, נדרוש את הדרישה השקולה: <math>argmin_{\bold{b}}\sum_{i=1}^N[y_i-P(x_{1_i},\dots,x_{k_i})]^2</math>
שורה 50:
* '''אומד חסר הטיה באופן [[אסימפטוטי]]-''' יקיים: <math>\lim_{n \to \infty} ({E(\bold{b}})-\beta)=0</math>
* '''עקיבות-''' אומד חסר הטיה באופן אסימפטוטי המקיים גם: <math>\lim_{n\rightarrow \infty}V(\bold{b})=0</math>
תכונות אלו יחדיו, מבטיחות כי הגדלת גודל המדגם עליו מבוססת משוואת האמידה, תקרב אותנו לפרמטרים האמיתיים של האוכלוסייה, דהיינו, אל <math>\beta</math>.
 
===== ההנחות הקלאסיות =====
קיומו של [[אומד חסר הטיה,]] אינו מובטח עבור כל סדרת תצפיות שנבחר, ועל כן עלינו לודאלוודא כי מתקיימות בנוסף ההנחות הבאות:
* '''תוחלת 0 של ההפרעה המקרית-''' לכל <math>\varepsilon_i</math>, נדרוש שיתקיים: <math>E(\varepsilon_i)=0</math>.
* '''[[הומוסקדסטיות]] (הנחת השונות הקבועה)-''' לכל <math>\varepsilon_i</math>, נדרוש שיתקיים: <math>V(\varepsilon_i)=\sigma^2</math>, הווה אומר- עבור זוג וקטורים: <math>(x_1,\dots,x_k)\neq (x'_1,\dots,x'_k)</math>, שונות ההפרעה המקרית קבועה, וזהה.
* '''ההפרעה המקרית מתפלגת נורמלית-''' לכל <math>\varepsilon_i</math> מתקיים: <math>\varepsilon_i\sim N(0,\sigma^2)</math> הנחה זו נובעת ישירות משתי ההנחות הקודמות, אך בגלל חשיבותה הקדשנו לה סעיף נפרד.
* '''חוסר מתאם סדרתי-''' אין תלות בין ההפרעות המקריות, דהיינו: <math>\forall{i\neq j}, Cov(\varepsilon_i,\varepsilon_j)=0</math>.
* <math>\bold{X_j}</math> '''אינו משתנה מקרי-''' מהנחה זו משתמע כי אין מתאם בין השונות המקרית למשתנה המסביר, כלומר: <math>Cov(x_{j_i},\varepsilon_i)=0</math>.
* '''איסור מולטיקולינאריות מושלמת-''' לכל משתנה מסביר <math>\bold{X_j}</math>, נניח כי: <math>V(\bold{X_j})\neq 0</math>.
=== אמידה במקרים בהם לא מתקיימות ההנחות הקלאסיות===
לא בכל מדגם שנאסוף יתקיימו כלל ההנחות שמנינו לעיל, לרבלרוב בעקבות תכונות של האוכלוסייה ממנה נלקחו התצפיות, או מגבלות באיסוף התצפיות עצמן. במקרים כאלו, לא ניתן להשתמש בשיטת הריבועים הפחותים לאמידת המודל, ונדרש להשתמש בשיטות אמידה אחרות, שמניבות אומדים חסרי הטיה, תחת הנחות מקלות יותר.
במציאות, סדרות נתונים לרבלרוב לא יקיימו את כלל ההנחות הקלאסיות, ועל כן לאורך השנים התפתחו שיטות אמידה רבות, אשר קצרה היריעה מלאזכר. את השיטות השונות ניתן לחלק למספר קטגוריות, בהתאם להנחות שהן מתירות להפר:
* '''אמידה של סדרות עתיות-''' שיטות המטפלות בסדרות בהן קיים מתאם סדרתי. השיטה הנפוצה, והפשוטה ביותר, לטפל בסדרות נתונים מסוג זה היא באמצעות החלקה מעריכית- התמרה (החלפה) של ערכי הסדרות בהן קיים מתאם סדרתי לערכי הלוגריתם הטבעי של הפרש התצפיות.
* '''אמידה של סדרות בהן המשתנה המוסבר מקבל ערכים בדידים-''' במקרים אלו המשתנה המוסבר שלנו איכותני, ולא כמותי, ועל כן התפלגותו תהיה [[התפלגות בינומית|בינומית]], [[התפלגות ברנולי|ברנולי]], או [[התפלגות פואסון|פואסונית]]. השיטה הנפוצה ביותר להתמודד עם משתנים מסוג זה היא שימוש ברגרסיה ממשפחת LOGIT, בה פתרונות המערכת הלינארית תמיד יקבלו ערכים המתיישבים עם ההסתברות לקבל את ערכי המשתנה המוסבר, בהתפלגויות בדידות.
* '''אמידה בייזיאנית-''' נועדה להתמודד עם משתנים מסבירים מקריים. במקרים אלו, האומדים שנקבל לא ינבעו מוקטורמווקטור פתרונות יחיד, אלא משפחה של התפלגויות פוסטריוריות, המחילות את אי-הודאות סביב קבלת ערכי המסבירים האפשריים.
 
== דוגמאות ==
שורה 87:
 
==שימושים של רגרסיה לינארית==
לרגרסיה לינארית שימוש נרחב במדעיב[[מדעי החיים]], [[מדעי החברה]] ומדעיו[[לימודי מדעי ההתנהגות|מדעי ההתנהגות]] לתיאור קשרים אפשריים בין משתנים. היא נחשבת כאחד מהכלים החשובים שנעשה בהם שימוש בדיסציפלינות הללו.
 
'''==== קו מגמה''' ====
 
קו זה מייצג מגמה, תנועה לטווח ארוך לאורך נתונים על ציר הזמן לאחר התחשבות בגורמים אחרים. הוא אומר לנו האם אוסף נתונים מסוים (לדוגמה תמ"ג, מחירי נפט או מחירי מניה) עלה או ירד לאורך תקופת זמן מסוימת. ניתן לצייר קו מגמה בצורה פשוטה יחסית על ידי מבט בתצפיות, אך ליתר דיוק יש לחשב את מיקום הנקודה והשיפוע על ידי כלים סטטיסטיים כמו רגרסיה לינארית. בדרך כלל קווי מגמה הם קווים ישרים אולם יש וריאציות המשתמשות בפולינומים מדרגה גבוהה התלויים ברמת הקעירות הרצויה.
לעתים משמשים קווי מגמה בניתוחים עסקיים כדי להראות שינויים במידע לאורך זמן. יש לכך יתרון של פשטות. קווי מגמה משמשים לרוב כדי לטעון שפעולה או אירוע (כמו אימון או מסע פרסום) גרמו לשינויים שניתנים להבחנה בנקודת זמן. זו טכניקה פשוטה שאינה דורשת קבוצת בקרה, תכנון ניסויי או אנליזה מתוחכמת. למרות זאת, הם סובלים מחוסר אמינות מדעית במקרה ששינויים אחרים יכולים להשפיע על הנתונים.
 
==== אפידמיולוגיה ====
 
ערך{{הפניה ראשי:לערך [[מורחב|אפידמיולוגיה]]}}
ראיות מוקדמות המקשרות עישון טבק למוות ולתחלואה{{מקור}} הגיעו מניסויים שהופעלו בהם ניתוחים רגרסיביים{{מקור}}. במטרה להקטין השפעה של קורלציות עם משתנים אחרים, חוקרים בדרך כלל כוללים מספר משתנים במודל הרגרסיה שלהם, בנוסף למשתנה העיקרי שנחקר.
 
לדוגמה, נניח שיש מודל רגרסיה שבו שיעור העישון של סיגריות הוא משתנה המחקר הבלתי תלוי, והמשתנה התלוי הוא תוחלת חיים, הנמדדת בשנים. חוקרים עלולים לכלול מעמד סוציו-אקונומי כמשתנה בלתי תלוי נוסף, כדי להבטיח שכל שינוי בתוחלת החיים אינו מושפע מגורמים אחרים, כמו: החינוך או ההכנסה. למרות זאת, לעולם לאאין זה אפשרי לכלול את כל המשתנים המשתלבים בניתוח אמפירי.
ראיות מוקדמות המקשרות עישון טבק למוות ולתחלואה{{מקור}} הגיעו מניסויים שהופעלו בהם ניתוחים רגרסיביים. במטרה להקטין השפעה של קורלציות עם משתנים אחרים, חוקרים בדרך כלל כוללים מספר משתנים במודל הרגרסיה שלהם, בנוסף למשתנה העיקרי שנחקר.
לדוגמה, נניח שיש מודל רגרסיה שבו שיעור העישון של סיגריות הוא משתנה המחקר הבלתי תלוי, והמשתנה התלוי הוא תוחלת חיים, הנמדדת בשנים. חוקרים עלולים לכלול מעמד סוציו-אקונומי כמשתנה בלתי תלוי נוסף, כדי להבטיח שכל שינוי בתוחלת החיים אינו מושפע מגורמים אחרים, כמו: החינוך או ההכנסה. למרות זאת, לעולם לא אפשרי לכלול את כל המשתנים המשתלבים בניתוח אמפירי.
לדוגמה, גן כלשהו עלול להגדיל תמותה, ובנוסף לגרום לאנשים לעשן יותר. מסיבה זו, ניסויים מבוקרים אקראיים מסוגלים לרוב לספק ראיה משכנעת יותר של קשרי סיבתיות, שניתן להשיג על ידי שימוש באנליזה רגרסיבית של אוסף נתונים.
כשניסויים מבוקרים לא אפשריים, ניתן להשתמש בדרכים שונות של אנליזה רגרסיבית, כגון רגרסיית משתני עזר, כדי לנסות להעריך קשרי סיבתיות מתוך אוסף נתונים.
 
'''==== פיננסים''' ====
 
מודל לתמחור נכסי הון ([[CAPM]]) משתמש ברגרסיה לינארית, כמו גם במושג [[בטא]], לניתוח וכימות שיטתיים של הסיכון בהשקעה. הקשר נובע ישירות ממקדם בטא של מודל הרגרסיה הלינארית, שמקשר את תשואת ההשקעה לתשואה מכל הנכסים עם אופי סיכון גבוה.
 
'''==== כלכלה''' ====
ערך{{הפניה ראשי:לערך [[מורחב|אקונומטריקה]]}}
 
ערך ראשי: [[אקונומטריקה]]
 
רגרסיה לינארית היא הכלי האמפירי המרכזי בכלכלה. לדוגמה, הוא משמש לחיזוי הוצאות צריכה, הוצאות השקעה קבועות, השקעה באגירת מלאי, רכישות של יצוא של מדינה, הוצאות על יבוא, הדרישה להחזיק בנכנסים נזילים, ביקוש והיצע לעבודה.
 
'''==== מדעי הסביבה''' ====
 
ברגרסיה לינארית נעשה שימוש במגוון רחב של יישומים במדעי הסביבה. בקנדה, "תוכנית הבקרה על ההשפעות הסביבתיות" משתמשת בניתוח סטטיסטי של מחקרים של דגים ושל קרקעית הים למדידת ההשפעות של שפכי עיסה טחונה או מתכות על המערכת הימית האקולוגית.