רגרסיה לוגיסטית

רגרסיה לוגיסטית היא מודל סטטיסטי המתאר קשר בין משתנה שמי (כלומר, כזה נמדד באופן כמותי) בעל שתי רמות, המכונה "המשתנה המוסבר", ובין משתנים אחרים המכונים "משתנים מסבירים". המשתנים המסבירים יכולים להיות שמיים, מסוג סדר או רציפים.

שימוש נפוץ במודל הוא כאשר המשתנים המסבירים הם בעלי ערך רציף כלשהוא (למשל - טמפרטורה). במקרים אלו הגרף שנוצר מתאר את ההסתברות להתרחשות של מאורע כלשהוא, כתלות במשתנים הרציפים. המודל לבדו אינו מספיק כדי לקבוע קשר סיבתי בין המשתנים המסבירים והמשתנה המוסבר.

מודל הרגרסיה הלוגיסטית הוא מקרה פרטי של המודל הליניארי המוכלל (GLM).

היסטוריה

מקורותיה של ההתפלגות הלוגיסטית, המהווה את הבסיס למודל הרגרסיה הלוגיסטית הם במאה ה-19. מקורה במשוואה דיפרנציאלית שתיארה מודל לגידול באוכלוסייה, וגם מודלים של ריאקציות כימיות. הסטטיסטיקאי הבלגי אדולף קטלה הבחין כי הפתרון שנמצא למשוואה הנ"ל מוביל לערכים בלתי אפשריים והציע משוואה מתוקנת שכללה פונקציית התפלגות. פונקציית ההתפלגות שהתגלתה בפתרון המשוואה המתוקנת נקראה בשם ההתפלגות הלוגיסטית.

הרעיון הבסיסי של מודל הרגרסיה הלוגיסטית היא כי בהינתן משתנה איכותי (הנמדד בסולם מדידה שמי) המקבל שני ערכים, הערך של משתנה זה נקבע על ידי משתנה נסתר שהתפלגותו היא התפלגות לוגיסטית. מקורו של רעיון זה הוא בניסיונות של קרל פירסון לפתח מקדם מתאם למשתנים איכותיים, כאשר הנחתו הייתה כי ערכם של המשתנים האיכותיים נקבע על ידי משתנה נסתר בעל התפלגות נורמלית. סיר דויד קוקס אימץ את הרעיון הזה ופיתח על פיו את מודל הרגרסיה הלוגיסטית שהציג ב-^[1]1958.

מוטיבציה

יהי $Y$ משתנה איכותי המקבל ללא הגבלת הכלליות שני ערכים: 1 ו-0, ויהי $X$ משתנה מסביר כלשהו.

כדי לבנות מודל לקשר אפשרי בין $Y$ ובין $X$ נניח מספר הנחות:

קיים משתנה רציף $Y^{*}$ , כך שערכו של $Y$ שווה ל-0 אם ערכו של $Y^{*}$ קטן מסף כלשהו, וערכו של $Y$ שווה ל-1 אם ערכו של $Y^{*}$ גדול מסף זה. יש לשים לב כי $Y^{*}$ אינו חלק מהנתונים אלא חלק מהמודל. ללא הגבלת הכלליות נניח כי ערך הסף שווה ל-0, כלומר $Y=1$ אם ורק אם $Y^{*}>0$ .
קיים קשר ליניארי בין $Y^{*}$ ובין $X$ המבוטא על ידי המודל $Y^{*}=\beta _{0}+\beta _{1}\cdot X+\epsilon$
התפלגותו של $\epsilon$ היא התפלגות לוגיסטית: $F(t)={\frac {e^{t}}{1+e^{t}}}$ לכל $t$ ממשי.

כן נניח למען הפשטות כי $X$ הוא משתנה בדיד.

נסמן $p=P(Y=1|X=x)$ ולכן $P(Y=0|X=x)=1-p$ .

על פי ההנחה הראשונה אודות הקשר בין $Y$ ובין $Y^{*}$ נקבל כי $p=P(Y=1|X=x)=P(Y^{*}>0|X=x)$

על פי ההנחה השנייה אודות הקשר בין $X$ ובין $Y^{*}$ נקבל כי $p=P(Y^{*}>0|X=x)=P(\beta _{0}+\beta _{1}\cdot x+\epsilon >0)=P(\epsilon <\beta _{0}+\beta _{1}\cdot x)$

על פי ההנחה השלישית אודות ההתפלגות של $\epsilon$ נקבל כי $p=P(\epsilon <\beta _{0}+\beta _{1}\cdot x)={\frac {e^{\beta _{0}+\beta _{1}\cdot x}}{1+e^{\beta _{0}+\beta _{1}\cdot x}}}$

ולכן $\log({\frac {p}{1-p}})=\beta _{0}+\beta _{1}\cdot x$

תאוריה

הגדרה פורמלית

יהי Y משתנה מקרי בינארי המקבל ללא הגבלת הכלליות את הערכים 0 ו-1, ויהי $X$ משתנה מקרי רב ממדי $X=(X_{1},...,X_{I})$ . נסמן: $\pi (x)=P(Y=1|X_{1}=x_{1},...,X_{I}=x_{I})$ ו- $\mathbf {x} =(x_{1},...,x_{I})$ .

מודל הרגרסיה הלוגיסטית הוא $\log {\frac {\pi (\mathbf {x} )}{1-\pi (\mathbf {x} )}}=\beta _{0}+\beta _{1}\cdot \ x_{1}+...+\beta _{I}\cdot \ x_{I}$

הטרנספורמציה $\log({\frac {m}{1-m}})$ מכונה טרנספורמציית לוגיט.

אמידה

בהינתן מדגם בגודל $N$ , יהיו $y_{j}$ ו- $\mathbf {x_{j}} =(x_{1j},...,x_{Ij})$ הערכים הנצפים של התצפית ה- $j$ .

נסמן את הפרמטרים של המודל ב- $\mathbf {\beta } =(\beta _{0},\beta _{1},...,\beta _{I})$ . מאחר שההתפלגות של $y_{j}$ היא התפלגות ברנולי עם הסתברות להצלחה $\pi (\mathbf {x_{j}} )$ , נקבל כי הנראות (likelihood) של התצפית ה- $j$ היא $L_{j}(\beta |y_{j},\mathbf {x_{j}} )=\pi (\mathbf {x_{j}} )^{y_{j}}\cdot (1-\pi (\mathbf {x_{j}} ))^{1-y_{j}}$ ,

ולכן $\log(L_{j}(\beta |y_{j},\mathbf {x_{j}} ))={y_{j}}\cdot \log(\pi (\mathbf {x_{j}} ))+({1-y_{j}})\log(\cdot (1-\pi (\mathbf {x_{j}} )))$ .

מכאן נקבל כי לוג פונקציית הנראות הוא $log(L(\mathbf {\beta } |y,\mathbf {x} ))=\sum _{j}{y_{j}}\cdot \log(\pi (\mathbf {x_{j}} ))+\sum _{j}({1-y_{j}})\log(\cdot (1-\pi (\mathbf {x_{j}} )))$ ,

ולכן אומד הנראות המקסימלית ל- $\mathbf {\beta }$ הוא ${\hat {\mathbf {\beta } }}=\arg \max \log L(\mathbf {\beta } |\mathbf {y} ,\mathbf {x} )$ .

בדרך כלל לא ניתן למצוא את המקסימום של לוג פונקציית הנראות באופן אנליטי ויש להשתמש בשיטות נומריות כדי לחשב את ערכו של ${\hat {\mathbf {\beta } }}$ .

פרשנות

למען הנוחות, נתייחס למודל עם משתנה מסביר אחד:

$logit(\pi (x))=\log({\frac {\pi (x)}{1-\pi (x)}})=\beta _{0}+\beta _{1}\cdot x$ .

אם $\beta _{1}>0$ אז גידול בערכו של $x$ יביא לגידול בערכו של $\pi (x)$ . באופן דומה, אם $\beta _{1}<0$ אז גידול בערכו של $x$ יביא להקטנת ערכו של $\pi (x)$ .
$e^{\beta _{1}}$ הוא יחס הסיכויים (odds ratio) של $Y$ בהינתן $X$ .

יישומים

לרגרסיה לוגיסטית יש מספר יישומים אפשריים.

זיהוי קשר בין משתנים: יחס הסיכויים הוא למעשה מקדם קשר בין משתנים. בעזרת רגרסיה לוגיסטית אפשר לזהות משתנים מסבירים שלהם יש קשר חזק עם המשתנה המוסבר. לדוגמה, חוקר המעוניין לזהות גורמי סיכון למחלה מסוימת, יכול לאסוף נתונים אודות גורמי סיכון פוטנציאליים למחלה כגון משקל, לחץ דם גיל, חשיפה למפגע סביבתי וכדומה ונתונים אלה יהיו המשתנים המסבירים. משתנה התגובה יציין לכל אדם במדגם האם הוא חולה במחלה או בריא. משתנים מסבירים עבורם יחס הסיכויים $e^{\beta }$ הוא גבוה וגדול מ-1 באופן משמעותי הם גורמי סיכון פוטנציאליים למחלה. משתנים מסבירים עבור יחס הסיכויים נמוך וקטן מ-1 באופן משמעותי הם גורמים המפחיתים את הסיכון לחלות במחלה.
סיווג וחיזוי: לאחר שאומדים את הפרמטרים $\mathbf {\beta }$ של מודל הרגרסיה, ניתן לחשב בעזרתו את ההסתברות כי עבור פרט מסוים עבורו נתונים רק ערכי המשתנים המסבירים, ערך המשתנה המוסבר יהיה שווה ל-1. בהתאם לנסיבות ניתן לסווג את הערך של המשתנה המוסבר ל-1 או 0, או לחזות כי הוא יהיה שווה ל-1 או 0 על פי ההסתברות הזו. לדוגמה, חברה יכולה להשתמש בנתונים אודות הלקוחות כדי לחזות האם הלקוח ינטוש את החברה, על ידי כך שתאסוף נתונים אודות מדגם של לקוחות בנקודת זמן מסוימת, והמשתנה המוסבר יהיה האם הלקוח עזב את החברה במהלך השנה שלאחר מכן. בעזרת הפרמטרים שנאמדו החברה תוכל לחשב לכל לקוח את ההסתברות שינטוש את החברה בשנה הקרובה. החברה יכולה להחליט למשל כי אם עבור לקוח מסוים ההסתברות שלו לנטוש את החברה גדולה מ-70%, למשל, אזי יש לנקוט בפעולות לשימור הלקוח, כגון הצעת תנאים יותר טובים.

דוגמה

לצורך פיתוח שיטה לזיהוי של גידולים בשד כשפירים או סרטניים נדגמו 569 גידולים שסווגו כשפירים או סרטניים, ונאספו נתונים על התאים שבכל גידול^[2].

לצורך הדוגמה נשתמש בארבעה נתונים מתוך כל הנתונים שנאספו. כל הנתונים הם ממוצעים של מדידות ממדגם של תאים מתוך כל גידול:

רדיוס התא - radius
מרקם התא - texture
היקף התא - perimeter
שטח הפנים של התא - area

הנתונים נותחו בעזרת הפונקציה glm של שפת התכנות R. אמדני הפרמטרים $\mathbf {\beta }$ נתונים בטבלה הבאה:

P-value	z value	Std. Error	Estimate
<0.0001	-8.346	4.132106	-34.4869	(Intercept)
<0.0001	5.748	0.041969	0.241225	texture
<0.0001	-4.603	0.004719	-0.02173	area
<0.0001	6.404	0.072482	0.464194	perimeter

ניתן לראות כי כל האמדנים של ערכי $\mathbf {\beta }$ הם מובהקים סטטיסטית (כל ערכי ה-p קטנים מ-0.001), כלומר שונים באופן מובהק מאפס. אמדני הפרמטרים (הנמצאים בעמודת Estimate) המתאימים למרקם (texture) ולהיקף (perimeter) חיוביים, ומכאן שככל שערכיהם גבוהים יותר כך ההסתברות כי התא הנבדק סרטני גדולה יותר. לעומת זאת המקדם המתאים לשטח הפנים של התא שלילי, ומכאן שככל ששטח הפנים גדול יותר ההסתברות כי הגידול סרטני נמוכה יותר. פרשנות האמדנים ליחסי הסיכויים (OR) ורווחי הסמך שלהם נתונים בטבלה הבאה:

high	low	OR
0.000	0.000	0.000	(Intercept)
1.378	1.168	1.273	texture
0.988	0.969	0.979	area
1.817	1.365	1.591	perimeter

(הערה: רווחי הסמך חושבו בעזרת שיטת הדלתה שאינה זמינה בפונקציית glm של R).

יחס הסיכויים הגבוה ביותר התקבל עבור משתנה ההיקף (OR=1.591), ומכאן שמבין שלושת הפרמטרים שנבדקו הקשר בינו ובין היות הגידול סרטני או שפיר הוא החזק ביותר. יש גם קשר חזק יחסית (OR=1.279) בין משתנה המרקם ובין סוג הגידול. יחס הסיכויים שבין שטח הפנים וסוג הגידול קרוב למדי לערך 1, ולא ברור אם יש לו משמעות רפואית.

ראו גם

רגרסיה אורדינלית

הערות שוליים

^ Cox, David R, The regression analysis of binary sequences (with discussion), Journal of the Royal Statistical Society, Seires B, 2 20, 1958, עמ' 215–242
^ Breast Cancer Wisconsin (Diagnostic) Data Set, UCI Machune Learnng Depository

[1] Cox, David R, The regression analysis of binary sequences (with discussion), Journal of the Royal Statistical Society, Seires B, 2 20, 1958, עמ' 215–242

[2] Breast Cancer Wisconsin (Diagnostic) Data Set, UCI Machune Learnng Depository

[1]

[2]