עוצמה סטטיסטית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
כל מיני תיקונים קטנים. בפרט: הבהרתי שהמצבים ברפואה בהם לא רוצים שתהיה טעות מסוג II, זה לא במחקרים רפואיים, אלא במצבים של חולה שמנסים לאבחן אצלו מחלה (לפי הערך באנגלית). כמו כן הוספתי עוד דברים על מנת להבהיר איך משהו יכול לסייע בשיפור העוצמה הסטטיסטית, ועוד דברים קטנים.
שורה 1:
'''עוצמה סטטיסטית''' היא הסיכויה[[הסתברות]] לדחיית [[השערת האפס]] (H<sub>0</sub>) במחקר על בסיס נתוני המדגם וקביעה כי יש קשר בין המשתנים באוכלוסייה, כאשר הקשר/הבדל אכן קיים במציאות.
 
למעשה עוצמה סטטיסטית היא <math>1-P</math> כאשר P מייצג את הסיכוי לטעות מסוג שני (β). כאשר הסיכוי לטעות מסוג שני (β) נמוך וקרוב ל-0, העוצמה הסטטיסטית תגדלגדולה, וכאשר הסיכוי לטעות מסוג שני (β) גבוה, וקרוב ל-1 העוצמה הסטטיסטית תקטןקטנה. ככל שהמחקר שנערך רגיש יותר, העוצמה הסטטיסטית גבוהה יותר והסיכוי לטעות מסוג β קטן יותר. יש שמסמנים את הערך של העוצמה הסטטיסטית כ-באמצעות האות π.
 
=== דרכים להגדלת העוצמה הסטטיסטית ===
1. '''רמת מובהקות''' – ככל שרמתש[[רמת מובהקות|רמת המובהקות]] גדלהגדולה יותר, העוצמה הסטטיסטית גדלהגדולה יותר. כאשר השטח הקריטי גדול יותר, קל יותר לדחות את H<sub>0</sub> ולכן העוצמה הסטטיסטית גדלהגדולה יותר
 
2. '''שינוי סוג ההנחה לחד זנבי-צדדי''' – שינוי ההנחה לחד זנבית-צדדית מקלה על דחיית H<sub>0</sub> מבלי לשנות את רמת המובהקות, שכן מגדילים את שטח הדחייה. 
 
3. '''גודל האפקט (Effect size)'''– מדד סטנדרטי המלמד על עצמת הקשר בין המשתנים. (מידת ההשפעה של הטיפול/מניפולציה) בודקים את הקשר בין האוכלוסיות והפיזור. אם הפיזור/שונות (σ) קטן יותר אז העוצמה גבוהה יותר וקל יותר לדחות את H<sub>0</sub>. אם ההבדל בין ממוצעי הקבוצות גדול העוצמה גבוהה וקל יותר לדחות את H<sub>0</sub>. נחשב דרךניתן הכילהשפיע משפיעהעל גודל האפקט ולהקטין את הפיזור σ של סטטיסטי המבחן, על העוצמהידי תכנון הניסוי בצורה חכמה, לדוגמה: אם רוצים להשוות בין התוחלות של שתי אוכלוסיות בעלות [[שונות]] דומה, כדאי לדגום כמה שווה משתי האוכלוסיות, למשל 100 אנשים מכל אוכלוסייה, ולא לדגום כמויות שונות, למשל 180 מאוכלוסייה אחת ו-20 מהאוכלוסייה הסטטיסטיתהשנייה.
 
4. '''גודל המדגם''' – ככל שה-N גדל הסיכוי לדחות את H<sub>0</sub> גדל ולכן העוצמה הסטטיסטית גדלה. מכיוון שהאוכלוסייה הכללית מיוצגת טוב יותר יש יותר סיכוי לזהות קשרים שקיימים באוכלוסייה.
 
5. '''מבחנים פרמטריםפרמטריים''' – נותנים עוצמה סטטיסטית גדולה יותר מאשר [[סטטיסטיקה א-פרמטרית|מבחנים א-פרמטריים]], שכן נעשה שימוש במדד אינטרוולי שיש בו יותר מידע ולכן הוא יותר רגישמדויק.
 
בבדיקת השערות עומדת לבחינה [[השערהבדיקת (מתמטיקה)השערות|השערה]], הנקראת 'השערת האפס'. לצורך החלטה מבצעים [[ניסוי]], ומשלבים את התוצאות במבחן סטטיסטי שנבחר מראש. תוצאת המבחן היא אחת משתי מסקנות אפשריות: לדחות את ההשערה, או שלא לדחות אותה. אי-דחיית השערה עללפיה אודותאין הבדל בין שתי אוכלוסיות, למרותעל קיומואף שלשקיים הבדל כזה במציאות, נקראת [[שגיאה מסוג II]]. עוצמה סטטיסטית היא מידת הביטחון שלא הייתה שגיאה מסוג זה. זאת להבדיל מ[[מובהקות סטטיסטית]] שהיא מידת הביטחון שלא נעשתה [[שגיאה מסוג I]].
 
עוצמתו של מבחן סטטיסטי תלויה בגורמים התלויים בהליך המבחן עצמו ([[מבחן T]] דו -זנבי דורש יותר פרטים מאשר חד -זנבי), בגודל ה[[מדגם]] הסטטיסטי, בגודל האוכלוסייה הנחקרת (כל זמן שכלל האוכלוסייה קטנה יחסית), בהבדל הממוצע בפרמטר הנחקר של האוכלוסייה (הבדלים גדולים בין שתי תת-אוכלוסיות דורשיםמאפשרים לקחת מדגם קטן יותר), ב[[התפלגות]] של פרמטר זה ([[התפלגות בינומית]] דורשת מדגם קטן יותר מאשר [[התפלגות נורמלית]] של משתנה רציף) ובמידת הדיוק שבמדידות.
 
=== ניתוח עוצמה סטטיסטית במחקר- ניתוח מקדים מול ניתוח רטרוספקטיבי ===
ניתוח עוצמה סטטיסטית יכול להעשותלהיעשות לפני- (ניתוח מקדים (''a priori''\ prospective) או אחרי- (ניתוח רטרוספקטיבי (''post hoc''\ retrospectivi) אחרי ניתוח הנתונים. ניתוח מקדים נערך לפני ניתוח הנתונים של המחקר, ובדרך כלל משיג עוצמה סטטיסטית מספיקה. ניתוח רטרוספקטיבי נערך אחרי שהמחקר נערך והתקבלו התוצאות, והוא עושה שימוש בגודל האפקט וגודל המדגם כדי לקבוע את העוצמה של המחקר, על בסיס ההנחה כי גודל האפקט במדגם שווה לזה באוכלוסייהשבאוכלוסייה. התועלת בניתוח מקדים לעוצמה סטטיסטית במערך מחקר ניסויי הוא מקובל בעולם; בעוד,לעומת זאת ניתוח רטרוספקטיבי שנוי במחלוקת בקרב החוקרים.
 
=== פרשנות ===
לא קיים סטנדרט פורמלי לעוצמה סטטיסטית, אולם, רוב החוקרים משתמשים בערך π=80% כערך מתאיםמקובל. מוסכמה זו נסמכת על 4 ל-1 שקלול תמורות בין הסיכוי ל-β (ההסתברות ל[[שגיאה מסוג II]]) ו-α (ההסתברות ל-[[שגיאה מסוג I]]). אולם "כלל אצבע" זה לא מתאים לכלל הדיסיפלינות. לדוגמה, ברפואהמבחנים הבודקים האם מטופל הבא לרופא סובל ממחלה מסוכנת כלשהי, מבחניםלעיתים נבנים כך שלא תיתכן טעות שלילית ([[שגיאה מסוג II]]) או שסיכוייה יהיו קלושים, על מנת שלא יקרה מצב בו לא נאבחן מחלה מסוכנת כשהיא למעשה קיימת, אולם זה מעלה את הסיכוי ל-[[שגיאה מסוג I]]. עוצמה סטטיסטית מתאימה כאשר העניין של החוקר הוא האם לדחות או לא לדחות את השערת האפס. במקרים רבים העניין הוא פחות בקביעה האם יש או אין הבדל, אלא במטרה לקבל אומדן מדויק יותר של גודל האפקט באוכלוסייה. לדוגמה: אם אנו מצפים לקשר של 0.50 בין אינטליגנציה להצלחה בעבודה באוכלוסייה, במדגם של 20 אנשים ייתן לנונקבל עוצמה משוערת של 80% (α=0.05, דו -צדדי), לדחיית השערת האפס של קורלציה אפס. אולם, במחקר שכזה אנו מעוניינים יותר לדעת האם הקורלציה היא 0.30 או 0.60 או 0.50. בהקשר זה, אנו נצטרך מדגם גדול יותר כדי להקטין את הרווחה[[רווח בר -סמך]] של האומדן שלנו, לטווח שהוא מקובל עבור המטרה שלנו.
 
== תוכנות לניתוח עוצמה סטטיסטית ==
קיימות תוכניותתוכנות אחדות לניתוח של עוצמה סטטיסטית. חלקן הן תוכנות מסחריות:
* nQuery Advisor
* PASS Sample Size Software