טעות ריבועית ממוצעת
בסטטיסטיקה, טעות ריבועית ממוצעת או שגיאה ריבועית בינונית (בראשי תיבות: שר"ב; באנגלית: Mean Squared Error או MSE) של אומד מודדת את ממוצע ריבועי ה"טעויות", כלומר ההבדל בין האומד לבין מה שנאמד. ההבדל נובע בגלל האקראיות או משום שהאומד לא לוקח בחשבון מידע שיכול לייצר אומד מדויק יותר.
טעות ריבועית ממוצעת היא מומנט מסדר שני של השגיאה, ולכן משלבת גם את השונות של האומד וגם את ההטיה שלו. עבור אומד חסר הטיה, הטעות הריבועית הממוצעת היא שונות האומד. בדומה לשונות, לשונות הריבועית הממוצעת יש אותם יחידות מדידה כמו לריבוע המידה שנאמדת. באנלוגיה לסטיית התקן, אם ניקח את השורש של הטעות הריבועית הממוצעת נקבל את שורש הטעות הריבועית הממוצעת (RMSE), אשר יש לה את אותן יחידות מידה כמו למידה שנאמדת; עבור אומד חסר הטיה, שורש הטעות הריבועית הממוצעת הוא שורש השונות, הידוע כסטיית התקן.
הגדרה ומאפיינים בסיסיים
עריכהאם הוא וקטור של ערכים חזויים, ו־ הוא הווקטור של הערכים האמיתיים, אזי הטעות הריבועית הממוצעת המוערכת היא:
המדד מחושב בהינתן מדגם מסוים, ותלוי בו. הטעות הריבועית הממוצעת של אומד בהתייחס לפרמטר לא ידוע מוגדרת כך:
הגדרה זו תלויה בפרמטר הלא ידוע, והטעות הריבועית הממוצעת בהקשר הזה היא תכונה של אומד. הטעות הריבועית הממוצעת שווה לסכום השונות וריבוע ההטיה של האומד או של התחזיות. במקרה של טעות ריבועית ממוצעת של אומד:
הוכחה:
כלומר לטעות הריבועית הממוצעת יש תכונה של אומד או סט של תחזיות במונחים של השוני שלה ושל רמת ההטיה. משום שהטעות הריבועית הממוצעת זו תחזית, טכנית זה לא משתנה מקרי, אבל היא תהיה נתונה לטעות בהערכה כאשר תחושב עבור אומד ספציפי של עם ערך אמיתי בלתי ידוע. כלומר, כל הערכה של הטעות הריבועית הממוצעת על סמך פרמטר מוערך היא אכן משתנה מקרי.
פרשנות
עריכהטעות ריבועית ממוצעת עם ערך אפס, משמעותה שהאומד חוזה את ערכו של הפרמטר האמיתי בדיוק מושלם. כלומר האומד אידיאלי.
ניתן להשוות בין מודלים סטטיסטיים שונים על-בסיס ערכי ה-MSE שלהם על-מנת להעריך את רמת הדיוק שבה הם מפרשים קבוצה נתונה של תצפיות. אומד חסר הטיה (הנשען על מודל סטטיסטי כלשהו) עם שונות מזערית ביחס ליתר האומדים הקיימים יהיה האומד בעל התחזית הטובה ביותר, במובן זה שהוא ממזער את השונות. אומד כזה מכונה אומד חסר הטיה בעל שונות מינימלית (MVUE - Minimum Variance Unbiased Estimator).
שיטות לרגרסיה ליניארית מנסות להעריך את ה-MSE כחלק מהאנליזה שהן מבצעות, ומשתמשות ב-MSE המוערך על-מנת לקבוע את המובהקות הסטטיסטית של הגורמים הנמצאים בבחינה.
שימושים
עריכה- MSE מזערי הוא קריטריון מרכזי בבחירת אומדים. מבין קבוצה של אומדים חסרי הטיה, מזעור ה-MSE שקול למזעור השונות, והאומד בעל השונות המזערית הוא ה-MVUE. עם זאת, ייתכן שלאומד מוטה יהיה MSE נמוך יותר מאשר לאומד חסר הטיה.
- במודלים סטטיסטיים, ה-MSE, המייצג את הפער בין התצפיות עצמן לבין ערכי התצפיות שנחזו על ידי המודל, משמש לקביעת המידה שבה המודל מתאים לנתונים, וכן עוזר לקבוע האם ניתן להסיר משתנים מסבירים (ובכך לפשט את המודל) מבלי לפגוע באופן משמעותי ביכולת החיזוי של המודל.
חסרונות
עריכהבדומה לשונות, לטעות הריבועית הממוצעת יש חיסרון בכך שהיא נותנת משקל רב לתצפיות חריגות. דבר זה מתרחש בשל ההעלאה בריבוע של הסטיות, אשר נותנת משקל רב יותר לטעויות הגדולות. תכונה זו, שהיא בעייתית במקרים רבים, גרמה לחוקרים רבים לזנוח את הטעות הריבועית הממוצעת לטובת מדדים אחרים, כגון טעות מוחלטת ממוצעת או מדדים המבוססים על חציונים.