שכיח – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
אין תקציר עריכה
Yossi Kimchi (שיחה | תרומות)
ביטול גרסה 22966189 של 141.226.123.207 (שיחה)
שורה 1:
ב[[סטטיסטיקה]], ה'''שכיח''' הוא הערך בעל הכיה[[שכיחות]] מצויהגבוהה ביותר בקבוצת נתונים. במילים אחרות, זהו הערך שהופיע ב[[מדגם]] יותר פעמים מכל ערך אחר.
 
כמו ה[[ממוצע]] וה[[חציון]], המצויהשכיח משמש כאמצעי להבעת מידע חשוב על משתנה מקרי או אוכלוסייה באמצעות מספר בודד. ערכו של המצויהשכיח ב[[התפלגות נורמלית]] שווה לממוצע ולחציון, אך יכול להיות שונה מהם מאוד ב[[התפלגויות א-סימטריות| התפלגות א-סימטרית]]. יתרונו המשמעותי של המצויהשכיח על שאר מדדי המרכז היא שניתן לחשב אותו גם למשתנה בעל [[סולם מדידה|ערכים שמיים]].
 
המצויהשכיח אינו בהכרח ערך יחיד, כיון ש[[פונקציית צפיפות ההסתברות]] יכולה להיות בעלת מספר נקודות מקסימום. כלומר יכולים להיות מספר ערכים שלהם מיצוישכיחות זהה, שהיא המקסימלית. במקרה כזה, יהיו כל הערכים בעלי שכיחות זו המצוייםהשכיחים. המקרה הקיצוני ביותר מתרחש בהתפלגויות אחידות, שבהן כל הערכים מצוייםשכיחים באותה מידה.
בהתפלגויות סימטריות חד-דבשתיות, כמו ההתפלגות הנורמלית, החציון, המצויהשכיח והממוצע (אם הוגדר) מתלכדים. עבור דגימות, אם ידוע שהן מפוזרות בהתפלגות סימטרית, ממוצע המדגם יכול לשמש כאומדן של המצויהשכיח. במרבית ההתפלגויות הסימטריות (כמו ה[[התפלגות נורמלית|התפלגות הנורמלית]]), המצויהשכיח שווה בערכו לממוצע ולחציון.
 
== חישוב המצויהשכיח ==
=== במדגם בדיד ===
המצויהשכיח של [[מדגם]] הוא הערך המופיע בו בתדירות הגבוהה ביותר. לדוגמה, המצויהשכיח של המדגם [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] הוא 6. לעומת זאת, ברשימת הנתונים [1, 1, 2, 4, 4] המצויהשכיח אינו ייחודי - קיימים שני ערכים בעלי אותה שכיחות, שהיא הגבוהה ביותר במדגם. ניתן לומר שההתפלגות היא דו-שיאית (דו-דבשתית), בעוד שקבוצה עם יותר משני מצוייםשכיחים יכולה להיות מתוארת כרב-שיאית (רב-דבשתית).
 
=== במדגם רציף ===
כאשר ה[[מדגם]] הוא [[התפלגות רציפה]], כגון [... .935, 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], המושג הוא בלתי שימושי בצורתו הגולמית, שכן אין בו שני ערכים זהים, ולכן כל ערך יופיע בדיוק פעם אחת. על מנת להעריך את המצויהשכיח, מקובל לסדר את הנתונים במחלקות שוות רוחב, כמו להכנת [[היסטוגרמה]], ולחשב את שכיחותה של כל מחלקה. ניתן למצוא בקלות את המחלקה השכיחה - המחלקה שבה ההיסטוגרמה מגיעה לשיא - ואמצע מחלקה זו הוא המצויהשכיח. החיסרון בכך הוא שבדגימות קטנות או בינוניות, עלולה להיווצר הטיה בהתאם לרוחב המחלקה. דרך אחרת לחישוב המצויהשכיח במדגם רציף היא למצוא את [[נקודת קיצון|נקודת המקסימום]] של פונקציית צפיפות ההסתברות אשר נאמדת בעזרת החלקה עם פונקציית גרעין (kernel density estimation).
 
== הצגה גרפית ==
[[קובץ:Length dist he 200911.jpg|alt=גרף המתאר את התפלגות אורכי הערכים בוויקיפדיה העברית. |ממוזער|362x362px|התפלגות אורכי הערכים בוויקיפדיה העברית. ניתן לראות את המצויהשכיח כנקודה הבודדת בעלת הערך הגבוה ביותר וגם כנקודת המקסימום של הגרף]]
בסדרת ערכים, המצויהשכיח מוגדר כאמור על ידי ספירת ההופעות של הערכים השונים וניתן להציג את הרשימה כולה, אך דרך זו אינה נוחה. קיימות מספר דרכים להצגה גרפית של המצויהשכיח: ניתן לסדר את הערכים ב[[טבלת שכיחות|טבלת שכיחויות]]- בה ליד כל ערך יופיע מספר הפעמים שבו נדגם. טבלה כזו יכולה לשמש לבניית [[דיאגרמת מקלות]] או גרף שבו מיקום נקודה מציין את הערך ושכיחותו. בהצגות כאלו, ניתן לאתר את המצויהשכיח בקלות: הערך המצויהשכיח הוא זה שהעמודה או הנקודה המייצגת אותו היא הגבוהה ביותר - בעל הצפיפות הגבוהה ביותר. כאשר מספר הערכים גדול ניתן לחלק את הערכים למחלקות ולהציג את שכיחותן ב[[היסטוגרמה]]. בצורת הצגה כזאת, המצויהשכיח הוא אמצע המחלקה השכיחה ביותר.
במדגם רציף, שבו ניתן להציג את ההתפלגות בקו אחד, ניתן לאתר את המצויהשכיח בגרף על ידי מציאת נקודת המקסימום שלו.
 
==השוואה למדדי מרכז אחרים==
[[קובץ:Comparison mean median mode.svg|ממוזער|300px|השוואה של [[ממוצע]], [[חציון]] ומצויושכיח של שתי [[התפלגות לוג-נורמלית|התפלגויות לוג-נורמליות]] בעלות [[צידוד (סטטיסטיקה)|צידוד]] שונה]]
 
הטבלה הבאה מדגימה ששלושת [[מדד מיקום|מדדי המיקום]] המרכזיים אינם חייבים להסכים זה עם זה:
שורה 30:
| חציון || הערך האמצעי בסידור עולה של הערכים ||1,2,2,'''3''',4,7,9 || 3
|-
| מצוישכיח || הערך הנפוץ ביותר במדגם || 1,'''2''','''2''',3,4,7,9 || 2
|}
 
בניגוד ל[[ממוצע]] ול[[חציון]], המושג "מצוישכיח" הגיוני וישים גם על [[סולם מדידה|ערכים שמיים]]. למשל, אם ה[[מדגם]] הוא של [[שם משפחה יהודי|שמות משפחה]] ב[[ישראל]], והשם "[[משפחות כהן|כהן]]" מופיע הכי הרבה פעמים, המצויהשכיח יהיה "[[משפחות כהן|כהן]]". מובן שבדגימה כזו לא ניתן לחשב [[ממוצע]] או [[חציון]]. במערכת בחירות שבה המנצח נקבע על פי הרוב, המנצח הוא המצויהשכיח. שני מצוייםשכיחים ומעלה ידרשו תהליך שובר שוויון. בניגוד ל[[חציון]], שהגיוני להשתמש בו רק כאשר יש סדר ליניארי בין הערכים האפשריים, המצויהשכיח אינו דורש זאת- בכל מדגם יש משמעות למושג זה.
 
== פונקציית ההפסד ==
המצויהשכיח של מדגם מוגדר כערך שמספר הערכים השונים ממנו הוא הקטן ביותר. במילים אחרות, המצויהשכיח הוא הממזער של פונקציית ההפסד הבאה:
 
<math>L_0(m)=\sum_{i=1}^n I_{m}(X_i)</math> כאשר <math>I_m(X_i)=\begin{cases} 1 & \text{if }m=X_i \\ 0 & \text{else} \end{cases}</math>.
שורה 44:
== ראו גם ==
* [[מדד מיקום]]
* [[שכיחות]]
 
==קישורים חיצוניים==