שכיח – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
Matanyabot (שיחה | תרומות)
מ בוט החלפות: מעוניינים
רווחים בכותרות
שורה 7:
בהתפלגויות סימטריות, כמו ההתפלגות הנורמלית, החציון, השכיח והממוצע (אם הוגדר) מתלכדים. עבור דגימות, אם ידוע שהן מפוזרות בהתפלגות סימטרית, ממוצע המדגם יכול לשמש כאומדן של השכיח. במרבית ההתפלגויות הסימטריות (כמו ה[[התפלגות נורמלית|התפלגות הנורמלית]]), השכיח שווה בערכו לממוצע ולחציון.
 
== חישוב השכיח ==
=== במדגם בדיד ===
השכיח של [[מדגם]] הוא הערך המופיע בו בתדירות הגבוהה ביותר. לדוגמה, השכיח של המדגם [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] הוא 6.לעומת זאת, ברשימת הנתונים [1, 1, 2, 4, 4] השכיח אינו ייחודי - קיימים שני ערכים בעלי אותה שכיחות, שהיא הגבוהה ביותר במדגם. ניתן לומר שההתפלגות היא דו-שיאית, בעוד שקבוצה עם יותר משני שכיחים יכולה להיות מתוארת כרב-שיאית.
 
=== במדגם רציף ===
כאשר ה[[מדגם]] הוא [[התפלגות רציפה]], כגון [... .935, 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], המושג הוא בלתי שימושי בצורתו הגולמית, שכן אין בו שני ערכים זהים, ולכן כל ערך יופיע בדיוק פעם אחת. על מנת להעריך את השכיח, מקובל לסדר את הנתונים במחלקות שוות רוחב, כמו להכנת [[היסטוגרמה]], ולחשב את שכיחותה של כל מחלקה. ניתן למצוא בקלות את המחלקה השכיחה - המחלקה שבה ההיסטוגרמה מגיעה לשיא - ואמצע מחלקה זו הוא השכיח. החיסרון בכך הוא שבדגימות קטנות או בינוניות, עלולה להיווצר הטיה בהתאם לרוחב המחלקה. דרך אחרת לחישוב השכיח במקרה כזה היא למצוא את [[נקודת קיצון|נקודת המקסימום]] של פונקציית צפיפות ההסתברות.
 
== הצגה גרפית ==
[[קובץ:Length dist he 200911.jpg|alt=גרף המתאר את התפלגות אורכי הערכים בוויקיפדיה העברית. |ממוזער|362x362px|התפלגות אורכי הערכים בוויקיפדיה העברית. ניתן לראות את השכיח כנקודה הבודדת בעלת הערך הגבוה ביותר וגם כנקודת המקסימום של הגרף]]
בסדרת ערכים, השכיח מוגדר כאמור על ידי ספירת ההופעות של הערכים השונים וניתן להציג את הרשימה כולה, אך דרך זו אינה נוחה. קיימות מספר דרכים להצגה גרפית של השכיח: ניתן לסדר את הערכים ב[[טבלת שכיחות|טבלת שכיחויות]]- בה ליד כל ערך יופיע מספר הפעמים שבו נדגם. טבלה כזו יכולה לשמש לבניית [[דיאגרמת מקלות]] או גרף שבו מיקום נקודה מציין את הערך ושכיחותו. בהצגות כאלו, ניתן לאתר את השכיח בקלות: הערך השכיח הוא זה שהעמודה או הנקודה המייצגת אותו היא הגבוהה ביותר - בעל הצפיפות הגבוהה ביותר. כאשר מספר הערכים גדול ניתן לחלק את הערכים למחלקות ולהציג את שכיחותן ב[[היסטוגרמה]]. בצורת הצגה כזאת, השכיח הוא אמצע המחלקה השכיחה ביותר.
שורה 35:
בניגוד ל[[ממוצע]] ול[[חציון]], המושג "שכיח" הגיוני וישים גם על [[סולם מדידה|ערכים שמיים]]. למשל, אם ה[[מדגם]] הוא של [[שם משפחה יהודי|שמות משפחה]] ב[[ישראל]], והשם "[[משפחות כהן|כהן]]" מופיע הכי הרבה פעמים, השכיח יהיה "[[משפחות כהן|כהן]]". מובן שבדגימה כזו לא ניתן לחשב [[ממוצע]] או [[חציון]]. במערכת בחירות שבה המנצח נקבע על פי הרוב, המנצח הוא השכיח. שני שכיחים ומעלה ידרשו תהליך שובר שוויון. בניגוד ל[[חציון]], שהגיוני להשתמש בו רק כאשר יש סדר לינארי בין הערכים האפשריים, השכיח אינו דורש זאת- בכל מדגם יש משמעות למושג זה.
 
== פונקציית ההפסד ==
השכיח של מדגם מוגדר כערך שמספר הערכים השונים ממנו הוא הקטן ביותר. במילים אחרות, השכיח הוא הממזער של פונקציית ההפסד הבאה:
 
שורה 43:
 
 
== ראו גם ==
* [[מדד מיקום]]
* [[שכיחות]]