היסטוגרמה
היסטוגרמה היא צורת הצגה גרפית של נתונים. הנתונים בהיסטוגרמה מוצגים כמלבנים המייצגים מחלקות שונות (הקרויות גם קטגוריות), שאין ביניהן חפיפה, באוכלוסיית הנתונים לפי שכיחותן היחסית. בהצגה זו שטח כל מלבן מייצג את השכיחות היחסית המתאימה לו. בדרך כלל, הציר האופקי (ציר X) מייצג את הקטגוריות של הנתונים. הציר המאונך לו (ציר Y) מתאר את השכיחות. גובה המלבן, מבטא את שכיחות או צפיפות המקרים, ליחידה אחת של המשתנה הנחקר. את אותו מידע ניתן להציג גם בטבלת שכיחות, אך ההצגה הגרפית מאפשרת תפיסה אינטואיטיבית ומהירה יותר של הנתונים. המחלקות בהיסטוגרמה אינן חייבות להיות בעלות אותו הגודל, ובלבד שלא תהיה חפיפה ביניהן.
ההיסטוגרמה שימושית לתיאור משתנה רציף מסולם מדידה מרווחי או מנה.
השימוש המוקדם ביותר במונח היסטוגרמה מיוחס לסטטיסטיקאי קרל פירסון בשנת 1895.[1]
מקור השם
עריכהבעקבות מגנלו, אחת מהעוסקות בביוגרפיה של פירסון, מקובל לומר שמקור שמה של ההיסטוגרמה הוא בצירוף הקידומת "היסטו-" (כקיצור של היסטוריה) לסיומת -γράμμα ('-גְרָמֳה'), שמשמעותה דבר כתוב או מאויר. אלא שפירסון הגה שמות לסוגים רבים של דיאגרמות, ששמן מתאר אותן באופן ברור, לדעתו. מתוך כך, מתברר כי השם נובע מצירוף המילה היוונית לתורן, ἱστός (הִיסְטוֹס), במשמעות של עמודות זקופות כתורן.[2]
הגדרה פורמלית
עריכההיסטוגרמה היא טרנספורמציה הממפה משתנים מסולם מדידה אחד (מרווחי או מנה), המהווים את המקור, ל-k משתני מחלקות (הקטגוריות). משתנה המחלקה ה-i מונה את מספר המופעים של משתנה המקור במחלקה . לאמור, בהינתן n משתנים ו-k מחלקות, ההיסטוגרמה מקיימת את התנאי הבא:
הייצוג הגרפי הוא דרך אחת לייצג היסטוגרמה, דרך נוספת היא טבלת שכיחות.
היסטוגרמה מצטברת
עריכההיסטוגרמה מצטברת (cumulative histogram) מורכבת ממשתנים המונים את המספר המצטבר של המופעים במחלקה נוכחית, בתוספת כל המחלקות הקודמות.
לאמור, משתנה היסטוגרמה מצטברת המורכבת מההיסטוגרמה מקיים:
בחירת גודל המחלקות ומספרן
עריכהההיסטוגרמה רגישה לגודלן של המחלקות, לכן ברורה החשיבות בבחירתן הנכונה. עם זאת, אין הסכמה בקרב הסטטיסטיקאים בדבר הגודל האופטימלי של כל מחלקה. מקובלים מספר כללים מנחים, אך לא מוחלטים.
כללי אד-הוק
עריכהאלה כללים (שרירותיים) מקובלים המבוססים על ניסיון בלבד ועל טיבם של הנתונים. לדוגמה: ציוני מבחן בטווח 0–100 יחולקו למחלקות בגודל 10 ציונים כל אחת. נתוני שכר יחולקו למחלקות בגודל 1,000 ש"ח כל אחת, או בהתאם למדרגות המיסוי על ההכנסה וכדומה.
בחלוקה גסה, מקובל לחלק את הנתונים ללא פחות מ-5 ולא יותר מ-15 מחלקות בדרך כלל, בהתאם לנסיבות. ככל שעולה מספרם הכללי של הנתונים כך גם יחולקו ליותר מחלקות.
משנקבע רוחבה/גודלה של מחלקה - h, ניתן לחשב את מספר המחלקות k על ידי חלוקת טווח הנתונים (המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר) למקטעים שווים, לפי הנוסחה
הערה: הסוגריים לעיל מציינות את פונקציית התקרה.
כללים תאורטיים
עריכהקיימים כמה כללים המתבססים על התאוריה הסטטיסטית. שני הכללים הנפוצים ביותר מסתמכים על מספרם הכולל של הנתונים בלבד, והם:
- הכלל של סטורג'ס (Sturges) לקביעת מספר הקטגוריות
n - מספר התצפיות/נתונים הכולל.
- הכלל של טרל וסקוט (Terrell & Scott) לקביעת מספר הקטגוריות
בשני הכללים נדרש שמספר הנתונים יהיה גדול מ-30 (ישנם מקורות שמסתפקים גם במינימום של 15 נתונים). לקבוצת נתונים קטנה הכלל של טרל וסקוט מחמיר מהכלל של סטורג'ס, אך מעל כ-500 נתונים מתהפכות היוצרות והכלל של סטורג'ס הוא המחמיר מבין השניים. הכלל של סטורג'ס נפוץ יותר בשימוש בשל היותו הוותיק מבין השניים.
שני כללים מתוחכמים יותר לקביעת גודל קטגוריה:
- הכלל של סקוט (Scott)
s - סטיית התקן המדגמית.
- הכלל של פרידמן (או פרידמן-דיאקוניס, Freedman-Diaconis)
IQR - הטווח הבין-רבעוני.
שימושים שונים
עריכה- בתוכנות עיבוד תמונה שונות נעשה שימוש בהיסטוגרמת בהירות של הפיקסלים בתמונה, בעיקר כדי לשנות את בהירות התמונה.
ראו גם
עריכהקישורים חיצוניים
עריכה- היסטוגרמה, באתר אנציקלופדיה בריטניקה (באנגלית)
- היסטוגרמה, באתר MathWorld (באנגלית)
הערות שוליים
עריכה- ^ Dodge, Yadolah. "The Concise Encyclopedia of Statistics". Springer, 2008
- ^ Daniel Riaño Rufilanchas, On the origin of Karl Pearson’s term “histogram”, Estadística Española 59 (192), 2017, עמ' 29–35