סטטיסטיקה תיאורית

ענף בסטטיסטיקה
(הופנה מהדף סטטיסטיקה תאורית)

סטטיסטיקה תיאורית היא ענף בסטטיסטיקה, העוסק ביצירה והשוואה של מדדים לתיאור תמציתי וקל לתפישה של נתונים. מטרת הסטטיסטיקה התיאורית היא לסייע בארגון וסיכום הנתונים שנאספו מכלי מדידה או הערכה שונים[1].

הצגה גרפית של התפלגות

טבלאות

עריכה

טבלה היא תמליל או אוסף נתונים מספריים, המארגן בעל שטח של מסמך, בעזרת טורים ושורות, כאשר כל טור ושורה נושאים כותרת המגדירה את תוכנם. בטבלה מוצלבים הטורים והשורות ליצירת תאים בהם נרשמים הערכים השונים, נתון אחד בכל תא. נתונים בטבלה מכונים ערכי הטבלה. לכלל הטבלה ניתנת כותרת ראשית.

מטרת הטבלה היא סידור מידע באופן תמציתי וקל לתפישה. היא מגדירה במדויק קשרים בין הערכים השונים. טבלה רגילה מסוגלת לקשר מספר רב של הבחנות (דרכים על פיהן מבוצע המיון) זו לזו, ולתאר בכך את התייחסותן ההדדית.

דוגמה:

טבלת התפלגות מדינות העולם לפי תוחלת חיים בלידה, על פי הערכות ה CIA לקראת שנת 2010[2].

עשירון תוחלת חיים מ- תוחלת חיים עד מדינות בולטות
העשירון העליון 80 שנה 90 מדינות מערב אירופאיות, אוסטרליה, ניו זילנד, יפן, סינגפור וישראל
השני 78.5 80 מדינות מערב אירופאיות, ממלכת ירדן, קוריאה הדרומית, בוסניה-הרצגובינה, פוארטו ריקו
השלישי 76.7 78.5 מדינות ממזרח ומערב אירופה, ארצות הברית, מדינות דרום אמריקניות, טאיוואן וליבריה
הרביעי 75 76.7 מדינות ערביות שונות, מדינות מזרח אירופאיות, דרום אמריקניות ודרום מזרח אסייתיות
החמישי 73.5 75 מרבית מדינות ערב, סין, הונגריה ומדינות שונות מדרום אמריקה ודרום מזרח אסיה
השישי 71.4 73.5 לטביה, ברזיל, מצרים, אירן, טורקיה ומקבץ מדינות עולם שלישי
השביעי 67.5 71.4 מקבץ מדינות עולם שלישי, ביניהן הפיליפינים ועיראק
השמיני 62.5 67.5 רוסיה, תימן ומדינות מדרום מזרח אסיה
התשיעי 54.5 62.5 מדינות עולם שלישי שונות, רובן באפריקה שמדרום לסהרה
האחרון 38 54.5 אפגניסטן ומדינות אפריקה שמדרום לסהרה או במדבר סהרה עצמו

הצגה גרפית

עריכה

הצגה גרפית היא דרך לתאר התפלגות של משתנה מקרי בצורה ויזואלית.

  • דיאגרמת מקלות - על ציר ה-X ערכי המשתנים, ציר ה-Y הוא תדירויות הופעת משתנה בערך מסוים. על כל ערך אפשרי של המשתנה ניצב "מקל" בגובה פרופורציוני למספר הפעמים שערך זה מופיע במדגם.
  • היסטוגרמה - על ציר ה-X קטגוריות של ערכי משתנים (למשל טווח ערכים). מעל כל קטגוריה ניצב מלבן בעל שטח פרופורציוני למספר הפעמים שערכי הקטגוריה מופיעים במדגם.
  • דיאגרמת עוגה - תרשים בצורת מעגל המציג התפלגות: שטח המעגל צבוע בצבעים שונים, כפרוסות בעוגה, כאשר הזווית המוקדשת לכל צבע נמצאת בפרופורציה לתדירות הופעת ערכי הקטגוריות השונות.

מדדים

עריכה

מדדי מיקום מרכזי

עריכה
  ערך מורחב – מדד מיקום מרכזי

מדדי מיקום מרכזי או מדדי מרכז הם מדדים המאפשרים להעריך את מיקומו של פרט ביחס לשאר המדגם. מטרתם של מדדי מרכז היא אפיון מרכז ההתפלגות. ההבדל ביניהם הוא במידת רגישותם לערכים קיצוניים.

  • מדדים הקשורים לממוצע:
    • ממוצע חשבוני (לרוב נקרא פשוט "ממוצע") - הערך שהיה מתקבל עבור כל פרט, אילו כלל ערכי הקבוצה היו מתחלקים שווה בשווה בין פרטיה. זהו מדד המיקום המקובל ביותר בסטטיסטיקה. דרך חישוב: סכום הערכים חלקי מספרם. מדד מרכז.
      • ממוצע משוקלל - מדד מרכז. ממוצע משוקלל הוא ממוצע חשבוני שבו לערכים שונים ניתנת חשיבות ("משקל") שונה. ערכו של הממוצע המשוקלל הוא סכום המכפלות של כל ערך במשקל שלו, מחולק בסכום המשקלות. הממוצע החשבוני הפשוט הוא מקרה פרטי של הממוצע המשוקלל כאשר כל המשקלות שווים זה לזה.
    • ממוצע הנדסי - ממוצע הנדסי של ערכים חיוביים הוא מכפלת הערכים, בחזקת המספר ההופכי למספר הערכים. מדד מרכז.
    • ממוצע הרמוני - מדד מרכז.
    • אמצע הטווח - ממוצע חשבוני של המרחק בין הערך הנמוך ביותר לבין הערך הגבוה ביותר (מדד נדיר שימוש בשל השפעת תוצאות בעלות ערך חריג). מדד מרכז
    • שכיח - הערך הנפוץ ביותר בקבוצה. הערך המופיע מספר הפעמים הגדול ביותר במדגם. מדד מרכז
    • חציון הוא הערך שנמצא באמצע קבוצת הנתונים לאחר סידורה. החציון שימושי למשל כאשר יש באוכלוסייה ערכים חריגים שערכם המספרי אינו בר-חשיבות.

מדדי מיקום יחסי

עריכה

ציון תקן - ציון תקן הוא המרחק של הפריט מהממוצע החשבוני, ביחידות של סטיית התקן.

אחוזון - האחוזון של פריט מסוים בסדרה מציין איזה אחוז מן הנתונים קטנים ממנו. בדומה לאחוזונים, ניתן לבטא את מיקומו של פריט בשברים אחרים, כגון חמישונים, עשירונים וכדומה. כך למשל, העשירון הרביעי כולל את האחוזונים מ-30 עד 40.

מדדי פיזור

עריכה

בניגוד למדדי מרכז, המאפיינים את המשותף לכל הערכים, מדדי פיזור מודדים את ההבדל בין הערכים שבמדגם.

  • טווח - המדידה הפשוטה ביותר של הפיזור היא הטווח - המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר (R = Xmax - Xmin). מדידה זו מושפעת ביותר מערכים קיצוניים.
  • טווח בין-רבעוני - המרחק בין הרבעון הראשון לבין הרבעון השלישי.
  • שוֹנוּת - מדד המאפיין את השונות של הערכים, כלומר מידת ריחוקם מהערך הממוצע. מחושב כממוצע ריבועי הסטיות מהממוצע.
  • סטיית תקן - המרחק של המדדים מן הממוצע, מדד המתבסס על השונות, ומשמש לאותו צורך. מחושב כשורש ריבועי של השונות. הצורך במדד זה נובע מהעובדה שבתהליך חישוב השונות יש העלאה בריבוע, ולכן הערך המתקבל אינו באותן יחידות של ערכי המדגם. סטיית התקן היא באותן יחידות.

מדדים הן לפיזור והן למיקום

עריכה

מדדי קשר ותלות

עריכה

מדדי קשר הם מדדים המאפשרים להעריך את טיב הקשר בין שני משתנים שונים - האם יש קשר בין שינוי באחד מהם לשינוי בשני. קיימים מספר מדדי קשר, בהתאם לסולם המדידה של המשתנים הנמדדים. במקרה של אי התאמה בין הסולמות של שני משתנים, יש להשתמש במדד המתאים לסולם הנמוך מבין השניים.

קישורים חיצוניים

עריכה
  מדיה וקבצים בנושא סטטיסטיקה תיאורית בוויקישיתוף

הערות שוליים

עריכה
  1. ^ מנוחה בירנבוים, חלופות בהערכת הישגים, רעננה: רמות, 1997, מסת"ב 965-274-227-9.
  2. ^ Country Comparison: Life Expectancy at Birth, באתר ספר העובדות העולמי (באנגלית)