דיוק ונכונות – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
מ לא יתום
אין תקציר עריכה
שורה 1:
בתחומי ה[[תעשייה]], ה[[מדע]], ה[[הנדסה]] וה[[סטטיסטיקה]], '''נכונות''' (Accuracy) של מערכת ה[[מדידה והערכה|מדידה ]] נקבעת על פי מידת הקרבה של המדידות של כמות מסוימת, לערך הממשי האמיתי של אותה כמות. '''דיוק''' (Precision) של מערכת המדידה, המכונה גם שחזור
(Repeatability) או הדירות (מאנגלית:reproducibilityReproducibility), היא המידה שבמקרה ונחזור על המדידות בתנאים ללא שינוי, נקבל את אותן תוצאות.
 
מערכת המדידה יכולה להיות נכונה אך לא מדויקת, מדויקת אך לא נכונה, לא מדויקת ולא נכונה או שניהם. לדוגמה, אם [[ניסוי]] מכיל [[שגיאה]] שיטתית הרחבת ה[[מדגם]] תגביר את דיוקו אך לא תשפר את נכונותו. התוצאה תהיה [[מחרוזת]] עקבית אך עדיין לא בהכרח נכונה של תוצאות מניסוי פגום. ביטול השגיאות השיטתיות יכול לתרום לנכונות המידע אך לא משנה את דיוקו.
שורה 8 ⟵ 9:
[[Image:High accuracy Low precision.svg|thumb|100px|left|רמת נכונות גבוהה ודיוק נמוך]]
[[Image:High precision Low accuracy.svg|thumb|100px|left|דיוק גבוה ורמת נכונות נמוכה]]
נכונות היא מידת האמיתות בעוד דיוק בהקשרים מסוימים כוונתו למידת ה[[שחזור]]. באנלוגיה בין דיוק ונכונות נשווה מדידות חוזרות לחיצים שהושלכו לעבר המטרה. נכונות מתארת את מידת הקרבה של החץ למרכז לוח המטרה, יותר קרוב למרכז- בעל נכונות גבוהה יותר. כך גם במדידות, קרבה רבה יותר של מדידות המערכת לערך האמיתי המקובל מורה על מערכת מדידה בעלת נכונות גבוהה יותר. כדי להמשיך את אנלוגית החצים, אם מספר רב של חיצים מיורט למטרה, דיוק ייצג את גודל אשכול החצים (באם רק חץ אחד נורה, נכונות תהיה גודל האשכול המצופה אם נחזור על הזריקה מספר פעמים תחת אותם תנאים). כאשר כל החצים שנזרקו קרובים אחד לשני האשכול נחשב בעל דיוקכמדויק מאחר שכולםוכולם פגעו באותו אזור, גם אם לא בהכרח ליד מרכז המטרה. משמע, -המדידות מדויקות, אך לא בהכרח נכונות.
 
לא ניתן להשיג נכונות באופן מהימן במדידות בדידות מבלי דיוק-אם החצים לא מקובצים ביחד הם לא יכולים להיות כולם קרובים למרכז המטרה (העמדה הנוכחית של אשכול החצים יכולה להיות בעלתמקובצת מדויקיםסביב למרכזמרכז המטרה אבל עמדת החצים הבודדים עשוייםעשויה להיות בלתי מדויקיםמדויקת).
 
== שיטות למדידה והערכה ==
מכשיר המדידה הוא אידאלי הוא גם מדויק וגם בעל נכונות אם המדידות שלו קרובות אחת לשנייה ומקובצות סביב הערך הידוע. הדיוק והנכונות של תהליך המדידה נקבע בדרך כלל על ידי מדידה חוזרת ונשנית של תקני מעקב ייחוסים. תקנים אלו מוגדרים במערכת היחידות הבינלאומית ומתוחזקים על ידי ארגוני תקנים לאומיים כגון: המכון הלאומי לתקנים וטכנולוגיה ([[National Institute of Standards and Technology]]) בארצות הברית.
 
שיטות אלו מיושמות גם כאשר יוצרים ממוצע של מדידות חוזרות. כאן בא לידי ביטוי המונח "טעות תקן": הנכונות של ה[[ממוצע]] שווה ל[[סטיית תקן]] הידועה של התהליך מחולקת לשורש הריבועי של מספר המדידות בממוצע. יתר על כן, משפט הגבול המרכזי מראה כי [[התפלגות]] ההסתברות של מדידות ממוצעים יהיה קרוב יותר ל[[התפלגות נורמלית]] מזו של מדידות נפרדות.
 
== מיון בינארי ==
ניתן למדוד ולהעריך את נכונות ודיוק הנתונים על ידי מיון של תנאים באופן [[בינארי]] (binary classification).
 
{| class="wikitable" align="center" border="1" style="text-align:center;"
שורה 25 ⟵ 26:
| rowspan="2" |
|-
| style="background: #dfd;" |'''נכון'''
| style="background: #dfd;" |'''לא נכון'''
|-
| rowspan="2" style="background:#fdd;" | תוצאות <br /> המבחן
| style="background:#fdd;" | '''חיובי'''
| style="background:#eef;color:#070" | ''' חיובי נכון''' (True positive)
| style="color:#700" | ''' חיובי לא נכון''' (False positive)
| style="color:#707" | → [[ערך ניבוי חיובי]] או דיוק
|-
| style="background:#fdd;" | '''שלילי'''
| style="color:#700" | '''שלילי לא נכון''' (False negative)
| style="background:#eef;color:#070" | '''שלילי נכון''' (True negative)
| style="color:#707" | → [[ערך ניבוי שלילי]]
|-
שורה 48 ⟵ 49:
[[תמונה:Precise.PNG|500px|למטה|]]
 
מצד שני, דיוק או [[ערך ניבוי חיובי]] (Positive predictive value), מוגדר כשיעור הערכים החיוביים הנכונים מבין כל התוצאות החיוביות (גם הנכונות וגם הלא נכונות).
 
[[תמונה:Accuracy.PNG|400px|למטה|]]
שורה 64 ⟵ 65:
'''דיוק''' - מידת התאימות בין סט של נתונים וסט של ערכים נכונים בהתאמה. משמע, נתונים שאינם עומדים בסתירה לנתונים אחרים
 
'''עדכניות''' (Current) - [[ישות]] או ישויות מרובות המסופקות בזמן הנדרש או הנקוב מראש וקובעות את מידת עדכניות הנתונים
 
'''[[עקביות]] וסטנדרטיות''' (Consistent and Standards) - בארגון עם נתונים איכותיים, כל המידע חייב להיות מובנה באותה צורה, על בסיס סטנדרטים שנקבעו ברחבי הארגון כולו וכך ליצור [[עקביות]] פנימית בין הנתונים
 
'''שלמות''' (Integrity)- הצגה תמונת נתונים מלאה על הישויות בהם המידע עוסק
 
'''נכונות ו[[מהימנות]]''' - [[עקביות לוגית]] המאפשרת קשר הגיוני בהשוואה לנתונים דומים, בין השאר מניעת כפילויות והגדרה של חוקים עסקיים המגדירים את המידע באופן ברור
 
'''ייחוד''' (Uniqueness) - ערכי נתונים שמאולצים לסט כניסות ייחודיות- כל ערך יהיה ייחודי ויחיד מסוגו
 
בבוא ה[[ארגון]] לטפל בנושא איכות המידע עליו לעבוד, למעשה, בשני מישורים :
ה[[מישור]] הראשון הנו המישור הארגוני תרבותי הנותן מענה לאופן שבו ה[[ארגון]] מגדיר את החשיבות של הטיפול באיכות הנתונים והמישור השני הינו המישור הטכנולוגי המאפשר את ביצוע הטיפול באיכות הנתונים בצורה יעילה וחסכונית לאורך זמן.
 
שורה 102 ⟵ 103:
 
המערכת מהווה למעשה, [[חוצץ]] המונע מעבר של נתונים לא תקינים.
דרישות המחוקק ([[רגולציה]]) הן לשמירה מתמדת על איכות הנתונים בארגון- דרישות הממונה על [[שוק ההון]], הפיקוח על הבנקים וכדומה. ממחקרים רבים ומניסיון מצטבר בארגונים בהם הוטמעו פרויקטי איכות נתונים ו[[טיוב נתונים]], ההערכות הן כי נתונים באיכות גבוהה יכולים לחסוך/לשפר את התוצאות העסקיות עד כדי 15-25% ממחזור הפעילות של הארגון. אך עדיין כיום, בעיותבעית איכות הנתונים קיימיםקיימת בהרבהבארגונים ארגוניםרבים.
 
ארגונים רבים דיווחו על בעיות חמורות והפסדים משמעותיים הנובעים מנתונים שגויים או בלתי ניתנים להשגה. כל פרויקטי ה- ERP,CRM בארגונים כוללים שלב של הסבת נתונים. הדבר נכון גם למקרים של מיזוג מערכות או מעבר למערכות ייחודיות חדשות לארגון. בכל מקרה כזה, יש חשיבות קריטית לאיכות הנתונים בתהליך ההסבה. בעולם העסקי והתפעולי של ימינו, [[נתונים]] הם הבסיס וה[[תשתית]] עליה נבנות וממנה נגזרות כל ההחלטות העסקיות, השפעתם היא מיידית על תוצאות הפעילות של הארגון ולכן יש צורך להקפיד על איכותם, דיוקם ונכונותם.