כריית מידע – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
Matanyabot (שיחה | תרומות)
מ בוט החלפות: לעיתים, \1ליניארי
Aaadir (שיחה | תרומות)
אין תקציר עריכה
שורה 24:
 
===אימות תוצאות===
השלב האחרון בגילוי ידע מנתונים הוא אימות של התבניות שנמצאו על ידי האלגוריתמים של כריית המידע גם בטווח נתונים רחב יותר. לא כל התבניות הנמצאות על ידי האלגוריתמים כורי המידע הן בהכרח תקפות. לעיתים האלגוריתמים מוצאים תבניות בסדרת האימון שאינן מופיעות בסדרת המידע הכללית, תופעה הידועה כ-[[התאמת יתר|Overfitting]]. על מנת להתגבר על בעיה זו, בשלב ההערכה נבדקים הדפוסים מול סדרת הבדיקה שעליה לא אומנו האלגוריתמים. התבניות שנלמדו מחולצות מסדרת הבדיקה והפלט מושווה לפלט הרצוי. כך לדוגמה אלגוריתם כריית מידע לאיתור [[דואר זבל]], אשר מבחין בין דואר רצוי לדואר זבל, יאומן על סדרת אימון של דוגמאות דואר. לאחר האימון, התבניות שאותרו יופעלו על סדרת הבדיקה של מכתבים שעליה לא אומנו, ומידת הדיוק של האלגוריתם יכולה להיקבע על פי כמות הפריטים שסווגו נכון.
 
==ראו גם==