כריית מידע – הבדלי גרסאות
תוכן שנמחק תוכן שנוסף
מ בוט: החלפת טקסט אוטומטית (-{{תבנית: +{{) |
מ תקלדה |
||
שורה 1:
'''כריית מידע''' או '''כריית נתונים''' (
המושג כריית מידע נגזר מפעולת הכרייה [[גאולוגיה|הגאולוגית]] בה כורים באדמה כדי למצוא אוצרות טבע.
שורה 12:
מאחר שכריית מידע נסמכת על גילוי תבניות הנמצאות בנתונים, מאגר הנתונים שעליו נעשה התהליך צריך להיות גדול דיו כך שיכיל את התבניות מחד גיסא, ומאידך גיסא תמציתי מספיק כדי שניתן יהיה לחפש בו בזמן סביר. מקור מקובל למידע כזה הוא [[מחסן נתונים]] (Data warehouse) או [[מחסן נתונים מחלקתי]] (Datamart).
לאחר מכן נעשה סינון של הנתונים בו מנוקים נתונים עם רעש או מידע חסר. מן הנתונים המסוננים מיוצרים [[וקטור מאפיין|וקטורים מאפיינים]] (Feature vector), וקטור אחד לכל תצפית. וקטור מאפיין הוא גרסה סיכומית של רשומת התצפית. כך לדוגמה תמונת פנים של 100 פיקסלים על 100 פיקסלים תכיל 10,000 ביטים של מידע גולמי. את התמונה ניתן להמיר
הווקטורים המאפיינים מחולקים לשתי סדרות: סדרת אימון וסדרת בדיקה. סדרת האימון משמשת לאימון האלגוריתם, וסדרת הבדיקה משמשת לאימות הדיוק של התבניות שנמצאו.
שורה 42:
{{מדעי המחשב}}
[[קטגוריה:כריית מידע|*]]
[[קטגוריה:מידע]]
|