כריית מידע – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
מ בוט: החלפת טקסט אוטומטית (-{{תבנית: +{{)
מ תקלדה
שורה 1:
'''כריית מידע''' או '''כריית נתונים''' (באנגליתב[[אנגלית]]: '''Data mining''') היא הפעלת [[אלגוריתם]] או [[תוכנית מחשב]] לצורך גילוי מידע הטמון ב[[בסיס נתונים|בסיסי נתונים]] קיימים, ו[[היקש|הסקת מסקנות]] מהצלבתו. גילוי ידע בבסיסי נתונים הוא תהליך שנועד לחקור ולנתח כמות גדולה של מידע באמצעים אוטומטיים ככל שניתן כדי לגלות דפוסים תקפים חדשים, שימושיים (מקבלי ההחלטות יכולים להשתמש בדפוסים שהתגלו כדי לשפר תהליכים קיימים) ובעלי משמעות (מובנים למקבל ההחלטות). עם ההתפתחות המתמדת בעולם טכנולוגיית המידע, כשכמות המידע הדיגיטלי גדלה כל הזמן, עולה החשיבות של תחום כריית המידע, שבאמצעותו ניתן להפוך [[מידע]] ל[[ידע]].
 
המושג כריית מידע נגזר מפעולת הכרייה [[גאולוגיה|הגאולוגית]] בה כורים באדמה כדי למצוא אוצרות טבע.
שורה 12:
מאחר שכריית מידע נסמכת על גילוי תבניות הנמצאות בנתונים, מאגר הנתונים שעליו נעשה התהליך צריך להיות גדול דיו כך שיכיל את התבניות מחד גיסא, ומאידך גיסא תמציתי מספיק כדי שניתן יהיה לחפש בו בזמן סביר. מקור מקובל למידע כזה הוא [[מחסן נתונים]] (Data warehouse) או [[מחסן נתונים מחלקתי]] (Datamart).
 
לאחר מכן נעשה סינון של הנתונים בו מנוקים נתונים עם רעש או מידע חסר. מן הנתונים המסוננים מיוצרים [[וקטור מאפיין|וקטורים מאפיינים]] (Feature vector), וקטור אחד לכל תצפית. וקטור מאפיין הוא גרסה סיכומית של רשומת התצפית. כך לדוגמה תמונת פנים של 100 פיקסלים על 100 פיקסלים תכיל 10,000 ביטים של מידע גולמי. את התמונה ניתן להמיר לוקטורלווקטור מאפיין על ידי זיהוי העיניים והפה בתמונה. בצורה זו ניתן להפחית את כמות המידע מ-10,000 ביטים לווקטור, לשלושה קודים המציינים את מיקומי העיניים והפה, וכך בשלב כריית המידע עצמו יידרש פחות עיבוד. בחירת המאפיין (או המאפיינים) תלויה במטרה; לפיכך בחירת המאפיינים הנכונים הכרחית לכריית מידע מוצלחת.
 
הווקטורים המאפיינים מחולקים לשתי סדרות: סדרת אימון וסדרת בדיקה. סדרת האימון משמשת לאימון האלגוריתם, וסדרת הבדיקה משמשת לאימות הדיוק של התבניות שנמצאו.
שורה 42:
 
{{מדעי המחשב}}
 
[[קטגוריה:כריית מידע|*]]
[[קטגוריה:מידע]]