כריית מידע – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
שורה 19:
כריית המידע מטפלת לרוב באחת מהבעיות הבאות:
*[[סיווג סטטיסטי|בעיות סיווג]] - בהתאם לדוגמאות שנאספו בעבר, האלגוריתם לסיווג מסיק מודל סיווג המשמש לסווג מקרים חדשים. למשל [[בנק]] יכול לבנות מודל סיווג של לווי [[משכנתא]] בהתאם לדוגמאות שנאספו בעבר. כאשר מגיע לקוח חדש המבקש משכנתא הוא מסווג לפי מידת הודאות שהוא אכן יצליח לעמוד בעתיד בהחזרי ההלוואה. אלגוריתמים נפוצים לכך הם [[שיטת השכן הקרוב]] (Nearest neighbor), [[סיווג בייס נאיבי]] (Naive Bayes classifier) ו[[רשת עצבית מלאכותית]].
*ניתוח אשכולות - פילוח את הרשומות לאשכולות, כך שבכל אשכול נמצאיםנמצאות רשומות בעלות מאפיינים דומים. למשל ניתן להיעזר באלגוריתם לניתוח אשכולות כדי לפלח את לקוחות החברה.
*רגרסיה - מציאת פונקציה אשר מנבאת את המודל של הנתונים. שיטה מקובלת לכך היא [[תכנות גנטי]] (Genetic Programming).
*למידת חוקי אסוציאציה - נועד למצוא אסוציאציה או קשר מעניין בין פריטים שונים של נתונים. לרוב משמש כדי להציג חוקיות בין שדות שונים בבסיס הנתונים. הדוגמה הנפוצה ביותר היא ניתוח סל קניות. במקרה זה מנסים למצוא האם יש חוקיות בין מוצרים שונים אשר נרכשו על ידי אותו לקוח באותה קניה. למשל ניתן לדעת אילו מוצרים נרכשים בדרך כלל יחדיו ([[ממרח שוקולד]] ו[[לחם]]). בהתאם לתוצאות ניתן לסדר את המוצרים במרכול בצורה האופטימלית.