ETL – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
שורה 16:
== תהליך ==
בגלל כמויות הנתונים הגדולות בדרך כלל מבוצע תהליך ה ETL ב[[עיבוד באצווה]]. היות שהתהליך הוא בדרך כלל תהליך ארוך הוא מבוצע תקופתית: באירגונים רבים אחת לשבוע.
<br />* '''שלב הוצאת נתונים מקבצי המקורExtractהמקור - Extract'''
הקושי העיקרי בשלב זה הוא הטרוגניות מקורות הנתונים כפי שתואר בסעיף "קבצים המעורבים בתהליך" להלן. היבט חשוב נוסף הוא איכות הנתונים. נתונים שגויים עלולים לגרום להחלטות שגויות.
<br />* '''שלב הטרנספורמציה - Transform'''
זהו השלב המורכב ביותר. לצורך ביצועו נדרשת כתיבת [[יישום]], גם אם נעשה שימוש בכלים. היישום מגדיר [[לוגיקה עסקית]] לביצוע הטרנספורמציות, תוך שימוש ב [[API]] של המוצר בו משתמשים. בנוסף לטרנספורמציות כולל שלב זה סינון נתונים.בשלב זה נדרש מיפוי נתוני הקלט ונתוני הפלט הן ברמה של מבני נתונים והן ברמה של פורמט של פריט או שדה.
סוגי הפעולות המתבצעות בשלב זה:
* שלב הטעינה - Load
* טרנספורמציה - כך למשל אם בקובץ קלט מקודד הנתון של מין כ: 1 - זכר, 2 - נקבה ובמחסן הנתונים מקודד M - זכר,F - נקבה. נדרש ביצוע טרנספורמציה להתאמת הערכים לנדרש במחסן הנתונים.
* חישוב נתונים - דוגמא: נתון של מכירות באיזור, עשוי להיות מחושב באמצעות חיבור המכירות בכל הסניפים באותו איזור.
* סינון - השמטת ערכים מסוימים של נתונים.
<br />* '''שלב הטעינה - Load'''
שלב זה הוא שלב פשוט יחסית. האתגר העיקרי הוא בכמוות הנתונים הגדולה, העשויה להביא למשך זמן ארוך בביצוע השלב.
 
אוחזר מתוך "https://he.wikipedia.org/wiki/ETL"