ETL – הבדלי גרסאות
תוכן שנמחק תוכן שנוסף
מ קישור פנימי - שילוב מערכות |
שינוי טעות לשונית: קובצי >> קבצי |
||
שורה 3:
לתהליך שלושה שלבים:
# הוצאת נתונים
# טרנספורמציה (Transform) - הנתונים עוברים שינויים, כגון: סיכום נתונים פרטניים לנתון אחד חשוב מבחינה עסקית, שינוי מבנה נתונים. כך למשל נתון על מכירה בודדת של מוצר של חברה המייצרת מכשירים אלקטרוניים, עשוי להיות לא מעניין לצורך קבלת החלטות עסקיות ולכן הוא מסוכם לנתון כולל של כל המכירות באזור גאוגרפי מסוים.
# בשלב השלישי (Load) נטענים הנתונים שעברו טרנספורמציה למחסן הנתונים.
בחלק מהארגונים תהליך ה-ETL הוא מורכב יותר ועשוי לכלול מספר
== קבצים המעורבים בתהליך ==
== תהליך ==
בגלל כמויות הנתונים הגדולות בדרך כלל מבוצע תהליך ה-ETL ב[[עיבוד באצווה]] (Batch processing). היות שהתהליך הוא בדרך כלל תהליך ארוך הוא מבוצע תקופתית: בארגונים רבים אחת לשבוע.
=== שלב הוצאת נתונים
הקושי העיקרי בשלב זה הוא הטרוגניות מקורות הנתונים (כפי שתואר בסעיף "קבצים המעורבים בתהליך"). היבט חשוב נוסף הוא איכות הנתונים. נתונים שגויים עלולים לגרום להחלטות שגויות.
שורה 26:
* הבנת תלויות בין מקורות שונים העשויות להשפיע על פלט תהליך הוצאת הנתונים.
הבנת ההיבטים המתוארים לעיל מאפשרת גם קביעת עיתוי ביצוע שלב הוצאת הנתונים. בחלק מהמקרים ניתן לבצע שלב זה רק בחלון זמן מסוים שבו אין פעילות תהליכי אצווה עם
=== שלב הטרנספורמציה - Transform ===
שורה 37:
* מיון - סידור רשומות בסדר עולה או יורד על פי שדה מפתח, למשל: סידור נתונים על מוצרים לפי מספר המוצר.
* אגרגציה - נתון של מכירות באזור, עשוי להיות מחושב באמצעות חיבור המכירות בכל הסניפים באותו אזור.
* שילוב נתונים ממספר
=== שלב הטעינה - Load ===
|