ETL – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
מ קישור פנימי - שילוב מערכות
שינוי טעות לשונית: קובצי >> קבצי
שורה 3:
 
לתהליך שלושה שלבים:
# הוצאת נתונים מקובצימקבצי המקור (Extract) - מועתקים נתונים מהמקורות לבסיס נתונים ביניים (באנגלית Staging)
# טרנספורמציה (Transform) - הנתונים עוברים שינויים, כגון: סיכום נתונים פרטניים לנתון אחד חשוב מבחינה עסקית, שינוי מבנה נתונים. כך למשל נתון על מכירה בודדת של מוצר של חברה המייצרת מכשירים אלקטרוניים, עשוי להיות לא מעניין לצורך קבלת החלטות עסקיות ולכן הוא מסוכם לנתון כולל של כל המכירות באזור גאוגרפי מסוים.
# בשלב השלישי (Load) נטענים הנתונים שעברו טרנספורמציה למחסן הנתונים.
 
בחלק מהארגונים תהליך ה-ETL הוא מורכב יותר ועשוי לכלול מספר קובציקבצי ביניים.
 
== קבצים המעורבים בתהליך ==
קובציקבצי המקור עשויים להיות רבים ושונים זה מזה, שמהווים חלק ממערכות תפעוליות בארגון. מבחינה טכנולוגית הם עשויים להיות [[בסיס נתונים|בסיסי נתונים]] יחסיים ובסיסי נתונים אחרים. הם עשויים להיות גם [[קובץ|קבצים]] מסוגים שונים. בנוסף לקבצים ובסיסי נתונים מתוך הארגון עשויים להיכלל [[נתון|נתונים]] המוזנים ידנית לתוך קובציקבצי הביניים ונתונים מקבצים מחוץ לארגון.
 
קובציקבצי הביניים וקובציוקבצי היעד הם בדרך כלל בסיסי נתונים יחסיים, כאשר בדרך כלל מוצר בסיס הנתונים שמשמש את מחסן הנתונים הוא המוצר המשמש לקובצילקבצי הביניים.
 
== תהליך ==
בגלל כמויות הנתונים הגדולות בדרך כלל מבוצע תהליך ה-ETL ב[[עיבוד באצווה]] (Batch processing). היות שהתהליך הוא בדרך כלל תהליך ארוך הוא מבוצע תקופתית: בארגונים רבים אחת לשבוע.
 
=== שלב הוצאת נתונים מקובצימקבצי המקור - Extract ===
 
הקושי העיקרי בשלב זה הוא הטרוגניות מקורות הנתונים (כפי שתואר בסעיף "קבצים המעורבים בתהליך"). היבט חשוב נוסף הוא איכות הנתונים. נתונים שגויים עלולים לגרום להחלטות שגויות.
שורה 26:
* הבנת תלויות בין מקורות שונים העשויות להשפיע על פלט תהליך הוצאת הנתונים.
 
הבנת ההיבטים המתוארים לעיל מאפשרת גם קביעת עיתוי ביצוע שלב הוצאת הנתונים. בחלק מהמקרים ניתן לבצע שלב זה רק בחלון זמן מסוים שבו אין פעילות תהליכי אצווה עם קובציקבצי המקור העשויים לעדכן את הקבצים ופעילות [[עיבוד נתונים מקוון]] היא מועטת, ולכן הוצאת הנתונים אינה פוגעת ב[[רמת השירות]] של הטרנזקציות המקוונות.
 
=== שלב הטרנספורמציה - Transform ===
שורה 37:
* מיון - סידור רשומות בסדר עולה או יורד על פי שדה מפתח, למשל: סידור נתונים על מוצרים לפי מספר המוצר.
* אגרגציה - נתון של מכירות באזור, עשוי להיות מחושב באמצעות חיבור המכירות בכל הסניפים באותו אזור.
* שילוב נתונים ממספר קובציקבצי מקור לנתון אחד.
 
=== שלב הטעינה - Load ===
אוחזר מתוך "https://he.wikipedia.org/wiki/ETL"