הנדסת מאפיינים

יש לשכתב ערך זה. ייתכן שהערך מכיל טעויות, או שהניסוח וצורת הכתיבה שלו אינם מתאימים.
אתם מוזמנים לסייע ולתקן את הבעיות, אך אנא אל תורידו את ההודעה כל עוד לא תוקן הדף. ייתכן שתמצאו פירוט בדף השיחה.

בניתוח נתוני עתק ובלמידת מכונה, מאפיין הוא תכונה משותפת ליחידות עצמאיות שעליהן יש לבצע ניתוח או חיזוי.[1] הנדסת מאפיינים היא התהליך של שימוש בידע תחומי לחילוץ מאפיינים מנתונים גולמיים.[2]

מאפיינים משמשים במודלים חזויים ומשפיעות על התוצאות.[3]

תהליך עריכה

תהליך איטרטיבי של הנדסת המאפיינים הוא:[4]

  • סיעור מוחות או בדיקת מאפיינים[5]
  • החלטה אילו מאפיינים ליצור
  • יצירת המאפיינים
  • בדיקת ההשפעה של המאפיינים שזוהו על המשימה או היעד
  • שיפור המאפיינים במידת הצורך
  • חזרה לשלב הראשון

מאפיינים מהונדסים אופייניים עריכה

הרשימה הבאה[6] מספקת כמה דרכים טיפוסיות להנדסת מאפיינים שימושיים:

  • טרנספורמציות נומריות (כמו לקיחת שברים או שינוי קנה מידה)
  • מקודד קטגוריות כמו מקודד חם או יעד (למשתנים איכותיים)[7]
  • מקבוץ (Clustering)
  • קיבוץ ערכים מצטברים
  • ניתוח רכיבים עיקריים (Principal component) לנתונים נומריים

חשיבות עריכה

למאפיינים פרמטר חשיבות משתנה.[8] אפילו מאפיינים לא משמעותיים יחסית עשויים לתרום ליעילות המידול. בחירת מאפיין טובה יכולה להפחית את מספר המאפיינים כדי למנוע מדגם להפוך ספציפי מדי למערך נתוני האימון (התאמת יתר - overfitting).[9]

התפוצצות מאפיינים עריכה

"התפוצצות מאפיינים" מתרחשת כאשר מספר המאפיינים המזוהים גדל באופן לא הולם. הסיבות השכיחות כוללות:

  • תבניות מאפיינים - הטמעת תבניות מאפיינים במקום קידוד מאפיינים חדשים
  • שילובי מאפיינים - צירופים שלא ניתן לייצגם על ידי מערכת ליניארית

ניתן להגביל את פיצוץ המאפיינים באמצעות טכניקות כגון: רגולריזציה, שיטת ליבה ובחירת מאפיינים.[10]

אוטומציה עריכה

אוטומציה של הנדסת מאפיינים היא נושא מחקר שראשיתו בשנות ה-90.[11] תוכנת למידת מכונה המשלבת הנדסת מאפיינים אוטומטית זמינה מסחרית מאז 2016.[12] ניתן להפריד באופן גס את הספרות האקדמית הקשורה לשני סוגים:

  • למידת עץ החלטות רב-יחסית (MRDTL) משתמשת באלגוריתם מפוקח הדומה לעץ החלטות.
  • Deep Feature Synthesis משתמש בשיטות פשוטות יותר.

למידת עץ החלטות רב-יחסיות (MRDTL) עריכה

MRDTL מייצר מאפיינים בצורה של שאילתות SQL על ידי הוספת סעיפים ברציפות לשאילתות.[13] לדוגמה, האלגוריתם עשוי להתחיל עם:

SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id

לאחר מכן ניתן לחדד את השאילתה ברציפות על ידי הוספת תנאים, כגון "WHERE t1.charge <= -0.392".[14]

עם זאת, רוב מחקרי MRDTL מבססים יישומים על מסדי נתונים יחסיים, מה שמביא לפעולות מיותרות רבות. ניתן לצמצם את היתירות הללו על ידי שימוש ב"טריקים" כגון הפצת tuple id.[15][16] ניתן להגביר את היעילות באמצעות עדכונים מצטברים, אשר מבטל יתירות.

סינתזת מאפיינים עמוקה עריכה

אלגוריתם Deep Feature Synthesis ניצח 615 מתוך 906 צוותים אנושיים בתחרות.[17][18]

ספריות:

לקריאה נוספת עריכה

  • Boehmke, Bradley; Greenwell, Brandon (2019). "Feature & Target Engineering". Hands-On Machine Learning with R. Chapman & Hall. pp. 41–75. ISBN 978-1-138-49568-5.
  • Zheng, Alice; Casari, Amanda (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O'Reilly. ISBN 978-1-4919-5324-2.
  • Zumel, Nina; Mount, John (2020). "Data Engineering and Data Shaping". Practical Data Science with R (2nd ed.). Manning. pp. 113–160. ISBN 978-1-61729-587-4.

הערות שוליים עריכה

  1. ^ "Discover Feature Engineering, How to Engineer Features and How to Get Good at It - Machine Learning Mastery". Machine Learning Mastery. 25 בספטמבר 2014. נבדק ב-2015-11-11. {{cite web}}: (עזרה)
  2. ^ "Machine Learning and AI via Brain simulations". Stanford University. נבדק ב-2019-08-01.
  3. ^ "Feature Engineering: How to transform variables and create new ones?". Analytics Vidhya. 2015-03-12. נבדק ב-2015-11-12.
  4. ^ "Big Data: Week 3 Video 3 - Feature Engineering". youtube.com.
  5. ^ Jalal, Ahmed Adeeb (1 בינואר 2018). "Big data and intelligent software systems". International Journal of Knowledge-based and Intelligent Engineering Systems. pp. 177–193. doi:10.3233/KES-180383. {{cite web}}: (עזרה)
  6. ^ "Creating Features". kaggle.com (באנגלית). נבדק ב-2021-09-30.
  7. ^ "Category Encoders — Category Encoders 2.2.2 documentation". contrib.scikit-learn.org. נבדק ב-2021-10-01.
  8. ^ "Feature Engineering" (PDF). 2010-04-22. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  9. ^ "Feature engineering and selection" (PDF). Alexandre Bouchard-Côté. 1 באוקטובר 2009. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  10. ^ "Feature engineering in Machine Learning" (PDF). Zdenek Zabokrtsky. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  11. ^ Knobbe, Arno J.; Siebes, Arno; Van Der Wallen, Daniël (1999). "Multi-relational Decision Tree Induction" (PDF). Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 378–383. doi:10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1.
  12. ^ "Its all about the features". Reality AI Blog. בספטמבר 2017. {{cite web}}: (עזרה)
  13. ^ A Comparative Study Of Multi-Relational Decision Tree Learning Algorithm.
  14. ^ Leiva, Hector; Atramentov, Anna; Honavar, Vasant (2002). "Experiments with MRDTL – A Multi-relational Decision Tree Learning Algorithm" (PDF).
  15. ^ Yin, Xiaoxin; Han, Jiawei; Yang, Jiong; Yu, Philip S. (2004). "CrossMine: Efficient Classification Across Multiple Database Relations". Proceedings. 20th International Conference on Data Engineering. Proceedings of the 20th International Conference on Data Engineering. pp. 399–410. doi:10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0.
  16. ^ Frank, Richard; Moser, Flavia; Ester, Martin (2007). "A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions". Knowledge Discovery in Databases: PKDD 2007. Lecture Notes in Computer Science. Vol. 4702. pp. 430–437. doi:10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2.
  17. ^ "Automating big-data analysis".
  18. ^ Kanter, James Max; Veeramachaneni, Kalyan (2015). "Deep Feature Synthesis: Towards Automating Data Science Endeavors". 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE International Conference on Data Science and Advanced Analytics. pp. 1–10. doi:10.1109/DSAA.2015.7344858. ISBN 978-1-4673-8272-4.
  19. ^ "Featuretools | An open source framework for automated feature engineering Quick Start". www.featuretools.com. נבדק ב-2019-08-22.
  20. ^ "ExploreKit: Automatic Feature Generation and Selection" (PDF).