גרידת נתונים
(הופנה מהדף גרידת מידע)
גרידת נתונים (לעיתים נקרא: גירוד נתונים או גרידת מידע, באנגלית: Data scraping) הוא פעולת חילוץ נתונים ממאגר מידע מסוים מצד הלקוח בעזרת תוכנת מחשב[1].
לרוב המידע בצד הלקוח מוצג בצורה שקריאה לבני אדם, אך לא בצורה שמחשב יכול להבחין בין מידע רלוונטי ללא רלוונטי, ופעולה זו לוקחת את המידע הרצוי ושומרת אותו.
הנתונים הנאספים בפעולה זו בדרך כלל מאוגדים למאגר מידע חדש, ויכולים לשמש לניתוח מידע בצורה אוטומטית, חרף העובדה שאין בהכרח למקור המידע ממשק תכנות יישומים.
המוכר מסוגי גרידות הנתונים הוא גרידת דפי רשת.
שימושים ודוגמאות
עריכהלהלן דוגמאות לגרידות נתונים:
- דרופשיפינג ומסחר – בכדי למצוא את המחירים הנמוכים ביותר או לגלות מבצעים, לדוגמה תוכנות מסחר אשר זקוקות למחיר השוק הנוכחי בשווקים שונים יכולות למצוא את המידע באופן אוטומטי.
- מידע לאימון רשתות נוירונים – לדוגמה השגת מידע ממאגרי מידע ברחבי המרשתת על מנת ליצור מודל שפה איכותי וקוהרנטי.
- סטטיסטיקות – יכול לשמש ארגונים וממשלות לניתוח מידע בקנה מידע רחב על לקוחות או אזרחים.
- פרצת נתונים – עלול לשמש גורמים זדוניים לחילוץ מידע שלא היה אמור להיות פומבי בקנה מידע רחב.
דרכי מניעה
עריכהראו גם
עריכההערות שוליים
עריכה- ^ cloudflare, What is data scraping?, cloudflare.com