זחלן רשת – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
Delta739 (שיחה | תרומות)
שורה 7:
 
==דרך פעולה==
הזחלן מתחיל את פעולתו ברשימת אתרים אותם עליו לבקר, אתרים אלו נקראים בשם "זרעים", כאשר העכבישהזחלן מבקר באתרים אלו הוא מזהה את הלינקים שיש בדף אינטרנטי מסוים ומצרף אותם לרשימת האתרים שאותם עליו לבקר. הכמות הרבה של האתרים בהם העכביש מבקר מחייבת את התוכנה לדעת לסדר את האתרים בסדר עדיפויות, אך אין אפשרות לדעת בביטחון כי האתר בו העכביש מבקר לא מבוקר בפעם הראשונה. לכן השגת מידע ראשוני בכל הפעלה של התוכנה היא דבר כמעט בלתי אפשרי.
התנהגותו של הזחלן היא תוצאה של צירוף מספר מדיניות:
* מדיניות של בחירה אשר מגדירה איזה עמוד להוריד.
שורה 13:
* מדיניות נימוס אשר מגדירה איך להימנע מעומס יתר של אתרים ולגרום להפלה של השרת.
* מדיניות של הקבלה אשר מגדירה איך לתאם בין הזחלנים השונים.
 
==מדיניות בחירה (סלקציה)==
בהינתן הגודל של האינטרנט כיום גם [[מנועי חיפוש]] גדולים מכסים בחיפושם חלק קטן מהנתונים. מחקרים הראו כי המידע המתקבל על ידי אתרים אלו עומד על 40%-70% מכלל ההיצע האינטרנטי. מכיוון שהזחלן מוריד רק חלק קטן מדפי האינטרנט, התוצאה הרצויה היא שהדפים אלו יכילו בתוכם את המידע הרלוונטי ביותר ולא רק דגימה מקרית.