זחלן רשת – הבדלי גרסאות
תוכן שנמחק תוכן שנוסף
שורה 7:
==דרך פעולה==
הזחלן מתחיל את פעולתו ברשימת אתרים אותם עליו לבקר, אתרים אלו נקראים בשם "זרעים", כאשר
התנהגותו של הזחלן היא תוצאה של צירוף מספר מדיניות:
* מדיניות של בחירה אשר מגדירה איזה עמוד להוריד.
שורה 13:
* מדיניות נימוס אשר מגדירה איך להימנע מעומס יתר של אתרים ולגרום להפלה של השרת.
* מדיניות של הקבלה אשר מגדירה איך לתאם בין הזחלנים השונים.
==מדיניות בחירה (סלקציה)==
בהינתן הגודל של האינטרנט כיום גם [[מנועי חיפוש]] גדולים מכסים בחיפושם חלק קטן מהנתונים. מחקרים הראו כי המידע המתקבל על ידי אתרים אלו עומד על 40%-70% מכלל ההיצע האינטרנטי. מכיוון שהזחלן מוריד רק חלק קטן מדפי האינטרנט, התוצאה הרצויה היא שהדפים אלו יכילו בתוכם את המידע הרלוונטי ביותר ולא רק דגימה מקרית.
|