זחלן רשת – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
תגיות: עריכה ממכשיר נייד עריכה דרך האתר הנייד
שורה 18:
ניתן להגיד כי צורך חשוב ביותר כאשר מפעילים זחלן הוא הצורך בסידור עדיפויות, הפונקציונאליות של עמוד טמונה באיכותו, הפופולריות שלה הוא זוכה ואפילו כתובתו. ולכן, כאשר מעצבים מדיניות סינון צריך לקחת בחשבון כי על הזחלן לעבוד עם מידע חלקי וכי המידע השלם שקיים ברשת לא יופיע במהלך הרצת התוכנה. ישנם מספר דרכים להריץ תוכנה זו באינטרנט: על פי מספר הביקורים באתר מסוים (הסתבר כי לא מניב תוצאות טובות, ובעיקר עוזר לדפי אינטרנט יחידים ולא לאתרים שלמים). דרך שנייה להרצת התוכנה היא הרצה של התוכנה כאשר כוונתה העיקרית היא לחפש לפי רוחב האתר, דרך זו מניבה תוצאות יותר טובות מכיוון שהאתרים המבוקרים ביותר עולים בחיפוש יחסית בהתחלה. הסיבה לכך היא כי הדפים החשובים ביותר הם בעלי הלינקים הרבים יותר, שקל יותר לאתר. ישנם תוכנות מבוססות אלגוריתמים אשר מחלקים את הדפים לפי דירוג, כאשר הדפים בעלי "הדירוג" (אשר נקבע לפי האלגוריתם) הגבוה יותר מאותרים מיידית וסימולטנית על ידי התוכנה. דרך זו של חיפוש לא הועלתה מעולם לאינטרנט ועל כן לא ניתן להוכיח את אמינותה.
 
==מיקוד ה[[תוכנה]]התוכנה==
כאשר מריצים תוכנה כמו הזחלן, דבר חשוב שצריך לבצע הוא התאמה בין דמיון של עמוד מסוים לנושא החיפוש. הבעייתיות המרכזית אשר עולה מהזחלן היא שרוצים לדעת את מידת ההתאמה של הערך לנושא החיפוש לפני הורדת העמוד. דרך טובה לנבא זאת הוא עוגן הטקסטים בלינק, זוהי שיטה שפותחה על ידי פינקרטון באחד מהזחלנים הראשונים שקמו באינטרנט. הפוקוס של החיפוש תלוי בכמות הלינקים בנושא שמחפשים והישענות על מנוע חיפוש אשר נותן נקודת התחלה טובה.
מדיניות הביקור החוזר
שורה 25:
* זמן: מדד הזמן קובע כמה ישן העותק המבוקש.
המטרה העיקרית של הזחלן היא לשמור על ממוצע טריות דפיו גבוה ככל האפשר וזאת תוך כדי שמירה על גיל הדפים נמוך ככל האפשר. לכן, הזחלן צריך לעשות עבודה כפולה: ראשית, עליו לבדוק את כמות הדפים המיושנים באתר מסוים ושנית, עליו לדאוג כמה ישנים הם. על הזחל לבקר מספר פעמים את כל הדפים באוסף, תוך נתינת דגש וביקור חוזר של דפים המשתנים בצורה יותר תכופה.
כדי להבטיח את העלאת הדפים החדשים ביותר, על הזחל "לקנוס" אתרים המשתנים בתכיפות גבוהה יותר, ובסופו של דבר להתעלם מדפים אלו.
 
==מדיניות הנימוס==
תוכנות הזחל יכולות למצוא מידע בצורה הרבה יותר מהירה ועמוקה מאשר בני אנוש. המהירות והאופן בו פועלים הזחלים משפיע רבות על השרתים, ועל כן, כמעט מיותר לציין כי מספר זחלים הפועלים בו זמנית יכולים להפיל שרת. הפעלה של זחלים יכולה להיות אפקטיבית למספר משימות אך גם יכולה להוות בעיה לאוכלוסייה ממספר סיבות: