שיחה:מנוע חיפוש

תגובה אחרונה: לפני 10 שנים מאת Uziel302 בנושא מדוע גוגל עיוור חלקית?

מדוע גוגל עיוור חלקית? עריכה

גוגל העברי מעניק יחס מצוין לויקיפדיה, ופעמים רבות מציג את ערכי ויקיפדיה במקום הראשון. באופן מוזר, יש ערכים ותיקים, שגוגל אינו מזהה. דוגמאות: בינה מלאכותית, שמעון אבן, מבחן טיורינג. לא הצלחתי לגלות מאפיין שיסביר מדוע גוגל אינו מכיר ערכים אלה, בזמן שערכים דומים, כמו אדסחר דייקסטרה ומכונת טיורינג, הוא מכיר היטב. מי יפתור חידה זו? דוד שי 20:44, 23 מאי 2004 (UTC)

מוזרות דרכי הגוגל. הוא ממש מתעלם בעקשנות מדפים אלו. ניסיתי למדוד כמה נתוני Google על הערכים הללו:
ערךPageRankBackward links
מבחן טיורינג44 (כולם ב-HE)
שמעון אבן00
בינה מלאכותית422 (במספר שפות)
אדסחר דייקסטרה54
מכונת טיורינג124
כפי שניתן לראות אין שום הסבר מדוע בינה מלאכותית לא מופיע בתוצאות החיפוש ודייקסטרה כן.
לגוגל הפתרונים, מאיר מ 22:11, 23 מאי 2004 (UTC)
הבעיה חמורה ביותר. הערכים שהבאתי הם רק דוגמה, וגוגל מתעלם גם מערכים נוספים. גרוע מזה: חיפוש "בינה מלאכותית" באמצעות כפתור "חפש" של ויקיפדיה אינו מוצא את הערך! זה אומר שגולשים אינם מגיעים לערכים נפלאים בויקיפדיה משום שגוגל אינו מפנה אותם, וגם אם הלכו ישירות לויקיפדיה, החיפוש של ויקיפדיה, שגם הוא מבוסס גוגל, לא יביא תוצאות טובות יותר. החשש שלי הוא שמדובר במגפה, כלומר שככל שחולף הזמן גוגל מאבד עוד ועוד ערכים.
בחיפושי אחר שורש הבעיה גיליתי בעיה שאולי קשורה ואלי לא: ישנו קובץ בשם robots.txt, שנותן הנחיות למנועי חיפוש, ובין השאר אומר להם מאיזה דפים להתעלם. בקובץ הזה יש שורת disallow שאומרת להתעלם מהקובץ special:Randompage. הבעיה היא שבויקי העברית הקובץ קרוי מיוחד:Randompage, ולכן הרובוטים (מנועי החיפוש), אינם מתעלמים ממנו. הפתרון לבעיה זו הוא הוספת שורה לקובץ robots.txt, או שינוי שם הקישור אצלנו ל- special:Randompage. אני מקווה שמישהו מאיתנו (דוד1, מאיר מ, נפתלי ?) ידע לעשות את התיקון הנדרש. אם לא, נצטרך לפנות ל-Brion. דוד שי 12:09, 24 מאי 2004 (UTC)
מזה זמן אני מתכוון לכתוב BOT שיריץ את כל הערכים של ויקיפדיה בגוגל וימדוד את המיקום של התשובה (באנגלית קיים כבר בוט כזה). אפשר להריץ בוט כזה פעמיים: פעם אחת שיבדוק את המילה עצמה ופעם שנייה יבדוק את המילה רק באתר ויקיפדיה העברית כדי לודא שהיא מנוטרת על ידי גוגל.
מכיוון שהחל משבוע הבא זמני הפנוי יהיה מועט אני לא אספיק לעשות זאת. אבל, אשמח לעזור למי שיתנדב לכתוב את הקוד.
מאיר מ 18:38, 24 מאי 2004 (UTC)
נכון לעכשיו, גוגל כבר מכיר את בינה מלאכותית ומבחן טיורינג, אבל ממשיך להתעלם משמעון אבן. דוד שי 05:37, 1 פבר' 2005 (UTC)
משעשע לציין, שהדיון בעמוד זה על שמעון אבן דווקא כן מופיע בגוגל. :-) יובל מדר
עכשיו, גם שמעון אבן מופיע בגוגל. יובל מדר
נורא מוזר! יצרתי את הערך משחוק והוא גם הופיע בצמרת רשימות החיפושים בגוגל, וכרגע הוא לא מופיע שם בכלל! עברתי על כל תוצאות החיפוש משחוק בגוגל (זה לא באמת 15 מיליון, זה בסך הכל כ-420 תוצאות) והערך משחוק - יוק. למישהו יש פתרון לתעלומה? עוד אחד - שיחה 17:19, 13 ביוני 2012 (IDT)תגובה
כיום שוב בראש החיפוש בגוגל. Uziel302 - שיחה 14:54, 10 בינואר 2014 (IST)תגובה

העיוורון של גוגל עריכה

מן המפורסמות שגוגל נותן כבוד לויקיפדיה העברית. מטריד אותי שלפעמים הוא לוקה בעיוורון. גוגל לחלוטין אינו מכיר את הערכים דבש ואפרים קישון. אלה ערכים ותיקים, עשירים בתוכן, ויש אליהם קישורים מערכים אחדים בויקיפדיה. גם כאשר מחפשים בגוגל משפט מתוך הערך דבש, גוגל אינו מוצא אותו. המסקנה היא שהרובוט של גוגל מעולם לא ביקר בערך דבש. מוזר יותר: את הערך טל דבש מחזיר גוגל ראשון כאשר מחפשים "טל דבש". מה ההסבר לתופעה זו? דוד שי 18:38, 31 ינו' 2005 (UTC)

שמתי לב לתופעה בעצמי. לעתים גוגל לוקה בעיוורון מוחלט גם לגבי ערכים אותם הכיר בעבר והיו חוזרים בתור תוצאה ראשונה. מוזר מאוד.--Harel 18:51, 31 ינו' 2005 (UTC)
כנ"ל לגבי משה סנה. גוגל מוצא למעלה מ-10 מופעים שלו, אבל לא את הערך משה סנה. מוזר. אבינעם

יש הסבר הגיוני מאוד: למי שלא מתמצא ב SEO (Search Engine Optimization), הנה הסבר קצר - הדרוג של גוגל מורכב מנקודות שמקבל כל אתר, את הנקודות צוברים כאשר יש מספר רק של אתרים המפנים לאותו הדף. בנוגע לערכים שציינתם למרות שהם בעלי תוכן רב חסרה להם הפופולריות בעולם האינטרנט (כלומר לא הרבה אתרים מחוץ לויקיפדיה מקשרים לדפים אלה). אולי אצלנו פה אלה ערכים פופולריים אבל גוגל נותן ניקוד בעיקר על קישורים מאתרים אחרים (את הנוסחא המדוייקת ופרטים נוספים תמצאו ב [1])

Ramiy 22:31, 31 ינו' 2005 (UTC)

ההסבר מעניין, אבל אינו משכנע, משתי סיבות:
  • הוא מסביר מדוע לערך יש דרוג נמוך, אבל השאלה עסקה בערכים שיש להם דרוג 0 - גוגל כלל אינו מכיר אותם, למרות שיש אליהם קישורים מערכים שהוא מכיר היטב (לדבש, למשל, יש קישור מטל דבש).
  • הוא עומד בסתירה למקרים שבהם ערך מוכר על-ידי גוגל זמן קצר לאחר יצירתו, כשסביר שאיש מחוץ לויקיפדיה עדיין לא נתן קישור אליו. הערכים איסר הראל וסוכן כפול, למשל, נוצרו לפני עשרה ימים בלבד, וכבר מופיעים יפה בגוגל, כנראה רק בעקבות קישורים פנימיים אליהם בויקיפדיה העברית. דוד שי 05:32, 1 פבר' 2005 (UTC)

כמדומני, הנושא כבר עלה בעבר, ודוד שי מצא פתרון (או לפחות התקרב אליו). מה קרה עם זה? ויקיפדיה:מזנון/ארכיון 18#מדוע גוגל עיוור חלקית?. רועי שיחה 05:25, 1 פבר' 2005 (UTC)

אכן העליתי את הנושא בעבר, ותודה שמצאת אותו בארכיון, אבל הנה הבעיה שוב מטרידה אותי. דוד שי 05:32, 1 פבר' 2005 (UTC)
לא ידוע לי שהפתרון שהצעתי שם מומש. רועי, האם אתה יכול לממשו? דוד שי 05:35, 1 פבר' 2005 (UTC)
אולי משתמש:ערן יכול. רועי שיחה 06:36, 1 פבר' 2005 (UTC)

יש לי מין תחושה שלפעמים נעשית סריקה בודדת ואולי גם לא כל כך מוצלחת כפי שאנו נוהגים לסבור. לפי מיטב ידיעתי, בגוגל טענו שהם מכסים 90 אחוזים מן החומר המצוי במרשתת וגלוי למשתמש הרגיל, וזאת משום שקצב הגידול רב יותר מקצב הכיסוי. גוגל גם טוענים שלדעתם רק עשרה אחוזים מן המלאי במרשתת גלוי למשתמש הרגיל וכל השאר מצוי בבסיסי נתונים נעולים. בארנס & נובל למשל מאפשר רק ל-30 אחוזים מן האתר שלו להיות גלוי לעין, אם כי באמזון לבטח היו מסתפקים גם בתוספת טבלאות המכירות של המתחרים. ומדוע בעצם אין מנוע חיפוש ווקאלי? הרי ישנן כבר תחנות רדיו המעלות למרשתת את ארכיון השידורים שלהן, וכמו כן קיימת טכנולוגיית זיהוי קול בדרגה בסיסית, אך יעילה. אתן דוגמה לכוונתי: לחבר אליהוא בן און יש תוכנית קשר עם מאזינים בחו"ל. התוכנית מוקלטת ואחר מעלים אותה לאתר של רשת ב' בקול ישראל (IBA) למשך שבוע ימים. במידה שהמשתמש מעוניין לדעת אם הזכירו בתוכנית את המילה "מזנון", יהא על מנוע החיפוש לפענח את קובץ הקול ולדווח אם יש אזכור. במידה שכן, יוציא מנוע החיפוש פלט בו יאמר שבין 6:38-6:39 דקות מתחילת הקובץ קיים אזכור יחיד. המשתמש יוכל להחליט שהוא רוצה להאזין לקטע הקול שבין 5:57-8:23 דקות כדי ללמוד את ההקשר הכולל של האזכור. אני גם מעוניין במנוע חיפוש בעל נגישות לציבור, שבו במקום להקליד מילים בתיבת החיפוש, אני מצרף תצלום כלשהו, ומבקש ממנוע החיפוש לאתר כל תצלום נוסף במרשתת הזהה או דומה לו. מנוע החיפוש ימדוד את המרחק בין העיניים ושאר נתוני קלסתרון ויבצע חתכים בכל מאגר התצלומים הידוע עד אשר יספק תשובות. אני לא סבור שאני מבקש יותר מדי, בכל זאת, לא ביקשתי שיוציא את התיון מן הכוס לבל יהא התה מריר מדי. לכאורה, מעשה פשוט בחיי היום יום, אולם שום רובוט ממוחשב לא יוכל לכך, אפילו יהא מכויל לשינוי הצבע בנוזל. אני עצמי עשיתי את הניסוי הזה בעבר לכמה אנשים. נטלתי דגימות אותן בדקתי לפי מידת הננומטר ושאלתי כל אחד אם התה היה טעים. הסתבר לי שבני אדם מוציאים את התיון מן הכוס לפי תחושה ולא לפי מדד זיכרון כלשהו של משך זמן טבילת התיון או צבע הנוזל. כאשר האדם הכין בעצמו את התה, אזי בדרך כלל הוא היה מרוצה מטעמו. אם מישהו אחר הכין, היו פעמים שהשותה התלונן על הטעם בתואנה שהתיון היה טבול זמן רב מדי. אפס, בדיקת הננומטר קבעה מיד שהתה שהוכן על ידי האחר היה בהיר יותר. כמות המים נמדדה במשורה ומשקל הסוכר היה מדויק בכל ניסוי לפי בקשת השותה. אגב, ברוב הפעמים זיהו השותים את המשקה שהכינו בתוך קבוצה של כוסות תה. קרי, אפילו הייתי נוטל את הכוס המקורית ומסיר ממנה כל סימן זיהוי חיצוני, לא קרה אפילו פעם אחת שמכין התה טען שהתה שהכין הוא לא שלו ושאינו טעים. לא ידוע לי על ניסוי נוסף שנעשה בנושא זה. רק לאחר תום הניסוי הבנתי סוף כל סוף עד כמה מורכב הוא מוח האדם ועד כמה אנו חסרי כל יכולת להבין אותו על ידי מדידות כלשהן.

וכמו כן, אני מבקש לשנות את ויליאם לו'יליאם כפי שיש לאיית, בן הטבע 16:56, 1 פבר' 2005 (UTC)

עלו לי מספר השערות בנושא ומעיון מקיף בקישור [2] שהביא רמי נראה שיש להם מקום.

  1. קו תחתי בשם הערך מזיק לקבלתו בחיפוש בגוגל. לדוגמא: אם נזין 'אדסחר_דייקסטרה' בגוגל [3] נקבל את המאמר אך ללא הקו התחתי לא נקבל את המאמר. כיוון שגוגל מחשיב את הקו התחתי כחלק משם הקובץ. יתכן שעדיף יהיה לשים בשם הקובץ - במקום _.
  2. אי הופעת שם הערך במאמר וביחוד בתחילת המאמר כשהוא 'נקי' מתווים סביב שם הערך (כגון: ,.'[) וכן הטיות שונות של שם הערך (כגון: כדבש לדבש הדבש).
  3. שם ערך נדוש ומצוי הריהו מבוקש על ידי גוגל פחות משם נדיר ולכן 'טל דבש' מופיע בגוגל ולא 'דבש'.
  4. חסרונו של הקובץ 'מיוחד:Randompage' בrobots.txt עשוי להכביד על הרובוט של גוגל (שזה לבד סיבה מספקת לתקן זאת) אך לא למנוע הופעתם של ערכים.

נראה לי שאנו זקוקים ליעוץ מקצועי בנושא.

מלח השמים 18:04, 1 פבר' 2005 (UTC)

5. ישנם מספר דרכים לקשר למאמר (שם הערך, שם הערך כשהוא מומר להקסהדצימלי, קישור פנימי בין התווים [[]]). יתכן שמנוע החיפוש אינו מזהה את סוגי הקישורים השונים כמקשרים לאותו הדף ובכך הגיוון פוגע ב PageRank שזוהי חשיבותו של הדף.

מלח השמים 19:02, 1 פבר' 2005 (UTC)

קצת עידוד: מתוך 61,200 מופעים של הביטוי "עורך דין" בגוגל, במקום הראשון נמצא עורך דין שלנו. יצרתי קישור (מוצדק) ממנו לערך אפרים קישון, ונראה אם זה יעזור. דבש, בניגוד למה שאמרתי בתחילת דיון זה, מוכר לגוגל, אך מופיע רק במקום ה-32. הוספתי קישורים פנימיים אליו, ונראה אם זה יעזור, הרי אין ספק שערך זה ראוי להיות במקום הראשון בגוגל. דוד שי 22:42, 1 פבר' 2005 (UTC)
אני תמיד מוסיף את כל הקישורים הפנימיים שאני יכול לחשוב עליהם. אם זה לא יעזור, זה בטוח לא יזיק, ואולי הקורא יתעניין דווקא בקישור הספציפי הזה. כמובן שאני משתדל להוסיף רק קישורים התורמים לערך. גילגמש שיחה 23:02, 1 פבר' 2005 (UTC)
הדרך הכי יעילה לעלות את הדירוג, זה לשלוח לגורמים הנמצאים יותר גבוה בגוגל הצעה להוסיף הפניה אלינו. אני מניח שארגון הדבוראים, למשל, ישמח לעשות כן. טרול רפאים 23:03, 1 פבר' 2005 (UTC)
גוגל מוצא את אפרים_קישון עם קו_תחתון [4]--irik 12:19, 2 פבר' 2005 (UTC)
נורא מוזר! יצרתי את הערך משחוק והוא גם הופיע בצמרת רשימות החיפושים בגוגל, וכרגע הוא לא מופיע שם בכלל! עברתי על כל תוצאות החיפוש משחוק בגוגל (זה לא באמת 15 מיליון, זה בסך הכל כ-420 תוצאות) והערך משחוק - יוק. למישהו יש פתרון לתעלומה? עוד אחד - שיחה 19:00, 13 ביוני 2012 (IDT)תגובה

מנוע החיפוש העיוור של מיקרוסופט עריכה

מיקרוסופט השיקה היום את מנוע החיפוש החדש שלה. בדיקות אחדות שערכתי מראות שהוא מכיר את ויקיפדיה, אבל עיוור לערכיה. לאחר שלא מצאתי שם ערכים מוכרים, בחרתי בערך הנדיר עדיה חורון, וגם אותו לא מצאתי (המנוע מציג רק אזכור ב"האייל הקורא"). האם זה משום שככל מוצר חדש של מיקרוסופט, גם המוצר הנוכחי הוא במקרה הטוב לא יותר מאשר טיוטה, ויש לחכות בסבלנות ל-SP3 של הגרסה החמישית? ואולי למיקרוסופט יש אינטרס מסחרי להסתיר את ויקיפדיה, שמאיימת על אנקרטה (האנציקלופדיה המסחרית של מיקרוסופט)? לביל גייטס פתרונים. דוד שי 23:25, 1 פבר' 2005 (UTC)

הסיבה לכך היא טריוואלית, מיקרוסופט הודיע שהיא מוציאה רק גרסה שהיא למעשה גרסת אלפא ולכן בוודאי ששום דבר לא מופיע. טרול רפאים 23:30, 1 פבר' 2005 (UTC)
למיטב ידיעתי לפי מיקרוסופט זו אינה גרסת אלפא ואף לא גרסת בטא, אלא גרסה ייצורית. עיין בדף הבית של מנוע החיפוש ותראה שאין שם כל רמז לכך שהוא גרסה ניסיונית. דוד שי 18:31, 2 פבר' 2005 (UTC)

למי שלא יודע איך זה עובד, אני עוד הפעם מציע להיכנס ל [5] ולקרוא הסברים. ועכשיו הסבר: כמו גוגל גם למיקרוספוט יש ספידרים שסורקים את הרשת, והחברה מגדירה מה העומק אותו יסרוק הספיידר.

אופן פעולת הספיידר: (בצורה מאוד מאוד כללית) אם החברה מגדירה סריקה של 2 רמות, אז הספיידר יכנס לאתר (לדוגמא לאתר שלי - פורטל ההומור) ויקטלג כל אחד מהקישורים ואז את כל הקישורים בעמוד השני ויראה לאן הם מכוונים. אחרי זה הוא עובד על הזכרון שלו ורואה כל דף כמה אתרים ברשת קישרו אליו, ככל שיותר דפים קישרו למאמר זה או אחר ככה הניקוד של הדף יהיה יותר גבוהה. כאשר אני מחפש ערך בגוגל והוא מסננן את הערכים הרלוונטיים - הדף בעל הניקוד הגבוהה יהיה יותר למעלה.

מבחינה כלכלית, ככל שיש לחברה יותר משאבים הם יקטלגו יותר עמודי אינטרנט (גוגל בעלת 8 מיליארד דפים בזכרון, ומיקרוסופט רק 5 מיליארד). וככה התוצאות יהיו יותר טובות ואמינות. מצד שני, זו השקעה אדירה בציוד ובתקשורת שלא תמיד כדאית, וסריקה פנימית של כל אתר בעומק של 5 דרגות גוזלת מאוד הרבה כוח עיבוד (ולכן הסריקה היא לא כזו עמוקה). הבעיה שמאמרים בעומק האתר לא מקוטלגים ומקבלים ניקוד נמוך, הפתרון הוא לשים אותם בעמוד הראשי וככה הספיידר נחשף אליהם ונותן להם ניקוד גבוהה. (יש עוד דרכים להקפיץ תוצאות, אבל זה לפעם הבאה).

הערה: קחו את מה שכתבתי בערבון מאוד מאוד מוגבל, זה היבט מאוד צר על אופן פעולת מנועי החיפוש, ויש עוד עשרות משתנים שצריך להתחשב בהם.

רמי: הסבר זה מקומו בערך מנוע חיפוש, חבל שייעלם כאן. דוד שי 05:50, 3 פבר' 2005 (UTC)

שמעון אבן עריכה

הערך שמעון אבן הופיע בתוצאות החיפוש של google. דף המטמון הוא מ-13 בפברואר. הערך משה סנה עדיין לא מופיע. אבינעם 09:52, 16 פבר' 2005 (UTC)

משה סנה מופיע כתוצאה שלישית, מיד לאחר אתר הכנסת. נפלאות דרכי גוגל. דוד שי 17:51, 23 פבר' 2005 (UTC)
הייתי צריך לקרוא את העמוד כולו, לפני שהודעתי על כך גם כן לעיל... :-) יובל מדר
משה סנה מופיע גם בגוגל וגם ב-altavista (הוא הופיע יחד בשניהם). שמעון אבן מופיע רק בגוגל ולא ב-altavista. אפרים קישון ודבש עדיין לא מופיעים בגוגל, אולם אפרים קישון מופיע ב-altavista. יש למישהו הסברים? אבינעם 18:08, 23 פבר' 2005 (UTC)

שיניתי בנושא הגמישות הלשונית עריכה

היה כתוב שגוגל בעברית לא גמיש, והוא כן ללא ספק

להפריד לשני ערכים עריכה

אולי יש להפריד לשני ערכים כמו בויקי האנגלי. מנוע חיפוש (שייוחד באופן כללי לכל מנועי החיפוש באשר הם) ומנוע חיפוש אינטרנטי ( שייוחד רק למנועי חיפוש באנטרנט) . --אפי ב. • התחברו לרגשותיכם14:51, 24 בפברואר 2009 (IST)תגובה

הפסקה: נאמנות למנוע חיפוש עריכה

די אנכרוניסטית. התחלתי לנסות לשנות, אבל אני חושב שהפסקה כבר לא רלוונטית. במקומה הייתי מציע פסקה המתארת את השליטה הכמעט מוחלטת של גוגל בתחום. הייתי מציע גם לקשר לבלוג של אורי ברייטמן, למרות שלא מקובל לקשר לבלוגים! אילי - שיחה 17:46, 13 בינואר 2012 (IST)תגובה


קישור שבור עריכה

במהלך מספר ריצות אוטומטיות של הבוט, נמצא שהקישור החיצוני הבא אינו זמין. אנא בדקו אם הקישור אכן שבור, ותקנו אותו או הסירו אותו במקרה זה!

--Matanyabot - שיחה 16:11, 4 במאי 2013 (IDT)תגובה


קישור שבור 2 עריכה

במהלך מספר ריצות אוטומטיות של הבוט, נמצא שהקישור החיצוני הבא אינו זמין. אנא בדקו אם הקישור אכן שבור, ותקנו אותו או הסירו אותו במקרה זה!

--Matanyabot - שיחה 13:34, 17 ביוני 2013 (IDT)תגובה

מנוע חיפוש: היסטוריה עריכה

עד כמה שהבנתי, פרופ' אביעזרי פרנקל ממכון וויצמן העלה את הרעיון של מנוע חיפוש כבר בשנת 1962, ועמל על התאמתו לחיפוש אפילו בעברית, והכל עבור פרויקט השו"ת עליו קיבל לבסוף את פרס ישראל. האם יש מקום לציין זאת בדף על מנוע החיפוש?

חזרה לדף "מנוע חיפוש".